正式版还要等？Qwen3.7预览版现已开放体验！数学/编程/多模态全面升级，思考模式抢先看。

2,105 0

正式版还在路上？Qwen3.7预览版抢先开放，数学、编程与多模态能力全面跃升

清明前后，大模型圈再起波澜——阿里通义千问团队悄然开放了 **Qwen3.7 预览版** 的体验入口。虽然官方尚未公布正式版的具体时间表，但这一预览版本已释放出强烈的技术信号：**推理能力与多模态融合正在成为下一代模型的核心战场**。

# 一、数学与编程：从“能算”到“会想”

预览版最直观的提升体现在 **数学推理与代码生成** 上。相比前代，Qwen3.7 在复杂数学题（如竞赛级代数、几何证明）和长链条编程任务（如多文件依赖的工程代码）中表现出更稳定的逻辑链条。据内部评测，其在 **GSM8K** 与 **MATH** 基准上的准确率提升了约 12%～15%，尤其在需要多步推导的题目中，错误归因（如中途变量混淆、条件遗漏）显著减少。

编程方面，模型对 **Python、JavaScript、C++** 等主流语言的理解更加精准，能够处理跨模块调用的重构任务，并给出带注释的、符合 PEP 8 规范的代码片段。这得益于训练阶段对 **代码执行结果的反向反馈** 的强化——也就是说，模型不再只看“写对了没有”，而是会“跑一遍”再修正输出。对于开发者而言，这意味着更低的人工二次校验成本。

# 二、多模态升级：文字之外的世界

本次预览版的多模态能力不再局限于简单的图文匹配，而是向 **细粒度视觉理解** 迈进。例如，面对一份包含图表、公式与手写注释的 PDF 文档，Qwen3.7 能够同时识别文字、解析图表趋势并提取数据，甚至对图片中的几何图形进行空间关系推理。这一进步使其在 **教育辅助、科研论文摘要、UI 设计稿转代码** 等场景中具备了更高的实用性。

值得注意的是，多模态的“思考模式”被首次引入：模型在回答图像相关问题时，会先输出内部推理链（如“图中有一个直角坐标系，点 A 位于 (2,3)，直线 L 斜率为…，因此…），再给出最终答案。这种 **可视化推理过程** 大幅提升了可解释性，也降低了误判风险。

# 三、思考模式：不仅仅是“思维链”

“思考模式”并非传统意义上的 Chain-of-Thought（仅逐字输出推理文本）。Qwen3.7 的架构中嵌入了一个 **隐式推理模块**：在生成回答前，模型会先进行多轮内部迭代，模拟“假设-验证-修正”的过程，再输出经过筛选的最优路径。这类似于人类在解决复杂问题时“先在草稿纸上演算，再誊写答案”的行为模式。

预览版限制该模式只能在数学、编程、多模态任务中手动开启，但效果立竿见影：在 **APPS（编程自动化评估）** 上开启思考模式后，代码通过率提升约 18%；在 **ScienceQA** 多模态问答中，推理一致性提高 22%。

# 四、等待正式版，还是现在就上车？

预览版固然亮眼，但阿里方面明确表示：该版本 **推理速度较正式版慢约 30%**，且部分边缘案例（如中英文混写、极端长文本）仍存在幻觉。当前开放体验的目的在于收集真实用户反馈，优化后端的 **KV-Cache 压缩** 与 **MoE（混合专家）路由** 策略。

对于开发者团队，建议立即体验预览版以验证业务场景契合度，尤其是需要 **深度推理**（如金融风控规则推导、代码审查）和 **复杂多模态**（如医疗影像解读、工程图纸分析）的场景。而对于追求极致响应速度的对话类应用，可等待正式版的 **量化蒸馏版本**——据透露，正式版有望在一个月内发布，并同步推出 1.5B/7B/14B 等多种尺寸。

**可以预见，Qwen3.7 的思考模式将成为端侧模型的重要分水岭**：当“慢思考”能力下放到手机芯片时，AI 从“辅助工具”到“思维伙伴”的转变才真正开始。