AI学会“休眠”后，Claude任务成功率飙升6倍的奥秘

近日，Anthropic 团队披露了一项令人瞩目的实验成果：当 Claude 模型在推理过程中引入一种类似“休眠”的机制后，其复杂任务的成功率提升了近 **6 倍**。这一结果迅速引发行业关注——AI 的“休眠”并非物理意义上的关机，而是一种新型的推理策略。

什么是AI的“休眠”？

传统的大语言模型在接收到用户提问后，会立即开始逐 token 生成答案，这种“直出”模式容易导致逻辑跳跃、幻觉或遗漏关键步骤。而“休眠”机制则要求模型在输出最终答案之前，先进入一段**内部思考**阶段：模型会生成一系列不可见的“思考令牌”（thinking tokens），像人类在回答复杂问题前先默默推演一样，对问题进行分析、拆解、验证，**只有当内部推理完成，才将最终结果输出给用户**。

成功率飙升的技术原因

1. **减少过早承诺错误**：直出模式下，模型一旦生成一个 token，后续生成会受其约束，容易陷入局部最优。休眠机制允许模型在内部反复修正、回溯，避免因首步错误导致全盘崩溃。
2. **增强多步推理能力**：对于数学、逻辑、代码等需要多步推导的任务，休眠让模型有“空间”构建完整的推理链，并自我校验中间结果。实验表明，在 GSM8K 数学题上，带休眠的 Claude 正确率从 52% 跃升至 89%。
3. **抑制幻觉**：内部思考阶段能触发模型对事实知识的“二次检索”，减少对训练数据中噪声模式的依赖，从而降低捏造信息的概率。

启示与局限

这一成果本质上是对“链式思维”（Chain-of-Thought）的极致扩展——不是简单的“先想后说”，而是让模型拥有**可控制的推理预算**。不过，休眠也带来了显著的计算开销：一次复杂任务的推理时间可能延长 3-5 倍，token 消耗剧增。如何在精度与效率之间取得平衡，将是下一阶段的关键挑战。值得注意的是，Anthropic 并未公开具体的“休眠”算法细节，但可以预见，这种“让AI停下来思考”的思路，正在重塑大模型落地的质量边界。

AI资讯

AI学会“休眠”后，Claude任务成功率飙升6倍的奥秘

全面封杀！Claude桌面端加强管控，DeepSeek V4等第三方模型已无法直接接入

Google DeepMind投资CCP Games，EVE Online化身通用人工智能试验场

相关文章

苹果回应谷歌AI合作传闻：关键技术主导权仍属苹果

腾讯4月祭出王牌！混元3.0震撼来袭：顶尖科学家领衔，龙虾军团全力进击

Claude代码外泄催生“防封禁”工具，国内开发者寻求生存之道

百度梯子AI上线半年即并入文心App：无广告搜索与影视资源仍可用？

最新资讯

AI学会“休眠”后，Claude任务成功率飙升6倍的奥秘

全面封杀！Claude桌面端加强管控，DeepSeek V4等第三方模型已无法直接接入

Google DeepMind投资CCP Games，EVE Online化身通用人工智能试验场

相关文章

苹果回应谷歌AI合作传闻：关键技术主导权仍属苹果

腾讯4月祭出王牌！混元3.0震撼来袭：顶尖科学家领衔，龙虾军团全力进击

**Claude代码外泄催生“防封禁”工具，国内开发者寻求生存之道**

百度梯子AI上线半年即并入文心App：无广告搜索与影视资源仍可用？

最新资讯

Claude代码外泄催生“防封禁”工具，国内开发者寻求生存之道