腾讯与人大高瓴联合发布开源规划评测框架PlanningBench

AI资讯1周前发布 全启星小编
1,172 0

腾讯与人大高瓴联合发布开源规划评测框架 PlanningBench

近日,腾讯与中国人民大学高瓴人工智能学院联合发布了 **PlanningBench**,一个面向大语言模型(LLM)自主规划能力评估的**开源评测框架**。该框架旨在系统性地衡量模型在处理多步推理、约束满足、任务分解与行动排序等规划任务时的表现,填补了当前大模型评测体系中针对“复杂规划”场景的空白。

**一、评测维度的全面性与专业性**

PlanningBench 覆盖了**经典规划问题**(如 Blocks World、谜题规划)和**现实场景规划**(如旅行规划、资源调度)两大类别,共包含十余个子任务。每个任务均设计了标准化的输入输出格式与评分规则,支持自动化的结果验证。评测指标不仅包括最终目标是否达成(成功率),还引入了**规划步数效率**、**约束违反率**、**回溯次数**等多维度指标,从而更精细地刻画模型在“规划深度”与“鲁棒性”上的表现。

**二、为何需要专门的规划评测**

当前主流大模型在对话、翻译、代码生成等任务上表现优异,但在涉及多步依赖、隐形约束或需要动态调整策略的规划问题上,往往暴露出**逻辑断裂**、**陷入局部最优**或**违反时序逻辑**等问题。PlanningBench 的推出,使得研究者能够通过统一的测试集,横向对比不同模型(如 GPT-4、Claude、Qwen 等)在规划这一高认知需求任务上的真实差距,从而引导模型向“可解释、可验证的推理”方向演进。

**三、开源生态与未来意义**

作为开源项目,PlanningBench 允许社区贡献新的规划领域与评测用例,并提供了灵活的接口以适配不同模型。这一举措不仅降低了规划能力评测的门槛,也为**LLM 代理(Agent)系统**的基准测试提供了重要参考——无论是机器人自主导航、自动化客服流程还是供应链优化,规划的可靠性都是落地的关键瓶颈。

**四、结语**

PlanningBench 的发布,标志着业界对大模型能力的评估已从“知识问答”深入到“推理行动”层面。未来,随着多模态与长上下文模型的普及,规划评测或将进一步结合时空动态性与不确定性条件,成为衡量通用人工智能能力的重要标尺。

相关文章