腾讯与人大高瓴联合发布开源规划评测框架PlanningBench

1,172 0

腾讯与人大高瓴联合发布开源规划评测框架 PlanningBench

近日，腾讯与中国人民大学高瓴人工智能学院联合发布了 **PlanningBench**，一个面向大语言模型（LLM）自主规划能力评估的**开源评测框架**。该框架旨在系统性地衡量模型在处理多步推理、约束满足、任务分解与行动排序等规划任务时的表现，填补了当前大模型评测体系中针对“复杂规划”场景的空白。

**一、评测维度的全面性与专业性**

PlanningBench 覆盖了**经典规划问题**（如 Blocks World、谜题规划）和**现实场景规划**（如旅行规划、资源调度）两大类别，共包含十余个子任务。每个任务均设计了标准化的输入输出格式与评分规则，支持自动化的结果验证。评测指标不仅包括最终目标是否达成（成功率），还引入了**规划步数效率**、**约束违反率**、**回溯次数**等多维度指标，从而更精细地刻画模型在“规划深度”与“鲁棒性”上的表现。

**二、为何需要专门的规划评测**

当前主流大模型在对话、翻译、代码生成等任务上表现优异，但在涉及多步依赖、隐形约束或需要动态调整策略的规划问题上，往往暴露出**逻辑断裂**、**陷入局部最优**或**违反时序逻辑**等问题。PlanningBench 的推出，使得研究者能够通过统一的测试集，横向对比不同模型（如 GPT-4、Claude、Qwen 等）在规划这一高认知需求任务上的真实差距，从而引导模型向“可解释、可验证的推理”方向演进。

**三、开源生态与未来意义**

作为开源项目，PlanningBench 允许社区贡献新的规划领域与评测用例，并提供了灵活的接口以适配不同模型。这一举措不仅降低了规划能力评测的门槛，也为**LLM 代理（Agent）系统**的基准测试提供了重要参考——无论是机器人自主导航、自动化客服流程还是供应链优化，规划的可靠性都是落地的关键瓶颈。

**四、结语**

PlanningBench 的发布，标志着业界对大模型能力的评估已从“知识问答”深入到“推理行动”层面。未来，随着多模态与长上下文模型的普及，规划评测或将进一步结合时空动态性与不确定性条件，成为衡量通用人工智能能力的重要标尺。