上海交大等团队发布 SWE-Explore 基准，揭示 AI 编码智能体行级缺陷定位能力

# 背景：AI编码智能体的能力边界亟待精细评估

近年来，以GitHub Copilot、Codex为代表的AI编码智能体在代码生成、补全等任务上取得了显著进展。然而，真正的软件工程实践不仅要求智能体能“写代码”，更要求它能“修代码”——即在复杂代码库中精准定位并修复缺陷。当前主流基准（如SWE-bench）多聚焦于整体修复成功率，缺乏对缺陷定位精度（尤其是行级别）的细粒度评估，导致难以区分智能体是“真正理解”了bug本质，还是仅靠模式匹配蒙对答案。

# SWE-Explore：行级定位能力的“显微镜”

上海交通大学等团队最新发布的**SWE-Explore**基准填补了这一空白。该基准从真实开源项目（如Django、SymPy）中精选出千余个缺陷样本，每个样本不仅标注了修复方案，更要求标注出**缺陷所在的具体代码行**。与仅评估最终补丁是否正确的传统方法不同，SWE-Explore通过精确的行号匹配，衡量智能体能否在未提供任何位置提示的情况下，自主定位到问题行。此外，基准还设计了“逐步探索”的评估协议，模拟人类开发者通过执行、调试、分析日志来缩小范围的过程，从而检验智能体在复杂上下文中的推理能力。

# 核心发现：行级定位仍是AI的“痛点”

实验结果显示，即使是最先进的编码智能体（如基于GPT-4的Agent），在行级定位的精确率上也远低于人类专家。许多智能体能在函数级或模块级“猜对”大致区域，但具体到某一行时却频繁出错——尤其是在缺陷涉及变量状态转移、边界条件或并发逻辑时。这表明当前AI更擅长**模式识别**（如语法错误、常见漏洞模式），而**因果推理**（如理解某行代码为何在特定输入下导致错误）仍是短板。SWE-Explore通过将成功与失败案例对比，进一步揭示了智能体对代码上下文依赖性的脆弱：当缺陷行与正常执行流高度相似时，AI极易被“误导”。

# 意义与展望：推动AI从“辅助写码”到“协同维修”

SWE-Explore的发布标志着AI编码智能体评估从“结果导向”向“过程导向”的转变。它为研究者提供了更精准的诊断工具：哪些模型架构、训练策略或推理机制能有效提升行级定位？未来，结合符号执行、程序切片等传统软件工程技术的混合方法，或将成为突破方向。对于工程实践而言，一个能可靠定位到行的AI，将极大降低开发者调试的时间成本——而SWE-Explore正是这一目标的重要度量标尺。