正文

Oracle-SWE：量化Oracle信息信号对软件工程智能体贡献度的系统方法

本文提出Oracle-SWE方法，首次系统量化五种关键信息信号（复现测试、回归测试、编辑位置、执行上下文、API使用）对软件工程智能体性能的理想贡献，为自主编码系统的研究优先级设定提供指导。

Oracle-SWE软件工程智能体信息信号自主编码代码修复SWE基准智能体性能分析研究优先级

发布时间 2026/04/09 12:37最近活动 2026/04/10 10:25预计阅读 3 分钟

章节 01

【导读】Oracle-SWE：量化信息信号对软件工程智能体的贡献

本文提出Oracle-SWE方法，首次系统量化复现测试、回归测试、编辑位置、执行上下文、API使用五种关键信息信号对软件工程智能体性能的理想贡献，为自主编码系统的研究优先级设定提供指导。

章节 02

背景：软件工程智能体的崛起与核心困惑

近年来，基于大语言模型的软件工程智能体（SWE Agents）取得显著进展，如GitHub Copilot、Devin等系统推动自主编码成为现实。然而，当前研究缺乏对各信息信号具体贡献度（尤其是理想条件下最大潜在价值）的清晰认知，制约智能体设计优化。

章节 03

方法：Oracle-SWE框架及五种关键信息信号

五种关键信息信号

复现测试：触发bug的测试用例，帮助理解问题表现与边界条件
回归测试：验证修复安全性的测试套件
编辑位置：需修改的代码文件和位置，缩小搜索空间
执行上下文：代码运行时环境信息（变量值、调用栈等）
API使用：相关API文档和用法示例

Oracle-SWE框架

核心思想：通过提取理想信息信号（oracle），测量智能体在理想条件下的性能以确定信号最大潜在贡献。工作流程包括：

信号提取：从SWE基准中获取五种信号的ground truth版本
条件注入：将信号组合注入基础智能体，观察性能变化
贡献量化：比较不同配置下的性能，量化各信号独立贡献

章节 04

实验与发现：信号贡献的层次结构

双层实验设计

理想贡献实验：使用基准ground truth信号，测量理论上限贡献
实际增益实验：使用模型生成信号，模拟真实场景下的信息获取

关键发现

信号贡献呈现清晰层次：

编辑位置：最具影响力，性能提升显著但提取难度大
复现测试：贡献次之，与编辑位置存在信息冗余
执行上下文：对理解问题根本原因有帮助，在bug修复任务中作用更明显
回归测试、API使用：贡献相对较小但仍有正向作用

章节 05

信号组合：协同效应与冗余分析

协同效应

编辑位置与复现测试组合效果最佳：前者帮助定位修改点，后者提供问题定义与验证标准，两者结合实现1+1>2的效果

冗余情况

部分信号组合存在冗余：如执行上下文已提供详细错误信息时，额外回归测试的增益有限

章节 06

建议：自主编码系统的研究优先级设定

重点研究编辑位置自动识别：投入资源改进预测模型（如代码检索、问题定位算法）
关注复现测试自动生成：与编辑位置组合效果最优，提升实际应用优势
探索信号智能选择与组合：根据任务特征动态配置信号
低成本获取低贡献信号：如API文档检索无需极致精确

章节 07

局限与展望：Oracle-SWE的边界及未来方向

局限

基于特定SWE基准，结果在其他任务（如代码重构）的适用性需验证
开放性任务中ground truth不唯一，信号提取复杂

未来方向

扩展研究到更多软件工程任务类型
探索信号间动态交互而非静态组合
开发自适应智能体架构，根据实时反馈调整信号策略

结语

Oracle-SWE为SWE智能体研究提供严谨分析框架，帮助科学分配资源，聚焦高潜力方向，加速软件开发自动化进程