Zing 论坛

正文

Oracle-SWE:量化Oracle信息信号对软件工程智能体贡献度的系统方法

本文提出Oracle-SWE方法,首次系统量化五种关键信息信号(复现测试、回归测试、编辑位置、执行上下文、API使用)对软件工程智能体性能的理想贡献,为自主编码系统的研究优先级设定提供指导。

Oracle-SWE软件工程智能体信息信号自主编码代码修复SWE基准智能体性能分析研究优先级
发布时间 2026/04/09 12:37最近活动 2026/04/10 10:25预计阅读 3 分钟
Oracle-SWE:量化Oracle信息信号对软件工程智能体贡献度的系统方法
1

章节 01

【导读】Oracle-SWE:量化信息信号对软件工程智能体的贡献

本文提出Oracle-SWE方法,首次系统量化复现测试、回归测试、编辑位置、执行上下文、API使用五种关键信息信号对软件工程智能体性能的理想贡献,为自主编码系统的研究优先级设定提供指导。

2

章节 02

背景:软件工程智能体的崛起与核心困惑

近年来,基于大语言模型的软件工程智能体(SWE Agents)取得显著进展,如GitHub Copilot、Devin等系统推动自主编码成为现实。然而,当前研究缺乏对各信息信号具体贡献度(尤其是理想条件下最大潜在价值)的清晰认知,制约智能体设计优化。

3

章节 03

方法:Oracle-SWE框架及五种关键信息信号

五种关键信息信号

  • 复现测试:触发bug的测试用例,帮助理解问题表现与边界条件
  • 回归测试:验证修复安全性的测试套件
  • 编辑位置:需修改的代码文件和位置,缩小搜索空间
  • 执行上下文:代码运行时环境信息(变量值、调用栈等)
  • API使用:相关API文档和用法示例

Oracle-SWE框架

核心思想:通过提取理想信息信号(oracle),测量智能体在理想条件下的性能以确定信号最大潜在贡献。工作流程包括:

  1. 信号提取:从SWE基准中获取五种信号的ground truth版本
  2. 条件注入:将信号组合注入基础智能体,观察性能变化
  3. 贡献量化:比较不同配置下的性能,量化各信号独立贡献
4

章节 04

实验与发现:信号贡献的层次结构

双层实验设计

  • 理想贡献实验:使用基准ground truth信号,测量理论上限贡献
  • 实际增益实验:使用模型生成信号,模拟真实场景下的信息获取

关键发现

信号贡献呈现清晰层次:

  1. 编辑位置:最具影响力,性能提升显著但提取难度大
  2. 复现测试:贡献次之,与编辑位置存在信息冗余
  3. 执行上下文:对理解问题根本原因有帮助,在bug修复任务中作用更明显
  4. 回归测试、API使用:贡献相对较小但仍有正向作用
5

章节 05

信号组合:协同效应与冗余分析

协同效应

编辑位置与复现测试组合效果最佳:前者帮助定位修改点,后者提供问题定义与验证标准,两者结合实现1+1>2的效果

冗余情况

部分信号组合存在冗余:如执行上下文已提供详细错误信息时,额外回归测试的增益有限

6

章节 06

建议:自主编码系统的研究优先级设定

  1. 重点研究编辑位置自动识别:投入资源改进预测模型(如代码检索、问题定位算法)
  2. 关注复现测试自动生成:与编辑位置组合效果最优,提升实际应用优势
  3. 探索信号智能选择与组合:根据任务特征动态配置信号
  4. 低成本获取低贡献信号:如API文档检索无需极致精确
7

章节 07

局限与展望:Oracle-SWE的边界及未来方向

局限

  • 基于特定SWE基准,结果在其他任务(如代码重构)的适用性需验证
  • 开放性任务中ground truth不唯一,信号提取复杂

未来方向

  • 扩展研究到更多软件工程任务类型
  • 探索信号间动态交互而非静态组合
  • 开发自适应智能体架构,根据实时反馈调整信号策略

结语

Oracle-SWE为SWE智能体研究提供严谨分析框架,帮助科学分配资源,聚焦高潜力方向,加速软件开发自动化进程