Zing 论坛

正文

DeNovoSWE:面向完整代码库生成的长程软件工程数据集

DeNovoSWE包含4818个高质量实例,通过沙盒化智能体工作流自动构建,采用分治与批评修复策略,使Qwen3-30B-A3B在BeyondSWE-Doc2Repo基准上从5.8%提升至47.2%。

代码生成软件工程数据集构建长程任务仓库生成智能体训练Qwen3BeyondSWE
发布时间 2026/06/09 19:37最近活动 2026/06/10 11:57预计阅读 2 分钟
DeNovoSWE:面向完整代码库生成的长程软件工程数据集
1

章节 01

DeNovoSWE数据集:长程完整代码库生成的关键突破

DeNovoSWE是面向完整代码库生成的长程软件工程数据集,含4818个高质量实例,通过沙盒化智能体工作流自动构建(采用分治与批评修复策略)。该数据集使Qwen3-30B-A3B模型在BeyondSWE-Doc2Repo基准上性能从5.8%提升至47.2%。来源:arXiv论文《DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch》(链接:http://arxiv.org/abs/2606.10728v1,发布时间2026-06-09)。

2

章节 02

从局部Bug修复到完整仓库生成的挑战

基于大语言模型的代码智能体正从局部Bug修复向完整软件仓库生成进化,这涉及需求理解、架构设计等多环节,对长程规划能力要求更高。但训练此类智能体的核心障碍是缺乏大规模、可验证的完整仓库生成数据——人工标注成本高,现有开源代码库缺乏与高层规格的对应关系。

3

章节 03

DeNovoSWE的自动化构建策略

DeNovoSWE采用创新自动化流程构建:1.分而治之策略:将复杂仓库生成任务分解为子任务(如项目结构创建、核心模块实现);2.批评-修复机制:生成代码经执行验证和批评模块审查(功能正确性、风格一致性等),发现问题触发修复;3.沙盒化环境:确保代码安全执行与自动化测试验证。

4

章节 04

平衡质量与多样性的过滤策略

为平衡数据质量与多样性,引入难度感知轨迹过滤:1.难度评估维度:代码行数、文件数量、依赖复杂度、测试通过率等;2.分层采样:按难度等级分类,确保各层级分布合理;3.多样性保障:相似生成路径去重,保留代表性样本,避免过拟合。

5

章节 05

模型性能的显著提升

用DeNovoSWE微调Qwen3-30B-A3B后,在BeyondSWE-Doc2Repo基准(测试完整仓库生成能力)得分从5.8%升至47.2%(8倍提升)。模型在项目结构创建、核心功能实现、跨模块协调等细分维度均有进步,尤其增强了复杂依赖处理与规划能力。

6

章节 06

对代码智能体研究的启示

DeNovoSWE的意义:1.证明自动化生成高质量长程软件工程数据的可行性;2.分治与批评修复策略可推广到多文件编辑、大规模重构等复杂任务;3.难度感知筛选为训练数据构建提供新思路,分层采样比均匀采样更有效。

7

章节 07

当前局限与未来方向

局限:主要覆盖Python项目,仓库规模较工业级仍有差距。未来方向:扩展至更多编程语言/框架、增加仓库规模复杂度、引入多样规格说明(自然语言需求、API契约等)、探索人机协作的交互式生成模式。