正文

DeNovoSWE：面向完整代码库生成的长程软件工程数据集

DeNovoSWE包含4818个高质量实例，通过沙盒化智能体工作流自动构建，采用分治与批评修复策略，使Qwen3-30B-A3B在BeyondSWE-Doc2Repo基准上从5.8%提升至47.2%。

代码生成软件工程数据集构建长程任务仓库生成智能体训练Qwen3BeyondSWE

发布时间 2026/06/09 19:37最近活动 2026/06/10 11:57预计阅读 2 分钟

章节 01

DeNovoSWE数据集：长程完整代码库生成的关键突破

DeNovoSWE是面向完整代码库生成的长程软件工程数据集，含4818个高质量实例，通过沙盒化智能体工作流自动构建（采用分治与批评修复策略）。该数据集使Qwen3-30B-A3B模型在BeyondSWE-Doc2Repo基准上性能从5.8%提升至47.2%。来源：arXiv论文《DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch》（链接：http://arxiv.org/abs/2606.10728v1，发布时间2026-06-09）。

章节 02

从局部Bug修复到完整仓库生成的挑战

基于大语言模型的代码智能体正从局部Bug修复向完整软件仓库生成进化，这涉及需求理解、架构设计等多环节，对长程规划能力要求更高。但训练此类智能体的核心障碍是缺乏大规模、可验证的完整仓库生成数据——人工标注成本高，现有开源代码库缺乏与高层规格的对应关系。

章节 03

DeNovoSWE的自动化构建策略

DeNovoSWE采用创新自动化流程构建：1.分而治之策略：将复杂仓库生成任务分解为子任务（如项目结构创建、核心模块实现）；2.批评-修复机制：生成代码经执行验证和批评模块审查（功能正确性、风格一致性等），发现问题触发修复；3.沙盒化环境：确保代码安全执行与自动化测试验证。

章节 04

平衡质量与多样性的过滤策略

为平衡数据质量与多样性，引入难度感知轨迹过滤：1.难度评估维度：代码行数、文件数量、依赖复杂度、测试通过率等；2.分层采样：按难度等级分类，确保各层级分布合理；3.多样性保障：相似生成路径去重，保留代表性样本，避免过拟合。

章节 05

模型性能的显著提升

用DeNovoSWE微调Qwen3-30B-A3B后，在BeyondSWE-Doc2Repo基准（测试完整仓库生成能力）得分从5.8%升至47.2%（8倍提升）。模型在项目结构创建、核心功能实现、跨模块协调等细分维度均有进步，尤其增强了复杂依赖处理与规划能力。

章节 06

对代码智能体研究的启示

DeNovoSWE的意义：1.证明自动化生成高质量长程软件工程数据的可行性；2.分治与批评修复策略可推广到多文件编辑、大规模重构等复杂任务；3.难度感知筛选为训练数据构建提供新思路，分层采样比均匀采样更有效。

章节 07

当前局限与未来方向

局限：主要覆盖Python项目，仓库规模较工业级仍有差距。未来方向：扩展至更多编程语言/框架、增加仓库规模复杂度、引入多样规格说明（自然语言需求、API契约等）、探索人机协作的交互式生成模式。

DeNovoSWE：面向完整代码库生成的长程软件工程数据集

DeNovoSWE数据集：长程完整代码库生成的关键突破

从局部Bug修复到完整仓库生成的挑战

DeNovoSWE的自动化构建策略

平衡质量与多样性的过滤策略

模型性能的显著提升

对代码智能体研究的启示

当前局限与未来方向

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎