# DeNovoSWE：面向完整代码库生成的长程软件工程数据集

> DeNovoSWE包含4818个高质量实例，通过沙盒化智能体工作流自动构建，采用分治与批评修复策略，使Qwen3-30B-A3B在BeyondSWE-Doc2Repo基准上从5.8%提升至47.2%。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-09T11:37:15.000Z
- 最近活动: 2026-06-10T03:57:06.582Z
- 热度: 134.7
- 关键词: 代码生成, 软件工程, 数据集构建, 长程任务, 仓库生成, 智能体训练, Qwen3, BeyondSWE
- 页面链接: https://www.zingnex.cn/forum/thread/denovoswe
- Canonical: https://www.zingnex.cn/forum/thread/denovoswe
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch
- 原始链接：http://arxiv.org/abs/2606.10728v1
- 来源发布时间/更新时间：2026-06-09T11:37:15Z

## 原作者与来源\n\n- 原作者/维护者：arXiv authors\n- 来源平台：arxiv\n- 原始标题：DeNovoSWE: Scaling Long-Horizon Environments for Generating Entire Repositories from Scratch\n- 原始链接：http://arxiv.org/abs/2606.10728v1\n- 来源发布时间/更新时间：2026-06-09T11:37:15Z\n\n## 从Bug修复到完整代码库生成\n\n基于大语言模型的代码智能体正在快速进化。最初，这些智能体主要用于在现有代码库中定位和修复局部Bug。随着能力增强，它们的应用场景正在扩展到更宏大的目标：根据高层规格说明，从零开始架构和实现完整的软件仓库。\n\n这一转变代表了软件工程自动化的质的飞跃。完整的仓库生成涉及需求理解、架构设计、模块划分、接口定义、实现编码、测试编写等多个环节，每个环节都需要长程规划和决策。与局部的Bug修复相比，这种长程软件工程任务对智能体的能力提出了更高要求。\n\n然而，训练能够胜任此类任务的智能体面临一个核心障碍：缺乏大规模、可验证的完整仓库生成数据。人工标注这类数据的成本极高，而现有的开源代码库虽然数量庞大，但缺乏与高层规格说明的对应关系，难以直接用于监督学习。\n\n## DeNovoSWE 数据集构建方法\n\nDeNovoSWE是首个专门针对完整仓库生成的大规模数据集，包含4818个高质量实例。每个实例要求根据文档描述生成一个完整的代码仓库。数据集的构建采用了创新的自动化流程，无需人工标注即可规模化生成。\n\n核心构建策略是"分而治之"（divide and conquer）。面对复杂的仓库生成任务，系统将其分解为多个可管理的子任务，如创建项目结构、实现核心模块、添加配置文件等。每个子任务由专门的智能体组件处理，降低了单步决策的复杂度。\n\n另一个关键设计是"批评-修复"（critic-repair）机制。生成的代码不仅会被执行验证，还会经过批评模块的审查。批评模块检查代码的功能正确性、风格一致性和文档完整性，发现问题后触发修复流程。这种迭代改进机制显著提升了数据质量。\n\n整个构建过程在沙盒化环境中进行，确保生成的代码可以安全执行和验证。沙盒环境提供了隔离的测试空间，防止恶意代码影响系统，同时允许自动化的功能测试和回归验证。\n\n## 难度感知轨迹过滤策略\n\n为了平衡数据质量和多样性，研究团队引入了难度感知轨迹过滤策略。并非所有生成的轨迹都同样有价值——过于简单的任务无法挑战模型的能力，而过于困难的任务可能导致学习信号过于稀疏。\n\n难度评估基于多个维度：代码行数、文件数量、依赖复杂度、测试通过率等。系统根据这些指标将轨迹分类到不同的难度等级，确保训练数据在各个难度层级上都有合理分布。这种分层采样策略有助于模型学习从简单到复杂的渐进式技能。\n\n过滤过程还考虑了轨迹的多样性。相似的生成路径会被去重，保留具有代表性的样本。这防止了模型过拟合于特定的实现模式，鼓励学习更通用的软件工程原则。\n\n## 实验验证与性能提升\n\n研究团队使用DeNovoSWE对Qwen3-30B-A3B模型进行了微调，并在BeyondSWE-Doc2Repo基准上进行了评估。这一基准专门测试从文档生成完整仓库的能力，是衡量长程软件工程能力的权威标准。\n\n微调前的基线模型在BeyondSWE-Doc2Repo上的得分仅为5.8%，表明长程仓库生成对当前模型仍是巨大挑战。经过DeNovoSWE微调后，模型得分跃升至47.2%，实现了超过8倍的性能提升。这一结果表明，高质量的训练数据对于解锁长程软件工程能力至关重要。\n\n性能提升不仅体现在总体得分上，还反映在多个细分维度。模型在项目结构创建、核心功能实现、测试覆盖等方面都有显著进步。特别是在处理复杂依赖关系和跨模块协调方面，微调后的模型表现出更强的规划能力。\n\n## 对代码智能体研究的意义\n\nDeNovoSWE的成功构建为代码智能体研究开辟了新方向。首先，它证明了通过自动化流程生成高质量长程软件工程数据的可行性。这为未来扩展数据规模、覆盖更多编程语言和框架提供了方法论基础。\n\n其次，分治与批评修复的哲学可以推广到其他复杂任务场景。无论是多文件编辑、大规模重构还是跨项目迁移，都可以借鉴这种将复杂任务分解、迭代改进的思路。\n\n第三，难度感知的数据筛选策略为训练数据构建提供了新思路。在资源有限的情况下，如何选择最有价值的训练样本是一个关键问题。DeNovoSWE的经验表明，基于任务难度的分层采样可能比均匀采样更有效。\n\n## 局限与未来方向\n\n尽管DeNovoSWE取得了显著进展，但仍存在若干局限。数据集目前主要涵盖Python项目，对其他编程语言和生态的支持有待扩展。此外，生成的仓库规模相对有限，与工业级大型代码库相比仍有差距。\n\n未来的研究方向包括：扩展到更多编程语言和框架、增加仓库规模和复杂度、引入更多类型的规格说明（如自然语言需求、用户故事、API契约等）、以及探索与人类开发者协作的交互式生成模式。\n\nDeNovoSWE代表了向全自动软件开发迈出的重要一步。随着数据规模的扩大和方法的完善，AI辅助甚至主导的软件开发正在成为现实。对于软件工程师而言，这意味着工作模式的潜在转变——从编写每一行代码转向更高层次的设计指导和质量把控。