章节 01
【导读】代码大模型质量治理新框架:从训练数据缺陷到生成代码问题的系统性综述
中山大学SYSUSELab团队发布From-Data-to-Code综述项目,首次建立训练数据缺陷与生成代码质量问题之间的因果映射框架,提出9维代码质量分类法和18种传播机制,为代码大模型的数据治理提供系统性解决方案。
正文
中山大学SYSUSELab团队发布From-Data-to-Code综述项目,首次建立训练数据缺陷与生成代码质量问题之间的因果映射框架,提出9维代码质量分类法和18种传播机制,为代码大模型的数据治理提供系统性解决方案。
章节 01
中山大学SYSUSELab团队发布From-Data-to-Code综述项目,首次建立训练数据缺陷与生成代码质量问题之间的因果映射框架,提出9维代码质量分类法和18种传播机制,为代码大模型的数据治理提供系统性解决方案。
章节 02
大型语言模型在代码生成任务中表现出的各种缺陷(逻辑错误、安全漏洞等)长期被简单归因于模型本身局限性,但实证研究表明根源常追溯到训练数据缺陷。中山大学SYSUSELab团队的From-Data-to-Code项目首次系统性研究训练数据缺陷如何传播影响代码生成质量,提供全新分析框架。
章节 03
该项目建立涵盖9个核心维度的统一分类体系描述生成代码质量问题:正确性、安全性、合规性、鲁棒性、可维护性、可理解性、效率、输出简洁性、其他;并通过18种传播机制揭示训练数据缺陷(代码属性缺陷如语法错误、非代码属性缺陷如文档差等)如何转化为生成代码问题,实现从事后过滤到事前预防的转变。
章节 04
项目总结先进检测与缓解技术:代码层面检测(静态分析、动态测试、模糊测试等)用于生成后发现问题;数据层面检测通过分析训练语料质量指标在训练前识别风险数据。治理策略强调质量保证从被动生成后过滤转向主动的数据中心治理,注重训练数据质量管控。
章节 05
对开发者和使用者的启示:1.数据质量是模型质量基石,投资高质量训练数据比扩大模型规模更能提升可靠性;2.需建立全生命周期质量管理体系(数据收集、清洗到模型训练、代码生成各环节均需质量检测);3.行业需标准化质量评估方法,9维分类法为统一评估标准提供基础。
章节 06
From-Data-to-Code项目不仅是学术论文汇总,更是系统性分析框架,揭示代码大模型质量问题深层根源并提供理论指导与实践路径,将支撑AI生成代码行业健康发展。项目地址:https://github.com/SYSUSELab/From-Data-to-Code