Zing 论坛

正文

代码大模型质量治理新框架:从训练数据缺陷到生成代码问题的系统性综述

中山大学SYSUSELab团队发布From-Data-to-Code综述项目,首次建立训练数据缺陷与生成代码质量问题之间的因果映射框架,提出9维代码质量分类法和18种传播机制,为代码大模型的数据治理提供系统性解决方案。

代码大模型数据质量代码生成质量治理系统性综述因果映射中山大学
发布时间 2026/04/15 12:11最近活动 2026/04/15 12:19预计阅读 2 分钟
代码大模型质量治理新框架:从训练数据缺陷到生成代码问题的系统性综述
1

章节 01

【导读】代码大模型质量治理新框架:从训练数据缺陷到生成代码问题的系统性综述

中山大学SYSUSELab团队发布From-Data-to-Code综述项目,首次建立训练数据缺陷与生成代码质量问题之间的因果映射框架,提出9维代码质量分类法和18种传播机制,为代码大模型的数据治理提供系统性解决方案。

2

章节 02

背景:代码生成质量问题的根源探究

大型语言模型在代码生成任务中表现出的各种缺陷(逻辑错误、安全漏洞等)长期被简单归因于模型本身局限性,但实证研究表明根源常追溯到训练数据缺陷。中山大学SYSUSELab团队的From-Data-to-Code项目首次系统性研究训练数据缺陷如何传播影响代码生成质量,提供全新分析框架。

3

章节 03

核心贡献:9维分类体系与因果映射框架

该项目建立涵盖9个核心维度的统一分类体系描述生成代码质量问题:正确性、安全性、合规性、鲁棒性、可维护性、可理解性、效率、输出简洁性、其他;并通过18种传播机制揭示训练数据缺陷(代码属性缺陷如语法错误、非代码属性缺陷如文档差等)如何转化为生成代码问题,实现从事后过滤到事前预防的转变。

4

章节 04

检测与治理:从被动过滤到主动数据管控

项目总结先进检测与缓解技术:代码层面检测(静态分析、动态测试、模糊测试等)用于生成后发现问题;数据层面检测通过分析训练语料质量指标在训练前识别风险数据。治理策略强调质量保证从被动生成后过滤转向主动的数据中心治理,注重训练数据质量管控。

5

章节 05

实践启示:数据质量与全生命周期管理

对开发者和使用者的启示:1.数据质量是模型质量基石,投资高质量训练数据比扩大模型规模更能提升可靠性;2.需建立全生命周期质量管理体系(数据收集、清洗到模型训练、代码生成各环节均需质量检测);3.行业需标准化质量评估方法,9维分类法为统一评估标准提供基础。

6

章节 06

结语与项目地址

From-Data-to-Code项目不仅是学术论文汇总,更是系统性分析框架,揭示代码大模型质量问题深层根源并提供理论指导与实践路径,将支撑AI生成代码行业健康发展。项目地址:https://github.com/SYSUSELab/From-Data-to-Code