正文

从数据到代码：代码大模型质量问题的系统性研究

中山大学软件工程实验室综述114篇论文，建立训练数据质量与生成代码质量之间的因果映射框架，揭示数据缺陷如何传播为代码缺陷。

代码大模型数据质量代码质量系统性综述机器学习因果映射软件工程中山大学

发布时间 2026/05/10 21:53最近活动 2026/05/10 22:03预计阅读 2 分钟

章节 01

导读：代码大模型质量问题的系统性研究核心洞察

中山大学软件工程实验室综述114篇论文，建立训练数据质量与生成代码质量之间的因果映射框架，揭示数据缺陷如何传播为代码缺陷。研究提出九大代码质量维度、训练数据质量问题分类体系及18种传播映射机制，为代码大模型质量改进提供系统性框架。

章节 02

研究背景：被忽视的代码大模型上游数据问题

现代代码大模型（Code LLMs）的缺陷往往根源于训练或微调数据中的上游问题：漏洞片段、噪声文本、重复样本、分布缺口、隐私泄露、基准污染等低质量训练信号。研究团队通过系统综述114篇相关论文，首次建立从"问题数据"到"问题代码"的完整因果链条。

章节 03

核心贡献：代码质量维度与数据问题分类体系

九大代码质量维度

1.正确性（语法错误、逻辑缺陷、API误用） 2.安全性（设计缺陷、外部漏洞） 3.合规性（版权侵权、隐私泄露、恶意代码） 4.鲁棒性（错误处理不足、边界条件失败） 5.可维护性（结构混乱、复用性低） 6.可理解性（命名规范差、缺乏文档） 7.效率（次优时间复杂度、内存管理不当） 8.输出简洁性（冗余逻辑、无用循环） 9.其他（指令遵循失败）

训练数据质量问题分类

-代码属性问题：漏洞代码、重复代码、低质量代码、API误用示例 -非代码属性问题：自然语言噪声、分布偏差、隐私泄露、基准污染

章节 04

传播映射机制：数据缺陷转化为代码缺陷的路径

研究建立18种典型传播映射机制，揭示数据缺陷如何转化为代码缺陷： -记忆效应：模型记住训练数据中的漏洞模式并复现 -分布偏移：训练数据与目标场景分布差异导致生成代码不适应 -噪声放大：训练数据微小噪声被放大为明显错误 -上下文污染：基准测试数据混入训练集导致评估虚高这些机制为理解代码质量问题提供理论框架。

章节 05

检测与治理策略：全生命周期质量保障

代码级检测

静态分析工具、动态执行测试、安全漏洞扫描

数据级检测

数据去重算法、质量评分模型、隐私泄露检测

代码级缓解

后生成过滤、迭代精炼、人工反馈强化学习（RLHF）

数据级缓解

数据清洗、课程学习、对抗性数据增强

章节 06

方法论转变与未来挑战方向

方法论转变

质量保证从反应式的后生成过滤转向主动式的数据中心化治理和闭环修复： -优先在训练数据阶段预防问题 -建立全生命周期质量监控 -关注数据质量而非仅模型规模

开放挑战

1.因果推断的复杂性：数据到代码的因果关系难以精确量化 2.多因素交织：多种数据问题同时存在难以分离 3.动态演化：代码库和漏洞模式持续变化 4.评估困境：避免测试集污染的模型评估

未来方向

集成数据管理的可靠代码LLM开发、实时数据质量监控系统、自动化数据修复管道、跨语言跨领域泛化研究

章节 07

研究意义与配套资源

研究意义

-对使用者：解释提示效果不稳定的原因 -对开发者：提供系统性质量改进框架 -对AI社区：强调数据质量是模型质量的基石

配套资源

-论文：arXiv:2605.05267 -官方文档：SYSUSELab.github.io/From-Data-to-Code -114篇精选论文列表 -可视化分类体系和传播映射图