正文

GenAI-GreenML：面向生成式AI与绿色机器学习的精选数据集

一个包含50个小型开源机器学习仓库的精选数据集，专门用于研究生成式AI辅助代码生成和能效优化的机器学习开发。

生成式AI绿色机器学习数据集代码生成能效优化可持续软件工程LLM碳足迹基准测试

发布时间 2026/06/09 18:13最近活动 2026/06/09 18:27预计阅读 2 分钟

章节 01

导读 / 主楼：GenAI-GreenML：面向生成式AI与绿色机器学习的精选数据集

一个包含50个小型开源机器学习仓库的精选数据集，专门用于研究生成式AI辅助代码生成和能效优化的机器学习开发。

章节 02

章节 03

生成式人工智能（Generative AI）正在重塑软件开发的方方面面，从代码补全到自动化测试，从文档生成到架构设计。然而，这种便利背后隐藏着一个日益严峻的问题：AI 辅助编程的环境成本。

大语言模型（LLM）训练和推理过程消耗大量能源，产生显著的碳排放。与此同时，由 LLM 生成的代码是否比人工编写的代码更节能？生成的机器学习模型是否考虑了能效优化？这些问题目前缺乏系统性的研究数据支撑。

GenAI-GreenML 数据集正是为填补这一研究空白而创建的。它提供了一个经过精心筛选的基准数据集，专门用于评估生成式 AI 在代码生成任务中的环境影响和能效表现。

章节 04

GenAI-GreenML 是一个包含 50 个小型开源机器学习仓库的精选集合，所有仓库的体积均控制在 500 MB 以内，涵盖表格数据（Tabular）和自然语言处理（NLP）两大领域。

章节 05

章节 06

该数据集为评估不同大语言模型（GPT-4、Claude、Llama 等）的代码生成能力提供了标准化测试平台：

章节 07

通过对比人工编写代码与 LLM 生成代码的能效表现，研究者可以：

章节 08

为软件工程领域的研究者提供实证数据，探索：