章节 01
导读 / 主楼:GenAI-GreenML:面向生成式AI与绿色机器学习的精选数据集
一个包含50个小型开源机器学习仓库的精选数据集,专门用于研究生成式AI辅助代码生成和能效优化的机器学习开发。
正文
一个包含50个小型开源机器学习仓库的精选数据集,专门用于研究生成式AI辅助代码生成和能效优化的机器学习开发。
章节 01
一个包含50个小型开源机器学习仓库的精选数据集,专门用于研究生成式AI辅助代码生成和能效优化的机器学习开发。
章节 02
章节 03
生成式人工智能(Generative AI)正在重塑软件开发的方方面面,从代码补全到自动化测试,从文档生成到架构设计。然而,这种便利背后隐藏着一个日益严峻的问题:AI 辅助编程的环境成本。
大语言模型(LLM)训练和推理过程消耗大量能源,产生显著的碳排放。与此同时,由 LLM 生成的代码是否比人工编写的代码更节能?生成的机器学习模型是否考虑了能效优化?这些问题目前缺乏系统性的研究数据支撑。
GenAI-GreenML 数据集正是为填补这一研究空白而创建的。它提供了一个经过精心筛选的基准数据集,专门用于评估生成式 AI 在代码生成任务中的环境影响和能效表现。
章节 04
GenAI-GreenML 是一个包含 50 个小型开源机器学习仓库的精选集合,所有仓库的体积均控制在 500 MB 以内,涵盖表格数据(Tabular)和自然语言处理(NLP)两大领域。
章节 05
小规模优先:选择小于 500 MB 的仓库,降低实验的计算资源门槛,使更多研究者能够复现和扩展研究。
领域代表性:覆盖 tabular 数据处理和 NLP 两大核心 ML 领域,确保研究结论的普适性。
开源许可:所有收录项目均采用开源许可,支持学术和商业研究使用。
实用性导向:选择具有实际应用场景的项目,而非纯粹的学术研究代码。
章节 06
该数据集为评估不同大语言模型(GPT-4、Claude、Llama 等)的代码生成能力提供了标准化测试平台:
章节 07
通过对比人工编写代码与 LLM 生成代码的能效表现,研究者可以:
章节 08
为软件工程领域的研究者提供实证数据,探索: