章节 01
【导读】进化式编程代理的搜索机制真相——EvoTrace与EvoReplay的核心发现
本文通过EvoTrace数据集和EvoReplay方法首次系统分析进化式代码生成过程,揭示三个关键结论:性能提升多来自常量调整等微调操作而非新算法结构;约30%代码行是先前删除内容的重复引入;部分高分解存在对评估器的过拟合。这些发现挑战传统基准评估有效性,呼吁转向过程导向的诊断性评估。
正文
EvoTrace数据集和EvoReplay方法首次系统分析进化式代码生成过程,发现性能提升多来自少数编辑类型,且30%的代码行是先前删除内容的重复引入,挑战了传统基准评估的有效性
章节 01
本文通过EvoTrace数据集和EvoReplay方法首次系统分析进化式代码生成过程,揭示三个关键结论:性能提升多来自常量调整等微调操作而非新算法结构;约30%代码行是先前删除内容的重复引入;部分高分解存在对评估器的过拟合。这些发现挑战传统基准评估有效性,呼吁转向过程导向的诊断性评估。
章节 02
进化式编程代理结合LLM与进化搜索算法,通过迭代生成/修改/选择代码,在数学发现、算法设计任务取得成果。其流程为初始化→评估→选择→变异→迭代,但核心问题被忽视:系统究竟在“进化”什么?传统评估仅关注最终分数,无法区分新算法发现、参数微调、知识重组或过拟合等机制。
章节 03
EvoTrace:首个进化式代码搜索轨迹数据集,覆盖4个框架、推理/非推理模型、16个任务,记录完整搜索历史(代码、分数、编辑操作、亲缘关系),并标注9种编辑类型(常量调整、控制流修改等)。
EvoReplay:回放诊断方法,可重构搜索状态、测试受控干预(常量调整、组件移除等实验)、进行因果归因,区分真实创新与微调/过拟合。
章节 04
章节 05
传统评估局限:单一分数误导(无法区分创新与微调)、缺乏过程透明度、泛化能力未知。
需转向诊断性评估:轨迹记录、编辑分类、干预实验、多样性度量,关注过程而非仅结果。
章节 06
研究者:超越最终分数,报告搜索统计特征;验证泛化性;开源轨迹数据;开发诊断工具。
设计者:抑制无意义循环;调整奖励鼓励结构创新;引入多样性防止收敛;增强评估鲁棒性减少过拟合。
章节 07
当前进化式代理擅长优化已知方案,但缺乏根本性创新;人机协作应分工:AI负责微调,人类提供创新架构;EvoTrace与EvoReplay推动评估科学进步,提升领域严谨性。