章节 01
【导读】CodeTalkers:揭示代码LLM指令微调的隐性代价
本研究提出"指令微调税"概念,指出指令微调虽提升代码大语言模型(如Qwen2.5-Coder、DeepSeek-Coder)的指令遵循能力,却可能损害其代码补全、填充等核心编程能力。研究通过对比实验量化了这一隐性代价,并探讨了缓解策略,对模型选型与应用具有重要指导意义。
正文
研究揭示指令微调虽提升代码LLM的指令遵循能力,却可能损害其代码补全等核心编程能力,提出"指令微调税"概念并量化分析其影响。
章节 01
本研究提出"指令微调税"概念,指出指令微调虽提升代码大语言模型(如Qwen2.5-Coder、DeepSeek-Coder)的指令遵循能力,却可能损害其代码补全、填充等核心编程能力。研究通过对比实验量化了这一隐性代价,并探讨了缓解策略,对模型选型与应用具有重要指导意义。
章节 02
代码LLM(如Qwen2.5-Coder、DeepSeek-Coder)通过预训练展现强大编程能力,但通常会进行指令微调以提升人机交互。业界曾假设指令微调是"免费改进",但本研究质疑:指令微调是否存在隐性代价?即模型在遵循自然语言指令时,是否牺牲了纯粹的代码补全能力?这一问题对开发者依赖的代码辅助功能(如自动填充、智能提示)至关重要。
章节 03
研究定义"指令微调税"为代码模型在指令微调中产生的核心编程能力损失。并区分两类任务:
章节 04
实验对比主流代码LLM的Base(预训练)与Instruct(指令微调)变体:
章节 05
实验证实指令微调税存在:
章节 06
缓解尝试:使用Magicoder流程微调Qwen2.5-Coder-7B,在保持指令能力的同时部分恢复补全性能。 实践建议:
章节 07
项目提供完整代码支持复现:
git clone https://github.com/arkosioscambions/CodeTalkers.git && cd CodeTalkers && pip install -r requirements.txt;python generate.py --model <qwen|dscoder> --model_id <model_id> --dataset <dataset_name>;python3 generate_rq2_table7.py生成指标报告。