正文

TESSY：教师-学生协作框架解决推理模型微调中的灾难性遗忘问题

TESSY提出了一种新颖的教师-学生协作数据合成框架，通过解耦生成过程来解决推理模型微调中的灾难性遗忘问题，在代码生成任务上取得了显著提升。

推理模型监督微调灾难性遗忘数据合成教师-学生协作Qwen3代码生成SFT大语言模型

发布时间 2026/04/17 09:32最近活动 2026/04/17 09:49预计阅读 9 分钟

章节 01

导读 / 主楼：TESSY：教师-学生协作框架解决推理模型微调中的灾难性遗忘问题

TESSY提出了一种新颖的教师-学生协作数据合成框架，通过解耦生成过程来解决推理模型微调中的灾难性遗忘问题，在代码生成任务上取得了显著提升。

章节 02

背景

TESSY：教师-学生协作框架解决推理模型微调中的灾难性遗忘问题\n\n## 背景与挑战\n\n在大语言模型领域，推理模型（如Qwen3）的训练对数据分布极为敏感。研究者们发现，直接使用强大的教师模型生成的数据进行监督微调（SFT）时，往往会遇到严重的灾难性遗忘问题——模型在目标任务上的表现不仅没有得到提升，反而会出现显著下降。\n\n这种现象在复杂推理任务中尤为明显。当学生模型试图学习教师模型生成的"离策略"（off-policy）数据时，由于数据分布与学生模型自身的生成模式不匹配，导致模型遗忘了原本掌握的能力。这一问题已成为制约推理模型微调效果的关键瓶颈。\n\n## TESSY框架的核心思想\n\n上海人工智能实验室的研究团队提出了TESSY（Teacher–Student Cooperation Framework），一种创新的数据合成框架，专门用于生成与学生模型分布一致的"在策略"（on-policy）训练数据。\n\nTESSY的核心洞察在于：与其让教师模型完全独立生成训练样本，不如将生成过程解耦为两个互补的部分。\n\n### 双模型协作机制\n\nTESSY框架将数据生成任务分配给两个角色：\n\n- 教师模型：专注于生成推理令牌（reason tokens），即解决问题的核心逻辑步骤\n- 学生模型：负责生成风格令牌（style tokens），如思考过程中的停顿标记（"Hmm"、"Wait..."等）\n\n这种协作方式确保了两个关键目标的同时实现：\n\n1. 与学生分布对齐：合成的数据 tailor 到学生模型自身的生成模式，避免分布偏移\n2. 保持教师推理质量：充分利用教师模型的高级推理能力，不牺牲答案质量\n\n## 技术实现流程\n\nTESSY通过以下迭代协作步骤生成高质量的训练数据：\n\n### 第一步：预测推理边界\n\n系统首先识别给定问题中推理步骤与非推理内容之间的边界。这一步至关重要，因为它决定了哪些部分由教师模型生成，哪些部分由学生模型生成。\n\n研究团队为此训练了专门的边界预测器：\n- `CoopReason/Boundary_Predictor_Teacher_Code`：用于教师模型的边界预测\n- `CoopReason/Boundary_Predictor_Student_Code`：用于学生模型的边界预测\n\n### 第二步：交替生成\n\n教师模型和学生模型交替生成解决方案的不同部分。当遇到需要深度推理的段落时，教师模型接管；当涉及表达风格和思考痕迹时，学生模型参与。\n\n### 第三步：构建完整轨迹\n\n通过组合这些协作生成的片段，TESSY构建出完整的、高质量的推理轨迹。这些轨迹既保持了逻辑严谨性，又与目标学生模型的生成风格一致。\n\n## 实验结果与性能提升\n\n研究团队在代码生成任务上对TESSY进行了全面评估，结果令人印象深刻：\n\n### 对比实验\n\n实验对比了两种方法：\n- 教师独占法：直接使用GPT-OSS-120B生成的数据进行SFT\n- TESSY协作法：使用TESSY框架合成的数据\n\n结果清晰地展示了灾难性遗忘的严重性以及TESSY的有效性：\n- 教师独占法导致严重的性能下降，在多个基准测试上都出现倒退\n- TESSY方法在各项代码生成基准测试上均取得显著提升，有效缓解了灾难性遗忘\n\n### Qwen3-8B性能提升数据\n\n研究团队发布了专门针对Qwen3-8B优化的数据集`TESSY-Code-80K`，训练后的性能提升如下：\n\n| 基准测试 | 原始Qwen3-8B | TESSY训练后 | 提升幅度 |\n|---------|-------------|------------|---------|\n| LCB-V5 | 55.09% | 62.87% | ↑ 7.78% |\n| LCB-V6 | 49.58% | 55.43% | ↑ 5.85% |\n| LCB-Pro | 25.35% | 36.69% | ↑ 11.34% |\n| OJBench | 18.75% | 25.43% | ↑ 6.68% |\n\n值得注意的是，LCB-Pro基准测试的提升幅度高达11.34%，这充分说明了TESSY在处理复杂编程任务时的优势。\n\n## 开源贡献与使用\n\n研究团队已将相关资源开源，以促进社区进一步研究：\n\n### 数据集\n- TESSY-Code-80K：专为Qwen3-8B优化的代码生成训练集\n- 托管于Hugging Face平台\n\n### 代码实现\n- 基于vLLM构建的研究原型\n- 支持自定义边界预测器训练\n- 提供完整的运行脚本和示例\n\n### 使用方式\n\n用户需要准备：\n1. 教师模型和学生模型的API服务端点\n2. 根据硬件配置调整参数（张量并行度、GPU内存利用率等）\n3. 运行TESSY合成脚本\n\n`bash\nbash run_tessy.sh \\\n datas/examples.jsonl \\\n results/example_outputs.jsonl \\\n http://127.0.0.1:23333/v1/completions \\\n http://127.0.0.1:23334/v1/completions\n`\n\n## 未来发展方向\n\n研究团队正在积极探索以下改进方向：\n\n- 推理效率优化：提升数据生成的速度和资源利用率\n- 调度策略改进：更智能地分配教师和学生模型的生成任务\n- 批处理优化：提高大规模数据合成的吞吐量\n\n## 结语\n\nTESSY框架为解决推理模型微调中的灾难性遗忘问题提供了一个优雅而有效的方案。通过教师-学生协作的数据合成机制，它成功地在保持高质量推理的同时，确保了数据分布与学生模型的一致性。\n\n这一工作不仅对学术研究具有重要价值，也为工业界在实际部署中优化推理模型提供了可落地的解决方案。随着大语言模型在代码生成、数学推理等领域的应用日益广泛，TESSY所提出的协作训练范式有望成为行业标准实践。\n\n对于希望深入了解细节的读者，可以查阅arXiv上的论文（arXiv:2604.14164）以及GitHub上的开源实现。

章节 03

补充观点 1

TESSY：教师-学生协作框架解决推理模型微调中的灾难性遗忘问题\n\n背景与挑战\n\n在大语言模型领域，推理模型（如Qwen3）的训练对数据分布极为敏感。研究者们发现，直接使用强大的教师模型生成的数据进行监督微调（SFT）时，往往会遇到严重的灾难性遗忘问题——模型在目标任务上的表现不仅没有得到提升，反而会出现显著下降。\n\n这种现象在复杂推理任务中尤为明显。当学生模型试图学习教师模型生成的"离策略"（off-policy）数据时，由于数据分布与学生模型自身的生成模式不匹配，导致模型遗忘了原本掌握的能力。这一问题已成为制约推理模型微调效果的关键瓶颈。\n\nTESSY框架的核心思想\n\n上海人工智能实验室的研究团队提出了TESSY（Teacher–Student Cooperation Framework），一种创新的数据合成框架，专门用于生成与学生模型分布一致的"在策略"（on-policy）训练数据。\n\nTESSY的核心洞察在于：与其让教师模型完全独立生成训练样本，不如将生成过程解耦为两个互补的部分。\n\n双模型协作机制\n\nTESSY框架将数据生成任务分配给两个角色：\n\n- 教师模型：专注于生成推理令牌（reason tokens），即解决问题的核心逻辑步骤\n- 学生模型：负责生成风格令牌（style tokens），如思考过程中的停顿标记（"Hmm"、"Wait..."等）\n\n这种协作方式确保了两个关键目标的同时实现：\n\n1. 与学生分布对齐：合成的数据 tailor 到学生模型自身的生成模式，避免分布偏移\n2. 保持教师推理质量：充分利用教师模型的高级推理能力，不牺牲答案质量\n\n技术实现流程\n\nTESSY通过以下迭代协作步骤生成高质量的训练数据：\n\n第一步：预测推理边界\n\n系统首先识别给定问题中推理步骤与非推理内容之间的边界。这一步至关重要，因为它决定了哪些部分由教师模型生成，哪些部分由学生模型生成。\n\n研究团队为此训练了专门的边界预测器：\n- CoopReason/Boundary_Predictor_Teacher_Code：用于教师模型的边界预测\n- CoopReason/Boundary_Predictor_Student_Code：用于学生模型的边界预测\n\n第二步：交替生成\n\n教师模型和学生模型交替生成解决方案的不同部分。当遇到需要深度推理的段落时，教师模型接管；当涉及表达风格和思考痕迹时，学生模型参与。\n\n第三步：构建完整轨迹\n\n通过组合这些协作生成的片段，TESSY构建出完整的、高质量的推理轨迹。这些轨迹既保持了逻辑严谨性，又与目标学生模型的生成风格一致。\n\n实验结果与性能提升\n\n研究团队在代码生成任务上对TESSY进行了全面评估，结果令人印象深刻：\n\n对比实验\n\n实验对比了两种方法：\n- 教师独占法：直接使用GPT-OSS-120B生成的数据进行SFT\n- TESSY协作法：使用TESSY框架合成的数据\n\n结果清晰地展示了灾难性遗忘的严重性以及TESSY的有效性：\n- 教师独占法导致严重的性能下降，在多个基准测试上都出现倒退\n- TESSY方法在各项代码生成基准测试上均取得显著提升，有效缓解了灾难性遗忘\n\nQwen3-8B性能提升数据\n\n研究团队发布了专门针对Qwen3-8B优化的数据集TESSY-Code-80K，训练后的性能提升如下：\n\n| 基准测试 | 原始Qwen3-8B | TESSY训练后 | 提升幅度 |\n|---------|-------------|------------|---------|\n| LCB-V5 | 55.09% | 62.87% | ↑ 7.78% |\n| LCB-V6 | 49.58% | 55.43% | ↑ 5.85% |\n| LCB-Pro | 25.35% | 36.69% | ↑ 11.34% |\n| OJBench | 18.75% | 25.43% | ↑ 6.68% |\n\n值得注意的是，LCB-Pro基准测试的提升幅度高达11.34%，这充分说明了TESSY在处理复杂编程任务时的优势。\n\n开源贡献与使用\n\n研究团队已将相关资源开源，以促进社区进一步研究：\n\n数据集\n- TESSY-Code-80K：专为Qwen3-8B优化的代码生成训练集\n- 托管于Hugging Face平台\n\n代码实现\n- 基于vLLM构建的研究原型\n- 支持自定义边界预测器训练\n- 提供完整的运行脚本和示例\n\n使用方式\n\n用户需要准备：\n1. 教师模型和学生模型的API服务端点\n2. 根据硬件配置调整参数（张量并行度、GPU内存利用率等）\n3. 运行TESSY合成脚本\n\nbash\nbash run_tessy.sh \\\n datas/examples.jsonl \\\n results/example_outputs.jsonl \\\n http://127.0.0.1:23333/v1/completions \\\n http://127.0.0.1:23334/v1/completions\n\n\n未来发展方向\n\n研究团队正在积极探索以下改进方向：\n\n- 推理效率优化：提升数据生成的速度和资源利用率\n- 调度策略改进：更智能地分配教师和学生模型的生成任务\n- 批处理优化：提高大规模数据合成的吞吐量\n\n结语\n\nTESSY框架为解决推理模型微调中的灾难性遗忘问题提供了一个优雅而有效的方案。通过教师-学生协作的数据合成机制，它成功地在保持高质量推理的同时，确保了数据分布与学生模型的一致性。\n\n这一工作不仅对学术研究具有重要价值，也为工业界在实际部署中优化推理模型提供了可落地的解决方案。随着大语言模型在代码生成、数学推理等领域的应用日益广泛，TESSY所提出的协作训练范式有望成为行业标准实践。\n\n对于希望深入了解细节的读者，可以查阅arXiv上的论文（arXiv:2604.14164）以及GitHub上的开源实现。

TESSY：教师-学生协作框架解决推理模型微调中的灾难性遗忘问题

导读 / 主楼：TESSY：教师-学生协作框架解决推理模型微调中的灾难性遗忘问题

背景

补充观点 1

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎