章节 01
【导读】LARFT:弥合大语言模型长度认知与生成行为的鸿沟
LARFT(Length-Aware Reinforcement Fine-Tuning)通过长度感知强化微调技术,解决大语言模型在长度控制任务中存在的“认知-行为鸿沟”问题。该方法让模型真正理解并执行长度约束指令,在长度控制任务上平均提升20.92分,同时保持通用能力几乎不变。
正文
LARFT通过长度感知强化微调技术,让大模型真正理解并执行长度约束指令,在长度控制任务上平均提升20.92分,同时保持通用能力几乎不变。
章节 01
LARFT(Length-Aware Reinforcement Fine-Tuning)通过长度感知强化微调技术,解决大语言模型在长度控制任务中存在的“认知-行为鸿沟”问题。该方法让模型真正理解并执行长度约束指令,在长度控制任务上平均提升20.92分,同时保持通用能力几乎不变。
章节 02
大语言模型在复杂指令遵循任务上表现出色,但面对精确控制输出长度的需求时,常出现过度精简或冗长的问题,形成“认知-行为鸿沟”。传统方法通过外部信号或优化目标强制约束长度,却忽视模型缺乏对“长度”的内在认知能力这一根本问题。
章节 03
LARFT的核心创新是事后自认知任务(hindsight length awareness),让模型学会识别自身生成文本的实际长度,实现认知层面优化长度表征、行为层面精炼策略的双重目标。技术架构基于修改版verl框架,包含:1.统一损失函数(结合SFT损失与长度感知强化学习);2.余弦调度策略动态调整学习率;3.自定义长度奖励函数;4.特定训练配置(如批大小128、学习率1e-6等)。
章节 04
在4个基础模型上的实验显示,LARFT在三个长度指令遵循基准上平均提升+20.92分,显著超越现有基线。同时,在四个通用能力基准上仅下降-1.45分,实现了长度控制能力增强与通用能力几乎不变的“双赢”。
章节 05
LARFT提供开源实现,包含完整训练流水线:支持快速生成样本或转换自定义数据集、灵活配置超参数、多卡训练(如8x A800)。适用于需要精确控制输出长度的场景,如摘要生成、社交媒体内容、学术写作辅助等。
章节 06
LARFT的成功揭示:让模型理解任务本质(认知)比单纯优化行为更有效。这种“认知-行为对齐”思路可扩展到风格一致性、情感强度等其他生成属性控制。随着大模型应用深入,精细控制生成内容将更重要,LARFT为此提供技术参考。
章节 07