正文

LARFT：弥合大语言模型长度认知与生成行为的鸿沟

LARFT通过长度感知强化微调技术，让大模型真正理解并执行长度约束指令，在长度控制任务上平均提升20.92分，同时保持通用能力几乎不变。

大语言模型长度控制强化学习指令遵循LLM微调认知-行为对齐

发布时间 2026/05/11 15:43最近活动 2026/05/11 15:47预计阅读 2 分钟

章节 01

【导读】LARFT：弥合大语言模型长度认知与生成行为的鸿沟

LARFT（Length-Aware Reinforcement Fine-Tuning）通过长度感知强化微调技术，解决大语言模型在长度控制任务中存在的“认知-行为鸿沟”问题。该方法让模型真正理解并执行长度约束指令，在长度控制任务上平均提升20.92分，同时保持通用能力几乎不变。

章节 02

背景：大模型的长度控制痛点与传统方法局限

大语言模型在复杂指令遵循任务上表现出色，但面对精确控制输出长度的需求时，常出现过度精简或冗长的问题，形成“认知-行为鸿沟”。传统方法通过外部信号或优化目标强制约束长度，却忽视模型缺乏对“长度”的内在认知能力这一根本问题。

章节 03

方法：LARFT的核心创新与技术架构

LARFT的核心创新是事后自认知任务（hindsight length awareness），让模型学会识别自身生成文本的实际长度，实现认知层面优化长度表征、行为层面精炼策略的双重目标。技术架构基于修改版verl框架，包含：1.统一损失函数（结合SFT损失与长度感知强化学习）；2.余弦调度策略动态调整学习率；3.自定义长度奖励函数；4.特定训练配置（如批大小128、学习率1e-6等）。

章节 04