Zing 论坛

正文

LARFT:弥合大语言模型长度认知与生成行为的鸿沟

LARFT通过长度感知强化微调技术,让大模型真正理解并执行长度约束指令,在长度控制任务上平均提升20.92分,同时保持通用能力几乎不变。

大语言模型长度控制强化学习指令遵循LLM微调认知-行为对齐
发布时间 2026/05/11 15:43最近活动 2026/05/11 15:47预计阅读 2 分钟
LARFT:弥合大语言模型长度认知与生成行为的鸿沟
1

章节 01

【导读】LARFT:弥合大语言模型长度认知与生成行为的鸿沟

LARFT(Length-Aware Reinforcement Fine-Tuning)通过长度感知强化微调技术,解决大语言模型在长度控制任务中存在的“认知-行为鸿沟”问题。该方法让模型真正理解并执行长度约束指令,在长度控制任务上平均提升20.92分,同时保持通用能力几乎不变。

2

章节 02

背景:大模型的长度控制痛点与传统方法局限

大语言模型在复杂指令遵循任务上表现出色,但面对精确控制输出长度的需求时,常出现过度精简或冗长的问题,形成“认知-行为鸿沟”。传统方法通过外部信号或优化目标强制约束长度,却忽视模型缺乏对“长度”的内在认知能力这一根本问题。

3

章节 03

方法:LARFT的核心创新与技术架构

LARFT的核心创新是事后自认知任务(hindsight length awareness),让模型学会识别自身生成文本的实际长度,实现认知层面优化长度表征、行为层面精炼策略的双重目标。技术架构基于修改版verl框架,包含:1.统一损失函数(结合SFT损失与长度感知强化学习);2.余弦调度策略动态调整学习率;3.自定义长度奖励函数;4.特定训练配置(如批大小128、学习率1e-6等)。

4

章节 04

实验证据:长度控制性能显著提升且通用能力保持

在4个基础模型上的实验显示,LARFT在三个长度指令遵循基准上平均提升+20.92分,显著超越现有基线。同时,在四个通用能力基准上仅下降-1.45分,实现了长度控制能力增强与通用能力几乎不变的“双赢”。

5

章节 05

实际应用:开源方案与适用场景

LARFT提供开源实现,包含完整训练流水线:支持快速生成样本或转换自定义数据集、灵活配置超参数、多卡训练(如8x A800)。适用于需要精确控制输出长度的场景,如摘要生成、社交媒体内容、学术写作辅助等。

6

章节 06

结论与展望:认知-行为对齐的启示与未来方向

LARFT的成功揭示:让模型理解任务本质(认知)比单纯优化行为更有效。这种“认知-行为对齐”思路可扩展到风格一致性、情感强度等其他生成属性控制。随着大模型应用深入,精细控制生成内容将更重要,LARFT为此提供技术参考。