正文

基于线性最优控制的LLM激活引导新方法

研究者发现大语言模型在层间动态上具有局部线性特性，据此提出基于线性二次调节器的闭环激活引导方法，在毒性控制、真实性调节等任务上超越现有基线。

激活引导线性二次调节器大语言模型对齐闭环控制Transformer模型安全推理时干预

发布时间 2026/04/21 11:09最近活动 2026/04/22 12:35预计阅读 1 分钟

章节 01

研究者发现大语言模型层间动态具有局部线性特性，据此提出基于线性二次调节器（LQR）的闭环激活引导方法，无需微调即可在推理阶段干预模型行为，在毒性控制、真实性调节等任务上超越现有基线，兼具理论保证与实用部署价值。

章节 02

背景：LLM对齐挑战与激活引导的局限

传统LLM对齐依赖RLHF等微调方法，成本高且难以灵活调整；激活引导作为推理时干预技术出现，但现有方法多为开环控制，缺乏反馈机制，易放大干预误差，效果受限。

章节 03

研究实证发现，尽管Transformer整体是非线性系统，但层与层之间的动态变化可被局部线性模型良好近似，这一特性允许借用经典控制理论工具操控模型内部动态。

章节 04

将LLM推理过程建模为线性时变系统，引入LQR框架：状态对应层激活向量，控制输入为激活干预量，目标为期望语义方向；利用层级雅可比矩阵计算反馈控制器实现闭环调整；还提出自适应语义设定点，可根据上下文动态调整目标状态。

章节 05

在毒性控制（降低有害性且保持流畅）、真实性调节（减少幻觉）、拒绝行为调控（平衡安全与有用性）、任意概念操控等任务中，LQR方法一致性超越现有激活引导基线。

章节 06

LQR方法提供设定点跟踪误差的理论界限；计算上无需离线训练，开销极小，可即插即用集成到现有推理流水线。

章节 07

该研究架起控制理论与深度学习的桥梁，揭示复杂AI系统的简洁数学结构；未来可扩展至多模态模型，探索更复杂自适应机制，扩展理论保证至更多场景。