章节 01
基于线性最优控制的LLM激活引导新方法
研究者发现大语言模型层间动态具有局部线性特性,据此提出基于线性二次调节器(LQR)的闭环激活引导方法,无需微调即可在推理阶段干预模型行为,在毒性控制、真实性调节等任务上超越现有基线,兼具理论保证与实用部署价值。
正文
研究者发现大语言模型在层间动态上具有局部线性特性,据此提出基于线性二次调节器的闭环激活引导方法,在毒性控制、真实性调节等任务上超越现有基线。
章节 01
研究者发现大语言模型层间动态具有局部线性特性,据此提出基于线性二次调节器(LQR)的闭环激活引导方法,无需微调即可在推理阶段干预模型行为,在毒性控制、真实性调节等任务上超越现有基线,兼具理论保证与实用部署价值。
章节 02
传统LLM对齐依赖RLHF等微调方法,成本高且难以灵活调整;激活引导作为推理时干预技术出现,但现有方法多为开环控制,缺乏反馈机制,易放大干预误差,效果受限。
章节 03
研究实证发现,尽管Transformer整体是非线性系统,但层与层之间的动态变化可被局部线性模型良好近似,这一特性允许借用经典控制理论工具操控模型内部动态。
章节 04
将LLM推理过程建模为线性时变系统,引入LQR框架:状态对应层激活向量,控制输入为激活干预量,目标为期望语义方向;利用层级雅可比矩阵计算反馈控制器实现闭环调整;还提出自适应语义设定点,可根据上下文动态调整目标状态。
章节 05
在毒性控制(降低有害性且保持流畅)、真实性调节(减少幻觉)、拒绝行为调控(平衡安全与有用性)、任意概念操控等任务中,LQR方法一致性超越现有激活引导基线。
章节 06
LQR方法提供设定点跟踪误差的理论界限;计算上无需离线训练,开销极小,可即插即用集成到现有推理流水线。
章节 07
该研究架起控制理论与深度学习的桥梁,揭示复杂AI系统的简洁数学结构;未来可扩展至多模态模型,探索更复杂自适应机制,扩展理论保证至更多场景。