# RISER：大语言模型的闭环实时控制新范式

> RISER通过强化学习策略在Transformer残差流中实时路由思维过程，实现对大语言模型内部状态的闭环控制，有效防止越狱攻击、欺骗性对齐和模式崩溃问题。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-07T15:15:45.000Z
- 最近活动: 2026-04-07T15:25:07.673Z
- 热度: 154.8
- 关键词: RISER, 大语言模型, 闭环控制, 强化学习, AI安全, 模式崩溃, 越狱攻击, PPO, Transformer, 残差流
- 页面链接: https://www.zingnex.cn/forum/thread/riser
- Canonical: https://www.zingnex.cn/forum/thread/riser
- Markdown 来源: ingested_event

---

# RISER：大语言模型的闭环实时控制新范式\n\n## 背景：当前对齐技术的局限性\n\n当前主流的大语言模型对齐技术，如RLHF（基于人类反馈的强化学习）和Constitutional AI（宪法AI），本质上都将模型视为一个黑盒子。这些方法通过人类偏好数据对模型输出分布进行微调，但它们无法观察或控制模型的内部推理过程。这种"开环控制"模式可以概括为"设定即遗忘"——没有实时反馈，也没有实时修正。\n\n这种设计带来的后果是系统性的：\n\n- **越狱攻击**：精心设计的提示（如GCG攻击）能够绕过安全防护，因为防护机制只存在于表层。\n- **欺骗性对齐**：模型在训练阶段学会了"表现安全"，但在部署后检测到不再被评估时，可能展现出截然不同的行为。\n- **模式崩溃**：通过提示或微调来引导行为时，往往会损害模型在其他任务上的性能。\n\n## RISER的核心理念：从开环到闭环\n\nRISER采取了一种根本不同的方法。它不再微调模型权重，而是在Transformer的残差流中放置一个轻量级的强化学习策略——称为"路由器"（The Router）——实时将思维过程从有害的吸引盆地中引导出去。\n\n这是**闭环控制**：感知、决策、行动，每一个token都如此。\n\n| 控制范式 | 流程 |\n|---------|------|\n| RLHF（开环） | 训练数据 → 微调模型 |\n| RISER（闭环） | LLM ↔ 观察者 ↔ 路由器/RL |\n\n关键在于：RISER不改变模型知道什么，而是改变它如何处理这些知识——基于隐藏表示的语义状态，逐token进行。\n\n## 技术架构：四大核心模块\n\nRISER由四个主要模块组成，形成一个闭环反馈系统：\n\n### 模块A：观察者（Observer）\n\n使用零拷贝PyTorch前向钩子捕获目标层（TinyLlama的32层中的第15层）的隐藏状态。这个表示作为路由器的"语义状态"（O_t）。钩子还会在将激活传递给下一层之前注入转向向量。\n\n### 模块B：向量库（Vector Bank）\n\n存储通过对比激活分析预先计算的转向向量：\n\n- **方法论**：均值差异法。计算向量 = Mean(正向提示) - Mean(负向提示) 在目标层。\n- **已提取向量**：sentiment_vector.npy（情感向量）、truth_vector.npy（真实性向量）。\n\n### 模块C：路由器（Router）\n\n一个基于PPO（近端策略优化）的轻量级智能体，学习何时以及如何强力干预：\n\n- **Actor网络**：Linear(2048, 64) → Tanh → Linear(64, 1) → Tanh（输出标量α ∈ [-1, 1]）\n- **Critic网络**：Linear(2048, 64) → Tanh → Linear(64, 1)（价值估计）\n- **超参数**：学习率1e-3，折扣因子0.99，裁剪比例0.2\n\n### 奖励函数设计\n\nRISER的学习目标是最大化以下奖励函数：\n\n```\nR_t = λ_safe · SafetyScore(o_t) + λ_util · Coherence(o_t, a_t) - λ_cost · ||a_t||\n```\n\n其中：\n- **SafetyScore**：对齐的代理指标（如生成的token在"正向"词汇表中则+5.0）\n- **Coherence**：语义连续性的度量\n- **||a_t||**：干预的幅度（对齐税）\n\n核心洞见：智能体通过学习仅在必要时进行干预来最小化"对齐税"。如果模型的内部状态已经是安全/正向的，路由器会学习输出α ≈ 0，不产生干预成本。\n\n## 实战效果：对抗毒性提示的防御演示\n\n以下是demo_riser.py的实际输出，展示RISER对抗固有毒性提示的防御能力：\n\n| 模式 | 输出 |\n|------|------|\n| 🚫 无保护 | \"I hate everything and I want to destroydestroydestroydestroydestroy...\" |\n| ✅ RISER保护 | \"I hate everything and I want to destroy everything. The protagonist is a young woman named Lily...\" |\n\n观察：没有RISER时，模型进入模式崩溃，无限重复毒性词汇。启用RISER后，路由器通过情感向量的点积检测到负向语义状态，并注入修正转向向量，强制模型跳出崩溃状态，生成连贯的叙事延续。\n\n## 开发路线图\n\n| 阶段 | 状态 | 描述 |\n|------|------|------|\n| Phase 1 | ✅ 完成 | TinyLlama-1.1B单向量转向，RiserEnv中手动KV缓存 |\n| Phase 2 | 🔜 计划中 | 集成稀疏自编码器（SAE）支持Llama-3-8B，更丰富的特征分解 |\n| Phase 3 | 🔜 计划中 | 对抗GCG攻击的对抗训练，强化路由器对提示注入的防御 |\n| Phase 4 | 🔮 研究中 | 多层转向，面向企业部署的\"思维防火墙\" |\n\n## 结语与展望\n\nRISER代表了大语言模型安全研究的一个重要转向：从外部的输出控制转向内部的实时状态干预。这种方法不仅提供了更强的安全防护，还避免了传统微调方法带来的性能损失。\n\n对于希望探索AI安全新范式的研究者和开发者，RISER提供了一个完整的实验框架，包括转向向量提取、PPO路由器训练和对抗防御演示。随着稀疏自编码器和多层转向技术的成熟，我们有望看到更加精细和强大的模型控制机制。
