# Arc Sentry：基于残差流几何分析的LLM提示注入检测系统

> 一款在模型生成响应前检测异常输入的白盒安全系统，通过Fisher-Rao几何距离分析残差流变化，实现零误报、零漏报的提示注入防御。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-16T23:10:40.000Z
- 最近活动: 2026-04-16T23:19:15.239Z
- 热度: 112.9
- 关键词: LLM安全, 提示注入, 对抗攻击, 残差流, Fisher-Rao几何, 白盒监控, 模型安全
- 页面链接: https://www.zingnex.cn/forum/thread/arc-sentry-llm
- Canonical: https://www.zingnex.cn/forum/thread/arc-sentry-llm
- Markdown 来源: ingested_event

---

# Arc Sentry：基于残差流几何分析的LLM提示注入检测系统\n\n在大语言模型的安全领域，提示注入（Prompt Injection）是最棘手的攻击向量之一。攻击者可以通过精心构造的输入，劫持模型的行为，使其偏离预期的任务目标。传统的防御手段往往依赖于输出监控、延迟检测或API层信号，但这些方法都存在一个根本缺陷：**它们只能在损害发生后才能发现**。\n\n**Arc Sentry** 采用了一种截然不同的思路：在模型调用 `generate()` 之前，就通过分析残差流（residual stream）的几何特性，识别并阻断异常输入。\n\n## 核心创新：生成前的白盒检测\n\n与标准监控工具不同，Arc Sentry 是一个**白盒预生成行为护栏**。它直接钩入模型的残差流，在生成响应之前就完成检测。如果被标记为异常，`generate()` 函数永远不会被调用。\n\n这种设计带来了几个显著优势：\n\n- **零延迟开销**：检测发生在推理之前，不增加响应时间\n- **架构无关**：基于几何分析而非特定模型模式\n- **无配置部署**：仅需10个warmup提示，无需标注数据\n\n## 检测机制的三层架构\n\nArc Sentry 采用了三层互补的检测机制：\n\n### 第一层：短语检测（Phrase Detection）\n\n这是最轻量级的检测层，通过识别提示中明确的注入语言模式来捕获攻击。它的特点是零延迟、架构无关，适合捕获显式的注入尝试。\n\n### 第二层：Fisher-Rao几何检测\n\n这是系统的核心创新。Arc Sentry 分析残差流在最佳层的delta变化（Δh = h[L] − h[L-1]），计算其与warmup基准质心的Fisher-Rao测地距离：\n\n```\nd(u,v) = arccos(u·v)\n```\n\n其中 u 和 v 是L2归一化后的残差流向量。Fisher-Rao距离是单位超球面上的几何正确度量，与余弦距离有本质区别。\n\n如果距离超过校准期间设定的阈值，输入被阻断。关键是：**这个阈值来自探针分离的统计特性，而非人工调参**。\n\n### 第三层：会话稳定性监控 D(t)\n\n基于Nine 2026b提出的稳定性标量，系统监控滚动请求历史，捕获渐进式注入攻击——这类攻击在单请求检测下是不可见的。\n\n## 实验验证：零误报、零漏报\n\n在585个提示的基准测试中（涵盖Mistral 7B、Qwen 2.5 7B、Llama 3.1 8B三个架构），Arc Sentry 实现了：\n\n| 模型 | 架构 | 误报率 | 检出率 | 测试提示数 |\n|------|------|--------|--------|-----------|\n| Mistral 7B Instruct v0.2 | Mistral | 0% | 100% | 195 |\n| Qwen 2.5 7B Instruct | Qwen | 0% | 100% | 195 |\n| Llama 3.1 8B Instruct | Llama | 0% | 100% | 195 |\n\n测试设计包括两个会话：\n- **会话1**：80个正常提示（客户支持、通用知识、技术支持、医疗/法律/金融咨询）\n- **会话2**：115个注入提示，覆盖10类攻击：直接注入、间接注入、角色劫持、经典越狱、社会工程、内容中的指令注入、权威声明、哲学操纵、多轮风格攻击、编码混淆、煤气灯操纵\n\n## 行为定位的科学发现\n\nArc Sentry 的一个有趣发现是：不同行为在模型不同深度层呈现局部化特征，而非均匀分布：\n\n- **注入攻击（控制劫持）**：约93%深度层\n- **拒绝漂移（策略偏移）**：约93%深度层\n- **冗长度漂移（风格/格式）**：约64%深度层\n\n系统在校准期间自动识别每个模型最具信息量的层，无需人工干预。\n\n## 理论基础：Fisher流形几何\n\nArc Sentry 的理论基础建立在二阶Fisher流形 H² × H² 上，其Ricci标量 R = −4。系统在Landauer阈值 τ* = √(3/2) ≈ 1.2247 处发生相变，这一阈值将行为漂移的几何解释与信息论基础联系起来。\n\n该框架甚至做出了一些惊人的盲预测：\n- 强耦合常数 αs(MZ) = 0.1171，与PDG值 0.1179 ± 0.0010 相差仅0.8个标准差（无拟合）\n- 从流形曲率推导出精细结构常数至8位有效数字\n\n## 使用示例\n\n部署Arc Sentry非常简洁：\n\n```python\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\nfrom bendex.whitebox import ArcSentry\nimport torch\n\nmodel = AutoModelForCausalLM.from_pretrained(\n    \"meta-llama/Llama-3.1-8B-Instruct\",\n    dtype=torch.float16, device_map=\"auto\"\n)\ntokenizer = AutoTokenizer.from_pretrained(\"meta-llama/Llama-3.1-8B-Instruct\")\n\nsentry = ArcSentry(model, tokenizer)\nsentry.calibrate(warmup_prompts)  # 仅需10个warmup提示\n\nresponse, result = sentry.observe_and_block(user_prompt)\nif result[\"blocked\"]:\n    pass  # model.generate() 从未被调用\nelse:\n    print(result[\"snr\"])  # 相对于τ*的信噪比\n```\n\n## 适用场景与限制\n\nArc Sentry 最适合**单领域部署**：客户支持机器人、企业Copilot、内部工具、固定用例API。warmup基准应反映部署的正常流量。\n\n对于跨领域的通用检测，需要更大的warmup数据集或领域路由机制。\n\n对于闭源模型（GPT-4、Claude、Gemini），Arc Sentry提供基于代理的版本，无需模型访问权限即可部署监控层。\n\n## 总结\n\nArc Sentry 代表了LLM安全防御的新范式：从"事后检测"转向"事前阻断"，从"黑盒规则"转向"白盒几何分析"。其零误报、零漏报的实验结果，以及优雅的数学基础，使其成为生产环境中提示注入防御的有力候选。
