# Aegis：基于因果推断的LLM智能路由与幻觉检测网关

> Aegis是一个生产级LLM网关，通过复杂度分类器自动将提示路由到最经济的模型，并使用因果推断技术检测幻觉而无需真实标签。系统集成了语义缓存、多级风险检测和实时成本监控，为高 stakes 场景提供安全、经济的LLM调用方案。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-09T20:39:23.000Z
- 最近活动: 2026-04-09T20:51:51.634Z
- 热度: 161.8
- 关键词: LLM网关, 因果推断, 幻觉检测, 智能路由, 成本优化, 语义缓存, 生产系统, DoWhy, 安全网关
- 页面链接: https://www.zingnex.cn/forum/thread/aegis-llm
- Canonical: https://www.zingnex.cn/forum/thread/aegis-llm
- Markdown 来源: ingested_event

---

# Aegis：基于因果推断的LLM智能路由与幻觉检测网关

## 生产环境LLM应用的双重挑战

企业在生产环境中使用大型语言模型时，面临两个相互交织的难题。首先是成本浪费：简单的查询往往被路由到GPT-4o这样的高端模型，而实际上Llama 3.1（免费）或Gemini Flash（$0.075/1M tokens）就能给出同样质量的回答。其次是静默幻觉：LLM会产生自信、流畅但错误的答案，在医疗、法律、金融等高风险场景中，这可能导致严重后果。

Aegis项目正是为解决这两个问题而设计。它是一个端到端的生产系统，不仅实现了智能路由，更重要的是引入了因果推断技术来检测幻觉——而且不需要真实标签作为参照。

## 核心架构：不只是路由

市面上的路由方案（如OpenRouter、LiteLLM）已经相当成熟，到2026年这已成为商品化功能。Aegis的差异化价值在于其因果幻觉检测机制。

传统的事实核查方法需要知道"正确答案"才能判断模型输出是否准确，但在生产环境中，我们往往没有这样的参照。Aegis采用了一个巧妙的因果问题：如果仅改变问题的措辞，事实性声明是否会改变？

如果模型对同一问题的不同表述给出不同的答案，这就是一个因果信号——该声明并非基于知识，而是基于提示的表面特征。这在因果推断中称为do(X)干预。这种方法不需要标签、不需要真实答案、也不需要外部知识库。

## 五级路由与成本优化

Aegis实现了基于复杂度评分的五级模型路由：

| 级别 | 模型 | 每百万tokens成本 | 适用场景 |
|------|------|------------------|----------|
| 免费 | Llama 3.1 8B (本地Ollama) | $0.00 | 简单事实查询、对话 |
| 经济 | Gemini 1.5 Flash | $0.075 | 低-中等复杂度 |
| 标准 | GPT-4o-mini | $0.150 | 中等复杂度 |
| 优质 | Claude 3.5 Haiku | $0.250 | 中高复杂度、需要细致推理 |
| 高端 | GPT-4o | $2.500 | 复杂推理、高风险场景 |

复杂度分类器使用四因子加权评分：语义嵌入范数（30%）、文本结构得分（25%）、问题类型得分（25%）和领域关键词密度（20%）。评分范围0.0-1.0，自动路由到最经济的 capable 模型。

对于法律、医疗、金融领域，系统实施硬性网关：无论复杂度评分如何，一律强制使用GPT-4o，这一规则不可被分类器覆盖。

## 因果幻觉检测的三级体系

### 第一级：对冲短语检测（免费，全量运行）

系统扫描响应中的25种信心削弱短语，如"我不确定"、"我认为"、"可能是"、"据我所知"等。检测到3个或以上即标记为潜在幻觉（中等风险）。这种方法零成本，对所有提供商的所有请求都执行。

### 第三级：改写方差检测（条件触发）

当查询属于法律/医疗/金融领域，或复杂度评分超过0.7时，系统触发深度检测：

1. 使用GPT-4o-mini生成同一问题的两种不同表述
2. 并行向目标模型发送三个版本的问题（原始+两个改写）
3. 计算三个响应的嵌入向量平均余弦相似度
4. 方差 = 1 - 平均相似度

如果方差超过阈值θ=0.35，则标记为高风险幻觉。这个阈值不是随意设定的，而是通过DoWhy库离线校准，并经过安慰剂处理反驳测试确认其因果合理性。

### 风险级别合并

最终风险级别取领域风险和检测风险的较大值：法律/医疗领域天然为高风险，金融领域为中等风险；改写方差检测触发高风险，对冲短语检测触发中等风险。

## 语义缓存：零成本命中

Aegis实现了基于sentence-transformers/all-MiniLM-L6-v2的内存缓存。阈值设置为0.85（而非0.95，后者在实际中命中率低于1%）。缓存命中时响应时间约5毫秒，成本为零。

嵌入模型实例在缓存和幻觉检测器之间共享，避免了重复加载约90MB的模型权重。缓存随服务器重启重置（演示环境的设计选择）。

## 安全网关与防护机制

在路由之前，所有请求经过三重安全检查：

**PII扫描**：正则匹配邮箱、社保号（XXX-XX-XXXX格式）、电话号码等敏感信息模式。

**注入检测**：关键词列表包括"忽略之前的指令"、"越狱"、"system:"等已知攻击模式。

**领域硬性网关**：如前所述，法律/医疗/金融查询强制使用GPT-4o。

如果主要提供商不可用（如Ollama未运行），请求会自动降级到GPT-4o-mini，确保服务连续性。

## 实时仪表板与可观测性

Aegis提供实时更新的Web仪表板，展示：

- 相比全量使用GPT-4o的累计成本节省
- 各路由级别的模型分布
- 语义缓存命中率
- 风险标记（中等+高风险响应，包括幻觉检测）
- 平均延迟（排除缓存命中）

系统首次启动时预置50个真实感演示请求，让用户在发送任何实际提示前就能看到真实数据。

## 因果推断的离线校准

Aegis的θ=0.35阈值不是经验调参的结果，而是通过严格的因果推断流程确定的：

1. 生成1000个合成（提示、上下文、响应）元组
2. 使用Claude Haiku（不同模型家族，避免循环评判）评分响应质量
3. 使用DoWhy建立因果模型：context_relevance → response_quality（控制混杂因子：长度、领域、温度）
4. 执行反驳测试：安慰剂处理、随机共同原因
5. 确认θ=0.35具有因果合理性，而非统计过拟合

这种严谨的方法论是Aegis区别于简单启发式检测的关键。

## 部署与使用

Aegis采用Python 3.11+后端（FastAPI）和Node.js 18+前端。需要配置OpenAI、Anthropic、Google的API密钥，Ollama本地部署是可选的。

```bash
conda activate neu_work
cd backend
pip install -r requirements.txt
cp .env.example .env
# 配置API密钥
uvicorn main:app --reload

cd frontend
npm install
npm run dev
```

后端提供完整的OpenAPI文档（/docs端点），包含53个测试用例，运行约8秒，不调用真实API。

## 设计取舍与局限性

Aegis故意排除了跨模型共识（Tier 2）检测，因为它会使延迟翻倍而收益有限。第三级检测失败时（API错误、改写不足）会优雅降级到第一级结果，避免单点故障。

当前实现使用内存缓存，重启后丢失。对于生产部署，可能需要接入Redis等持久化缓存。因果检测的改写生成成本约为$0.00002，在高风险场景下这是可接受的保险费用。

## 总结

Aegis代表了LLM生产化应用的一个成熟范例：不仅关注功能实现，更重视成本控制、安全防护和可解释性。其因果推断方法的引入为幻觉检测提供了新的思路——不依赖难以获取的真实标签，而是从模型行为的一致性中推断可靠性。随着LLM在关键业务中的渗透，这类网关将成为基础设施的标准组件。
