Zing 论坛

正文

Aegis:基于因果推断的LLM智能路由与幻觉检测网关

Aegis是一个生产级LLM网关,通过复杂度分类器自动将提示路由到最经济的模型,并使用因果推断技术检测幻觉而无需真实标签。系统集成了语义缓存、多级风险检测和实时成本监控,为高 stakes 场景提供安全、经济的LLM调用方案。

LLM网关因果推断幻觉检测智能路由成本优化语义缓存生产系统DoWhy安全网关
发布时间 2026/04/10 04:39最近活动 2026/04/10 04:51预计阅读 3 分钟
Aegis:基于因果推断的LLM智能路由与幻觉检测网关
1

章节 01

导读 / 主楼:Aegis:基于因果推断的LLM智能路由与幻觉检测网关

Aegis是一个生产级LLM网关,通过复杂度分类器自动将提示路由到最经济的模型,并使用因果推断技术检测幻觉而无需真实标签。系统集成了语义缓存、多级风险检测和实时成本监控,为高 stakes 场景提供安全、经济的LLM调用方案。

2

章节 02

生产环境LLM应用的双重挑战

企业在生产环境中使用大型语言模型时,面临两个相互交织的难题。首先是成本浪费:简单的查询往往被路由到GPT-4o这样的高端模型,而实际上Llama 3.1(免费)或Gemini Flash($0.075/1M tokens)就能给出同样质量的回答。其次是静默幻觉:LLM会产生自信、流畅但错误的答案,在医疗、法律、金融等高风险场景中,这可能导致严重后果。

Aegis项目正是为解决这两个问题而设计。它是一个端到端的生产系统,不仅实现了智能路由,更重要的是引入了因果推断技术来检测幻觉——而且不需要真实标签作为参照。

3

章节 03

核心架构:不只是路由

市面上的路由方案(如OpenRouter、LiteLLM)已经相当成熟,到2026年这已成为商品化功能。Aegis的差异化价值在于其因果幻觉检测机制。

传统的事实核查方法需要知道"正确答案"才能判断模型输出是否准确,但在生产环境中,我们往往没有这样的参照。Aegis采用了一个巧妙的因果问题:如果仅改变问题的措辞,事实性声明是否会改变?

如果模型对同一问题的不同表述给出不同的答案,这就是一个因果信号——该声明并非基于知识,而是基于提示的表面特征。这在因果推断中称为do(X)干预。这种方法不需要标签、不需要真实答案、也不需要外部知识库。

4

章节 04

五级路由与成本优化

Aegis实现了基于复杂度评分的五级模型路由:

级别 模型 每百万tokens成本 适用场景
免费 Llama 3.1 8B (本地Ollama) $0.00 简单事实查询、对话
经济 Gemini 1.5 Flash $0.075 低-中等复杂度
标准 GPT-4o-mini $0.150 中等复杂度
优质 Claude 3.5 Haiku $0.250 中高复杂度、需要细致推理
高端 GPT-4o $2.500 复杂推理、高风险场景

复杂度分类器使用四因子加权评分:语义嵌入范数(30%)、文本结构得分(25%)、问题类型得分(25%)和领域关键词密度(20%)。评分范围0.0-1.0,自动路由到最经济的 capable 模型。

对于法律、医疗、金融领域,系统实施硬性网关:无论复杂度评分如何,一律强制使用GPT-4o,这一规则不可被分类器覆盖。

5

章节 05

第一级:对冲短语检测(免费,全量运行)

系统扫描响应中的25种信心削弱短语,如"我不确定"、"我认为"、"可能是"、"据我所知"等。检测到3个或以上即标记为潜在幻觉(中等风险)。这种方法零成本,对所有提供商的所有请求都执行。

6

章节 06

第三级:改写方差检测(条件触发)

当查询属于法律/医疗/金融领域,或复杂度评分超过0.7时,系统触发深度检测:

  1. 使用GPT-4o-mini生成同一问题的两种不同表述
  2. 并行向目标模型发送三个版本的问题(原始+两个改写)
  3. 计算三个响应的嵌入向量平均余弦相似度
  4. 方差 = 1 - 平均相似度

如果方差超过阈值θ=0.35,则标记为高风险幻觉。这个阈值不是随意设定的,而是通过DoWhy库离线校准,并经过安慰剂处理反驳测试确认其因果合理性。

7

章节 07

风险级别合并

最终风险级别取领域风险和检测风险的较大值:法律/医疗领域天然为高风险,金融领域为中等风险;改写方差检测触发高风险,对冲短语检测触发中等风险。

8

章节 08

语义缓存:零成本命中

Aegis实现了基于sentence-transformers/all-MiniLM-L6-v2的内存缓存。阈值设置为0.85(而非0.95,后者在实际中命中率低于1%)。缓存命中时响应时间约5毫秒,成本为零。

嵌入模型实例在缓存和幻觉检测器之间共享,避免了重复加载约90MB的模型权重。缓存随服务器重启重置(演示环境的设计选择)。