Zing 论坛

正文

SAS:基于拓扑数据分析的生成式AI幻觉检测开源框架

SAS(Symbiotic Autoprotection System)是一个开源API框架,专门用于检测生成式AI输出中的结构性幻觉。该项目由Gonzalo Emir Durante开发,结合了拓扑数据分析(TDA)、数值不变性检查和模块化检测探针,在2000对测试样本上达到了98.8%的准确率和100%的精确率。

生成式AI幻觉检测拓扑数据分析Durante常数AI安全开源框架FastAPI机器学习
发布时间 2026/04/30 07:07最近活动 2026/04/30 07:18预计阅读 5 分钟
SAS:基于拓扑数据分析的生成式AI幻觉检测开源框架
1

章节 01

导读 / 主楼:SAS:基于拓扑数据分析的生成式AI幻觉检测开源框架

背景:生成式AI的幻觉困境

生成式AI系统(如大语言模型)在近年来取得了惊人的进展,能够生成流畅、连贯的文本。然而,这些系统存在一个根本性问题:它们可能产生"结构性幻觉"——即表面流畅但深层逻辑不一致、数值错误或语义偏离输入内容的输出。

传统的相似度指标(如余弦相似度、BLEU分数)往往无法检测这类问题,因为幻觉内容可能保持表面流畅性,同时破坏深层语义一致性。例如,模型可能自信地声称"埃菲尔铁塔位于德国柏林",这句话语法正确、用词恰当,但在事实层面完全错误。

SAS框架概述

SAS(Symbiotic Autoprotection System,共生自保护系统)是由Gonzalo Emir Durante开发的开源API框架,旨在解决这一挑战。该项目于2026年4月发布,采用GPL-3.0 + Durante不变性许可证,已在Zenodo注册(DOI: 10.5281/zenodo.19689077)。

SAS的核心理念是将幻觉检测视为"结构性一致性审计"问题,而非简单的相似度计算。框架评估生成响应是否在以下维度保持了与源文本或提示的一致性:

  • 语义结构完整性
  • 逻辑一致性
  • 数值准确性
  • 事实锚定信号

核心技术机制

Durante常数(κD = 0.56)

SAS引入了一个关键阈值参数:κD(Durante常数),其值为0.56。该常数作为框架中的关键一致性阈值,代表语义噪声降至结构一致性以下、意义足够稳定的临界点。

操作解释:

  • 当不变相似性指数(ISI)≥ κD时,判定为"结构一致"
  • 当ISI < κD时,判定为"可能的流形破裂/幻觉信号"

拓扑数据分析(TDA)

SAS使用拓扑数据分析来比较语义结构。TDA能够捕捉数据的高维形状特征,识别语义流形的破裂点——即模型输出偏离输入语义结构的区域。这种方法超越了传统的词袋模型或向量相似度,能够检测更深层的语义断裂。

不变相似性指数(ISI)

ISI是SAS的核心评分指标,结合TDA结果和数值不变性检查,量化源文本与生成响应之间的结构相似度。与软相似度不同,ISI设计为对结构性断裂敏感,对表面变化鲁棒。

数值不变性守卫(NIG)

专门检测数值一致性。当模型输出涉及数字、日期、统计数据时,NIG模块验证这些数值是否与源信息一致,捕捉常见的"数字幻觉"问题。

模块化检测探针(E9-E12)

SAS包含四个可独立启用的实验性检测模块:

E9 - 逻辑矛盾检测:识别内部逻辑反转或自相矛盾的陈述。例如,同时声称"所有天鹅都是白色的"和"存在黑天鹅"会被标记为逻辑矛盾。

E10 - 事实锚定检查:当本地知识源可用时,检测无支持的声明。该模块评估模型输出是否基于可验证的事实,还是属于"叙事性虚构"。

E11 - 时间不一致性检测:识别不兼容的时间序列。例如,声称某事件发生在其前提条件出现之前会被标记。

E12 - 主题漂移检测:检测无过渡信号的突然主题变化。当模型在回答中突然转向无关话题时触发。

这些模块作为独立惩罚因子运作,补充而非替代核心的ISI/TDA计算。

基准测试结果

SAS在包含2000对样本的基准测试中表现优异:

指标 结果
准确率 98.80%
精确率 100.00%
召回率 97.60%
F1分数 98.79%

混淆矩阵显示:

  • 真阳性(TP):976(正确识别幻觉)
  • 假阳性(FP):0(无误判为幻觉)
  • 假阴性(FN):24(漏检幻觉)
  • 真阴性(TN):1000(正确识别正常文本)

值得注意的是,SAS在干净文本子集上实现了零假阳性,同时保持了对幻觉样本的高召回率。这一定位使SAS成为面向精确性的结构性幻觉检测器。

部署与使用

SAS提供两种使用方式:

托管API服务:官方参考API已部署于 https://sas-api.onrender.com,提供交互式FastAPI文档。服务分为三个层级:

  • 免费版:每日50次请求,适合开发和评估
  • 专业版:每月10,000次请求,49美元/月
  • 企业版:无限请求或定制套餐,SLA保证99.9%

自托管:用户可在本地或私有服务器部署SAS。项目提供Docker Compose配置和完整的Python环境设置指南。自托管版本完全遵循GPL-3.0许可证。

API调用示例

审计端点示例:

POST /v1/audit
{
  "source": "埃菲尔铁塔位于法国巴黎。",
  "response": "埃菲尔铁塔位于德国柏林。",
  "experimental": true
}

响应:

{
  "isi": 0.0,
  "kappa_d": 0.56,
  "detected_hallucination": true,
  "verdict": "MANIFOLD_RUPTURE",
  "fired_modules": ["E9 Logical Contradiction", "E10 Fact Grounding"]
}

局限性与注意事项

SAS团队明确指出了以下已知限制:

  1. 事实锚定依赖本地知识源:E10模块的效果取决于可用的本地知识库质量
  2. 主题漂移检测偏保守:为减少假阳性,该模块可能漏检某些边界案例
  3. 结果应视为技术证据:而非法律认证或绝对事实验证
  4. 生产部署需要标准安全加固:包括HTTPS、CORS限制、密钥轮换等
  5. 跨域性能可能变化:基准测试未覆盖的领域、语言和数据集上表现可能不同

意义与展望

SAS代表了一种新的幻觉检测范式:从软相似度转向结构性审计。这种方法有几个重要意义:

首先,它提供了可审计的技术证据。与黑盒模型的不确定性输出不同,SAS产生清晰的指标(ISI、κD阈值、触发模块),便于人工审核和调试。

其次,模块化的架构允许针对性部署。用户可根据应用场景(医疗、法律、新闻等)启用特定检测模块,平衡精确性和召回率。

最后,开源策略促进了社区协作。通过公开核心算法和基准数据,SAS邀请研究者验证、改进和扩展该方法。

随着生成式AI在关键领域的应用深化,像SAS这样的结构性一致性审计工具将成为保障AI可靠性的重要基础设施。