章节 01
导读 / 主楼:SAS:基于拓扑数据分析的生成式AI幻觉检测开源框架
背景:生成式AI的幻觉困境
生成式AI系统(如大语言模型)在近年来取得了惊人的进展,能够生成流畅、连贯的文本。然而,这些系统存在一个根本性问题:它们可能产生"结构性幻觉"——即表面流畅但深层逻辑不一致、数值错误或语义偏离输入内容的输出。
传统的相似度指标(如余弦相似度、BLEU分数)往往无法检测这类问题,因为幻觉内容可能保持表面流畅性,同时破坏深层语义一致性。例如,模型可能自信地声称"埃菲尔铁塔位于德国柏林",这句话语法正确、用词恰当,但在事实层面完全错误。
SAS框架概述
SAS(Symbiotic Autoprotection System,共生自保护系统)是由Gonzalo Emir Durante开发的开源API框架,旨在解决这一挑战。该项目于2026年4月发布,采用GPL-3.0 + Durante不变性许可证,已在Zenodo注册(DOI: 10.5281/zenodo.19689077)。
SAS的核心理念是将幻觉检测视为"结构性一致性审计"问题,而非简单的相似度计算。框架评估生成响应是否在以下维度保持了与源文本或提示的一致性:
- 语义结构完整性
- 逻辑一致性
- 数值准确性
- 事实锚定信号
核心技术机制
Durante常数(κD = 0.56)
SAS引入了一个关键阈值参数:κD(Durante常数),其值为0.56。该常数作为框架中的关键一致性阈值,代表语义噪声降至结构一致性以下、意义足够稳定的临界点。
操作解释:
- 当不变相似性指数(ISI)≥ κD时,判定为"结构一致"
- 当ISI < κD时,判定为"可能的流形破裂/幻觉信号"
拓扑数据分析(TDA)
SAS使用拓扑数据分析来比较语义结构。TDA能够捕捉数据的高维形状特征,识别语义流形的破裂点——即模型输出偏离输入语义结构的区域。这种方法超越了传统的词袋模型或向量相似度,能够检测更深层的语义断裂。
不变相似性指数(ISI)
ISI是SAS的核心评分指标,结合TDA结果和数值不变性检查,量化源文本与生成响应之间的结构相似度。与软相似度不同,ISI设计为对结构性断裂敏感,对表面变化鲁棒。
数值不变性守卫(NIG)
专门检测数值一致性。当模型输出涉及数字、日期、统计数据时,NIG模块验证这些数值是否与源信息一致,捕捉常见的"数字幻觉"问题。
模块化检测探针(E9-E12)
SAS包含四个可独立启用的实验性检测模块:
E9 - 逻辑矛盾检测:识别内部逻辑反转或自相矛盾的陈述。例如,同时声称"所有天鹅都是白色的"和"存在黑天鹅"会被标记为逻辑矛盾。
E10 - 事实锚定检查:当本地知识源可用时,检测无支持的声明。该模块评估模型输出是否基于可验证的事实,还是属于"叙事性虚构"。
E11 - 时间不一致性检测:识别不兼容的时间序列。例如,声称某事件发生在其前提条件出现之前会被标记。
E12 - 主题漂移检测:检测无过渡信号的突然主题变化。当模型在回答中突然转向无关话题时触发。
这些模块作为独立惩罚因子运作,补充而非替代核心的ISI/TDA计算。
基准测试结果
SAS在包含2000对样本的基准测试中表现优异:
| 指标 | 结果 |
|---|---|
| 准确率 | 98.80% |
| 精确率 | 100.00% |
| 召回率 | 97.60% |
| F1分数 | 98.79% |
混淆矩阵显示:
- 真阳性(TP):976(正确识别幻觉)
- 假阳性(FP):0(无误判为幻觉)
- 假阴性(FN):24(漏检幻觉)
- 真阴性(TN):1000(正确识别正常文本)
值得注意的是,SAS在干净文本子集上实现了零假阳性,同时保持了对幻觉样本的高召回率。这一定位使SAS成为面向精确性的结构性幻觉检测器。
部署与使用
SAS提供两种使用方式:
托管API服务:官方参考API已部署于 https://sas-api.onrender.com,提供交互式FastAPI文档。服务分为三个层级:
- 免费版:每日50次请求,适合开发和评估
- 专业版:每月10,000次请求,49美元/月
- 企业版:无限请求或定制套餐,SLA保证99.9%
自托管:用户可在本地或私有服务器部署SAS。项目提供Docker Compose配置和完整的Python环境设置指南。自托管版本完全遵循GPL-3.0许可证。
API调用示例
审计端点示例:
POST /v1/audit
{
"source": "埃菲尔铁塔位于法国巴黎。",
"response": "埃菲尔铁塔位于德国柏林。",
"experimental": true
}
响应:
{
"isi": 0.0,
"kappa_d": 0.56,
"detected_hallucination": true,
"verdict": "MANIFOLD_RUPTURE",
"fired_modules": ["E9 Logical Contradiction", "E10 Fact Grounding"]
}
局限性与注意事项
SAS团队明确指出了以下已知限制:
- 事实锚定依赖本地知识源:E10模块的效果取决于可用的本地知识库质量
- 主题漂移检测偏保守:为减少假阳性,该模块可能漏检某些边界案例
- 结果应视为技术证据:而非法律认证或绝对事实验证
- 生产部署需要标准安全加固:包括HTTPS、CORS限制、密钥轮换等
- 跨域性能可能变化:基准测试未覆盖的领域、语言和数据集上表现可能不同
意义与展望
SAS代表了一种新的幻觉检测范式:从软相似度转向结构性审计。这种方法有几个重要意义:
首先,它提供了可审计的技术证据。与黑盒模型的不确定性输出不同,SAS产生清晰的指标(ISI、κD阈值、触发模块),便于人工审核和调试。
其次,模块化的架构允许针对性部署。用户可根据应用场景(医疗、法律、新闻等)启用特定检测模块,平衡精确性和召回率。
最后,开源策略促进了社区协作。通过公开核心算法和基准数据,SAS邀请研究者验证、改进和扩展该方法。
随着生成式AI在关键领域的应用深化,像SAS这样的结构性一致性审计工具将成为保障AI可靠性的重要基础设施。