Zing 论坛

正文

SAS:基于拓扑数据分析的生成式AI幻觉检测开源框架

SAS(Symbiotic Autoprotection System)是一个开源API框架,专门用于检测生成式AI输出中的结构性幻觉。该项目由Gonzalo Emir Durante开发,结合了拓扑数据分析(TDA)、数值不变性检查和模块化检测探针,在2000对测试样本上达到了98.8%的准确率和100%的精确率。

生成式AI幻觉检测拓扑数据分析Durante常数AI安全开源框架FastAPI机器学习
发布时间 2026/04/30 07:07最近活动 2026/04/30 09:59预计阅读 3 分钟
SAS:基于拓扑数据分析的生成式AI幻觉检测开源框架
1

章节 01

导读 / 主楼:SAS:基于拓扑数据分析的生成式AI幻觉检测开源框架

SAS(Symbiotic Autoprotection System)是一个开源API框架,专门用于检测生成式AI输出中的结构性幻觉。该项目由Gonzalo Emir Durante开发,结合了拓扑数据分析(TDA)、数值不变性检查和模块化检测探针,在2000对测试样本上达到了98.8%的准确率和100%的精确率。

2

章节 02

背景:生成式AI的幻觉困境

生成式AI系统(如大语言模型)在近年来取得了惊人的进展,能够生成流畅、连贯的文本。然而,这些系统存在一个根本性问题:它们可能产生"结构性幻觉"——即表面流畅但深层逻辑不一致、数值错误或语义偏离输入内容的输出。

传统的相似度指标(如余弦相似度、BLEU分数)往往无法检测这类问题,因为幻觉内容可能保持表面流畅性,同时破坏深层语义一致性。例如,模型可能自信地声称"埃菲尔铁塔位于德国柏林",这句话语法正确、用词恰当,但在事实层面完全错误。

3

章节 03

SAS框架概述

SAS(Symbiotic Autoprotection System,共生自保护系统)是由Gonzalo Emir Durante开发的开源API框架,旨在解决这一挑战。该项目于2026年4月发布,采用GPL-3.0 + Durante不变性许可证,已在Zenodo注册(DOI: 10.5281/zenodo.19689077)。

SAS的核心理念是将幻觉检测视为"结构性一致性审计"问题,而非简单的相似度计算。框架评估生成响应是否在以下维度保持了与源文本或提示的一致性:

  • 语义结构完整性
  • 逻辑一致性
  • 数值准确性
  • 事实锚定信号
4

章节 04

Durante常数(κD = 0.56)

SAS引入了一个关键阈值参数:κD(Durante常数),其值为0.56。该常数作为框架中的关键一致性阈值,代表语义噪声降至结构一致性以下、意义足够稳定的临界点。

操作解释:

  • 当不变相似性指数(ISI)≥ κD时,判定为"结构一致"
  • 当ISI < κD时,判定为"可能的流形破裂/幻觉信号"
5

章节 05

拓扑数据分析(TDA)

SAS使用拓扑数据分析来比较语义结构。TDA能够捕捉数据的高维形状特征,识别语义流形的破裂点——即模型输出偏离输入语义结构的区域。这种方法超越了传统的词袋模型或向量相似度,能够检测更深层的语义断裂。

6

章节 06

不变相似性指数(ISI)

ISI是SAS的核心评分指标,结合TDA结果和数值不变性检查,量化源文本与生成响应之间的结构相似度。与软相似度不同,ISI设计为对结构性断裂敏感,对表面变化鲁棒。

7

章节 07

数值不变性守卫(NIG)

专门检测数值一致性。当模型输出涉及数字、日期、统计数据时,NIG模块验证这些数值是否与源信息一致,捕捉常见的"数字幻觉"问题。

8

章节 08

模块化检测探针(E9-E12)

SAS包含四个可独立启用的实验性检测模块:

E9 - 逻辑矛盾检测:识别内部逻辑反转或自相矛盾的陈述。例如,同时声称"所有天鹅都是白色的"和"存在黑天鹅"会被标记为逻辑矛盾。

E10 - 事实锚定检查:当本地知识源可用时,检测无支持的声明。该模块评估模型输出是否基于可验证的事实,还是属于"叙事性虚构"。

E11 - 时间不一致性检测:识别不兼容的时间序列。例如,声称某事件发生在其前提条件出现之前会被标记。

E12 - 主题漂移检测:检测无过渡信号的突然主题变化。当模型在回答中突然转向无关话题时触发。

这些模块作为独立惩罚因子运作,补充而非替代核心的ISI/TDA计算。