Zing 论坛

正文

欧盟采购数据中的实体解析与生成式AI记忆审计:统一相似度框架的双重应用

一个统一的基于相似度的框架,用于欧盟采购数据中的近重复记录检测和生成式AI模型的记忆审计,结合了字符串相似度、结构化特征和语义嵌入技术。

实体解析生成式AI记忆审计TED数据相似度计算CTGANTVAE欧盟采购数据隐私记录链接
发布时间 2026/05/22 21:16最近活动 2026/05/22 21:20预计阅读 4 分钟
欧盟采购数据中的实体解析与生成式AI记忆审计:统一相似度框架的双重应用
1

章节 01

导读 / 主楼:欧盟采购数据中的实体解析与生成式AI记忆审计:统一相似度框架的双重应用

一个统一的基于相似度的框架,用于欧盟采购数据中的近重复记录检测和生成式AI模型的记忆审计,结合了字符串相似度、结构化特征和语义嵌入技术。

2

章节 02

研究背景与动机

在数据科学领域,实体解析和生成式AI的隐私审计是两个看似独立但技术本质相通的重要问题。实体解析关注如何在海量数据中识别指向同一实体的重复记录,而生成式AI的记忆审计则关注模型是否在训练过程中"记住"了敏感数据。

本项目来自蒂尔堡大学数据科学与社会系的硕士论文研究,创造性地将这两个问题统一到同一个基于相似度的框架下。研究以欧盟电子招标日报(TED)的采购数据为实验对象,既解决了政府采购领域的实体重复检测难题,又为生成式AI的隐私合规审计提供了新思路。

3

章节 03

RQ1:实体解析问题

在欧盟公开的采购数据中,由于不同机构使用不同的命名规范、数据录入标准和时间节点,同一合同可能被记录为多条看似不同的记录。传统的精确匹配方法难以捕捉这些"近重复"的情况。

研究提出了一种混合分类器,整合多种相似度度量:

  • 字符串相似度特征:Levenshtein距离用于捕捉拼写变体,Jaccard系数衡量词汇重叠,Jaro-Winkler算法则对前缀匹配给予更高权重
  • 结构化特征:数值比率比较合同金额差异,CPV代码匹配验证采购类别一致性,国家代码匹配确认地理范围
  • 语义嵌入:使用Sentence-BERT将文本描述转换为高维向量,捕捉语义层面的相似性

这种多维度特征融合的方法显著提高了近重复记录的识别准确率。

4

章节 04

RQ2:生成式AI记忆审计

生成式AI模型在表格数据上的应用日益广泛,但传统的审计方法主要依赖精确匹配,无法检测模型是否生成了与训练数据"足够相似"但不完全相同的记录。这种近重复记忆可能泄露敏感信息,却难以被现有工具发现。

研究将相同的相似度框架重新定位为审计指标,针对两种主流的表格数据生成模型进行测试:

  • CTGAN:基于条件生成对抗网络的表格数据合成方法
  • TVAE:表格变分自编码器,通过潜空间采样生成新记录

实验结果令人警醒:精确匹配审计完全未能发现的记忆问题,在相似度审计下暴露无遗。

5

章节 05

项目结构

代码库采用清晰的研究问题驱动组织方式:

  • rq1_entity_resolution/:实体解析完整流程,从数据预处理到模型评估
  • rq2_genai_audit/:生成式AI审计流程,涵盖训练、合成和审计三个阶段
  • disparate_impact/:分国家公平性分析,检测算法在不同欧盟成员国间的表现差异
  • eda/:探索性数据分析脚本
6

章节 06

RQ1实体解析流程

实体解析模块遵循标准的记录链接流程:

  1. 预处理阶段:清洗原始TED数据,标准化文本字段,处理缺失值
  2. 候选对生成:基于CPV(通用采购词汇)代码进行分块,将搜索空间从全量比较缩小到同类别记录
  3. 特征工程:计算字符串相似度和结构化特征,可选生成Sentence-BERT语义嵌入
  4. 合成数据注入:按照v3扰动配置文件注入已知的人工重复,用于训练和验证
  5. 模型训练:在标注的金标准数据上训练分类器
  6. 评估验证:在真实标注数据上评估模型性能,生成混淆矩阵进行分布内和分布外测试
7

章节 07

RQ2生成式AI审计流程

生成式AI审计模块设计了一套完整的评估体系:

  1. 基数缩减:对高基数类别变量进行预处理,使CTGAN和TVAE的训练在消费级硬件上可行
  2. 模型训练:CTGAN约需18分钟,TVAE仅需18秒即可完成训练
  3. 合成记录生成:使用训练好的模型生成与原始数据规模相当的合成数据集
  4. 记忆审计:同时运行精确匹配审计和基于相似度的近重复审计
  5. 分布保真度评估:使用SDV指标、Kolmogorov-Smirnov检验和总变差距离评估合成数据质量
  6. 指标汇总:整合RQ2的各项评估结果
8

章节 08

实验数据与可复现性

研究使用2023年TED合同授予公告数据集,该数据集可从欧盟开放数据门户免费获取,采用CC BY 4.0许可证。数据包含行政采购记录,不含个人身份信息。

代码库提供了完整的复现指南:

# 克隆仓库
git clone https://github.com/denizidilaygun/ted-duplicate-detection.git
cd ted-duplicate-detection

# 创建虚拟环境
python -m venv venv
source venv/bin/activate

# 安装依赖
pip install -r requirements.txt

环境要求Python 3.10或更高版本。用户需要单独从欧盟开放数据门户下载TED数据集。