正文

欧盟采购数据中的实体解析与生成式AI记忆审计：统一相似度框架的双重应用

一个统一的基于相似度的框架，用于欧盟采购数据中的近重复记录检测和生成式AI模型的记忆审计，结合了字符串相似度、结构化特征和语义嵌入技术。

实体解析生成式AI记忆审计TED数据相似度计算CTGANTVAE欧盟采购数据隐私记录链接

发布时间 2026/05/22 21:16最近活动 2026/05/22 21:20预计阅读 4 分钟

章节 01

导读 / 主楼：欧盟采购数据中的实体解析与生成式AI记忆审计：统一相似度框架的双重应用

一个统一的基于相似度的框架，用于欧盟采购数据中的近重复记录检测和生成式AI模型的记忆审计，结合了字符串相似度、结构化特征和语义嵌入技术。

章节 02

研究背景与动机

在数据科学领域，实体解析和生成式AI的隐私审计是两个看似独立但技术本质相通的重要问题。实体解析关注如何在海量数据中识别指向同一实体的重复记录，而生成式AI的记忆审计则关注模型是否在训练过程中"记住"了敏感数据。

本项目来自蒂尔堡大学数据科学与社会系的硕士论文研究，创造性地将这两个问题统一到同一个基于相似度的框架下。研究以欧盟电子招标日报(TED)的采购数据为实验对象，既解决了政府采购领域的实体重复检测难题，又为生成式AI的隐私合规审计提供了新思路。

章节 03

RQ1：实体解析问题

在欧盟公开的采购数据中，由于不同机构使用不同的命名规范、数据录入标准和时间节点，同一合同可能被记录为多条看似不同的记录。传统的精确匹配方法难以捕捉这些"近重复"的情况。

研究提出了一种混合分类器，整合多种相似度度量：

字符串相似度特征：Levenshtein距离用于捕捉拼写变体，Jaccard系数衡量词汇重叠，Jaro-Winkler算法则对前缀匹配给予更高权重
结构化特征：数值比率比较合同金额差异，CPV代码匹配验证采购类别一致性，国家代码匹配确认地理范围
语义嵌入：使用Sentence-BERT将文本描述转换为高维向量，捕捉语义层面的相似性

这种多维度特征融合的方法显著提高了近重复记录的识别准确率。

章节 04

RQ2：生成式AI记忆审计

生成式AI模型在表格数据上的应用日益广泛，但传统的审计方法主要依赖精确匹配，无法检测模型是否生成了与训练数据"足够相似"但不完全相同的记录。这种近重复记忆可能泄露敏感信息，却难以被现有工具发现。

研究将相同的相似度框架重新定位为审计指标，针对两种主流的表格数据生成模型进行测试：

CTGAN：基于条件生成对抗网络的表格数据合成方法
TVAE：表格变分自编码器，通过潜空间采样生成新记录

实验结果令人警醒：精确匹配审计完全未能发现的记忆问题，在相似度审计下暴露无遗。

章节 05

项目结构

代码库采用清晰的研究问题驱动组织方式：

rq1_entity_resolution/：实体解析完整流程，从数据预处理到模型评估
rq2_genai_audit/：生成式AI审计流程，涵盖训练、合成和审计三个阶段
disparate_impact/：分国家公平性分析，检测算法在不同欧盟成员国间的表现差异
eda/：探索性数据分析脚本

章节 06

RQ1实体解析流程

实体解析模块遵循标准的记录链接流程：

预处理阶段：清洗原始TED数据，标准化文本字段，处理缺失值
候选对生成：基于CPV（通用采购词汇）代码进行分块，将搜索空间从全量比较缩小到同类别记录
特征工程：计算字符串相似度和结构化特征，可选生成Sentence-BERT语义嵌入
合成数据注入：按照v3扰动配置文件注入已知的人工重复，用于训练和验证
模型训练：在标注的金标准数据上训练分类器
评估验证：在真实标注数据上评估模型性能，生成混淆矩阵进行分布内和分布外测试

章节 07

RQ2生成式AI审计流程

生成式AI审计模块设计了一套完整的评估体系：

基数缩减：对高基数类别变量进行预处理，使CTGAN和TVAE的训练在消费级硬件上可行
模型训练：CTGAN约需18分钟，TVAE仅需18秒即可完成训练
合成记录生成：使用训练好的模型生成与原始数据规模相当的合成数据集
记忆审计：同时运行精确匹配审计和基于相似度的近重复审计
分布保真度评估：使用SDV指标、Kolmogorov-Smirnov检验和总变差距离评估合成数据质量
指标汇总：整合RQ2的各项评估结果

章节 08

实验数据与可复现性

研究使用2023年TED合同授予公告数据集，该数据集可从欧盟开放数据门户免费获取，采用CC BY 4.0许可证。数据包含行政采购记录，不含个人身份信息。

代码库提供了完整的复现指南：

# 克隆仓库
git clone https://github.com/denizidilaygun/ted-duplicate-detection.git
cd ted-duplicate-detection

# 创建虚拟环境
python -m venv venv
source venv/bin/activate

# 安装依赖
pip install -r requirements.txt

环境要求Python 3.10或更高版本。用户需要单独从欧盟开放数据门户下载TED数据集。

欧盟采购数据中的实体解析与生成式AI记忆审计：统一相似度框架的双重应用

导读 / 主楼：欧盟采购数据中的实体解析与生成式AI记忆审计：统一相似度框架的双重应用

研究背景与动机

RQ1：实体解析问题

RQ2：生成式AI记忆审计

项目结构

RQ1实体解析流程

RQ2生成式AI审计流程

实验数据与可复现性

继续阅读

SignalCut：将AI搜索可见性缺口转化为视频营销活动的智能工具

图神经网络革新全球天气预报：从Graph Weather到多模型融合的开源实践

ExoVision：AI 驱动的系外行星探测与宜居性评估平台

Vertica专家技能：一站式企业级数据库迁移与优化指南