章节 01
导读 / 主楼:欧盟采购数据中的实体解析与生成式AI记忆审计:统一相似度框架的双重应用
一个统一的基于相似度的框架,用于欧盟采购数据中的近重复记录检测和生成式AI模型的记忆审计,结合了字符串相似度、结构化特征和语义嵌入技术。
正文
一个统一的基于相似度的框架,用于欧盟采购数据中的近重复记录检测和生成式AI模型的记忆审计,结合了字符串相似度、结构化特征和语义嵌入技术。
章节 01
一个统一的基于相似度的框架,用于欧盟采购数据中的近重复记录检测和生成式AI模型的记忆审计,结合了字符串相似度、结构化特征和语义嵌入技术。
章节 02
在数据科学领域,实体解析和生成式AI的隐私审计是两个看似独立但技术本质相通的重要问题。实体解析关注如何在海量数据中识别指向同一实体的重复记录,而生成式AI的记忆审计则关注模型是否在训练过程中"记住"了敏感数据。
本项目来自蒂尔堡大学数据科学与社会系的硕士论文研究,创造性地将这两个问题统一到同一个基于相似度的框架下。研究以欧盟电子招标日报(TED)的采购数据为实验对象,既解决了政府采购领域的实体重复检测难题,又为生成式AI的隐私合规审计提供了新思路。
章节 03
在欧盟公开的采购数据中,由于不同机构使用不同的命名规范、数据录入标准和时间节点,同一合同可能被记录为多条看似不同的记录。传统的精确匹配方法难以捕捉这些"近重复"的情况。
研究提出了一种混合分类器,整合多种相似度度量:
这种多维度特征融合的方法显著提高了近重复记录的识别准确率。
章节 04
生成式AI模型在表格数据上的应用日益广泛,但传统的审计方法主要依赖精确匹配,无法检测模型是否生成了与训练数据"足够相似"但不完全相同的记录。这种近重复记忆可能泄露敏感信息,却难以被现有工具发现。
研究将相同的相似度框架重新定位为审计指标,针对两种主流的表格数据生成模型进行测试:
实验结果令人警醒:精确匹配审计完全未能发现的记忆问题,在相似度审计下暴露无遗。
章节 05
代码库采用清晰的研究问题驱动组织方式:
章节 06
实体解析模块遵循标准的记录链接流程:
章节 07
生成式AI审计模块设计了一套完整的评估体系:
章节 08
研究使用2023年TED合同授予公告数据集,该数据集可从欧盟开放数据门户免费获取,采用CC BY 4.0许可证。数据包含行政采购记录,不含个人身份信息。
代码库提供了完整的复现指南:
# 克隆仓库
git clone https://github.com/denizidilaygun/ted-duplicate-detection.git
cd ted-duplicate-detection
# 创建虚拟环境
python -m venv venv
source venv/bin/activate
# 安装依赖
pip install -r requirements.txt
环境要求Python 3.10或更高版本。用户需要单独从欧盟开放数据门户下载TED数据集。