Zing 论坛

正文

大模型隐私保护数据集:PII检测与提示词增强的开放资源

这是一个专为LLM应用设计的隐私感知提示词增强数据集,包含10000条标注样本,其中75%为合成生成数据,支持PII识别、分类和匿名化,为构建隐私保护型AI系统提供训练和评估基准。

PII检测隐私保护提示词增强合成数据LLM安全数据匿名化负责任AI
发布时间 2026/04/18 12:42最近活动 2026/04/18 12:56预计阅读 3 分钟
大模型隐私保护数据集:PII检测与提示词增强的开放资源
1

章节 01

导读 / 主楼:大模型隐私保护数据集:PII检测与提示词增强的开放资源

这是一个专为LLM应用设计的隐私感知提示词增强数据集,包含10000条标注样本,其中75%为合成生成数据,支持PII识别、分类和匿名化,为构建隐私保护型AI系统提供训练和评估基准。

2

章节 02

引言:大模型时代的隐私挑战

大语言模型(LLM)的广泛应用带来了前所未有的便利,同时也引发了严峻的隐私保护问题。用户在与AI系统交互时,往往会在提示词中无意泄露个人身份信息(Personally Identifiable Information, PII),如姓名、地址、电话号码、身份证号等敏感数据。这些PII一旦被模型记忆或在推理过程中暴露,可能导致严重的隐私泄露风险。

如何在保持模型实用性的同时有效识别和保护用户隐私,已成为负责任AI开发的核心议题。开源社区对此的回应之一,就是构建高质量、可复用的数据集,为隐私保护技术的研发和评估提供基准。

3

章节 03

数据集概述

该数据集专为LLM应用中的PII检测和隐私感知提示词增强而设计,具有以下核心特征:

4

章节 04

规模与构成

  • 总样本量:10,000条提示词样本
  • 合成数据比例:75%的样本为合成生成,确保数据多样性和隐私安全
  • 类别分布:5,000条需要匿名化(含PII),5,000条无需匿名化(干净数据)
  • 每类细分:每类包含2,000个分类样本,其中1,000条用于匿名化任务,1,000条作为干净参考提示词
5

章节 05

数据格式

数据集提供CSV和Excel两种格式,便于不同场景下的使用。每条记录包含以下字段:

字段名 描述
Original 原始用户提示词
Need Anonymization 是否需要匿名化(YES/NO)
Detect PII Values JSON格式的PII检测结果,包含类型和具体值
Improved Prompt 去除敏感信息后的改进提示词,保留原意
6

章节 06

合成数据驱动的隐私保护

数据集的一个显著特点是广泛使用合成数据(占总量的75%)。这一设计选择具有多重优势:

避免真实隐私泄露

使用合成数据彻底规避了使用真实用户数据带来的隐私风险,研究人员可以放心地共享和公开数据集,无需担心数据泄露问题。

支持公平和隐私保护型AI研究

合成数据作为公平和隐私保护型AI研究的关键推动因素,使研究者能够在不接触敏感真实数据的情况下开发和验证隐私保护技术。

数据多样性保障

通过精心设计的合成策略,数据集涵盖了多种PII类型和场景,确保模型训练后的泛化能力。

7

章节 07

双重任务支持

数据集的结构设计支持两类核心任务:

二分类任务(PII vs 非PII)

通过"Need Anonymization"字段,可以直接训练PII检测模型,判断输入提示词是否包含需要处理的敏感信息。

多类别匿名化分析

通过"Detect PII Values"字段中的JSON标注,支持细粒度的PII类型识别(如年龄、性别、地址、电话等),为多类别分类和序列标注任务提供监督信号。

8

章节 08

匿名化技术示例

数据集采用的匿名化技术包括:

  • 泛化(Generalization):将具体值替换为更宽泛的类别,如将"25岁"替换为"20-30岁"
  • 假名化(Pseudonymization):用假名替换真实标识符,保持数据结构但去除识别性
  • 掩码(Masking):用占位符(如[NAME]、[PHONE])替换敏感信息
  • 组合策略:根据PII类型和上下文灵活组合上述技术