章节 01
导读 / 主楼:大模型隐私保护数据集:PII检测与提示词增强的开放资源
这是一个专为LLM应用设计的隐私感知提示词增强数据集,包含10000条标注样本,其中75%为合成生成数据,支持PII识别、分类和匿名化,为构建隐私保护型AI系统提供训练和评估基准。
正文
这是一个专为LLM应用设计的隐私感知提示词增强数据集,包含10000条标注样本,其中75%为合成生成数据,支持PII识别、分类和匿名化,为构建隐私保护型AI系统提供训练和评估基准。
章节 01
这是一个专为LLM应用设计的隐私感知提示词增强数据集,包含10000条标注样本,其中75%为合成生成数据,支持PII识别、分类和匿名化,为构建隐私保护型AI系统提供训练和评估基准。
章节 02
大语言模型(LLM)的广泛应用带来了前所未有的便利,同时也引发了严峻的隐私保护问题。用户在与AI系统交互时,往往会在提示词中无意泄露个人身份信息(Personally Identifiable Information, PII),如姓名、地址、电话号码、身份证号等敏感数据。这些PII一旦被模型记忆或在推理过程中暴露,可能导致严重的隐私泄露风险。
如何在保持模型实用性的同时有效识别和保护用户隐私,已成为负责任AI开发的核心议题。开源社区对此的回应之一,就是构建高质量、可复用的数据集,为隐私保护技术的研发和评估提供基准。
章节 03
该数据集专为LLM应用中的PII检测和隐私感知提示词增强而设计,具有以下核心特征:
章节 04
章节 05
数据集提供CSV和Excel两种格式,便于不同场景下的使用。每条记录包含以下字段:
| 字段名 | 描述 |
|---|---|
| Original | 原始用户提示词 |
| Need Anonymization | 是否需要匿名化(YES/NO) |
| Detect PII Values | JSON格式的PII检测结果,包含类型和具体值 |
| Improved Prompt | 去除敏感信息后的改进提示词,保留原意 |
章节 06
数据集的一个显著特点是广泛使用合成数据(占总量的75%)。这一设计选择具有多重优势:
避免真实隐私泄露
使用合成数据彻底规避了使用真实用户数据带来的隐私风险,研究人员可以放心地共享和公开数据集,无需担心数据泄露问题。
支持公平和隐私保护型AI研究
合成数据作为公平和隐私保护型AI研究的关键推动因素,使研究者能够在不接触敏感真实数据的情况下开发和验证隐私保护技术。
数据多样性保障
通过精心设计的合成策略,数据集涵盖了多种PII类型和场景,确保模型训练后的泛化能力。
章节 07
数据集的结构设计支持两类核心任务:
二分类任务(PII vs 非PII)
通过"Need Anonymization"字段,可以直接训练PII检测模型,判断输入提示词是否包含需要处理的敏感信息。
多类别匿名化分析
通过"Detect PII Values"字段中的JSON标注,支持细粒度的PII类型识别(如年龄、性别、地址、电话等),为多类别分类和序列标注任务提供监督信号。
章节 08
数据集采用的匿名化技术包括: