章节 01
导读:PII数据脱敏双轨方案对比实战
本文介绍了一个完整的PII检测与脱敏系统,对比了微调BERT模型与零样本LLM提示工程两种技术路线,展示如何在实际场景中实现高精度姓名和邮箱地址识别与脱敏处理,为PII脱敏提供工程实践参考。
正文
本文介绍了一个完整的个人身份信息(PII)检测与脱敏系统,通过对比微调BERT模型与零样本LLM提示工程两种技术路线,展示了如何在实际场景中实现高精度的姓名和邮箱地址自动识别与脱敏处理。
章节 01
本文介绍了一个完整的PII检测与脱敏系统,对比了微调BERT模型与零样本LLM提示工程两种技术路线,展示如何在实际场景中实现高精度姓名和邮箱地址识别与脱敏处理,为PII脱敏提供工程实践参考。
章节 02
个人身份信息(PII)包括姓名、邮箱、电话等可识别个人的数据,在日志分析、客服记录、数据集发布等场景中需自动化脱敏。传统规则方法对人名识别效果差,人工审核无法应对大规模数据,深度学习方案成为主流选择。
章节 03
基于bert-base-uncased微调,用WikiNeural数据集训练,通过合成邮箱数据增强(样本从28516扩充至37205条),定义5个标签类别(O/B-PER/I-PER/B-EMAIL/I-EMAIL),训练配置为3 epoch、学习率2e-5、批次8、权重衰减0.01。
选用Qwen2.5-1.5B-Instruct模型,通过少样本提示实现结构化JSON输出,避免幻觉问题,后处理含幻觉过滤、邮箱修复和正则兜底。
章节 04
章节 05
| 指标 | 人名(严格) | 人名(部分) | 邮箱 |
|---|---|---|---|
| 精确率 | 82.93% | 86.99% | 83.93% |
| 召回率 | 51.78% | 52.71% | 100% |
| F1 | 63.75% | 65.64% | 91.26% |
| 维度 | BERT微调 | LLM零样本 |
|---|---|---|
| 人名F1 | 97.15% | 65.64% |
| 邮箱F1 | >99% | 91.26% |
| 需训练 | 是(7分钟) | 否 |
| 推理速度 | 快(~15样本/秒) | 慢(~1样本/秒) |
| 适应性 | 需重训 | 高 |
| 幻觉风险 | 无 | 已缓解 |
章节 06
章节 07
python main.py augment --email-ratio 0.5);python main.py train/evaluate);python main.py predict)。混合系统、约束解码、模型升级(DeBERTa-v3)、概率校准、多样化邮箱生成、主动学习。
章节 08
项目为PII脱敏提供完整技术选型与落地参考:追求精度选BERT微调,快速验证选LLM零样本。代码仓库结构清晰,适合作为NER和脱敏技术的实践教材。