正文

Yomotsusaka：面向智能体工作流的隐私数据防火墙解决方案

介绍Yomotsusaka项目，这是一个为智能体工作流设计的隐私数据防火墙，通过开源大语言模型批量预处理，将私密文档脱敏为可搜索清单和受控密钥。

隐私保护数据脱敏智能体工作流本地LLM开源模型文档处理PII保护数据安全

发布时间 2026/05/22 23:45最近活动 2026/05/22 23:52预计阅读 3 分钟

章节 01

导读：Yomotsusaka——智能体工作流的隐私数据防火墙

Yomotsusaka是一个专为智能体工作流设计的隐私数据防火墙项目。其核心思路是通过本地运行的开源大语言模型对私密文档进行批量预处理，将原始文档脱敏为"可搜索清单"和"受控密钥"形式，在保护敏感数据隐私的同时，保留文档对智能体的检索与分析价值，平衡隐私安全与AI能力利用。

章节 02

智能体时代的隐私挑战

随着LLM驱动的智能体系统普及，如何在利用AI能力时保护敏感数据成为关键问题。直接上传原始文档到云端LLM存在数据泄露、合规压力（如GDPR、HIPAA）、信任边界模糊等风险。传统脱敏方法要么删除过多信息导致文档失活，要么保留风险信息，难以平衡隐私与可用性。

章节 03

Yomotsusaka项目概述与设计哲学

Yomotsusaka（黄泉坂）是面向智能体工作流的隐私数据防火墙，核心理念是本地开源LLM预处理私密文档。其设计哲学包括：本地优先（敏感数据预处理在本地执行）、分层脱敏（按敏感度采用不同策略）、可验证性（脱敏过程透明可审计），采用"尽力而为"策略平衡实用性与安全性。

章节 04

核心机制：文档脱敏与受控密钥系统

文档脱敏流程

实体识别与分类：本地开源LLM识别PII（姓名、身份证号等）、组织敏感信息、领域特定内容；
实体替换与引用：敏感实体替换为脱敏标识符（如[PERSON_1]），建立"原始值→脱敏标识符→访问控制策略"的受控密钥映射；
可搜索清单生成：脱敏文档转换为含语义摘要、关键主题、关系图谱、时间线的结构化清单，保留检索与分析价值。

受控密钥系统

密钥分级：按敏感度分公开/内部/机密/绝密等层级；
访问控制：RBAC+ABAC结合，授权方可访问；
审计日志：记录所有密钥访问操作；
密钥轮换：定期更新映射，限制泄露影响范围。

章节 05

应用场景：多领域隐私保护实践

Yomotsusaka可应用于多领域：

企业知识库检索：处理内部文档存入向量库，员工自然语言查询无敏感信息泄露风险；
医疗文档分析：脱敏病历后，AI协助医生诊断参考、药物相互作用检查；
法律文档审查：处理合同/案件材料，AI辅助条款分析、风险评估；
金融合规审查：处理交易记录/客户资料，AI进行异常交易检测、反洗钱分析。

章节 06

技术实现要点

本地模型选择

采用开源模型本地推理，常见选择：Llama系列（通用）、Mistral系列（性能优异）、Phi系列（小型高效），选择标准为模型能力、推理效率、开源许可。

批处理架构

文档分块：大文档切分为模型可处理片段；
并行处理：多核CPU/GPU并行处理多文档；
增量更新：支持新文档增量处理，无需重处理全部库。

智能体集成

可与主流框架集成：LangChain（文档加载/后处理）、LlamaIndex（节点转换器）、自定义智能体（API调用）。

章节 07

局限性与未来发展方向

局限性

"尽力而为"策略：无法保证绝对隐私，攻击者可能通过侧信道/统计推断恢复信息；
模型能力限制：本地开源模型实体识别准确性可能不及云端模型；
性能开销：本地推理需足够计算资源，大规模处理耗时；
密钥管理复杂：增加架构复杂度，需妥善管理。

未来方向

集成差分隐私技术，增强数学保证；
结合联邦学习，支持分布式隐私训练；
利用TEE（可信执行环境）提升安全性；
推动隐私保护文档处理标准化接口。