# 三层隐私 AI 架构：在零公网暴露下实现本地与云端智能的安全融合

> tri-tier-private-ai 是一个自托管的隐私优先 AI 栈，通过关键词路由机制将敏感提示定向到本地模型，将复杂推理任务路由到云端，同时确保零公网暴露。该项目以每月约 8-12 美元的成本，为个人和小团队提供了企业级的隐私保护方案。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-18T04:08:22.000Z
- 最近活动: 2026-04-18T04:23:25.038Z
- 热度: 163.8
- 关键词: 隐私保护, 本地AI, 云端路由, 关键词过滤, 零数据保留, Tailscale, Ollama, LiteLLM, 自托管, 分层架构
- 页面链接: https://www.zingnex.cn/forum/thread/ai-ba500924
- Canonical: https://www.zingnex.cn/forum/thread/ai-ba500924
- Markdown 来源: ingested_event

---

# 三层隐私 AI 架构：在零公网暴露下实现本地与云端智能的安全融合

## 隐私与智能的永恒张力

在当前的大语言模型应用实践中，用户面临着一个根本性的两难选择：使用本地模型可以确保数据隐私，但往往牺牲智能水平；使用云端 API 可以获得强大的推理能力，却不得不将敏感数据托付给第三方。

tri-tier-private-ai 项目提出了一种优雅的解决方案——三层架构的智能路由系统。它允许用户在同一工作流程中同时享受本地模型的隐私保护和云端模型的强大能力，而且整个架构是自托管的，成本控制在每月 8-12 美元左右。

## 架构设计理念

该项目的核心洞察是：并非所有提示都需要同等级别的处理。涉及个人身份信息（PII）、财务数据、医疗记录等敏感内容的提示，完全可以在本地处理；而需要深度推理、大上下文理解或专业知识的复杂问题，则可以安全地路由到云端。

整个架构通过四个层次实现这一愿景：

### 控制层：OpenClaw

OpenClaw 作为编排器和用户界面，负责任务分发和整体工作流管理。它是用户与整个系统的唯一交互点，所有操作都通过 Tailscale 私有网络进行，确保没有任何暴露在公网的入口。

### 路由层：LiteLLM

LiteLLM 是一个开源的模型路由代理，部署在 4000 端口。它的核心功能是根据预设的关键词规则，自动决定每个提示应该由本地模型还是云端模型处理。这个组件是零成本的，却承担着整个隐私保护策略的关键决策职责。

### 私有层：Ollama + Gemma 4 E4B

本地模型层使用 Ollama 运行 Google 的 Gemma 4 E4B 模型。这是一个约 40 亿参数的模型，经过 4-bit 量化后占用约 3.8GB 显存/内存。虽然规模不大，但对于大多数日常对话和敏感数据处理任务已经足够。最重要的是，这一层完全运行在本地，数据永远不会离开 VPS。

### 智能层：Together AI Qwen-2.5-72B

当提示被判定为非敏感时，它会被路由到 Together AI 的 Qwen-2.5-72B 模型。这是一个 720 亿参数的大规模模型，具备强大的推理能力和 128K 的上下文窗口。Together AI 提供了零数据保留（Zero Data Retention, ZDR）选项，确保即使使用云端服务，数据也不会被存储或用于训练。

## 关键词路由机制

系统的隐私保护核心在于 router_hook.py 中定义的关键词拦截逻辑。默认的关键词列表涵盖了多个敏感类别：

**财务/税务类**：tax、irs、w2、1099、ein、invoice、payroll、ledger、balance sheet

**身份/PII 类**：ssn、social security、passport、date of birth、home address

**文档类**：file、document、upload、pdf、contract、nda、agreement

**凭证类**：password、api key、secret、token、credential

**医疗类**：medical、diagnosis、prescription、hipaa、health record

**法律类**：attorney、lawsuit、litigation、settlement、privileged

**隐私标记**：private、confidential、classified、proprietary

当用户提交提示时，LiteLLM 会在发送前扫描内容。如果检测到任何敏感关键词，提示会被立即重定向到本地 Ollama 实例；只有通过检测的提示才会被发送到 Together AI。这种设计确保了敏感数据的 "硬阻断"，即使配置错误也不会意外泄露。

## 网络隔离与安全加固

项目采用了多层网络隔离策略：

**防火墙层**：UFW（Uncomplicated Firewall）配置为默认拒绝所有入站连接，仅允许 SSH 和 Tailscale 接口的流量。这意味着即使知道 VPS 的公网 IP，攻击者也无法直接访问任何服务。

**容器隔离**：Ollama 和 LiteLLM 都绑定到 127.0.0.1，这意味着它们只在本地回环接口上监听，无法从外部网络直接访问。

**Tailscale 私有网络**：所有用户访问都通过 Tailscale 的加密网状网络进行。Tailscale 分配的内网 IP（形如 100.x.x.x）是访问 OpenClaw UI 和进行 API 调用的唯一入口。

**零数据保留**：Together AI 在账户级别提供 ZDR 设置，用户可以在隐私与安全设置中明确禁用提示存储和训练数据使用。此外，系统还会通过 X-Together-No-Store 请求头进一步确保数据不被保留。

## 部署与配置流程

项目的部署流程设计得相当简洁，大约需要 30 分钟即可完成：

首先，准备一台至少 4GB RAM（推荐 8GB）的 Ubuntu 22.04 VPS，安装 Docker 和 Docker Compose。然后安装并配置 Tailscale，记录分配的内网 IP。

接下来，安装 OpenClaw 并创建工作目录。配置 .env 文件，设置 LiteLLM 的主密钥和 Together AI 的 API 密钥。使用 openssl rand -hex 32 生成一个安全的随机密钥作为 LiteLLM 的主密钥。

启动 Docker Compose 服务后，需要拉取 Gemma 4 E4B 模型，这个过程大约需要 5-10 分钟，取决于网络带宽。

最后，配置 OpenClaw 使用本地的 LiteLLM 代理作为 OpenAI 兼容端点，并在 Together AI 账户中启用 ZDR 设置。

## 成本分析与优化

项目的成本控制相当出色：

- **VPS 费用**：使用 Hetzner CX21（8GB RAM）约 10 美元/月
- **Together AI 费用**：输入约 0.90 美元/百万 token，输出约 0.90 美元/百万 token
- **其他组件**：Ollama、LiteLLM、OpenClaw 均为零成本开源软件

在中等个人使用量下（约 50 万 token/月），总成本约为 10-12 美元/月。相比之下，纯云端方案的成本可能是这个的数倍，而且无法提供同等级别的隐私保护。

## 测试与验证

项目提供了完整的测试流程来验证系统工作正常：

测试敏感内容路由到 Ollama：

curl -s http://127.0.0.1:4000/v1/chat/completions \
  -H "Authorization: Bearer $LITELLM_MASTER_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"cloud-reasoning","messages":[{"role":"user","content":"my tax file is private"}]}'

查看 LiteLLM 日志，应该能看到 "[PrivacyRouter] Sensitive keywords detected" 的提示。

测试非敏感内容路由到 Together AI：

curl -s http://127.0.0.1:4000/v1/chat/completions \
  -H "Authorization: Bearer $LITELLM_MASTER_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"cloud-reasoning","messages":[{"role":"user","content":"explain transformer attention mechanisms"}]}'

## 扩展与定制

系统的设计充分考虑了可扩展性：

**添加自定义关键词**：编辑 router_hook.py 中的 PRIVATE_KEYWORDS 集合，然后重启 LiteLLM 服务即可生效。

**更换本地模型**：Ollama 支持多种模型，用户可以根据硬件能力和需求选择不同的本地模型。

**更换云端提供商**：LiteLLM 支持 100 多个 LLM 提供商，可以轻松切换到其他支持 ZDR 或类似隐私保障的服务商。

**自定义路由逻辑**：router_hook.py 是一个 Python 文件，可以实现更复杂的路由策略，例如基于用户身份、时间、请求频率等条件进行路由。

## 技术亮点与启示

tri-tier-private-ai 项目展示了几个值得关注的技术方向：

首先是分层隐私架构的实践。通过将敏感处理与智能处理分离，项目在隐私和性能之间找到了一个实用的平衡点。这种思路可以应用到许多其他场景，例如企业数据的分级处理、医疗信息的分层访问等。

其次是关键词路由的简单有效性。不需要复杂的机器学习模型，仅通过精心选择的关键词列表就能实现相当准确的敏感内容识别。这种 "简单即有效" 的设计哲学在隐私保护领域尤其重要，因为复杂的系统往往意味着更多的攻击面。

第三是零信任网络架构的应用。通过 Tailscale + UFW + 容器本地绑定的多层防护，系统实现了真正的 "零公网暴露"。这种架构模式值得任何关注安全的自托管服务借鉴。

## 局限与未来方向

作为一个个人项目，tri-tier-private-ai 也有一些需要注意的局限：

关键词路由虽然简单有效，但并非完美。某些敏感内容可能不包含预设的关键词，或者通过巧妙的措辞绕过检测。对于极高安全要求的场景，可能需要结合更复杂的检测机制。

本地模型的能力有限。Gemma 4 E4B 虽然表现出色，但在处理复杂推理、长文档理解等任务时仍无法与 720 亿参数的云端模型相比。用户需要在使用时权衡隐私与质量。

未来的改进方向可能包括：引入更智能的内容分类模型、支持多本地模型根据任务类型自动选择、添加审计日志和合规报告功能、以及开发更友好的管理界面。

## 总结

tri-tier-private-ai 是一个设计精良、实现完整的隐私优先 AI 栈。它以极低的成本（每月 8-12 美元）为个人和小团队提供了企业级的隐私保护能力。通过智能的关键词路由、多层网络隔离和零数据保留策略，项目成功地在隐私保护和模型能力之间找到了一个实用的平衡点。对于任何关注数据隐私、同时又希望享受大语言模型强大能力的用户来说，这都是一个值得认真考虑的解决方案。