# Bifrost：混合TEE-FHE架构实现隐私保护的大模型推理服务

> 本文介绍Bifrost系统，一种结合可信执行环境（TEE）与全同态加密（FHE）的混合架构，在保护用户数据隐私的同时显著提升大模型推理效率。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-16T02:06:57.000Z
- 最近活动: 2026-06-17T02:20:00.778Z
- 热度: 126.8
- 关键词: 隐私保护, 大模型推理, 可信执行环境, 全同态加密, TEE, FHE, Transformer, arXiv
- 页面链接: https://www.zingnex.cn/forum/thread/bifrost-tee-fhe
- Canonical: https://www.zingnex.cn/forum/thread/bifrost-tee-fhe
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Bifrost: Hybrid TEE-FHE Inference for Privacy-Preserving Transformer and LLM Serving
- 原始链接：http://arxiv.org/abs/2606.17421v1
- 来源发布时间/更新时间：2026-06-16T02:06:57Z

# Bifrost：混合TEE-FHE架构实现隐私保护的大模型推理服务\n\n随着大语言模型（LLM）能力的不断增强，越来越多的用户和企业选择将模型部署在云端进行推理服务。然而，这种云托管模式带来了一个直接的隐私难题：用户的提示词可能包含敏感代码、商业机密、个人隐私信息或受监管的文件内容，而远程推理服务会将中间计算状态暴露给云软件栈和加速器运行时。如何在享受云端AI服务便利的同时保护数据隐私，已成为制约大模型应用推广的关键瓶颈。\n\n## 原作者与来源\n\n- **原作者/团队**：论文作者团队（arXiv:2606.17421v1）\n- **来源平台**：arXiv\n- **原文标题**：Bifrost: Hybrid TEE-FHE Inference for Privacy-Preserving Transformer and LLM Serving\n- **原文链接**：http://arxiv.org/abs/2606.17421v1\n- **发布时间**：2026年6月16日\n\n## 隐私保护的困境\n\n当前的大模型隐私保护方案面临两难选择。一方面，全同态加密（FHE）技术可以在理论上实现"数据可用不可见"——加速器只处理密文，无法获知原始数据内容。但FHE的局限性也很明显：Transformer架构中的线性层与非线性激活函数、注意力机制中的缓存状态管理、以及密文刷新等操作交织在一起，导致端到端推理的延迟极高，难以满足实际应用的性能需求。\n\n另一方面，基于CPU的可信执行环境（TEE），如Intel SGX或AMD SEV，可以在硬件层面创建安全隔离的执行环境，保护数据在计算过程中的机密性和完整性。但纯TEE方案的问题在于，它无法定义如何让不可信的GPU/NPU等加速器参与计算——而大模型的推理效率很大程度上依赖于这些专用加速硬件。\n\n## Bifrost的核心设计思想\n\nBifrost的核心创新在于提出了一种混合TEE-FHE服务架构，巧妙地结合了两者的优势。系统的基本设计原则是：只有在经过认证的CPU TEE内部才能访问密钥和明文数据，而加速器、设备内存、驱动/运行时栈和主机软件都保持在可信计算基之外。\n\n具体而言，Bifrost将推理计算任务智能地分配到两个执行环境：\n\n### FHE负责线性层计算\n\n对于Transformer中的投影层和前馈网络等线性运算，Bifrost使用FHE作为安全委托机制，在支持CKKS方案的加速器上执行密文计算。这些操作具有良好的并行性，适合在GPU等加速器上高效处理，而FHE确保了加速器无法窥探原始数据。\n\n### TEE负责非线性运算和状态管理\n\n对于非线性激活函数、注意力机制中的控制逻辑、KV缓存状态转换，以及解密-再加密的密文刷新操作，Bifrost将这些计算保留在CPU TEE内部执行。这些操作通常涉及复杂的条件分支和状态依赖，在TEE中执行既能保证安全性，又能避免FHE带来的巨大开销。\n\n## Bifrost+的预填充/解码分离优化\n\n在基础架构之上，研究团队还提出了Bifrost+变体，引入了预填充（Prefill）和解码（Decode）阶段的分离策略。这一优化的关键洞察在于：提示词处理阶段的KV状态构建可以在CPU TEE内部完成，只有解码生成阶段的状态才需要进入混合密文路径。\n\n这种分离带来的性能收益是显著的。由于提示词通常比生成的回复长得多（尤其是在多轮对话中），将提示词处理保留在TEE内部避免了大量的密文运算开销。同时，解码阶段的逐token生成特性也使得延迟敏感的用户体验得到改善。\n\n## 性能评估与效果\n\n研究团队通过对比实验验证了Bifrost架构的有效性。在与Euston方法论相匹配的估算式比较中，Bifrost在GPT-2（1.5B参数）上实现了9.25倍的延迟降低，在LLaMA 3（8B参数）上实现了9.91倍的延迟降低。\n\n在直接的CKKS/FHE部署测试中，Bifrost+的表现更为出色：\n\n- 在GPT-2（124M参数）上，首token生成时间（TTFT）降低了14.6到45.8倍\n- 在Qwen3（0.6B参数）上，TTFT降低了15.3到53.4倍\n\n这些数据表明，Bifrost的混合架构能够在保证隐私的前提下，将大模型推理的性能提升到接近实用的水平。\n\n## 系统设计的启示\n\nBifrost的设计哲学——"选择性加密执行"——为隐私保护计算系统提供了重要的设计范式。其核心洞见是：不应该盲目地对所有计算应用FHE，而应该只在真正需要密文-仅加速器委托的场景使用FHE，将非线性运算、密文刷新和提示词处理保留在CPU TEE中。\n\n这种"因地制宜"的安全策略体现了系统设计的精妙之处。安全与性能往往是一对矛盾，但通过深入理解不同计算任务的特性，合理分配安全机制，可以在两者之间找到最优平衡点。\n\n## 应用前景与挑战\n\nBifrost架构对于推动隐私保护的大模型服务具有重要意义。在医疗、金融、法律等对数据隐私高度敏感的领域，用户可以在不暴露原始数据的情况下利用云端大模型的能力。企业也可以放心地将内部文档和代码交由云端模型处理，而无需担心数据泄露风险。\n\n当然，这一技术仍面临一些挑战。首先是部署复杂性：TEE和FHE的协同工作需要精细的系统设计和调优。其次是标准化问题：不同厂商的TEE实现和FHE库存在差异，跨平台兼容性需要进一步解决。最后是成本考量：尽管Bifrost显著降低了延迟，但相比纯明文推理仍有额外开销，如何在商业场景中平衡成本与隐私需求，需要更多实践探索。\n\n## 结语\n\nBifrost代表了隐私保护大模型推理领域的重要进展。通过巧妙地结合TEE和FHE两种技术的优势，它突破了单一方案的局限性，在安全性与性能之间找到了可行的平衡点。随着大模型应用的深入普及，隐私保护将成为不可或缺的基础设施能力，而Bifrost所探索的混合架构思路，无疑为这一领域的发展指明了方向。
