# FuseFSS：基于函数秘密共享的高效安全大语言模型推理

> FuseFSS通过统一的编译流水线替代逐算子协议设计，在保持精度的同时实现1.24-1.50倍端到端加速，并显著降低通信开销和预处理成本。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-08T14:30:00.000Z
- 最近活动: 2026-06-09T02:51:23.873Z
- 热度: 147.6
- 关键词: 大语言模型, 安全推理, 函数秘密共享, 隐私计算, 多方安全计算, FSS, GPU加速, 定点数运算
- 页面链接: https://www.zingnex.cn/forum/thread/fusefss
- Canonical: https://www.zingnex.cn/forum/thread/fusefss
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：FuseFSS: Efficient Secure LLM Inference with Function Secret Sharing
- 原始链接：http://arxiv.org/abs/2606.09551v1
- 来源发布时间/更新时间：2026-06-08T14:30:00Z

## 原作者与来源\n\n- 原作者/维护者：arXiv authors\n- 来源平台：arxiv\n- 原始标题：FuseFSS: Efficient Secure LLM Inference with Function Secret Sharing\n- 原始链接：http://arxiv.org/abs/2606.09551v1\n- 来源发布时间/更新时间：2026-06-08T14:30:00Z\n\n## 隐私计算背景：安全推理的现实挑战\n\n随着大语言模型（LLM）能力的飞速提升，越来越多的企业和个人希望利用这些强大的模型。然而，一个根本性的矛盾始终存在：用户不希望将自己的敏感提示词（prompts）或中间嵌入（embeddings）暴露给模型服务提供商，而服务提供商也不愿意泄露自己的专有模型权重。\n\n双服务器安全推理（Two-server secure inference）架构应运而生，它允许多个不信任方协作完成模型推理，同时保证各方的输入数据保持私密。在这种架构下，客户端可以将加密后的查询发送给两个独立的服务器，这两个服务器在不知道彼此数据明文的情况下协同计算，最终返回加密的结果。\n\n## 技术现状：FSS的机遇与瓶颈\n\n### 函数秘密共享（FSS）的优势\n\n函数秘密共享（Function Secret Sharing, FSS）是一种强大的密码学原语，近年来在安全机器学习领域获得了广泛关注。基于FSS的GPU系统已经证明可以高效处理线性层运算——这是神经网络中最基础也是最频繁的操作。\n\nFSS的核心思想是将一个函数拆分成多个"份额"（shares），每个份额单独看起来都是随机的，但组合起来就能恢复原始函数的输出。这种特性天然适合多方安全计算场景。\n\n### 现存瓶颈：非线性运算的碎片化\n\n然而，当前基于FSS的安全推理系统面临一个严峻挑战：虽然线性层可以被高效处理，但定点数非线性运算（fixed-point nonlinearities）和辅助操作仍然是性能瓶颈。\n\n问题的根源在于架构设计的碎片化。每个非线性算子（如ReLU、GELU、Softmax等）通常被实现为定制的专用协议，每个协议都需要：\n\n- 独立的比较操作\n- 环绕修正（wrap-around corrections）\n- 专门的预处理材料生成\n\n这种"每个算子一个协议"的设计导致代码重复、优化困难，并且难以扩展到新的算子类型。\n\n## FuseFSS：统一编译流水线的创新\n\n针对上述问题，研究团队提出了FuseFSS——一个革命性的编译器框架，它将分散的逐算子协议设计替换为统一的编译流水线。\n\n### 核心设计思想\n\nFuseFSS的核心理念是：与其为每个算子编写专用协议，不如定义一种通用的算子描述格式，让编译器自动生成优化的FSS实现。\n\n具体来说，对于每个标量定点数算子，FuseFSS使用一种紧凑的规范来描述：\n\n1. **区间划分（Interval Partition）**：定义输入域如何被划分为不同的处理区间\n2. **低次算术片段（Low-degree Arithmetic Pieces）**：每个区间内使用的多项式逼近或算术表达式\n3. **谓词位（Predicate Bits）**：确定当前输入落入哪个区间的布尔标志\n\n### 编译器输出：批量化FSS评估\n\n基于上述规范，FuseFSS编译器生成两个关键的批量化FSS评估：\n\n#### 打包比较（Packed Comparison）\n\n第一个评估执行打包比较操作，一次性返回所有需要的谓词位。传统方法需要为每个区间边界执行单独的比较，而FuseFSS通过巧妙的打包技术将这些比较合并，显著减少了通信轮次。\n\n#### 向量区间查找（Vector Interval Lookup）\n\n第二个评估执行向量化的区间查找，返回当前激活区间的系数和常数。这本质上是一个基于FSS的安全表查找操作，但针对算术运算的特点进行了优化。\n\n## 性能提升：量化的收益分析\n\nFuseFSS在BERT和GPT风格模型上的实验结果令人印象深刻：\n\n### 端到端加速\n\n与当前最先进的基于FSS的GPU安全推理系统相比，FuseFSS在保持精度的同时实现了**1.24倍到1.50倍**的端到端加速。这意味着用户可以在更短的时间内获得推理结果，或者在相同时间内处理更多的查询。\n\n### 通信开销降低\n\n在线通信量减少了**9%到16%**。在安全多方计算中，通信往往是最大的性能瓶颈，尤其是在跨地域部署的场景下。这一改进直接转化为更低的延迟和带宽成本。\n\n### 预处理优化\n\nFuseFSS的改进不仅体现在在线阶段，预处理阶段同样受益：\n\n- 密钥生成时间减少**14%到23%**\n- 密钥大小缩小**20%到24%**\n\n这对于需要频繁生成新密钥的动态场景尤为重要，例如支持模型更新的服务或具有严格密钥轮换策略的企业环境。\n\n## 技术实现细节\n\n### 定点数运算的安全处理\n\nFuseFSS专门针对定点数（fixed-point）运算进行了优化。与浮点数相比，定点数在安全计算中具有天然优势：运算可以映射为整数运算，避免了复杂的浮点协议。\n\n然而，定点数也带来了新的挑战，主要是溢出处理和精度管理。FuseFSS通过智能的区间划分和系数选择，在保证精度的同时最小化了环绕修正的开销。\n\n### 批处理策略\n\nFuseFSS的一个关键优化是批处理（batching）。通过将多个元素的比较和查找操作打包在一起，编译器可以摊销FSS评估的固定开销。这种批处理是自动的，编译器会根据目标硬件的特性和网络条件选择最优的批次大小。\n\n### 与现有系统的兼容性\n\n尽管引入了新的编译流程，FuseFSS设计时考虑了与现有FSS库的兼容性。生成的FSS评估可以使用标准的FSS原语执行，这意味着它可以集成到现有的安全推理基础设施中，而无需重写底层的密码学实现。\n\n## 应用场景与部署考量\n\n### 隐私保护推理服务\n\nFuseFSS最直接的应用场景是构建隐私保护的LLM推理服务。企业可以将敏感数据发送给云端的推理服务，而无需担心数据泄露。这在医疗、金融、法律等对数据隐私要求极高的领域具有重要价值。\n\n### 模型即服务（MaaS）的隐私增强\n\n对于模型提供商而言，FuseFSS提供了一种在不暴露模型权重的情况下提供服务的方式。这有助于保护知识产权，同时满足客户对隐私保护的需求。\n\n### 跨组织协作\n\n在需要多个组织协作分析数据的场景中（如联合风控、跨机构医学研究），FuseFSS可以作为一种安全的基础设施，让各方在不共享原始数据的情况下共同利用LLM的能力。\n\n## 局限性与未来工作\n\n### 当前局限\n\n尽管FuseFSS取得了显著进展，但仍有一些局限性需要注意：\n\n1. **算子覆盖**：目前主要针对常见的激活函数和归一化层，对于更复杂的自定义算子可能需要额外的工作\n2. **模型规模**：实验主要在BERT和GPT-style模型上进行，对于超大规模模型的优化仍有探索空间\n3. **硬件依赖**：GPU特定的优化可能不直接适用于其他加速器\n\n### 未来方向\n\n研究团队指出了几个有前景的未来方向：\n\n- 扩展到更多的模型架构和算子类型\n- 探索与硬件安全模块（如TEE）的混合方案\n- 开发自动的精度-性能权衡工具\n- 支持动态模型更新和增量部署\n\n## 结论\n\nFuseFSS代表了安全大语言模型推理领域的重要进展。通过引入统一的编译流水线替代碎片化的逐算子协议设计，它不仅带来了显著的性能提升，更重要的是提供了一种可扩展、可维护的架构范式。\n\n在隐私计算日益重要的今天，FuseFSS这样的技术为构建既强大又可信的AI系统提供了关键的基础设施。随着技术的成熟和生态的发展，我们可以期待看到更多基于FuseFSS的隐私保护LLM应用落地。
