章节 01
导读:VeriAttn——解决TEE保护LLM推理性能瓶颈的创新机制
核心观点
针对可信执行环境(TEE)保护下大语言模型(LLM)推理的性能瓶颈,研究团队提出VeriAttn机制:将注意力计算全量offload到GPU,仅在TEE中验证结果正确性,并结合两级流水线优化与智能分区策略,实现预填充阶段2.60-3.38倍、解码阶段3.86-5.42倍的性能加速。
来源信息
- 原文标题:Communication-Efficient Verifiable Attention for LLM Inference
- 来源平台:arXiv
- 发布时间:2026-06-15
- 原文链接:http://arxiv.org/abs/2606.16352v1