正文

confidential-ai：在可信执行环境中实现可验证的大语言模型推理

confidential-ai 是一个开源的 LLM 推理代理，通过在 Intel TDX 可信执行环境中运行 vLLM 后端，为每次推理注入完整的可复现性元数据，实现硬件级别的推理验证和结果可审计。

可信计算机密计算Intel TDXLLM推理vLLM可验证AINVIDIA H100TEE

发布时间 2026/04/10 19:37最近活动 2026/04/10 19:50预计阅读 3 分钟

章节 01

导读 / 主楼：confidential-ai：在可信执行环境中实现可验证的大语言模型推理

章节 02

背景：AI 推理的信任危机

随着大语言模型（LLM）在关键业务场景中的广泛应用，一个根本性问题日益凸显：如何验证 AI 推理结果的真实性和完整性？

在当前的部署模式中，用户将请求发送到 AI 服务提供商的服务器，获得响应，但无法验证：

模型是否确实是声称的版本？
推理参数（温度、top-p 等）是否被篡改？
硬件环境是否一致？
结果是否被中间人攻击篡改？

这种信任缺失在金融、医疗、法律等对可审计性要求极高的领域尤为突出。

章节 03

可信计算：硬件级安全保障

可信执行环境（TEE）技术为这一问题提供了硬件级的解决方案。Intel TDX（Trust Domain Extensions）是 Intel 推出的机密计算技术，它创建硬件隔离的虚拟机环境，确保：

代码和数据的机密性：即使云服务商也无法窥探运行中的内容
代码和数据的完整性：防止恶意软件篡改
可远程证明：外部验证者可以密码学方式验证运行环境的真实性

当 TEE 与高性能 AI 加速器（如 NVIDIA H100）结合时，便可以在保护隐私的同时，提供企业级的 AI 推理能力。

章节 04

confidential-ai 架构设计

confidential-ai 是一个精巧的代理层，位于客户端和 vLLM 推理后端之间，为每次推理注入完整的可复现性元数据。

章节 05

系统架构

Client
 |
 +--> confidential-ai proxy (Go, port 8080)
 |
 +--> vLLM backend (Python, port 8000)
 |
 +--> H100 80GB (INT4 AWQ quantization)

代理层接收 OpenAI 兼容的请求，如果请求中未指定随机种子，则自动注入默认种子（0），转发给 vLLM，然后将响应包装在可复现性元数据块中返回。

章节 06

可复现性元数据

每次推理响应都包含以下详细的可复现性信息：

{
  "reproducibility": {
    "request_id": "uuid",
    "seed": 0,
    "temperature": 0.7,
    "top_p": 0.95,
    "model": "gpt-oss-120b",
    "quantization": "awq",
    "vllm_version": "0.19.0",
    "cuda_version": "12.6",
    "gpu": "H100-80GB",
    "tensor_parallel_size": 1,
    "batch_invariance": true,
    "image_digest": "sha256:...",
    "tee_type": "tdx",
    "timestamp": "2026-04-06T12:00:00Z"
  }
}

这些信息使任何验证者都可以在相同的镜像和硬件上重放完全相同的请求，并逐令牌比较输出结果。

章节 07

聊天补全

OpenAI 兼容的聊天补全接口，带可复现性元数据：

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-oss-120b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

章节 08