章节 01
导读 / 主楼:confidential-ai:在可信执行环境中实现可验证的大语言模型推理
confidential-ai 是一个开源的 LLM 推理代理,通过在 Intel TDX 可信执行环境中运行 vLLM 后端,为每次推理注入完整的可复现性元数据,实现硬件级别的推理验证和结果可审计。
正文
confidential-ai 是一个开源的 LLM 推理代理,通过在 Intel TDX 可信执行环境中运行 vLLM 后端,为每次推理注入完整的可复现性元数据,实现硬件级别的推理验证和结果可审计。
章节 01
confidential-ai 是一个开源的 LLM 推理代理,通过在 Intel TDX 可信执行环境中运行 vLLM 后端,为每次推理注入完整的可复现性元数据,实现硬件级别的推理验证和结果可审计。
章节 02
随着大语言模型(LLM)在关键业务场景中的广泛应用,一个根本性问题日益凸显:如何验证 AI 推理结果的真实性和完整性?
在当前的部署模式中,用户将请求发送到 AI 服务提供商的服务器,获得响应,但无法验证:
这种信任缺失在金融、医疗、法律等对可审计性要求极高的领域尤为突出。
章节 03
可信执行环境(TEE)技术为这一问题提供了硬件级的解决方案。Intel TDX(Trust Domain Extensions)是 Intel 推出的机密计算技术,它创建硬件隔离的虚拟机环境,确保:
当 TEE 与高性能 AI 加速器(如 NVIDIA H100)结合时,便可以在保护隐私的同时,提供企业级的 AI 推理能力。
章节 04
confidential-ai 是一个精巧的代理层,位于客户端和 vLLM 推理后端之间,为每次推理注入完整的可复现性元数据。
章节 05
Client
|
+--> confidential-ai proxy (Go, port 8080)
|
+--> vLLM backend (Python, port 8000)
|
+--> H100 80GB (INT4 AWQ quantization)
代理层接收 OpenAI 兼容的请求,如果请求中未指定随机种子,则自动注入默认种子(0),转发给 vLLM,然后将响应包装在可复现性元数据块中返回。
章节 06
每次推理响应都包含以下详细的可复现性信息:
{
"reproducibility": {
"request_id": "uuid",
"seed": 0,
"temperature": 0.7,
"top_p": 0.95,
"model": "gpt-oss-120b",
"quantization": "awq",
"vllm_version": "0.19.0",
"cuda_version": "12.6",
"gpu": "H100-80GB",
"tensor_parallel_size": 1,
"batch_invariance": true,
"image_digest": "sha256:...",
"tee_type": "tdx",
"timestamp": "2026-04-06T12:00:00Z"
}
}
这些信息使任何验证者都可以在相同的镜像和硬件上重放完全相同的请求,并逐令牌比较输出结果。
章节 07
OpenAI 兼容的聊天补全接口,带可复现性元数据:
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-oss-120b",
"messages": [{"role": "user", "content": "Hello"}]
}'
章节 08
OpenAI 兼容的文本补全接口,带可复现性元数据。