正文

Tensora：为大型语言模型打造自适应检查点加载框架

Tensora 是一个开源框架，通过工作负载感知启发式算法自动选择最优 I/O 策略来加载 LLM 检查点，支持多种存储格式和后端，显著提升模型加载效率。

LLMcheckpoint loadingI/O optimizationRustSafeTensorsio_uring异步加载模型部署

发布时间 2026/06/08 00:12最近活动 2026/06/08 00:20预计阅读 2 分钟

章节 01

导读 / 主楼：Tensora：为大型语言模型打造自适应检查点加载框架

Tensora 是一个开源框架，通过工作负载感知启发式算法自动选择最优 I/O 策略来加载 LLM 检查点，支持多种存储格式和后端，显著提升模型加载效率。

章节 02

章节 03

大型语言模型（LLM）的部署和推理过程中，检查点加载往往成为性能瓶颈。随着模型规模不断增长，检查点文件可能达到数十甚至数百 GB，传统的同步加载方式会导致显著的启动延迟。不同场景下，最优的 I/O 策略差异巨大：小模型单分片场景下同步读取可能最快，而大模型多分片场景则需要异步或内存映射等高级技术。

开发者通常需要在多种 I/O 后端之间手动选择，包括同步 POSIX、Tokio 异步、Linux io_uring 和内存映射等，但每种方案都有其适用场景和局限性。这种复杂性增加了部署难度，也容易导致次优选择。

章节 04

Tensora 是一个开源框架，专门设计用于解决 LLM 检查点加载的性能优化问题。它采用工作负载感知启发式算法，根据检查点大小、分片结构和平台能力自动选择最快的 I/O 策略。

该框架支持两种主流存储格式：

章节 05

Tensora 的架构设计体现了高度的可插拔性，支持四种主要 I/O 后端：

章节 06

采用线程并行分块读取策略，适用于小到中等规模的单分片检查点。通过多线程并发读取，充分利用现代 CPU 的多核能力。

章节 07

基于 Rust 的 Tokio 运行时，提供高性能的异步 I/O 能力。特别适合需要按文件分组处理的任务场景，如 ServerlessLLM 的范围读取操作。

章节 08

利用 Linux 内核最新的异步 I/O 接口，支持多工作线程环形提交和批量合并。这是大模型多分片场景（≥4GB）下的性能王者。