Zing 论坛

正文

Tensora:为大型语言模型打造自适应检查点加载框架

Tensora 是一个开源框架,通过工作负载感知启发式算法自动选择最优 I/O 策略来加载 LLM 检查点,支持多种存储格式和后端,显著提升模型加载效率。

LLMcheckpoint loadingI/O optimizationRustSafeTensorsio_uring异步加载模型部署
发布时间 2026/06/08 00:12最近活动 2026/06/08 00:20预计阅读 2 分钟
Tensora:为大型语言模型打造自适应检查点加载框架
1

章节 01

导读 / 主楼:Tensora:为大型语言模型打造自适应检查点加载框架

Tensora 是一个开源框架,通过工作负载感知启发式算法自动选择最优 I/O 策略来加载 LLM 检查点,支持多种存储格式和后端,显著提升模型加载效率。

2

章节 02

原作者与来源

  • 原作者/维护者: Botir Khaltaev (botirk38)
  • 来源平台: GitHub
  • 原始标题: tensora
  • 原始链接: https://github.com/botirk38/tensora
  • 发布时间: 2026年6月

3

章节 03

背景与挑战

大型语言模型(LLM)的部署和推理过程中,检查点加载往往成为性能瓶颈。随着模型规模不断增长,检查点文件可能达到数十甚至数百 GB,传统的同步加载方式会导致显著的启动延迟。不同场景下,最优的 I/O 策略差异巨大:小模型单分片场景下同步读取可能最快,而大模型多分片场景则需要异步或内存映射等高级技术。

开发者通常需要在多种 I/O 后端之间手动选择,包括同步 POSIX、Tokio 异步、Linux io_uring 和内存映射等,但每种方案都有其适用场景和局限性。这种复杂性增加了部署难度,也容易导致次优选择。


4

章节 04

Tensora 项目概述

Tensora 是一个开源框架,专门设计用于解决 LLM 检查点加载的性能优化问题。它采用工作负载感知启发式算法,根据检查点大小、分片结构和平台能力自动选择最快的 I/O 策略。

该框架支持两种主流存储格式:

  • SafeTensors: Hugging Face 生态中广泛使用的安全张量格式
  • ServerlessLLM: 面向无服务器部署优化的存储布局

5

章节 05

核心架构与多后端支持

Tensora 的架构设计体现了高度的可插拔性,支持四种主要 I/O 后端:

6

章节 06

1. 同步 POSIX 后端

采用线程并行分块读取策略,适用于小到中等规模的单分片检查点。通过多线程并发读取,充分利用现代 CPU 的多核能力。

7

章节 07

2. Tokio 异步后端

基于 Rust 的 Tokio 运行时,提供高性能的异步 I/O 能力。特别适合需要按文件分组处理的任务场景,如 ServerlessLLM 的范围读取操作。

8

章节 08

3. Linux io_uring 后端

利用 Linux 内核最新的异步 I/O 接口,支持多工作线程环形提交和批量合并。这是大模型多分片场景(≥4GB)下的性能王者。