TeleFuser：面向世界模型的高性能推理运行时

章节 01

导读 / 主楼：TeleFuser：面向世界模型的高性能推理运行时

TeleFuser 是一个专为世界模型推理和多模态生成设计的高性能运行时，支持连续流式输出、状态化会话、分布式 GPU 执行和 WebRTC 双向交互控制。

章节 02

原作者与来源

原作者/维护者：Tele-AI
来源平台：github
原始标题：TeleFuser
原始链接：https://github.com/Tele-AI/TeleFuser
来源发布时间/更新时间：2026-06-12T10:44:10Z

章节 03

补充观点 1

原作者与来源

原作者/维护者：Tele-AI
来源平台：github
原始标题：TeleFuser
原始链接：https://github.com/Tele-AI/TeleFuser
来源发布时间/更新时间：2026-06-12T10:44:10Z 原作者与来源\n\n- 原作者/维护者: Tele-AI\n- 来源平台: GitHub\n- 原始标题: TeleFuser\n- 原始链接: https://github.com/Tele-AI/TeleFuser\n- 发布时间: 2026年6月12日\n\n---\n\n项目背景与定位\n\n当前开源推理框架大多针对三种场景优化：单次图像生成、离线视频生成、通用大语言模型服务。然而，实时世界模型需要完全不同的运行时特性：连续执行、流式输出、双向交互、状态化会话、长上下文效率以及并发场景下的稳定性能。\n\nTeleFuser 正是为解决这些运行时问题而诞生的。它将世界模型视为一个持续更新的系统，而非单次返回结果的函数。该项目提供了运行模型所需的基础设施，使其能够接收输入、保持状态，并逐步输出帧序列。\n\n---\n\n核心架构设计\n\nTeleFuser 采用分层运行时架构，清晰映射到代码库结构：\n\n1. 访问层（Access Layer）\n基于 FastAPI 的任务 API 和 WebRTC 流式入口点，提供标准化的服务接口。\n\n2. 服务与调度层（Service & Scheduling Layer）\n负责请求路由、任务管理、流会话和编排。采用异步流水线调度，支持请求隔离、资源锁定和并行阶段组执行。\n\n3. 流水线抽象层（Pipeline Abstraction Layer）\n基于阶段的流水线执行，支持异步执行、请求隔离和资源锁机制。\n\n4. 模型与优化层（Model & Optimization Layer）\n包含模型加载、注意力后端选择、量化、卸载、LoRA 和缓存集成。\n\n5. 执行后端层（Execution Backend Layer）\n优化的算子、Triton 内核和设备特定实现。\n\n---\n\n关键技术特性\n\n面向世界模型的运行时设计\n\nTeleFuser 围绕世界模型在生产环境中的运行时需求构建：\n\n- 连续执行而非单次调用：流式输出帧序列，无需等待完整生成完成\n- 交互式控制：在会话活跃期间接受提示词、控制信号、图像、音频或动作输入\n- 状态化会话：跨块保持运行时状态，而非每步重建完整流水线\n- 低首帧延迟：通过异步调度和流式传输快速暴露部分输出\n- 长时程效率：通过序列并行、卸载和缓存降低长视频和重复去噪的内存压力\n\n分布式 GPU 执行\n\n支持多 GPU 执行，包括：\n- 张量并行（Tensor Parallelism）\n- 序列并行（Sequence Parallelism）\n- 基于 Ray 的分布式工作器编排\n- FSDP 支持\n\n流式传输能力\n\n- WebRTC 渐进式传输：服务器推送模式，支持视频帧逐步交付\n- 双向 WebRTC：支持交互式控制循环\n- 可选音频轨道：支持音视频同步流式输出\n\n推理优化栈\n\n- Triton 内核：自定义高性能 CUDA 内核\n- 注意力后端：支持 Torch SDPA、FlashAttention、SageAttention、稀疏注意力变体等\n- 特征缓存：AdaTaylorCache 通过校准的跳过/重用逻辑加速支持的扩散模型\n- 内存优化：CPU 卸载、权重重用、运行时感知加载策略\n- 量化支持：FP8 和 INT8 运行时支持（在模型/后端路径允许的情况下）\n\n---\n\n支持的模型与流水线\n\n世界模型与实时导向\n\n| 流水线 | 任务 | 说明 |\n|--------|------|------|\n| LingBot-World-Fast | 双向世界模型流式 | 通过 WebRTC DataChannel 实现交互式控制循环 |\n| LiveAct | 语音到视频（S2V） | 语音驱动的说话人脸生成 |\n| FlashVSR | 视频超分辨率（VSR） | 流式视频超分辨率处理 |\n| LongCat-Video | 文生视频/图生视频/视频续编 | 长视频生成和续编工作流 |\n\n视频生成\n\n| 流水线 | 任务 | 说明 |\n|--------|------|------|\n| WanVideo (Wan2.1 / Wan2.2) | 文生视频/图生视频 | 万相视频生成模型支持 |\n| HunyuanVideo | 文生视频 | 混元视频生成模型支持 |\n| LTX Video | 文生视频/图生视频 | LTX 视频生成模型支持 |\n\n---\n\n两种服务模式\n\ntelefuser serve — 批处理服务模式\n\n适用于请求-响应式推理，包含任务管理、标准 REST API 和服务元数据。\n\n适用场景：\n- 批量文生视频、图生视频\n- 图像生成和超分辨率\n- 支持流水线合约的结构化参数暴露\n- 兼容 OpenAI 路由，便于客户端集成\n\ntelefuser stream-serve — 流式服务模式\n\n专为连续流式工作负载设计。\n\n适用场景：\n- 服务器推送 WebRTC 渐进式视频输出\n- 双向 WebRTC 交互式控制循环\n- 实时世界模型、语音驱动生成、流式媒体流水线\n\n---\n\nAI Dev First 设计理念\n\nTeleFuser 的设计目标不仅是让人类开发者理解流水线，还要让自动化系统和智能体能够理解和使用。\n\n- PIPELINE_CONTRACT / PIPELINE_MANIFEST：定义支持的任务、必需的文件输入、默认值和用户面向的参数\n- 机器可读元数据：服务层使用这些合约暴露机器可读的元数据\n- 统一使用方式：同一流水线可在本地、REST API 或流式服务中使用\n\n这是项目"AI Dev First"方向的核心：标准化运行时行为，使编排系统能够发现和调用流水线，无需逆向工程内部代码路径。\n\n---\n\n快速开始示例\n\n安装\n\nbash\npip install -e .\n\n\nWebRTC 流式支持：\nbash\npip install -e \".[webrtc]\"\n\n\n批量视频推理\n\npython\nfrom telefuser.pipelines.wan_video.wan21_video import Wan21VideoPipeline\nimport torch\n\npipe = Wan21VideoPipeline.from_pretrained(\n model_id_or_path=\"Wan-AI/Wan2.1-T2V-1.3B\",\n device=\"cuda\",\n torch_dtype=torch.bfloat16,\n)\n\nvideo = pipe(\n prompt=\"A cat playing piano\",\n num_frames=81,\n height=480,\n width=832,\n)\n\n\n实时世界模型演示\n\nbash\nexport LINGBOT_WORLD_CHECKPOINT_DIR=/path/to/LingBot-World\n\ntelefuser stream-serve examples/stream_server/stream_lingbot_world_fast.py \\\n -p 8088 \\\n --skip-validation\n\npython examples/stream_server/webrtc_bidirectional_demo.py \\\n --server-url http://localhost:8088 \\\n --image-path /path/to/input.png\n\n\n这将启动一个连续会话，客户端通过 WebRTC DataChannel 发送控制消息，并通过媒体轨道接收生成的视频帧。\n\n---\n\n技术规格要求\n\n- Python: 3.10+\n- PyTorch: 2.6+\n- CUDA: 12.8+\n- 许可证: Apache 2.0\n\n---\n\n总结与展望\n\nTeleFuser 代表了视频生成推理运行时的一个重要演进方向。它不再将世界模型视为简单的函数调用，而是将其作为持续运行的系统来支持。这种架构选择使得实时交互式应用成为可能，从游戏世界模拟到虚拟数字人，从实时视频增强到沉浸式内容创作。\n\n随着多模态大模型能力的不断增强，对高效推理基础设施的需求只会愈发迫切。TeleFuser 通过其分层架构、分布式执行能力和流式传输支持，为这一领域提供了一个坚实的技术基础。

TeleFuser：面向世界模型的高性能推理运行时

导读 / 主楼：TeleFuser：面向世界模型的高性能推理运行时

原作者与来源

补充观点 1

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

libmlxforge：Apple Silicon 上的嵌入式 MLX LLM 推理引擎