Zing 论坛

正文

TeleFuser:面向世界模型的高性能推理运行时

TeleFuser 是一个专为世界模型推理和多模态生成设计的高性能运行时,支持连续流式输出、状态化会话、分布式 GPU 执行和 WebRTC 双向交互控制。

世界模型视频生成WebRTC流式推理分布式GPU多模态生成实时推理TeleFuser
发布时间 2026/06/12 18:44最近活动 2026/06/12 18:49预计阅读 7 分钟
TeleFuser:面向世界模型的高性能推理运行时
1

章节 01

导读 / 主楼:TeleFuser:面向世界模型的高性能推理运行时

TeleFuser 是一个专为世界模型推理和多模态生成设计的高性能运行时,支持连续流式输出、状态化会话、分布式 GPU 执行和 WebRTC 双向交互控制。

2

章节 02

原作者与来源

  • 原作者/维护者:Tele-AI
  • 来源平台:github
  • 原始标题:TeleFuser
  • 原始链接:https://github.com/Tele-AI/TeleFuser
  • 来源发布时间/更新时间:2026-06-12T10:44:10Z
3

章节 03

补充观点 1

原作者与来源

  • 原作者/维护者:Tele-AI
  • 来源平台:github
  • 原始标题:TeleFuser
  • 原始链接:https://github.com/Tele-AI/TeleFuser
  • 来源发布时间/更新时间:2026-06-12T10:44:10Z 原作者与来源\n\n- 原作者/维护者: Tele-AI\n- 来源平台: GitHub\n- 原始标题: TeleFuser\n- 原始链接: https://github.com/Tele-AI/TeleFuser\n- 发布时间: 2026年6月12日\n\n---\n\n项目背景与定位\n\n当前开源推理框架大多针对三种场景优化:单次图像生成、离线视频生成、通用大语言模型服务。然而,实时世界模型需要完全不同的运行时特性:连续执行、流式输出、双向交互、状态化会话、长上下文效率以及并发场景下的稳定性能。\n\nTeleFuser 正是为解决这些运行时问题而诞生的。它将世界模型视为一个持续更新的系统,而非单次返回结果的函数。该项目提供了运行模型所需的基础设施,使其能够接收输入、保持状态,并逐步输出帧序列。\n\n---\n\n核心架构设计\n\nTeleFuser 采用分层运行时架构,清晰映射到代码库结构:\n\n1. 访问层(Access Layer)\n基于 FastAPI 的任务 API 和 WebRTC 流式入口点,提供标准化的服务接口。\n\n2. 服务与调度层(Service & Scheduling Layer)\n负责请求路由、任务管理、流会话和编排。采用异步流水线调度,支持请求隔离、资源锁定和并行阶段组执行。\n\n3. 流水线抽象层(Pipeline Abstraction Layer)\n基于阶段的流水线执行,支持异步执行、请求隔离和资源锁机制。\n\n4. 模型与优化层(Model & Optimization Layer)\n包含模型加载、注意力后端选择、量化、卸载、LoRA 和缓存集成。\n\n5. 执行后端层(Execution Backend Layer)\n优化的算子、Triton 内核和设备特定实现。\n\n---\n\n关键技术特性\n\n面向世界模型的运行时设计\n\nTeleFuser 围绕世界模型在生产环境中的运行时需求构建:\n\n- 连续执行而非单次调用:流式输出帧序列,无需等待完整生成完成\n- 交互式控制:在会话活跃期间接受提示词、控制信号、图像、音频或动作输入\n- 状态化会话:跨块保持运行时状态,而非每步重建完整流水线\n- 低首帧延迟:通过异步调度和流式传输快速暴露部分输出\n- 长时程效率:通过序列并行、卸载和缓存降低长视频和重复去噪的内存压力\n\n分布式 GPU 执行\n\n支持多 GPU 执行,包括:\n- 张量并行(Tensor Parallelism)\n- 序列并行(Sequence Parallelism)\n- 基于 Ray 的分布式工作器编排\n- FSDP 支持\n\n流式传输能力\n\n- WebRTC 渐进式传输:服务器推送模式,支持视频帧逐步交付\n- 双向 WebRTC:支持交互式控制循环\n- 可选音频轨道:支持音视频同步流式输出\n\n推理优化栈\n\n- Triton 内核:自定义高性能 CUDA 内核\n- 注意力后端:支持 Torch SDPA、FlashAttention、SageAttention、稀疏注意力变体等\n- 特征缓存:AdaTaylorCache 通过校准的跳过/重用逻辑加速支持的扩散模型\n- 内存优化:CPU 卸载、权重重用、运行时感知加载策略\n- 量化支持:FP8 和 INT8 运行时支持(在模型/后端路径允许的情况下)\n\n---\n\n支持的模型与流水线\n\n世界模型与实时导向\n\n| 流水线 | 任务 | 说明 |\n|--------|------|------|\n| LingBot-World-Fast | 双向世界模型流式 | 通过 WebRTC DataChannel 实现交互式控制循环 |\n| LiveAct | 语音到视频(S2V) | 语音驱动的说话人脸生成 |\n| FlashVSR | 视频超分辨率(VSR) | 流式视频超分辨率处理 |\n| LongCat-Video | 文生视频/图生视频/视频续编 | 长视频生成和续编工作流 |\n\n视频生成\n\n| 流水线 | 任务 | 说明 |\n|--------|------|------|\n| WanVideo (Wan2.1 / Wan2.2) | 文生视频/图生视频 | 万相视频生成模型支持 |\n| HunyuanVideo | 文生视频 | 混元视频生成模型支持 |\n| LTX Video | 文生视频/图生视频 | LTX 视频生成模型支持 |\n\n---\n\n两种服务模式\n\ntelefuser serve — 批处理服务模式\n\n适用于请求-响应式推理,包含任务管理、标准 REST API 和服务元数据。\n\n适用场景:\n- 批量文生视频、图生视频\n- 图像生成和超分辨率\n- 支持流水线合约的结构化参数暴露\n- 兼容 OpenAI 路由,便于客户端集成\n\ntelefuser stream-serve — 流式服务模式\n\n专为连续流式工作负载设计。\n\n适用场景:\n- 服务器推送 WebRTC 渐进式视频输出\n- 双向 WebRTC 交互式控制循环\n- 实时世界模型、语音驱动生成、流式媒体流水线\n\n---\n\nAI Dev First 设计理念\n\nTeleFuser 的设计目标不仅是让人类开发者理解流水线,还要让自动化系统和智能体能够理解和使用。\n\n- PIPELINE_CONTRACT / PIPELINE_MANIFEST:定义支持的任务、必需的文件输入、默认值和用户面向的参数\n- 机器可读元数据:服务层使用这些合约暴露机器可读的元数据\n- 统一使用方式:同一流水线可在本地、REST API 或流式服务中使用\n\n这是项目"AI Dev First"方向的核心:标准化运行时行为,使编排系统能够发现和调用流水线,无需逆向工程内部代码路径。\n\n---\n\n快速开始示例\n\n安装\n\nbash\npip install -e .\n\n\nWebRTC 流式支持:\nbash\npip install -e \".[webrtc]\"\n\n\n批量视频推理\n\npython\nfrom telefuser.pipelines.wan_video.wan21_video import Wan21VideoPipeline\nimport torch\n\npipe = Wan21VideoPipeline.from_pretrained(\n model_id_or_path=\"Wan-AI/Wan2.1-T2V-1.3B\",\n device=\"cuda\",\n torch_dtype=torch.bfloat16,\n)\n\nvideo = pipe(\n prompt=\"A cat playing piano\",\n num_frames=81,\n height=480,\n width=832,\n)\n\n\n实时世界模型演示\n\nbash\nexport LINGBOT_WORLD_CHECKPOINT_DIR=/path/to/LingBot-World\n\ntelefuser stream-serve examples/stream_server/stream_lingbot_world_fast.py \\\n -p 8088 \\\n --skip-validation\n\npython examples/stream_server/webrtc_bidirectional_demo.py \\\n --server-url http://localhost:8088 \\\n --image-path /path/to/input.png\n\n\n这将启动一个连续会话,客户端通过 WebRTC DataChannel 发送控制消息,并通过媒体轨道接收生成的视频帧。\n\n---\n\n技术规格要求\n\n- Python: 3.10+\n- PyTorch: 2.6+\n- CUDA: 12.8+\n- 许可证: Apache 2.0\n\n---\n\n总结与展望\n\nTeleFuser 代表了视频生成推理运行时的一个重要演进方向。它不再将世界模型视为简单的函数调用,而是将其作为持续运行的系统来支持。这种架构选择使得实时交互式应用成为可能,从游戏世界模拟到虚拟数字人,从实时视频增强到沉浸式内容创作。\n\n随着多模态大模型能力的不断增强,对高效推理基础设施的需求只会愈发迫切。TeleFuser 通过其分层架构、分布式执行能力和流式传输支持,为这一领域提供了一个坚实的技术基础。