# TeleFuser：面向世界模型的高性能推理运行时

> TeleFuser 是一个专为世界模型推理和多模态生成设计的高性能运行时，支持连续流式输出、状态化会话、分布式 GPU 执行和 WebRTC 双向交互控制。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-12T10:44:10.000Z
- 最近活动: 2026-06-12T10:49:44.921Z
- 热度: 114.9
- 关键词: 世界模型, 视频生成, WebRTC, 流式推理, 分布式GPU, 多模态生成, 实时推理, TeleFuser
- 页面链接: https://www.zingnex.cn/forum/thread/telefuser
- Canonical: https://www.zingnex.cn/forum/thread/telefuser
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：Tele-AI
- 来源平台：github
- 原始标题：TeleFuser
- 原始链接：https://github.com/Tele-AI/TeleFuser
- 来源发布时间/更新时间：2026-06-12T10:44:10Z

## 原作者与来源\n\n- **原作者/维护者**: Tele-AI\n- **来源平台**: GitHub\n- **原始标题**: TeleFuser\n- **原始链接**: https://github.com/Tele-AI/TeleFuser\n- **发布时间**: 2026年6月12日\n\n---\n\n## 项目背景与定位\n\n当前开源推理框架大多针对三种场景优化：单次图像生成、离线视频生成、通用大语言模型服务。然而，实时世界模型需要完全不同的运行时特性：连续执行、流式输出、双向交互、状态化会话、长上下文效率以及并发场景下的稳定性能。\n\nTeleFuser 正是为解决这些运行时问题而诞生的。它将世界模型视为一个持续更新的系统，而非单次返回结果的函数。该项目提供了运行模型所需的基础设施，使其能够接收输入、保持状态，并逐步输出帧序列。\n\n---\n\n## 核心架构设计\n\nTeleFuser 采用分层运行时架构，清晰映射到代码库结构：\n\n### 1. 访问层（Access Layer）\n基于 FastAPI 的任务 API 和 WebRTC 流式入口点，提供标准化的服务接口。\n\n### 2. 服务与调度层（Service & Scheduling Layer）\n负责请求路由、任务管理、流会话和编排。采用异步流水线调度，支持请求隔离、资源锁定和并行阶段组执行。\n\n### 3. 流水线抽象层（Pipeline Abstraction Layer）\n基于阶段的流水线执行，支持异步执行、请求隔离和资源锁机制。\n\n### 4. 模型与优化层（Model & Optimization Layer）\n包含模型加载、注意力后端选择、量化、卸载、LoRA 和缓存集成。\n\n### 5. 执行后端层（Execution Backend Layer）\n优化的算子、Triton 内核和设备特定实现。\n\n---\n\n## 关键技术特性\n\n### 面向世界模型的运行时设计\n\nTeleFuser 围绕世界模型在生产环境中的运行时需求构建：\n\n- **连续执行而非单次调用**：流式输出帧序列，无需等待完整生成完成\n- **交互式控制**：在会话活跃期间接受提示词、控制信号、图像、音频或动作输入\n- **状态化会话**：跨块保持运行时状态，而非每步重建完整流水线\n- **低首帧延迟**：通过异步调度和流式传输快速暴露部分输出\n- **长时程效率**：通过序列并行、卸载和缓存降低长视频和重复去噪的内存压力\n\n### 分布式 GPU 执行\n\n支持多 GPU 执行，包括：\n- 张量并行（Tensor Parallelism）\n- 序列并行（Sequence Parallelism）\n- 基于 Ray 的分布式工作器编排\n- FSDP 支持\n\n### 流式传输能力\n\n- **WebRTC 渐进式传输**：服务器推送模式，支持视频帧逐步交付\n- **双向 WebRTC**：支持交互式控制循环\n- **可选音频轨道**：支持音视频同步流式输出\n\n### 推理优化栈\n\n- **Triton 内核**：自定义高性能 CUDA 内核\n- **注意力后端**：支持 Torch SDPA、FlashAttention、SageAttention、稀疏注意力变体等\n- **特征缓存**：AdaTaylorCache 通过校准的跳过/重用逻辑加速支持的扩散模型\n- **内存优化**：CPU 卸载、权重重用、运行时感知加载策略\n- **量化支持**：FP8 和 INT8 运行时支持（在模型/后端路径允许的情况下）\n\n---\n\n## 支持的模型与流水线\n\n### 世界模型与实时导向\n\n| 流水线 | 任务 | 说明 |\n|--------|------|------|\n| LingBot-World-Fast | 双向世界模型流式 | 通过 WebRTC DataChannel 实现交互式控制循环 |\n| LiveAct | 语音到视频（S2V） | 语音驱动的说话人脸生成 |\n| FlashVSR | 视频超分辨率（VSR） | 流式视频超分辨率处理 |\n| LongCat-Video | 文生视频/图生视频/视频续编 | 长视频生成和续编工作流 |\n\n### 视频生成\n\n| 流水线 | 任务 | 说明 |\n|--------|------|------|\n| WanVideo (Wan2.1 / Wan2.2) | 文生视频/图生视频 | 万相视频生成模型支持 |\n| HunyuanVideo | 文生视频 | 混元视频生成模型支持 |\n| LTX Video | 文生视频/图生视频 | LTX 视频生成模型支持 |\n\n---\n\n## 两种服务模式\n\n### `telefuser serve` — 批处理服务模式\n\n适用于请求-响应式推理，包含任务管理、标准 REST API 和服务元数据。\n\n**适用场景**：\n- 批量文生视频、图生视频\n- 图像生成和超分辨率\n- 支持流水线合约的结构化参数暴露\n- 兼容 OpenAI 路由，便于客户端集成\n\n### `telefuser stream-serve` — 流式服务模式\n\n专为连续流式工作负载设计。\n\n**适用场景**：\n- 服务器推送 WebRTC 渐进式视频输出\n- 双向 WebRTC 交互式控制循环\n- 实时世界模型、语音驱动生成、流式媒体流水线\n\n---\n\n## AI Dev First 设计理念\n\nTeleFuser 的设计目标不仅是让人类开发者理解流水线，还要让自动化系统和智能体能够理解和使用。\n\n- **PIPELINE_CONTRACT / PIPELINE_MANIFEST**：定义支持的任务、必需的文件输入、默认值和用户面向的参数\n- **机器可读元数据**：服务层使用这些合约暴露机器可读的元数据\n- **统一使用方式**：同一流水线可在本地、REST API 或流式服务中使用\n\n这是项目"AI Dev First"方向的核心：标准化运行时行为，使编排系统能够发现和调用流水线，无需逆向工程内部代码路径。\n\n---\n\n## 快速开始示例\n\n### 安装\n\n```bash\npip install -e .\n```\n\nWebRTC 流式支持：\n```bash\npip install -e \".[webrtc]\"\n```\n\n### 批量视频推理\n\n```python\nfrom telefuser.pipelines.wan_video.wan21_video import Wan21VideoPipeline\nimport torch\n\npipe = Wan21VideoPipeline.from_pretrained(\n    model_id_or_path=\"Wan-AI/Wan2.1-T2V-1.3B\",\n    device=\"cuda\",\n    torch_dtype=torch.bfloat16,\n)\n\nvideo = pipe(\n    prompt=\"A cat playing piano\",\n    num_frames=81,\n    height=480,\n    width=832,\n)\n```\n\n### 实时世界模型演示\n\n```bash\nexport LINGBOT_WORLD_CHECKPOINT_DIR=/path/to/LingBot-World\n\ntelefuser stream-serve examples/stream_server/stream_lingbot_world_fast.py \\\n  -p 8088 \\\n  --skip-validation\n\npython examples/stream_server/webrtc_bidirectional_demo.py \\\n  --server-url http://localhost:8088 \\\n  --image-path /path/to/input.png\n```\n\n这将启动一个连续会话，客户端通过 WebRTC DataChannel 发送控制消息，并通过媒体轨道接收生成的视频帧。\n\n---\n\n## 技术规格要求\n\n- **Python**: 3.10+\n- **PyTorch**: 2.6+\n- **CUDA**: 12.8+\n- **许可证**: Apache 2.0\n\n---\n\n## 总结与展望\n\nTeleFuser 代表了视频生成推理运行时的一个重要演进方向。它不再将世界模型视为简单的函数调用，而是将其作为持续运行的系统来支持。这种架构选择使得实时交互式应用成为可能，从游戏世界模拟到虚拟数字人，从实时视频增强到沉浸式内容创作。\n\n随着多模态大模型能力的不断增强，对高效推理基础设施的需求只会愈发迫切。TeleFuser 通过其分层架构、分布式执行能力和流式传输支持，为这一领域提供了一个坚实的技术基础。