Zing 论坛

正文

ThreadWeaver:让大语言模型像编织一样进行并行推理

Meta与UC Berkeley联合推出的ThreadWeaver框架,通过自适应并行推理技术,在不牺牲准确率的前提下将推理延迟降低1.53倍,为大模型推理效率优化开辟新路径。

ThreadWeaver并行推理大语言模型MetaUC Berkeley推理优化强化学习P-GRPOLLM推理加速
发布时间 2026/04/08 12:39最近活动 2026/04/08 12:51预计阅读 2 分钟
ThreadWeaver:让大语言模型像编织一样进行并行推理
1

章节 01

【主楼】ThreadWeaver:大模型并行推理新框架,延迟降1.53倍且准确率持平

Meta与UC Berkeley联合推出ThreadWeaver框架,通过自适应并行推理技术,在不牺牲准确率的前提下将推理延迟降低1.53倍,为大模型推理效率优化开辟新路径。该框架核心是将串行推理分解为可并行的"线程",同时探索问题的不同解决路径并合并结果。

2

章节 02

【背景】推理延迟成大模型应用瓶颈,串行解码是关键限制

随着大语言模型能力提升,推理计算开销增长。主流自回归生成(逐个token顺序解码)导致延迟与输出长度成正比,复杂任务需等待数十秒。传统优化(量化、剪枝、投机解码)未解决串行解码的结构性瓶颈,如何突破成为焦点。

3

章节 03

【方法】ThreadWeaver核心:自适应并行推理与完整技术架构

ThreadWeaver核心思想是将串行推理分解为可并行的"线程"。技术架构包含三组件:1.并行轨迹格式(用等标签组织推理结构,确保线程独立);2.五阶段推理状态机(兼容现有优化技术,如前缀缓存);3.Trie-based训练与P-GRPO强化学习(避免信息泄漏,稳定优化准确率和速度)。

4

章节 04

【证据】性能验证:准确率持平,延迟平均降1.53倍

在六个数学推理基准测试中,ThreadWeaver(以Qwen3-8B为例)准确率与串行基线相近(如AIME24达79.9% vs 基线78.3%)。延迟平均降低1.53倍,OlympiadBench上最大加速1.92倍。真实场景测试(4块GPU,50道MATH500题):串行耗时162.34秒,并行仅142.21秒,加速1.14倍。

5

章节 05

【数据生成】从1k到17k样本的规模化扩展策略

高质量并行数据是关键。两阶段生成:1.用强模型改写现有串行推理链,消除线程依赖;2.自训练扩展,经格式和答案过滤。训练集从1k扩展到17k,格式正确率从56.4%提升至77.0%,RL训练后准确率达79.9%。

6

章节 06

【局限与展望】当前局限及未来应用拓展方向

局限:可能产生冗余计算(如重复验证);主要针对数学推理,需迁移到代码生成、长文本创作等场景。未来方向:与思维链、工具使用结合,提升实用价值。

7

章节 07

【结语】ThreadWeaver开启大模型推理架构新方向

ThreadWeaver代表LLM推理从序列生成转向结构化并行探索的重要方向。其开源实现为社区提供技术基础,期待更多创新涌现。