Zing 论坛

正文

WISE:让多模态模型"先学厚再变薄",推理长度压缩5倍仍创SOTA

WISE通过"简洁理由-答案-详细解释"的训练结构和自蒸馏目标,让模型学会将详细推理压缩为紧凑形式,ReasonSeg上实现58.3 cIoU且推理token从112降至23。

多模态CoT推理WISE思维压缩语言分割ReasonSeg自蒸馏高效推理大模型优化
发布时间 2026/04/02 21:45最近活动 2026/04/03 09:20预计阅读 2 分钟
WISE:让多模态模型"先学厚再变薄",推理长度压缩5倍仍创SOTA
1

章节 01

【导读】WISE:让多模态模型'先学厚再变薄',推理压缩5倍仍创SOTA

WISE通过'简洁理由-答案-详细解释'的训练结构和自蒸馏目标,引导模型学会将详细推理压缩为紧凑形式。在ReasonSeg基准测试中,WISE-S实现58.3 cIoU的SOTA结果,同时推理token数量从112降至23,压缩比近5倍,实现质量与效率的双赢。

2

章节 02

背景:思维链推理的成本瓶颈

Chain-of-thought(CoT)推理提升了大模型多模态能力,但冗长的推理过程带来计算资源和时间开销,在实时应用或高并发场景中成为部署瓶颈。理想状态是模型既能保持深度推理能力,又能以简洁高效方式表达推理。

3

章节 03

WISE核心:'学厚用薄'的三段式训练结构

WISE的核心理念是'学厚用薄'(thinking twice -- once for learning, once for speed)。训练采用'简洁理由→答案→详细解释'的三段式结构,利用自回归机制迫使简洁理由包含足够信息量支撑后续详细解释生成。

4

章节 04

方法细节:自蒸馏与推理时的简洁策略

WISE引入自蒸馏训练目标,同时奖励语义保真度(简洁理由与详细解释语义等价)和简洁性(少token表达完整推理)。推理时采用WISE-S策略,通过注入简洁性提示词省略详细解释,解决训练与推理的分布偏移问题。

5

章节 05

实验证据:质量与效率的双重突破

在ReasonSeg zero-shot设置下,WISE-S达到58.3 cIoU的SOTA准确率;推理token从112降至23,实现近5倍压缩。结果证明压缩推理未牺牲准确性,挑战了'更详细推理必更好'的假设。

6

章节 06

技术实现:WISE的训练流程要点

WISE训练流程包括:数据准备(复用现有CoT训练数据,无需额外标注)、序列格式化(三段式结构)、损失函数设计(平衡语言建模损失与蒸馏损失)、推理优化(短序列减少解码步骤提升延迟)。

7

章节 07

启示与展望:WISE的应用潜力及未来方向

WISE为高效多模态推理提供新范式,可应用于视觉问答、文档理解、交互式应用等场景。局限包括任务特异性、可解释性权衡;未来方向需验证泛化能力、结合模型蒸馏、探索动态推理长度调整机制。