正文

感知时间扩展技术PTS：让多模态推理模型学会"深思熟虑"

ICLR 2026最新研究PTS提出感知时间扩展方法，通过在视觉感知阶段引入计算扩展策略，显著提升多模态大模型在复杂推理任务上的表现，为推理效率与质量的平衡提供了新思路。

多模态推理测试时计算扩展视觉感知大语言模型ICLR 2026深度学习人工智能

发布时间 2026/05/19 16:38最近活动 2026/05/19 16:47预计阅读 2 分钟

章节 01

【导读】感知时间扩展技术PTS：让多模态推理模型学会"深思熟虑"

ICLR 2026最新研究提出感知时间扩展技术（PTS），通过在视觉感知阶段引入计算扩展策略，将计算扩展重心从"生成答案"转移到"理解问题"，显著提升多模态大模型在复杂推理任务上的表现，为推理效率与质量的平衡提供新思路。

章节 02

近年来大型语言模型在纯文本推理中通过"测试时计算扩展"技术取得进展，但多模态任务中视觉感知阶段才是推理质量的关键。人类面对复杂视觉问题会反复观察、聚焦细节，而当前多模态模型缺乏这种"深思熟虑"的感知过程，传统固定视觉编码流程难以应对细粒度理解需求。

章节 03

PTS框架核心创新在于将计算扩展重心从生成阶段转移到感知阶段，在视觉编码器层面引入可扩展计算策略，允许模型根据任务复杂度动态调整感知深度，打破固定编码流程，通过多轮迭代逐步构建对视觉内容的深度理解。

章节 04

PTS包含三个关键组件：

章节 05

研究团队在MathVista、MMMU等多模态推理基准验证PTS有效性，模型性能显著提升，同时保持一般视觉问答任务表现。PTS具有出色的计算-性能权衡特性，可通过调整感知迭代次数灵活取舍推理速度与答案质量，适配不同应用场景。

章节 06

PTS证明测试时计算扩展在视觉感知阶段存在巨大优化空间，模块化设计易集成到现有多模态模型。未来可与思维链技术结合提升复杂推理，与高效注意力机制降低计算开销，与模型压缩技术结合实现边缘设备高质量推理。

章节 07

构建智能多模态系统需更聪明的计算方式，PTS让模型学会"深思熟虑"感知世界，是通往更可靠AI的重要一步。随着技术发展普及，多模态AI有望在科学研究、教育辅导、医疗诊断等领域发挥更大价值。