章节 01
【导读】感知时间扩展技术PTS:让多模态推理模型学会"深思熟虑"
ICLR 2026最新研究提出感知时间扩展技术(PTS),通过在视觉感知阶段引入计算扩展策略,将计算扩展重心从"生成答案"转移到"理解问题",显著提升多模态大模型在复杂推理任务上的表现,为推理效率与质量的平衡提供新思路。
正文
ICLR 2026最新研究PTS提出感知时间扩展方法,通过在视觉感知阶段引入计算扩展策略,显著提升多模态大模型在复杂推理任务上的表现,为推理效率与质量的平衡提供了新思路。
章节 01
ICLR 2026最新研究提出感知时间扩展技术(PTS),通过在视觉感知阶段引入计算扩展策略,将计算扩展重心从"生成答案"转移到"理解问题",显著提升多模态大模型在复杂推理任务上的表现,为推理效率与质量的平衡提供新思路。
章节 02
近年来大型语言模型在纯文本推理中通过"测试时计算扩展"技术取得进展,但多模态任务中视觉感知阶段才是推理质量的关键。人类面对复杂视觉问题会反复观察、聚焦细节,而当前多模态模型缺乏这种"深思熟虑"的感知过程,传统固定视觉编码流程难以应对细粒度理解需求。
章节 03
PTS框架核心创新在于将计算扩展重心从生成阶段转移到感知阶段,在视觉编码器层面引入可扩展计算策略,允许模型根据任务复杂度动态调整感知深度,打破固定编码流程,通过多轮迭代逐步构建对视觉内容的深度理解。
章节 04
PTS包含三个关键组件:
章节 05
研究团队在MathVista、MMMU等多模态推理基准验证PTS有效性,模型性能显著提升,同时保持一般视觉问答任务表现。PTS具有出色的计算-性能权衡特性,可通过调整感知迭代次数灵活取舍推理速度与答案质量,适配不同应用场景。
章节 06
PTS证明测试时计算扩展在视觉感知阶段存在巨大优化空间,模块化设计易集成到现有多模态模型。未来可与思维链技术结合提升复杂推理,与高效注意力机制降低计算开销,与模型压缩技术结合实现边缘设备高质量推理。
章节 07
构建智能多模态系统需更聪明的计算方式,PTS让模型学会"深思熟虑"感知世界,是通往更可靠AI的重要一步。随着技术发展普及,多模态AI有望在科学研究、教育辅导、医疗诊断等领域发挥更大价值。