章节 01
【导读】如何让AI学会视觉思考?跨视角空间推理新突破
研究团队提出视图丢弃(VDrop)训练方法与全景视觉思考策略,解决视觉语言模型(VLMs)在跨视角空间推理中依赖语言丢失细粒度几何信息的关键难题,实现最佳域外泛化性能。
来源:arXiv 2026年5月26日发布的论文《How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning》(链接:http://arxiv.org/abs/2605.27310v1)