章节 01
DualGeo:双视角框架提升全球图像地理定位精度
本文提出DualGeo双阶段框架,通过双向交叉注意力融合图像与语义分割特征,结合地理聚类重排序和LMM推理,在IM2GPS、IM2GPS3k和YFCC4k基准上将街道级(<1km)和市级(<25km)定位准确率分别提升3.6%-16.58%和1.29%-8.77%,为全球图像地理定位提供新路径。
正文
本文提出DualGeo双阶段框架,通过双向交叉注意力融合图像与语义分割特征,结合地理聚类重排序和LMM推理,在IM2GPS、IM2GPS3k和YFCC4k基准上将街道级和市级定位准确率分别提升3.6%-16.58%和1.29%-8.77%。
章节 01
本文提出DualGeo双阶段框架,通过双向交叉注意力融合图像与语义分割特征,结合地理聚类重排序和LMM推理,在IM2GPS、IM2GPS3k和YFCC4k基准上将街道级(<1km)和市级(<25km)定位准确率分别提升3.6%-16.58%和1.29%-8.77%,为全球图像地理定位提供新路径。
章节 02
全球图像地理定位需推断任意位置图像的地理坐标,难度跨越街道(米级)到城市(公里级)等多尺度。现有方法面临两大挑战:1.视觉特征对环境变化敏感(同一地点不同季节/天气/光照下特征匹配易失败);2.缺乏有效离群值过滤机制,检索候选含噪声限制精度。
章节 03
第一阶段目标是建立鲁棒地理表征空间,使语义相似图像在空间中靠近。核心策略:1.双模态特征融合(图像特征捕获视觉细节,语义分割特征捕获鲁棒语义内容);2.双向交叉注意力融合(图像→分割学习视觉对应语义,分割→图像学习语义对应视觉);3.双视角对比学习对齐(图像-坐标对齐、语义-地理关联),构建全球检索数据库。
章节 04
第二阶段对检索结果精炼:1.地理聚类重排序(识别空间连贯候选群组,过滤孤立离群值,大聚类候选排名提升);2.LMM推理决策(输入查询图像、候选卫星/街景图像及地理上下文,基于视觉相似性和地理合理性输出最终坐标,弥补纯特征匹配局限)。
章节 05
在IM2GPS、IM2GPS3k、YFCC4k三大基准评估,关注街道级(<1km)和市级(<25km)精度:街道级提升3.6%-16.58%(双视角融合与聚类后处理贡献);市级提升1.29%-8.77%(证明框架鲁棒性)。
章节 06
DualGeo有效的核心原因:1.语义-视觉互补性(融合两者优缺点);2.空间一致性约束(利用真实位置唯一性过滤离群值);3.分层决策架构(粗粒度检索→聚类精炼→LMM推理,平衡效率与精度)。
章节 07
当前局限:计算成本高(双模态提取+LMM推理)、语义分割错误传播、聚类参数需调优。未来方向:高效实现(降成本不牺牲精度)、动态聚类阈值、时序扩展(利用图像时间信息)。