Zing 论坛

正文

WAVN:融合CNN与GNN的拓扑感知视觉导航框架

这是一个面向GPS拒止环境的多机器人协作视觉归航框架,通过混合CNN/GNN架构将环境表示为拓扑图,实现去中心化学习与关系推理的隐私保护方案。

CNNGNN视觉导航多机器人GPS拒止拓扑图去中心化学习机器人协作
发布时间 2026/04/21 01:29最近活动 2026/04/21 01:52预计阅读 3 分钟
WAVN:融合CNN与GNN的拓扑感知视觉导航框架
1

章节 01

导读 / 主楼:WAVN:融合CNN与GNN的拓扑感知视觉导航框架

这是一个面向GPS拒止环境的多机器人协作视觉归航框架,通过混合CNN/GNN架构将环境表示为拓扑图,实现去中心化学习与关系推理的隐私保护方案。

2

章节 02

问题背景:GPS拒止环境的导航挑战

现代机器人系统越来越依赖GPS进行定位导航,但在室内、地下、城市峡谷或敌对环境中,GPS信号可能完全不可用或严重衰减。对于需要协作完成任务的机器人团队而言,如何在缺乏全局定位的情况下实现可靠的视觉导航,是一个亟待解决的技术难题。

传统的视觉导航方法通常依赖于单一机器人的局部感知,难以利用团队级别的集体知识。而集中式学习方法虽然可以整合多机器人数据,却带来了隐私风险和通信瓶颈。WAVN的核心创新在于提出了一种去中心化学习框架,结合拓扑感知的场景理解,既保护了数据隐私,又实现了知识共享。

3

章节 03

核心架构:混合CNN/GNN模型

WAVN采用了一种独特的混合架构,将环境建模为拓扑图:

  • 图像嵌入作为节点:每个位置捕获的图像经过CNN特征提取后,成为图中的一个节点
  • 导航转换作为边:机器人从一个位置移动到另一个位置的转换关系,形成图中的有向边
  • 关系推理:GNN在图上进行推理,学习位置之间的拓扑关系和导航策略

这种表示方式的优势在于:

  1. 拓扑抽象:将复杂的视觉环境抽象为图结构,降低了导航问题的复杂度
  2. 关系建模:显式建模位置之间的可达性和转换关系
  3. 可扩展性:新位置可以动态添加为节点,新路径可以添加为边
  4. 隐私保护:每个机器人维护自己的子图,无需共享原始图像数据
4

章节 04

特征提取骨干网络

项目使用EfficientNet B0作为冻结的特征提取器。这种选择兼顾了特征质量和计算效率:

  • EfficientNet B0:轻量级但强大的CNN架构,适合边缘部署
  • 可替换设计:可以轻松替换为ResNet、MobileNet等其他骨干网络
  • 冻结权重:CNN部分在训练期间保持冻结,专注于训练GNN的图推理能力
5

章节 05

四通道边增强图

WAVN的一个关键创新是四通道边增强图设计:

  • RGB图像通道:提供标准的视觉特征
  • 边缘分割图像通道:提供结构化的轮廓信息

这种双模态输入让模型既能理解场景的外观特征,又能把握场景的几何结构,显著提升了在复杂环境中的导航鲁棒性。

6

章节 06

图神经网络架构

GNN部分采用2层图卷积网络(GCN):

  • 图卷积层:学习节点之间的关系和消息传递
  • 全局池化:将所有节点的特征聚合成固定大小的图表示
  • 线性分类头:将学习到的表示映射到导航决策空间

全局池化的作用是将变长的节点序列转换为固定维度的向量,这对于后续的导航决策至关重要。

7

章节 07

代码结构解析

项目代码组织清晰,分为几个核心模块:

8

章节 08

building_graph.py

这是图构建的核心模块,包含四个关键函数:

  • get_feature_extractor:定义特征提取骨干网络,配置权重,设置投影和目标维度
  • ExtractImageFeatures:转换RGB和边缘分割图像,组合成4通道张量
  • resolve_dual_paths:解析图像对,确保当前位置和目的地位置的配对完整性
  • BuildGlobalGraphFromCSV:基于前述函数的信息创建全局图,定义节点和边