Zing 论坛

正文

VLM2VLA与灾难性遗忘:自动驾驶中视觉语言模型的知识保持研究

一项针对视觉语言模型在自动驾驶微调中灾难性遗忘问题的研究,通过将驾驶动作表示为自然语言,实现仅使用LoRA的轻量级微调,在获得动作能力的同时保持模型的通用推理能力。

灾难性遗忘视觉语言模型自动驾驶LoRA微调VLM2VLA动作表示知识保持迁移学习
发布时间 2026/05/09 16:07最近活动 2026/05/09 16:28预计阅读 2 分钟
VLM2VLA与灾难性遗忘:自动驾驶中视觉语言模型的知识保持研究
1

章节 01

【导读】VLM2VLA与灾难性遗忘:自动驾驶中视觉语言模型的知识保持研究

本研究针对视觉语言模型(VLMs)在自动驾驶微调过程中的灾难性遗忘问题展开,核心创新在于将低层驾驶动作表示为自然语言描述,而非传统数值标记,并采用LoRA轻量级微调方式。该方案在使模型获得驾驶动作预测能力的同时,有效保持了其通用推理、语义理解和语言能力,为自动驾驶领域的VLA模型训练提供了新思路。

2

章节 02

研究背景与问题定义

视觉语言模型(VLMs)在通用视觉理解和自然语言推理方面表现出色,但微调用于自动驾驶动作预测时会出现灾难性遗忘——模型学会生成驾驶动作的同时,丧失通用推理、语义理解和语言能力。现有主流VLA模型(如EMMA、OpenDriveVLA)采用数值标记+全量微调,遗忘严重;双系统方案(如Senna)仍需全量微调,仅中等程度缓解遗忘。

3

章节 03

核心创新与系统架构

核心创新

扩展VLM2VLA范式,将驾驶动作表示为自然语言(如"Decelerate to 30 km/h, maintain current lane..."),而非传统数值标记(如<waypoint:0.23,-0.11,0.87>),优势包括分布一致性、轻量化微调、知识保持。

系统架构

  1. VLM主干网络:采用Gemma-3/LLaVA等开源VLM,仅通过LoRA适配器微调,保持原始参数不变。
  2. 动作语言化模块:将数值动作转换为自然语言,连接驾驶数据与VLM。
  3. 轻量级动作解码器:将自然语言转换为航路点/轨迹等控制指令,独立训练不影响VLM主干。
4

章节 04

实验设计与评估框架

数据集

使用nuScenes(多模态场景)和Waymo Open Dataset(大规模高质量)。

评估指标

  • 驾驶性能:L2位移误差、碰撞率、路线完成率。
  • 通用能力保持:MMMU(多模态推理)、MMStar(视觉语言基准)、VQA基准,与微调前原始VLM对比。

消融实验

设计三种配置验证组件贡献:

配置 动作格式 微调方式
基线 数值标记 全量微调
消融1 数值标记 LoRA
消融2(本项目) 自然语言 LoRA
5

章节 05

方法对比与优势

方法 动作格式 微调方式 灾难性遗忘程度
标准VLA(EMMA、OpenDriveVLA) 数值标记 全量微调 ✅严重
双系统VLA(Senna) 混合格式 全量微调 ✅中等
本项目方案 自然语言 仅LoRA ❌最小化

通过改变动作表示形式和微调策略,本方案在保持模型通用能力的同时实现任务适应。

6

章节 06

研究意义与展望

研究意义

  1. 自动驾驶领域:提供不牺牲通用能力的VLA训练新思路。
  2. 灾难性遗忘研究:从数据分布角度缓解错配,提供实用解决方案。
  3. 轻量化微调:验证LoRA在复杂自动驾驶场景的可行性。

展望

该研究为神经网络迁移学习提供启示:改变数据表示匹配预训练分布可缓解灾难性遗忘。随着大模型在垂直领域应用增多,此类研究将更重要。