正文

VLM2VLA与灾难性遗忘：自动驾驶中视觉语言模型的知识保持研究

一项针对视觉语言模型在自动驾驶微调中灾难性遗忘问题的研究，通过将驾驶动作表示为自然语言，实现仅使用LoRA的轻量级微调，在获得动作能力的同时保持模型的通用推理能力。

灾难性遗忘视觉语言模型自动驾驶LoRA微调VLM2VLA动作表示知识保持迁移学习

发布时间 2026/05/09 16:07最近活动 2026/05/09 16:28预计阅读 2 分钟

章节 01

【导读】VLM2VLA与灾难性遗忘：自动驾驶中视觉语言模型的知识保持研究

本研究针对视觉语言模型（VLMs）在自动驾驶微调过程中的灾难性遗忘问题展开，核心创新在于将低层驾驶动作表示为自然语言描述，而非传统数值标记，并采用LoRA轻量级微调方式。该方案在使模型获得驾驶动作预测能力的同时，有效保持了其通用推理、语义理解和语言能力，为自动驾驶领域的VLA模型训练提供了新思路。

章节 02

研究背景与问题定义

视觉语言模型（VLMs）在通用视觉理解和自然语言推理方面表现出色，但微调用于自动驾驶动作预测时会出现灾难性遗忘——模型学会生成驾驶动作的同时，丧失通用推理、语义理解和语言能力。现有主流VLA模型（如EMMA、OpenDriveVLA）采用数值标记+全量微调，遗忘严重；双系统方案（如Senna）仍需全量微调，仅中等程度缓解遗忘。

章节 03

核心创新与系统架构

核心创新

扩展VLM2VLA范式，将驾驶动作表示为自然语言（如"Decelerate to 30 km/h, maintain current lane..."），而非传统数值标记（如<waypoint:0.23,-0.11,0.87>），优势包括分布一致性、轻量化微调、知识保持。

系统架构

VLM主干网络：采用Gemma-3/LLaVA等开源VLM，仅通过LoRA适配器微调，保持原始参数不变。
动作语言化模块：将数值动作转换为自然语言，连接驾驶数据与VLM。
轻量级动作解码器：将自然语言转换为航路点/轨迹等控制指令，独立训练不影响VLM主干。

章节 04

实验设计与评估框架

数据集

使用nuScenes（多模态场景）和Waymo Open Dataset（大规模高质量）。

评估指标

驾驶性能：L2位移误差、碰撞率、路线完成率。
通用能力保持：MMMU（多模态推理）、MMStar（视觉语言基准）、VQA基准，与微调前原始VLM对比。

消融实验

设计三种配置验证组件贡献：

配置	动作格式	微调方式
基线	数值标记	全量微调
消融1	数值标记	LoRA
消融2（本项目）	自然语言	LoRA

章节 05

方法对比与优势

方法	动作格式	微调方式	灾难性遗忘程度
标准VLA（EMMA、OpenDriveVLA）	数值标记	全量微调	✅严重
双系统VLA（Senna）	混合格式	全量微调	✅中等
本项目方案	自然语言	仅LoRA	❌最小化

通过改变动作表示形式和微调策略，本方案在保持模型通用能力的同时实现任务适应。

章节 06

研究意义与展望

研究意义

自动驾驶领域：提供不牺牲通用能力的VLA训练新思路。
灾难性遗忘研究：从数据分布角度缓解错配，提供实用解决方案。
轻量化微调：验证LoRA在复杂自动驾驶场景的可行性。

展望

该研究为神经网络迁移学习提供启示：改变数据表示匹配预训练分布可缓解灾难性遗忘。随着大模型在垂直领域应用增多，此类研究将更重要。