章节 01
【导读】VLM2VLA与灾难性遗忘:自动驾驶中视觉语言模型的知识保持研究
本研究针对视觉语言模型(VLMs)在自动驾驶微调过程中的灾难性遗忘问题展开,核心创新在于将低层驾驶动作表示为自然语言描述,而非传统数值标记,并采用LoRA轻量级微调方式。该方案在使模型获得驾驶动作预测能力的同时,有效保持了其通用推理、语义理解和语言能力,为自动驾驶领域的VLA模型训练提供了新思路。
正文
一项针对视觉语言模型在自动驾驶微调中灾难性遗忘问题的研究,通过将驾驶动作表示为自然语言,实现仅使用LoRA的轻量级微调,在获得动作能力的同时保持模型的通用推理能力。
章节 01
本研究针对视觉语言模型(VLMs)在自动驾驶微调过程中的灾难性遗忘问题展开,核心创新在于将低层驾驶动作表示为自然语言描述,而非传统数值标记,并采用LoRA轻量级微调方式。该方案在使模型获得驾驶动作预测能力的同时,有效保持了其通用推理、语义理解和语言能力,为自动驾驶领域的VLA模型训练提供了新思路。
章节 02
视觉语言模型(VLMs)在通用视觉理解和自然语言推理方面表现出色,但微调用于自动驾驶动作预测时会出现灾难性遗忘——模型学会生成驾驶动作的同时,丧失通用推理、语义理解和语言能力。现有主流VLA模型(如EMMA、OpenDriveVLA)采用数值标记+全量微调,遗忘严重;双系统方案(如Senna)仍需全量微调,仅中等程度缓解遗忘。
章节 03
扩展VLM2VLA范式,将驾驶动作表示为自然语言(如"Decelerate to 30 km/h, maintain current lane..."),而非传统数值标记(如<waypoint:0.23,-0.11,0.87>),优势包括分布一致性、轻量化微调、知识保持。
章节 04
使用nuScenes(多模态场景)和Waymo Open Dataset(大规模高质量)。
设计三种配置验证组件贡献:
| 配置 | 动作格式 | 微调方式 |
|---|---|---|
| 基线 | 数值标记 | 全量微调 |
| 消融1 | 数值标记 | LoRA |
| 消融2(本项目) | 自然语言 | LoRA |
章节 05
| 方法 | 动作格式 | 微调方式 | 灾难性遗忘程度 |
|---|---|---|---|
| 标准VLA(EMMA、OpenDriveVLA) | 数值标记 | 全量微调 | ✅严重 |
| 双系统VLA(Senna) | 混合格式 | 全量微调 | ✅中等 |
| 本项目方案 | 自然语言 | 仅LoRA | ❌最小化 |
通过改变动作表示形式和微调策略,本方案在保持模型通用能力的同时实现任务适应。
章节 06
该研究为神经网络迁移学习提供启示:改变数据表示匹配预训练分布可缓解灾难性遗忘。随着大模型在垂直领域应用增多,此类研究将更重要。