Zing 论坛

正文

PersonaDrive:基于检索增强的类人风格自动驾驶代理,实现闭环仿真中的多样化交通行为

本文介绍PersonaDrive系统,通过检索增强生成技术让VLA自动驾驶代理学习人类在不同风格指令下的真实驾驶行为,实现无需重新训练即可切换驾驶风格的多样化交通仿真。

自动驾驶VLA检索增强驾驶仿真行为风格闭环仿真CARLA交通代理
发布时间 2026/06/11 03:16最近活动 2026/06/12 10:58预计阅读 3 分钟
PersonaDrive:基于检索增强的类人风格自动驾驶代理,实现闭环仿真中的多样化交通行为
1

章节 01

导读:PersonaDrive——基于检索增强的类人风格自动驾驶代理

PersonaDrive:基于检索增强的类人风格自动驾驶代理

标题:PersonaDrive:基于检索增强的类人风格自动驾驶代理,实现闭环仿真中的多样化交通行为 摘要:本文介绍PersonaDrive系统,通过检索增强生成技术让VLA自动驾驶代理学习人类在不同风格指令下的真实驾驶行为,实现无需重新训练即可切换驾驶风格的多样化交通仿真。 关键词:自动驾驶, VLA, 检索增强, 驾驶仿真, 行为风格, 闭环仿真, CARLA, 交通代理 来源信息

  • 原作者/维护者:arXiv authors
  • 来源平台:arxiv
  • 原始标题:PersonaDrive: Human-Style Retrieval-Augmented VLA Agents for Closed-Loop Driving Simulation
  • 原始链接:http://arxiv.org/abs/2606.12616v1
  • 发布时间:2026-06-10T19:16:31Z
2

章节 02

背景:自动驾驶仿真需要"人味"的交通代理

背景:自动驾驶仿真需要"人味"的交通代理

自动驾驶系统开发测试依赖闭环驾驶仿真器,其中背景交通代理的行为真实性直接影响仿真可信度。现有仿真器中的背景代理行为单一(规则预设或单一模式训练),与真实世界风格各异的驾驶员(激进、保守等)相去甚远,如何赋予代理"人味"是长期挑战。

3

章节 03

现有方法的局限:缺乏真实风格指导下的人类行为数据

现有方法的局限

现有引入风格变化的方法存在明显局限:

  1. 事后标注法:在观察数据上事后加风格标签,仅推测意图,无法确知真实风格。
  2. LLM推理奖励法:用LLM推断风格对应的奖励权重,是代理信号而非真实行为演示。 两者共同问题:缺乏人类在明确风格指令下驾驶的真实数据,风格是抽象推断属性而非实际可学习模式。
4

章节 04

核心创新与技术架构

核心创新

PersonaDrive首次使用人类在明确风格指令(激进、中性、保守)下驾驶的真实数据训练VLA代理,风格是实际行为模式而非推断标签,更真实可控。

技术架构:三阶段训练流程

  1. 离线三元组挖掘:对每种风格数据挖掘(查询图像、正样本、负样本),用图像-文本相似度联合评分捕捉风格视觉线索。
  2. 轻量级检索头训练:冻结预训练视觉编码器,用小型控制编码器编码车辆信号,跨模态融合形成检索表示,各风格共享架构但数据库不同。
  3. VLA骨干网络微调:微调单一VLA骨干,推理时将检索到的上下文示例作为行为演示指导路径点预测。
5

章节 05

推理时风格切换:无需重新训练的灵活控制

推理时风格切换优势

所有风格共享同一VLA骨干,切换风格仅需改变检索头查询的数据库:

  • 无需重新训练,切换数据库即可;
  • 仿真中可动态改变风格;
  • 添加新风格只需收集对应人类数据并建立新数据库。
6

章节 06

实验结果:性能与多样性双赢

实验结果(Bench2Drive基准)

  1. 整体性能提升:不指定风格时,相比SimLingo提升4.6%驾驶分数,相比HiP-AD提升2.5%。
  2. 风格特定性能:每种风格均达最高驾驶分数,风格间性能差异仅2%左右;最强基线DMW最强风格表现比PersonaDrive最弱风格低5.4%。
  3. 行为指标验证:保守到激进风格,平均速度提升18%,加速度提升25%,符合人类直觉。
7

章节 07

结论与意义

技术贡献与意义

  • 数据层面:首次展示明确风格指令下人类驾驶数据的价值,比事后标注或奖励工程更直接捕捉行为本质。
  • 架构层面:检索增强VLA架构提供新范式,结合检索与生成实现细粒度风格控制。
  • 应用层面:为自动驾驶开发者提供多样化真实交通场景生成方法,助力测试系统鲁棒性。

结语

PersonaDrive让仿真更贴近真实世界多样性,展示人类数据在AI系统中的持续价值,帮助构建更安全可靠的自动驾驶系统。

8

章节 08

局限与未来方向

局限

  1. 仅测试三种基本风格(激进、中性、保守),真实风格更复杂;
  2. 风格切换基于整个数据库,粒度较粗;
  3. 实验主要在CARLA仿真环境,真实世界数据有效性需验证。

未来方向

  • 扩展更多风格类别;
  • 探索风格间平滑过渡;
  • 应用于真实世界驾驶数据。