正文

LLM-SOTIF：大视觉语言模型在 SOTIF 条件下的目标检测评估

一项针对大视觉语言模型在 SOTIF（预期功能安全）条件下进行 2D 目标检测的对比评估研究，为自动驾驶等安全关键应用中的视觉感知系统提供了重要的性能基准。

大视觉语言模型LVLMSOTIF目标检测自动驾驶安全评估GitHub

发布时间 2026/05/03 21:14最近活动 2026/05/03 21:33预计阅读 3 分钟

章节 01

【导读】LLM-SOTIF：大视觉语言模型在SOTIF条件下的目标检测评估

LLM-SOTIF是格拉茨工业大学ftg团队开发的开源项目，旨在系统评估大视觉语言模型（LVLMs）在SOTIF（预期功能安全）条件下的2D目标检测性能。该研究构建了SOTIF基准测试集，对比主流LVLMs（含开源与闭源），提供性能分析框架及开源实现，为自动驾驶等安全关键应用的视觉感知系统选型与改进提供重要性能基准。

章节 02

研究背景与SOTIF场景定义

研究背景

大视觉语言模型（LVLMs）在通用视觉任务表现出色，但安全关键应用（如自动驾驶）中的性能需深入评估。SOTIF（ISO21448标准）关注系统正常运行时因性能限制导致的安全风险，如恶劣天气下检测失败、罕见目标误识别等。LLM-SOTIF项目旨在填补LVLMs在SOTIF场景下的评估空白。

SOTIF场景类别

环境条件挑战：恶劣天气（雨/雪/雾）、光照变化（强光/夜间）、传感器限制
目标特征挑战：罕见目标、遮挡、小目标、外观变化
场景复杂度挑战：密集场景、动态场景、非结构化环境

章节 03

评估方法论

模型选择

开源模型：LLaVA系列、InstructBLIP、Qwen-VL、Yi-VL、InternVL
闭源模型：GPT-4V、Gemini Pro Vision、Claude3

评估指标

除标准检测指标（mAP/Recall/Precision）外，重点关注：

SOTIF特定指标：条件性能、失效模式分析、置信度校准
安全相关指标：关键目标检测率、误接受vs误拒绝权衡、最坏情况性能

提示策略

探索零样本、少样本、链式思维、结构化输出等提示对性能的影响。

章节 04

关键发现：模型性能与失效模式

整体性能

闭源模型（GPT-4V、Gemini Pro Vision）领先，开源模型（Qwen-VL、InternVL）差距缩小
模型参数量与SOTIF性能正相关，但边际收益递减
微调模型优于通用模型

场景敏感性

最具挑战：夜间低光照、严重遮挡、雪/雾天气
相对鲁棒：正常光照标准车辆、清晰行人、结构化道路

失效模式

系统性偏差：卡车/摩托车漏检、特定颜色/纹理识别困难
置信度问题：错误检测高置信度、困难样本校准差
定位精度：边界框回归差、小目标误差大

章节 05

技术实现要点

数据集构建

来源：nuScenes/KITTI/Waymo等公开数据集、合成数据、网络真实恶劣天气图像
标注：COCO格式边界框、场景标签（天气/光照）、难度评分

评估框架

统一接口调用不同LVLMs
文本输出解析为结构化检测框
SOTIF指标计算与可视化工具

提示模板

采用针对自动驾驶场景优化的提示，要求模型以JSON格式返回目标类别、边界框、置信度。

章节 06

应用价值与影响

自动驾驶研发

技术选型：为感知方案提供数据支撑
安全评估：识别系统性能边界
测试验证：标准化SOTIF测试集与方法

模型开发

改进方向：揭示LVLMs弱点
基准竞争：公开透明的性能比较
数据集参考：SOTIF数据集构建方法论

标准制定

转化抽象安全概念为量化指标
为自动驾驶安全认证提供测试依据

章节 07

局限性与未来工作

局限性

部分SOTIF场景样本量有限
新模型快速涌现，评估需持续更新
合成/网络图像与真实场景有差异
未涉及视频序列时间一致性

未来工作

扩展边缘情况数据集
开发SOTIF模型微调方法
探索多模态融合（相机+激光雷达）
视频级SOTIF评估

章节 08

总结：研究意义与实践指导

LLM-SOTIF首次系统评估了LVLMs在SOTIF条件下的目标检测性能，揭示了当前技术的优势与局限。该研究为安全关键应用（如自动驾驶）的视觉感知系统选型、改进提供了宝贵参考，对工程师和研究者具有重要实践指导意义。随着LVLMs发展，此类安全评估将愈发重要。