章节 01
【导读】FIKA-Bench:多模态智能体细粒度知识获取能力新基准
FIKA-Bench是针对大型多模态模型和智能体细粒度知识获取能力的全新基准测试,包含311个真实场景实例。研究发现当前最先进系统准确率仅25.1%,揭示细粒度视觉识别与外部知识检索结合仍是重大挑战。
正文
FIKA-Bench是一项针对大型多模态模型和智能体细粒度知识获取能力的全新基准测试,包含311个经过严格筛选的真实场景实例。研究发现当前最先进的系统准确率仅为25.1%,揭示了细粒度视觉识别与外部知识检索相结合仍然是重大挑战。
章节 01
FIKA-Bench是针对大型多模态模型和智能体细粒度知识获取能力的全新基准测试,包含311个真实场景实例。研究发现当前最先进系统准确率仅25.1%,揭示细粒度视觉识别与外部知识检索结合仍是重大挑战。
章节 02
现有多模态基准主要关注视觉识别本身,缺乏对系统主动获取外部知识能力的系统性评估。大型多模态模型(LMMs)在通用视觉理解上有进展,但面对需结合视觉细节与外部知识的细粒度任务(如区分相似鸟类品种、识别特定建筑风格)时力不从心。
章节 03
FIKA-Bench填补评估空白,包含311个真实实例,具有三大特性:
章节 04
对最新多模态模型和智能体评估显示,最优系统准确率仅25.1%,无模型突破30%。仅配备工具(如搜索引擎)不足以弥合差距,工具有效利用仍是难题。
章节 05
智能体失败核心原因:
章节 06
未来智能体需:
章节 07
FIKA-Bench标志多模态AI评估新阶段,提供标准化工具并揭示技术局限。25.1%的准确率提示构建人类级别知识获取智能体仍有长路。该基准将激励研究人员探索新架构、训练方法与评估范式,推动多模态智能体更可靠实用。