Zing 论坛

正文

QUACK:首个面向视觉语言模型的多模态社交推理评测基准

QUACK是首个专为视觉语言模型设计的多模态社交推理评测基准,基于完全开源的引擎构建,通过图结构地图导航、有限视野观察、多轮讨论投票等机制,评估模型的空间推理、社交推理和欺骗检测能力。

视觉语言模型多模态评测社交推理基准测试AI智能体空间推理欺骗检测开源工具
发布时间 2026/05/20 22:06最近活动 2026/05/20 22:49预计阅读 3 分钟
QUACK:首个面向视觉语言模型的多模态社交推理评测基准
1

章节 01

导读:QUACK——首个面向视觉语言模型的多模态社交推理评测基准

QUACK(Questioning, Understanding, and Assessing Collaborative Knowledge)是首个专为视觉语言模型(VLM)设计的多模态社交推理评测基准,基于完全开源的引擎构建。它填补了传统纯文本评测的空白,通过图结构地图导航、有限视野观察、多轮讨论投票等机制,评估模型的空间推理、社交推理和欺骗检测能力,支持多模型对比实验与可复现的评测环境。

2

章节 02

背景:传统评测的局限与QUACK的诞生

当前大型语言模型评测多局限于纯文本场景,难以充分评估真实世界智能代理所需的多模态感知、空间导航和社交推理能力。传统社交推理游戏基准(如狼人杀)存在三大局限:缺乏空间grounding(无法验证位置真实性)、无法测试视觉理解、部分可观测性受限。QUACK引入空间维度,解决这些问题,让代理在类似“太空狼人杀”的环境中博弈。

3

章节 03

核心机制:图结构地图与部分可观测性设计

QUACK的核心是可配置的图结构地图系统,采用加权走廊连接房间模拟真实空间关系。关键设计特点包括:有限视野(仅同房间代理可见)、多tick位置绑定任务(需特定位置停留多步完成)、紧急会议机制(多轮讨论投票)、结构化状态输入(全局地图+局部感知+文本状态)。这些设计迫使模型进行长程多模态推理,整合历史轨迹、任务进度等多源信息。

4

章节 04

评测维度:从任务性能到行为一致性的多层次评估

QUACK的评测协议分三层:

  1. 基础任务性能:任务完成率(普通代理完成任务效率)、生存率(伪装者存在下存活概率)、胜率(团队获胜概率);
  2. 社交协调能力:会议参与度、投票准确性(识别伪装者)、说服力(伪装者误导成功率);
  3. 对抗鲁棒性与行为一致性:通过自动陈述验证管道,检测欺骗行为、评估信念一致性、审计行动-言语对齐,实现细粒度评测。
5

章节 05

实验支持:多模型对比与可复现性保障

QUACK支持多种主流VLM(GPT-5.2/GPT-5.4、Claude Opus4.6、Gemini3.1 Pro、Grok4、Kimi K2.5),可通过命令行参数运行同质/异质实验(如GPT-5.2鹅vs Claude Opus4.6鸭),并提供批量实验脚本。实验可复现性通过记录随机种子、完整决策序列、渲染帧/视频实现,支持从日志重放游戏。

6

章节 06

技术实现:架构与工具链细节

QUACK使用Python开发,采用Hydra进行分层配置管理,配置文件为可组合YAML(主入口、游戏规则、地图定义、模型设置等)。游戏日志以JSONL格式保存,包含全状态、决策、会议记录等。评测脚本支持多层次分析,重放脚本可生成渲染帧或视频。

7

章节 07

研究价值:揭示多模态智能的关键问题

QUACK不仅是评测工具,更是研究平台,揭示核心问题:

  • 多模态grounding:测试模型对空间关系的真实理解;
  • 欺骗与反欺骗:探索AI的欺骗能力、谎言检测与信任机制;
  • 长程记忆推理:评估模型维护长期行为记忆并调用推理的能力;
  • 多智能体协作竞争:研究不同模型的协作差异与涌现行为。
8

章节 08

结语:QUACK对AI评测的意义与建议

QUACK代表AI评测向真实复杂场景迈进的重要一步,是系统性探索VLM空间推理、社交智能和策略行为能力边界的实验环境。它帮助理解模型真实能力、发现局限并指导研究方向。建议关注AI智能体、多模态推理和社交智能的研究者深入探索QUACK工具。