章节 01
导读:QUACK——首个面向视觉语言模型的多模态社交推理评测基准
QUACK(Questioning, Understanding, and Assessing Collaborative Knowledge)是首个专为视觉语言模型(VLM)设计的多模态社交推理评测基准,基于完全开源的引擎构建。它填补了传统纯文本评测的空白,通过图结构地图导航、有限视野观察、多轮讨论投票等机制,评估模型的空间推理、社交推理和欺骗检测能力,支持多模型对比实验与可复现的评测环境。
正文
QUACK是首个专为视觉语言模型设计的多模态社交推理评测基准,基于完全开源的引擎构建,通过图结构地图导航、有限视野观察、多轮讨论投票等机制,评估模型的空间推理、社交推理和欺骗检测能力。
章节 01
QUACK(Questioning, Understanding, and Assessing Collaborative Knowledge)是首个专为视觉语言模型(VLM)设计的多模态社交推理评测基准,基于完全开源的引擎构建。它填补了传统纯文本评测的空白,通过图结构地图导航、有限视野观察、多轮讨论投票等机制,评估模型的空间推理、社交推理和欺骗检测能力,支持多模型对比实验与可复现的评测环境。
章节 02
当前大型语言模型评测多局限于纯文本场景,难以充分评估真实世界智能代理所需的多模态感知、空间导航和社交推理能力。传统社交推理游戏基准(如狼人杀)存在三大局限:缺乏空间grounding(无法验证位置真实性)、无法测试视觉理解、部分可观测性受限。QUACK引入空间维度,解决这些问题,让代理在类似“太空狼人杀”的环境中博弈。
章节 03
QUACK的核心是可配置的图结构地图系统,采用加权走廊连接房间模拟真实空间关系。关键设计特点包括:有限视野(仅同房间代理可见)、多tick位置绑定任务(需特定位置停留多步完成)、紧急会议机制(多轮讨论投票)、结构化状态输入(全局地图+局部感知+文本状态)。这些设计迫使模型进行长程多模态推理,整合历史轨迹、任务进度等多源信息。
章节 04
QUACK的评测协议分三层:
章节 05
QUACK支持多种主流VLM(GPT-5.2/GPT-5.4、Claude Opus4.6、Gemini3.1 Pro、Grok4、Kimi K2.5),可通过命令行参数运行同质/异质实验(如GPT-5.2鹅vs Claude Opus4.6鸭),并提供批量实验脚本。实验可复现性通过记录随机种子、完整决策序列、渲染帧/视频实现,支持从日志重放游戏。
章节 06
QUACK使用Python开发,采用Hydra进行分层配置管理,配置文件为可组合YAML(主入口、游戏规则、地图定义、模型设置等)。游戏日志以JSONL格式保存,包含全状态、决策、会议记录等。评测脚本支持多层次分析,重放脚本可生成渲染帧或视频。
章节 07
QUACK不仅是评测工具,更是研究平台,揭示核心问题:
章节 08
QUACK代表AI评测向真实复杂场景迈进的重要一步,是系统性探索VLM空间推理、社交智能和策略行为能力边界的实验环境。它帮助理解模型真实能力、发现局限并指导研究方向。建议关注AI智能体、多模态推理和社交智能的研究者深入探索QUACK工具。