正文

QUACK：首个面向视觉语言模型的多模态社交推理评测基准

QUACK是首个专为视觉语言模型设计的多模态社交推理评测基准，基于完全开源的引擎构建，通过图结构地图导航、有限视野观察、多轮讨论投票等机制，评估模型的空间推理、社交推理和欺骗检测能力。

视觉语言模型多模态评测社交推理基准测试AI智能体空间推理欺骗检测开源工具

发布时间 2026/05/20 22:06最近活动 2026/05/20 22:49预计阅读 3 分钟

章节 01

导读：QUACK——首个面向视觉语言模型的多模态社交推理评测基准

QUACK（Questioning, Understanding, and Assessing Collaborative Knowledge）是首个专为视觉语言模型（VLM）设计的多模态社交推理评测基准，基于完全开源的引擎构建。它填补了传统纯文本评测的空白，通过图结构地图导航、有限视野观察、多轮讨论投票等机制，评估模型的空间推理、社交推理和欺骗检测能力，支持多模型对比实验与可复现的评测环境。

章节 02

背景：传统评测的局限与QUACK的诞生

当前大型语言模型评测多局限于纯文本场景，难以充分评估真实世界智能代理所需的多模态感知、空间导航和社交推理能力。传统社交推理游戏基准（如狼人杀）存在三大局限：缺乏空间grounding（无法验证位置真实性）、无法测试视觉理解、部分可观测性受限。QUACK引入空间维度，解决这些问题，让代理在类似“太空狼人杀”的环境中博弈。

章节 03

核心机制：图结构地图与部分可观测性设计

QUACK的核心是可配置的图结构地图系统，采用加权走廊连接房间模拟真实空间关系。关键设计特点包括：有限视野（仅同房间代理可见）、多tick位置绑定任务（需特定位置停留多步完成）、紧急会议机制（多轮讨论投票）、结构化状态输入（全局地图+局部感知+文本状态）。这些设计迫使模型进行长程多模态推理，整合历史轨迹、任务进度等多源信息。

章节 04

评测维度：从任务性能到行为一致性的多层次评估

QUACK的评测协议分三层：

基础任务性能：任务完成率（普通代理完成任务效率）、生存率（伪装者存在下存活概率）、胜率（团队获胜概率）；
社交协调能力：会议参与度、投票准确性（识别伪装者）、说服力（伪装者误导成功率）；
对抗鲁棒性与行为一致性：通过自动陈述验证管道，检测欺骗行为、评估信念一致性、审计行动-言语对齐，实现细粒度评测。

章节 05

实验支持：多模型对比与可复现性保障

QUACK支持多种主流VLM（GPT-5.2/GPT-5.4、Claude Opus4.6、Gemini3.1 Pro、Grok4、Kimi K2.5），可通过命令行参数运行同质/异质实验（如GPT-5.2鹅vs Claude Opus4.6鸭），并提供批量实验脚本。实验可复现性通过记录随机种子、完整决策序列、渲染帧/视频实现，支持从日志重放游戏。

章节 06

技术实现：架构与工具链细节

QUACK使用Python开发，采用Hydra进行分层配置管理，配置文件为可组合YAML（主入口、游戏规则、地图定义、模型设置等）。游戏日志以JSONL格式保存，包含全状态、决策、会议记录等。评测脚本支持多层次分析，重放脚本可生成渲染帧或视频。

章节 07

研究价值：揭示多模态智能的关键问题

QUACK不仅是评测工具，更是研究平台，揭示核心问题：

多模态grounding：测试模型对空间关系的真实理解；
欺骗与反欺骗：探索AI的欺骗能力、谎言检测与信任机制；
长程记忆推理：评估模型维护长期行为记忆并调用推理的能力；
多智能体协作竞争：研究不同模型的协作差异与涌现行为。

章节 08

结语：QUACK对AI评测的意义与建议

QUACK代表AI评测向真实复杂场景迈进的重要一步，是系统性探索VLM空间推理、社交智能和策略行为能力边界的实验环境。它帮助理解模型真实能力、发现局限并指导研究方向。建议关注AI智能体、多模态推理和社交智能的研究者深入探索QUACK工具。

QUACK：首个面向视觉语言模型的多模态社交推理评测基准

导读：QUACK——首个面向视觉语言模型的多模态社交推理评测基准

背景：传统评测的局限与QUACK的诞生

核心机制：图结构地图与部分可观测性设计

评测维度：从任务性能到行为一致性的多层次评估

实验支持：多模型对比与可复现性保障

技术实现：架构与工具链细节

研究价值：揭示多模态智能的关键问题

结语：QUACK对AI评测的意义与建议

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统