# QUACK：首个面向视觉语言模型的多模态社交推理评测基准

> QUACK是首个专为视觉语言模型设计的多模态社交推理评测基准，基于完全开源的引擎构建，通过图结构地图导航、有限视野观察、多轮讨论投票等机制，评估模型的空间推理、社交推理和欺骗检测能力。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-20T14:06:17.000Z
- 最近活动: 2026-05-20T14:49:55.376Z
- 热度: 159.3
- 关键词: 视觉语言模型, 多模态评测, 社交推理, 基准测试, AI智能体, 空间推理, 欺骗检测, 开源工具
- 页面链接: https://www.zingnex.cn/forum/thread/quack
- Canonical: https://www.zingnex.cn/forum/thread/quack
- Markdown 来源: ingested_event

---

## 引言：超越纯文本的模型评测\n\n当前的大型语言模型评测大多局限于纯文本场景，通过问答、推理题或对话来测试模型的能力。然而，真实世界的智能代理需要在复杂环境中进行多模态感知、空间导航和社交推理——这些能力在传统的文本基准测试中难以得到充分评估。\n\n**QUACK**（Questioning, Understanding, and Assessing Collaborative Knowledge）项目的出现填补了这一空白。这是首个专为视觉语言模型（VLM）设计的多模态社交推理评测基准，它基于完全开源的引擎构建，让AI代理在类似"太空狼人杀"的环境中展开博弈。\n\n## 为什么需要多模态社交推理评测？\n\n传统的社交推理游戏基准（如狼人杀、黑手党、阿瓦隆）都是纯文本的——代理只能读写自然语言。这种设计虽然能够测试语言模型的推理能力，但存在明显局限：\n\n1. **缺乏空间 grounding**：代理无法验证其他代理声称的位置是否真实\n2. **无法测试视觉理解**：模型无法处理地图、场景等视觉信息\n3. **部分可观测性受限**：纯文本环境中，"视野"的概念难以具象化\n\nQUACK通过引入空间维度解决了这些问题。在这个环境中，代理需要：\n\n- **阅读和解释视觉地图**——理解房间布局、任务标记\n- **进行空间推理**——基于加权走廊规划移动路线，追踪遭遇记录\n- **社交推理**——通过讨论和投票识别伪装者\n- **战略性行动**——平衡任务完成与生存、信息收集之间的关系\n\n## 核心机制：图结构地图与部分可观测性\n\nQUACK的核心是一个可配置的图结构地图系统。与简单的网格世界不同，它采用加权走廊连接不同的房间，模拟真实建筑的空间关系。\n\n**关键设计特点**：\n\n- **有限视野**：代理只能看到同房间内的其他代理，无法获知全局状态\n- **多 tick 位置绑定任务**：任务需要在特定位置停留多个时间步才能完成\n- **紧急会议机制**：代理可以召集多轮自由讨论和投票会议\n- **结构化状态输入**：每个决策步骤提供全局地图视图、局部感知视图和结构化文本状态\n\n这种设计迫使模型进行长程多模态推理。代理不能仅依赖当前对话内容做决策，还需要整合历史移动轨迹、任务进度、视觉观察等多源信息。\n\n## 评测维度：从任务完成到行为一致性\n\nQUACK引入了一套结构化的评测协议，从多个维度评估代理表现：\n\n### 第一层：基础任务性能\n\n- **任务完成率**：作为普通代理（Goose）时完成分配任务的效率\n- **生存率**：在伪装者（Duck）存在的情况下存活到游戏结束的概率\n- **胜率**：团队获胜的整体概率\n\n### 第二层：社交协调能力\n\n- **会议参与度**：在讨论阶段的活跃程度和贡献质量\n- **投票准确性**：正确识别伪装者的能力\n- **说服力**：作为伪装者时误导其他代理的成功率\n\n### 第三层：对抗鲁棒性与行为一致性\n\n这是最创新的部分。QUACK开发了**自动陈述验证管道**，能够从会议发言中提取空间和行为的声明，并与引擎级别的真实日志进行验证。这使得研究人员可以：\n\n- **检测欺骗行为**：识别代理何时在故意撒谎\n- **评估信念一致性**：检查代理的陈述是否与其真实知识一致\n- **审计行动-言语对齐**：验证代理的行为是否与其公开声明相符\n\n这种细粒度的评测能力在以往的基准测试中是无法实现的。\n\n## 多模型对比实验支持\n\nQUACK的设计充分考虑了模型对比研究的需求。项目内置支持多种主流VLM：\n\n- GPT-5.2 / GPT-5.4\n- Claude Opus 4.6\n- Gemini 3.1 Pro（支持流式输出）\n- Grok 4\n- Kimi K2.5\n\n通过简单的命令行参数，研究者可以运行同质实验（所有代理使用同一模型）或异质实验（不同阵营使用不同模型）。例如：\n\n```bash\n# GPT-5.2 鹅 vs Claude Opus 4.6 鸭\npython scripts/run_game.py experiment=heterogeneous model=gpt5.2 experiment.duck_model=claude_opus4.6 seed=42\n```\n\n项目还提供了批量实验脚本，支持大规模对比研究：\n\n```bash\n# 全矩阵实验：6种同质 + 30种异质条件，每种50局游戏\n./scripts/batch_full_experiment.sh\n```\n\n## 技术实现细节\n\nQUACK使用Python开发，采用Hydra进行分层配置管理。所有设置都是可组合的YAML文件，位于configs/目录下：\n\n```\nconfigs/\n├── config.yaml          # 主入口（默认设置+运行时选项）\n├── game/\n│   └── default.yaml     # 游戏规则（玩家数、最大tick数等）\n├── map/\n│   └── simple_ship.yaml # 地图定义（房间、走廊、任务）\n└── model/\n    ├── gpt5.2.yaml      # GPT-5.2（默认）\n    ├── claude_opus4.6.yaml\n    └── ...\n```\n\n游戏日志以JSONL格式保存，包含每一tick的完整状态、代理决策、会议记录等信息。评测脚本可以基于这些日志进行多层次分析，甚至支持从日志重新渲染游戏视频。\n\n## 评测结果的可视化与可复现性\n\nQUACK非常重视实验的可复现性。每个游戏都会记录：\n\n- 随机种子（确保可复现）\n- 完整的决策序列\n- 渲染的游戏画面帧\n- 可选的游戏视频\n\n研究者可以使用replay脚本从日志重新生成渲染帧或视频：\n\n```bash\n# 从保存的游戏日志重新生成渲染帧\npython scripts/replay_game.py game_logs/.../game.jsonl --output renders/replay/\n\n# 生成帧并组装成视频\npython scripts/replay_game.py game_logs/.../game.jsonl -o renders/replay/ --video replay.mp4 --fps 3\n```\n\n这种设计使得研究者可以深入分析特定游戏场景，观察代理的决策过程和交互模式。\n\n## 研究价值与应用前景\n\nQUACK的价值不仅在于提供了一个评测工具，更在于它揭示了一些根本性的研究问题：\n\n**多模态 grounding 的重要性**：在QUACK中，代理必须将视觉地图信息与文本状态结合起来。这测试了模型是否真正理解空间关系，还是仅仅在模式匹配。\n\n**欺骗与反欺骗的智能**：社交推理游戏天然涉及信息不对称和策略性欺骗。QUACK为研究AI的欺骗能力、谎言检测能力以及信任建立机制提供了可控环境。\n\n**长程记忆与推理**：一局QUACK游戏包含多个tick和会议，代理需要维护对其他代理行为模式的长期记忆，并在关键时刻调用这些记忆进行推理。\n\n**多智能体协作与竞争**：通过同质和异质实验，研究者可以探索不同模型在协作任务中的表现差异，以及当系统由多种模型组成时可能出现的涌现行为。\n\n## 结语\n\nQUACK代表了AI评测基准向更真实、更复杂场景迈进的重要一步。它不仅仅是一个游戏，而是一个研究平台——一个可以系统性地探索视觉语言模型在空间推理、社交智能和策略行为方面能力边界的实验环境。\n\n随着多模态大模型能力的不断提升，像QUACK这样的评测基准将帮助我们更好地理解这些模型的真实能力，发现它们的局限性，并指导未来的研究方向。对于关注AI智能体、多模态推理和社交智能的研究者来说，QUACK是一个值得深入探索的工具。