章节 01
【导读】DixitWorld:用桌游评估VLMs溯因推理能力的创新基准
DixitWorld是ACL 2026论文开源项目,通过经典桌游Dixit构建多智能体基准测试框架,旨在评估视觉语言模型(VLMs)的溯因推理能力,揭示当前VLMs在假设生成与选择任务上的结构性不对称问题。项目包含动态博弈环境DixitArena和静态数据集DixitBench,为VLMs高阶认知能力评估提供新工具。
正文
ACL 2026 论文开源项目,通过 Dixit 桌游构建多智能体基准测试,揭示当前 VLMs 在假设生成与选择任务上的结构性不对称问题。
章节 01
DixitWorld是ACL 2026论文开源项目,通过经典桌游Dixit构建多智能体基准测试框架,旨在评估视觉语言模型(VLMs)的溯因推理能力,揭示当前VLMs在假设生成与选择任务上的结构性不对称问题。项目包含动态博弈环境DixitArena和静态数据集DixitBench,为VLMs高阶认知能力评估提供新工具。
章节 02
溯因推理是从部分观察生成解释性假设的能力,是当前大模型“理解”层面的薄弱环节。传统VLMs基准多为静态,缺乏对创造性假设生成和语用推理的评估。DixitWorld将桌游转化为动态多智能体博弈场景,模拟人类类比推理与创造性思维,填补了这一评估空白。
章节 03
章节 04
对6款主流VLMs(如Qwen2.5-VL、GPT-4o等)评估发现:
章节 05
项目采用Python模块化设计:
src/game.py(游戏引擎)、src/agents.py(智能体定义)、src/call_api_*.py(多API客户端);experiments/支持Arena锦标赛、批量测试、DixitBench评估;analysis/提供统计与可视化。支持OpenRouter、Together等API密钥配置,便于复现扩展。章节 06
DixitWorld获ACL 2026认可,其价值包括:
章节 07
局限:84张Dixit卡牌因版权未包含,增加复现门槛;仅评估英语语境。未来方向:通过微调/提示工程改善Storyteller任务表现;扩展跨语言评估;优化数据集版权问题。
章节 08
DixitWorld代表AI基准向高阶认知能力探索的重要一步。模型识别物体只是开始,真正挑战是理解“像猫一样神秘”这类表达——平衡意象关联与解读空间,这是人机交互自然化的关键门槛。