Zing 论坛

正文

多模态大语言模型玩俄罗斯方块:基准测试揭示视觉推理的真实能力

一项开创性研究通过让GPT-4V、Gemini Pro Vision和LLaVA-13b等模型玩俄罗斯方块,系统评估了多模态LLM的视觉理解和空间推理能力,并设立了200美元奖金激励社区开发更优提示策略。

多模态大语言模型视觉推理俄罗斯方块基准测试GPT-4VGemini Pro VisionLLaVA提示工程AI Agent空间推理
发布时间 2026/04/26 08:37最近活动 2026/04/26 08:48预计阅读 2 分钟
多模态大语言模型玩俄罗斯方块:基准测试揭示视觉推理的真实能力
1

章节 01

【主楼/导读】多模态大语言模型玩俄罗斯方块:基准测试揭示视觉推理真实能力

一项名为"Models Playing Tetris"的开源项目通过让GPT-4V、Gemini Pro Vision和LLaVA-13b等多模态大语言模型玩俄罗斯方块,系统性评估其视觉理解和空间推理能力,并设立200美元奖金激励社区优化提示策略,为理解当前AI视觉推理边界提供实验数据。

2

章节 02

研究背景与动机

随着GPT-4V、Gemini Pro Vision等视觉语言模型发展,业界期待其"看懂"图像并决策,但多数基准测试集中于静态图像理解,缺乏动态交互式场景评估。俄罗斯方块需持续观察状态、预测落点、规划操作序列,是下一代AI Agent核心技能的缩影,填补了这一空白。

3

章节 03

测试方法与实验设计

测试了GPT-4V、Gemini Pro Vision、LLaVA-13b三种模型,采用四种提示策略:基础提示、少样本学习(k=2)、思维链(CoT)、CoT+少样本组合。以"平均放置方块数"为核心指标,设随机移动基线(约11.5个方块)作为参照。

4

章节 04

关键实验结果分析

  1. GPT-4V最佳表现为21.2个方块(CoT+少样本,多动作每截图模式),显著优于随机基线;2. Gemini Pro Vision表现波动大,最佳近20个,部分配置接近随机,凸显提示工程的决定性影响;3. LLaVA-13b最高10.7个,与随机基线相当,反映开源与闭源模型的能力鸿沟。
5

章节 05

200美元社区激励机制

研究团队设立奖金,向超越当前最佳成绩(Gemini Pro Vision19.96或GPT-4V21.2)至少10个方块的贡献者颁奖,金额公式为min(2×achieved_pieces,200) USD,吸引社区优化提示策略,目前奖金仍有效。

6

章节 06

技术实现与可复现性

项目用Python实现,uv管理依赖,通过LiteLLM接口调用模型;支持自定义提示(添加到assets/prompts.json);使用zeroize318开源俄罗斯方块引擎,确保环境稳定;实验数据本地保存,提供分析工具统计表现、消行数等指标。

7

章节 07

对AI发展的启示

该研究展示多模态AI在动态视觉任务的真实水平:具备一定空间规划和决策能力,但长程规划和复杂推理仍有短板。对AI Agent发展至关重要,只有在受控环境(如俄罗斯方块)中稳定表现,才能期待其在复杂场景应用。