正文

多模态大语言模型玩俄罗斯方块：基准测试揭示视觉推理的真实能力

一项开创性研究通过让GPT-4V、Gemini Pro Vision和LLaVA-13b等模型玩俄罗斯方块，系统评估了多模态LLM的视觉理解和空间推理能力，并设立了200美元奖金激励社区开发更优提示策略。

多模态大语言模型视觉推理俄罗斯方块基准测试GPT-4VGemini Pro VisionLLaVA提示工程AI Agent空间推理

发布时间 2026/04/26 08:37最近活动 2026/04/26 08:48预计阅读 2 分钟

章节 01

【主楼/导读】多模态大语言模型玩俄罗斯方块：基准测试揭示视觉推理真实能力

一项名为"Models Playing Tetris"的开源项目通过让GPT-4V、Gemini Pro Vision和LLaVA-13b等多模态大语言模型玩俄罗斯方块，系统性评估其视觉理解和空间推理能力，并设立200美元奖金激励社区优化提示策略，为理解当前AI视觉推理边界提供实验数据。

章节 02

随着GPT-4V、Gemini Pro Vision等视觉语言模型发展，业界期待其"看懂"图像并决策，但多数基准测试集中于静态图像理解，缺乏动态交互式场景评估。俄罗斯方块需持续观察状态、预测落点、规划操作序列，是下一代AI Agent核心技能的缩影，填补了这一空白。

章节 03

测试了GPT-4V、Gemini Pro Vision、LLaVA-13b三种模型，采用四种提示策略：基础提示、少样本学习（k=2）、思维链（CoT）、CoT+少样本组合。以"平均放置方块数"为核心指标，设随机移动基线（约11.5个方块）作为参照。

章节 04

GPT-4V最佳表现为21.2个方块（CoT+少样本，多动作每截图模式），显著优于随机基线；2. Gemini Pro Vision表现波动大，最佳近20个，部分配置接近随机，凸显提示工程的决定性影响；3. LLaVA-13b最高10.7个，与随机基线相当，反映开源与闭源模型的能力鸿沟。

章节 05

研究团队设立奖金，向超越当前最佳成绩（Gemini Pro Vision19.96或GPT-4V21.2）至少10个方块的贡献者颁奖，金额公式为min(2×achieved_pieces,200) USD，吸引社区优化提示策略，目前奖金仍有效。

章节 06

项目用Python实现，uv管理依赖，通过LiteLLM接口调用模型；支持自定义提示（添加到assets/prompts.json）；使用zeroize318开源俄罗斯方块引擎，确保环境稳定；实验数据本地保存，提供分析工具统计表现、消行数等指标。

章节 07

该研究展示多模态AI在动态视觉任务的真实水平：具备一定空间规划和决策能力，但长程规划和复杂推理仍有短板。对AI Agent发展至关重要，只有在受控环境（如俄罗斯方块）中稳定表现，才能期待其在复杂场景应用。