章节 01
【主楼/导读】多模态大语言模型玩俄罗斯方块:基准测试揭示视觉推理真实能力
一项名为"Models Playing Tetris"的开源项目通过让GPT-4V、Gemini Pro Vision和LLaVA-13b等多模态大语言模型玩俄罗斯方块,系统性评估其视觉理解和空间推理能力,并设立200美元奖金激励社区优化提示策略,为理解当前AI视觉推理边界提供实验数据。
正文
一项开创性研究通过让GPT-4V、Gemini Pro Vision和LLaVA-13b等模型玩俄罗斯方块,系统评估了多模态LLM的视觉理解和空间推理能力,并设立了200美元奖金激励社区开发更优提示策略。
章节 01
一项名为"Models Playing Tetris"的开源项目通过让GPT-4V、Gemini Pro Vision和LLaVA-13b等多模态大语言模型玩俄罗斯方块,系统性评估其视觉理解和空间推理能力,并设立200美元奖金激励社区优化提示策略,为理解当前AI视觉推理边界提供实验数据。
章节 02
随着GPT-4V、Gemini Pro Vision等视觉语言模型发展,业界期待其"看懂"图像并决策,但多数基准测试集中于静态图像理解,缺乏动态交互式场景评估。俄罗斯方块需持续观察状态、预测落点、规划操作序列,是下一代AI Agent核心技能的缩影,填补了这一空白。
章节 03
测试了GPT-4V、Gemini Pro Vision、LLaVA-13b三种模型,采用四种提示策略:基础提示、少样本学习(k=2)、思维链(CoT)、CoT+少样本组合。以"平均放置方块数"为核心指标,设随机移动基线(约11.5个方块)作为参照。
章节 04
章节 05
研究团队设立奖金,向超越当前最佳成绩(Gemini Pro Vision19.96或GPT-4V21.2)至少10个方块的贡献者颁奖,金额公式为min(2×achieved_pieces,200) USD,吸引社区优化提示策略,目前奖金仍有效。
章节 06
项目用Python实现,uv管理依赖,通过LiteLLM接口调用模型;支持自定义提示(添加到assets/prompts.json);使用zeroize318开源俄罗斯方块引擎,确保环境稳定;实验数据本地保存,提供分析工具统计表现、消行数等指标。
章节 07
该研究展示多模态AI在动态视觉任务的真实水平:具备一定空间规划和决策能力,但长程规划和复杂推理仍有短板。对AI Agent发展至关重要,只有在受控环境(如俄罗斯方块)中稳定表现,才能期待其在复杂场景应用。