章节 01
导读 / 主楼:ARC-AGI-3 Solo:面向抽象推理竞赛的组合式Agent架构探索
该项目是Kaggle ARC Prize 2026的参赛方案,采用分阶段迭代的Agent架构,结合图探索、对象中心世界模型和不确定性触发的LLM推理,目标攻克抽象推理基准测试。
正文
该项目是Kaggle ARC Prize 2026的参赛方案,采用分阶段迭代的Agent架构,结合图探索、对象中心世界模型和不确定性触发的LLM推理,目标攻克抽象推理基准测试。
章节 01
该项目是Kaggle ARC Prize 2026的参赛方案,采用分阶段迭代的Agent架构,结合图探索、对象中心世界模型和不确定性触发的LLM推理,目标攻克抽象推理基准测试。
章节 02
章节 03
原作者与来源
notebooks/_build_submission_v1.py脚本,可以从src/源代码重新生成提交版本,确保可复现性。\n\n对象中心的世界模型思路\n\nPhase 3规划引入"对象中心(Object-Centric)"的世界模型,这是当前AI研究的前沿方向。与传统像素级或网格级的表示不同,对象中心方法尝试将场景分解为离散的对象实体,每个对象有自己的属性(位置、颜色、形状)和动态(移动、变换、组合)。\n\n这种表示的优势在于:\n\n1. 组合泛化: 学习到的对象变换规则可以组合应用到新场景\n2. 因果推理: 更容易推断"如果对象A向右移动,对象B会如何响应"\n3. 数据效率: 相比端到端神经网络,结构化表示需要更少的数据\n\n项目计划结合前向模型(Forward Model)进行规划,即在行动前预测结果,这与人类解决问题时的"心智模拟"机制类似。\n\n不确定性触发的LLM推理\n\nPhase 4的设计尤为引人注目:引入小型离线LLM作为"不确定性触发的推理器"。这种设计的核心思想是——并非所有决策都需要大模型的参与。\n\n具体策略可能是:\n\n- 当基于规则的组件(如图探索)对某个变换有较高置信度时,直接执行\n- 当遇到不确定的情况(如多种变换可能性得分相近,或遇到训练分布外的模式)时,触发LLM进行深度推理\n- LLM以离线方式运行,避免API调用延迟和成本,同时保证可复现性\n\n这种"神经符号混合"(Neuro-Symbolic Hybrid)架构代表了当前AI系统设计的趋势:结合符号系统的可解释性和神经网络的灵活性。\n\n本地评估与实验流程\n\n项目提供了完整的本地评估基础设施:\n\npowershell\n设置环境变量\n$env:OPERATION_MODE = \"offline\"\n$env:ENVIRONMENTS_DIR = \".\\data\\environment_files\"\n$env:PER_GAME_BUDGET_S = \"300\"\n\n运行本地评估\npython notebooks/_local_eval_p1.py\n\n\n评估结果写入runs/p1_local_eval.{log,json},包含每个游戏的得分。这种本地评估能力对于快速迭代至关重要——研究者可以在不提交Kaggle的情况下验证想法。\n\n项目还维护了详细的参考仓库(vendor/目录),包括官方Agent框架和第三名的预览赛方案,体现了良好的研究实践。\n\n技术栈与工程实践\n\n项目采用Python技术栈,使用 Poetry/Setuptools 进行依赖管理:\n\npowershell\npython -m venv .venv\n.venv\\Scripts\\Activate.ps1\npip install -e \".[dev]\"\npytest\n\n\n代码组织清晰:src/arc_agi3_solo/包含核心实现(agents/、eval/、core/),notebooks/存放Kaggle提交版本,tests/包含pytest测试,docs/存放设计文档。这种结构既支持研究实验,也便于最终开源发布。\n\n结语:通往通用人工智能的抽象推理之路\n\nARC-AGI-3之所以被视为AGI研究的重要里程碑,是因为它测试的正是人类智能最核心的能力之一——从有限示例中抽象出通用规则并应用于新情境。当前大语言模型在这一任务上的惨败,恰恰说明仅靠海量文本训练无法获得真正的推理能力。\n\nDevchandrasen的参赛方案展示了构建抽象推理Agent的一种可能路径:从可解释的图探索开始,逐步引入结构化世界模型和选择性神经推理。这种渐进式、可验证的方法论,无论最终在竞赛中取得什么成绩,都为社区贡献了宝贵的实践经验。\n\n对于关注AGI进展的研究者和开发者,该项目提供了一个绝佳的学习案例——不仅是算法层面的,更是研究方法论和工程实践层面的。