章节 01
导读:PhysicsFormer——让语言模型理解物理因果的轻量级框架
UWM研究团队于2026年6月7日在GitHub开源PhysicsFormer——一个仅8200万参数的轻量级物理推理模型。该模型通过将物理场景编码为结构化状态张量,在CLEVRER物理推理基准测试中达到79.6%的准确率,超越Llama-3.3-70B等大规模语言模型,证明了物理基础表示对因果推理的关键作用。项目原始链接:https://github.com/uwm-se/PhysicsFormer。
正文
UWM研究团队开源PhysicsFormer,一个8200万参数的小型物理推理模型,通过将物理场景编码为结构化状态张量,在CLEVRER基准测试上达到79.6%的准确率,超越Llama-3.3-70B等大规模语言模型,证明了物理基础表示对因果推理的关键作用。
章节 01
UWM研究团队于2026年6月7日在GitHub开源PhysicsFormer——一个仅8200万参数的轻量级物理推理模型。该模型通过将物理场景编码为结构化状态张量,在CLEVRER物理推理基准测试中达到79.6%的准确率,超越Llama-3.3-70B等大规模语言模型,证明了物理基础表示对因果推理的关键作用。项目原始链接:https://github.com/uwm-se/PhysicsFormer。
章节 02
当前大语言模型(LLM)在文本任务上表现出色,但处理物理世界因果推理时存在局限——常依赖统计模式匹配而非真正物理理解。CLEVRER基准测试要求模型理解物体交互、预测未来状态及反事实推理,这些任务对缺乏物理grounding的纯语言模型极具挑战性,暴露了其局限性。
章节 03
PhysicsFormer的核心是将物理场景显式编码为结构化状态张量:每个物体用35维向量表示(含位置、速度、质量、材质、颜色、形状等属性),组合成[1,N,35]张量。架构包括:物理编码器(FullPhysicsFormer,提取视觉物理特征)、基础语言模型(DistilGPT-2轻量级变体)、适配器(PhysicsLLMAdapterV2,前缀微调+LoRA连接两者)、辅助头(处理数值回归、分类及多选题任务)。
章节 04
采用三阶段渐进训练策略:
章节 05
实验结果显著:
章节 06
技术启示:
章节 07
局限性:
章节 08
PhysicsFormer代表AI物理推理领域重要进展,证明小型模型通过物理基础表示可超越大型通用模型。其物理grounding思路为多模态AI设计提供新方向,也为具身智能和机器人技术中感知、推理与行动的连接铺路,推动构建真正理解物理世界的智能系统。