Zing 论坛

正文

PhysicsFormer:让语言模型真正理解物理世界的因果推理框架

UWM研究团队开源PhysicsFormer,一个8200万参数的小型物理推理模型,通过将物理场景编码为结构化状态张量,在CLEVRER基准测试上达到79.6%的准确率,超越Llama-3.3-70B等大规模语言模型,证明了物理基础表示对因果推理的关键作用。

PhysicsFormer物理推理因果推理语言模型CLEVRER多模态AI结构化表示LoRA前缀微调物理基础
发布时间 2026/06/07 15:08最近活动 2026/06/07 15:18预计阅读 3 分钟
PhysicsFormer:让语言模型真正理解物理世界的因果推理框架
1

章节 01

导读:PhysicsFormer——让语言模型理解物理因果的轻量级框架

UWM研究团队于2026年6月7日在GitHub开源PhysicsFormer——一个仅8200万参数的轻量级物理推理模型。该模型通过将物理场景编码为结构化状态张量,在CLEVRER物理推理基准测试中达到79.6%的准确率,超越Llama-3.3-70B等大规模语言模型,证明了物理基础表示对因果推理的关键作用。项目原始链接:https://github.com/uwm-se/PhysicsFormer。

2

章节 02

背景:语言模型为何难以理解物理因果推理

当前大语言模型(LLM)在文本任务上表现出色,但处理物理世界因果推理时存在局限——常依赖统计模式匹配而非真正物理理解。CLEVRER基准测试要求模型理解物体交互、预测未来状态及反事实推理,这些任务对缺乏物理grounding的纯语言模型极具挑战性,暴露了其局限性。

3

章节 03

PhysicsFormer的核心:物理基础表示与轻量级架构

PhysicsFormer的核心是将物理场景显式编码为结构化状态张量:每个物体用35维向量表示(含位置、速度、质量、材质、颜色、形状等属性),组合成[1,N,35]张量。架构包括:物理编码器(FullPhysicsFormer,提取视觉物理特征)、基础语言模型(DistilGPT-2轻量级变体)、适配器(PhysicsLLMAdapterV2,前缀微调+LoRA连接两者)、辅助头(处理数值回归、分类及多选题任务)。

4

章节 04

三阶段渐进式训练策略

采用三阶段渐进训练策略:

  1. 阶段1:冻结语言模型,训练适配器MLP层和辅助头,使用生成交叉熵、数值MSE等损失,学习率2e-4;
  2. 阶段2:添加LoRA到DistilGPT-2注意力层(40.5万额外参数),引入InfoNCE对比损失防止表示坍塌,学习率5e-5;
  3. 阶段3:完全微调DistilGPT-2所有参数,保持前两阶段目标函数,学习率2e-5。此策略避免直接端到端训练的优化困难。
5

章节 05

实验结果:小模型超越大模型的物理推理能力

实验结果显著:

  • CLEVRER验证集总体准确率79.6%(解释性78.9%、预测性76.4%、反事实81.5%);
  • 3-6物体held-out分区:PhysicsFormer 69.2% vs Llama-3.3-70B的62.5%(统计显著);
  • 15物体压力测试:预测性问题64.6%,远超DeepSeek-V3(53.8%)和Llama-3.3-70B(48.8%);
  • 消融实验:物理状态张量置零后准确率从82.3%降至6.9%,证明依赖物理表示;
  • ComPhy零样本测试:展现跨基准迁移能力。
6

章节 06

技术启示与未来方向

技术启示:

  1. 结构化表示比模型规模更重要(82M参数超越700亿参数模型);
  2. 多模态融合新思路:先转换视觉为物理结构化表示再推理;
  3. 渐进式训练有效(分阶段解锁参数);
  4. 开源可复现(提供代码、预训练checkpoint及复现指南)。未来方向:处理更复杂场景、扩展物理属性覆盖、平衡专用性与通用性。
7

章节 07

局限性与挑战

局限性:

  1. 场景复杂度限制(训练于3-6物体场景,复杂真实场景待验证);
  2. 物理属性覆盖有限(未涉及流体、形变、电磁等现象);
  3. 专用性与通用性权衡(针对物理推理优化,需探索保持通用性的方法)。
8

章节 08

结语:物理基础表示为AI理解世界铺路

PhysicsFormer代表AI物理推理领域重要进展,证明小型模型通过物理基础表示可超越大型通用模型。其物理grounding思路为多模态AI设计提供新方向,也为具身智能和机器人技术中感知、推理与行动的连接铺路,推动构建真正理解物理世界的智能系统。