章节 01
【导读】Therma:用热力学弛豫革新大模型推理的物理化新范式
Therma是基于JAX的高性能仿真框架,核心创新在于用离散热力学机器(DTM)替代传统Softmax采样头,将模型权重视为能量景观,通过随机弛豫和热噪声进行推理,为下一代模拟硬件AI的发展奠定基础。
正文
Therma是一个基于JAX的高性能仿真框架,用离散热力学机器(DTM)替代传统的Softmax采样头,通过将模型权重重新诠释为能量景观,利用随机弛豫和热噪声进行推理,为下一代模拟硬件AI奠定基础。
章节 01
Therma是基于JAX的高性能仿真框架,核心创新在于用离散热力学机器(DTM)替代传统Softmax采样头,将模型权重视为能量景观,通过随机弛豫和热噪声进行推理,为下一代模拟硬件AI的发展奠定基础。
章节 02
大语言模型推理长期依赖精确数学计算,Softmax层作为核心组件执行确定性归一化操作,但面临能耗高、硬件依赖性强等挑战。Therma项目引入热力学原理,用物理系统的弛豫过程替代传统精确计算,为模拟硬件AI开辟新路径。
章节 03
Therma将Transformer隐藏状态投影到势能流形,权重视为能量系数,消除昂贵的全局归一化需求,采用局部Gibbs采样。其哲学基础是让模型像物理系统一样“弛豫”到答案——热力学系统趋向能量最低平衡态,Therma通过热噪声驱动的随机过程找到最优token生成路径。
章节 04
Therma设计双TSU系统:
章节 05
Therma提供精细控制能力:
章节 06
Therma基于JAX构建,利用自动微分和GPU加速,代码结构包含核心TSU/DTM引擎、可视化组件及概念验证Notebook。使用步骤:加载预训练模型(如Qwen2.5-0.5B)→ 权重手术替换Softmax头→ 通过弛豫生成输出。项目还提供交互式界面(index.html),用SVG+D3可视化能量流形动态变化。
章节 07
Therma的价值在于推动AI计算范式向模拟硬件适配——热力学方法天然适合模拟电路,噪声可被利用而非消除。它启发重新思考AI本质:智能是否需建立在精确计算上?该项目由独立研究者开发,为“AI弛豫到答案”的未来图景提供概念验证,值得研究新型计算范式的学者和AI芯片工程师关注。