Zing 论坛

正文

NanoGEPA:在潜空间中推理的极简语言模型

一个基于JEPA架构的45M参数语言模型,探索将推理过程从文本生成中分离,在潜空间而非token空间进行数学推理。

JEPA潜空间推理语言模型GSM8K数学推理表征学习Yann LeCun极简实现
发布时间 2026/04/03 05:14最近活动 2026/04/03 05:20预计阅读 3 分钟
NanoGEPA:在潜空间中推理的极简语言模型
1

章节 01

NanoGEPA导读:探索潜空间推理的极简语言模型

NanoGEPA导读

NanoGEPA是基于JEPA架构的45M参数极简语言模型,核心探索:推理是否必须在token空间进行? 它将推理过程从文本生成中分离,在潜空间而非token空间进行数学推理,旨在验证潜空间推理的可行性(非追求SOTA性能,是研究原型)。

2

章节 02

背景:当前LLM的推理困境与JEPA架构

背景

当前LLM的问题

现代LLM训练目标为P(token_t | token_<t),学习文本生成流畅性而非结构化推理能力——解决数学问题时仅模仿思考样子,易犯简单算术错误。

JEPA架构来源

由Yann LeCun提出,核心思想:智能系统应学习世界抽象表征,在潜空间预测而非像素/token级别。传统LLM是Question tokens → Answer tokens,JEPA风格为Question latent → Answer latent → Answer tokens(推理在潜空间,生成是解码步骤)。

3

章节 03

方法:极简架构与双目标训练

方法

架构设计

极简配置:

组件 配置
层数 6
注意力头数 8
隐藏维度 512
参数量 ~45M
数据集 GSM8K (~7.5k样本)

核心创新:自定义注意力掩码

  • Question→Question:因果注意力
  • Answer→Answer:因果注意力(独立于Question)
  • [PRED] token→Question only:仅看问题,不直接看答案

双目标训练

损失公式:L_total = L_token + λ * L_jepa

  • L_token:交叉熵损失(稳定生成)
  • L_jepa:余弦相似度损失(1 − cos(pred_latent, answer_latent),对齐潜空间)
4

章节 04

证据:实验结果与消融分析

证据

训练结果

指标 最终值
Token Loss 0.1186
JEPA Loss 0.0525
余弦相似度 0.9475
高余弦相似度表明潜空间映射成功。

消融实验

  • 无JEPA损失:潜空间对齐崩溃,Question与Answer潜表示无意义关系
  • 有JEPA损失:表征几何稳定,相似Question映射到相近区域

性能评估

GSM8K验证集精确匹配准确率0.00%——作者称预期,因模型从头训练小数据集,是研究原型非追求性能。

5

章节 05

结论:核心启示与主流方法对比

结论

核心启示

  1. 推理可框架化为潜表示预测
  2. JEPA损失稳定语义对齐
  3. 文本生成≠推理
  4. 标准next-token训练导致潜空间几何崩溃

主流方法对比

方法 推理位置 监督信号 典型规模
标准LLM Token空间 Next-token 7B-70B+
Chain-of-Thought Token空间 显式推理步骤 同上
NanoGEPA 潜空间 潜表示对齐 45M
6

章节 06

局限性与未来研究方向

局限性与未来方向

局限性

  1. 规模限制:45M参数+7.5k样本
  2. 数据集单一:仅GSM8K
  3. 生成质量:未优化流畅性
  4. 无预训练:从头训练

未来方向

  1. 更大模型(1B+)验证JEPA
  2. 预训练权重JEPA微调
  3. 扩展到代码/科学推理
  4. 探索潜空间可解释性
7

章节 07

技术实现亮点

技术实现亮点

  • 模块化设计:config.py/data.py/model.py/train.py分离
  • 完整评估工具:eval_alignment.py(潜对齐)、evaluate_accuracy.py(精确匹配)
  • 可视化支持:自动生成loss曲线
  • Gradio演示:交互式潜空间推理展示
  • 代码风格:简洁透明,受nanoGPT启发