正文

NanoGEPA：在潜空间中推理的极简语言模型

一个基于JEPA架构的45M参数语言模型，探索将推理过程从文本生成中分离，在潜空间而非token空间进行数学推理。

JEPA潜空间推理语言模型GSM8K数学推理表征学习Yann LeCun极简实现

发布时间 2026/04/03 05:14最近活动 2026/04/03 05:20预计阅读 3 分钟

章节 01

NanoGEPA导读：探索潜空间推理的极简语言模型

NanoGEPA导读

NanoGEPA是基于JEPA架构的45M参数极简语言模型，核心探索：推理是否必须在token空间进行？ 它将推理过程从文本生成中分离，在潜空间而非token空间进行数学推理，旨在验证潜空间推理的可行性（非追求SOTA性能，是研究原型）。

章节 02

背景：当前LLM的推理困境与JEPA架构

背景

当前LLM的问题

现代LLM训练目标为P(token_t | token_<t)，学习文本生成流畅性而非结构化推理能力——解决数学问题时仅模仿思考样子，易犯简单算术错误。

JEPA架构来源

由Yann LeCun提出，核心思想：智能系统应学习世界抽象表征，在潜空间预测而非像素/token级别。传统LLM是Question tokens → Answer tokens，JEPA风格为Question latent → Answer latent → Answer tokens（推理在潜空间，生成是解码步骤）。

章节 03

方法：极简架构与双目标训练

方法

架构设计

极简配置：

组件	配置
层数	6
注意力头数	8
隐藏维度	512
参数量	~45M
数据集	GSM8K (~7.5k样本)

核心创新：自定义注意力掩码

Question→Question：因果注意力
Answer→Answer：因果注意力（独立于Question）
[PRED] token→Question only：仅看问题，不直接看答案

双目标训练

损失公式：L_total = L_token + λ * L_jepa

L_token：交叉熵损失（稳定生成）
L_jepa：余弦相似度损失（1 − cos(pred_latent, answer_latent)，对齐潜空间）

章节 04

证据：实验结果与消融分析

证据

训练结果

指标	最终值
Token Loss	0.1186
JEPA Loss	0.0525
余弦相似度	0.9475
高余弦相似度表明潜空间映射成功。

消融实验

无JEPA损失：潜空间对齐崩溃，Question与Answer潜表示无意义关系
有JEPA损失：表征几何稳定，相似Question映射到相近区域

性能评估

GSM8K验证集精确匹配准确率0.00%——作者称预期，因模型从头训练小数据集，是研究原型非追求性能。

章节 05

结论：核心启示与主流方法对比

结论

核心启示

推理可框架化为潜表示预测
JEPA损失稳定语义对齐
文本生成≠推理
标准next-token训练导致潜空间几何崩溃

主流方法对比

方法	推理位置	监督信号	典型规模
标准LLM	Token空间	Next-token	7B-70B+
Chain-of-Thought	Token空间	显式推理步骤	同上
NanoGEPA	潜空间	潜表示对齐	45M

章节 06

局限性与未来研究方向

局限性与未来方向

局限性

规模限制：45M参数+7.5k样本
数据集单一：仅GSM8K
生成质量：未优化流畅性
无预训练：从头训练

未来方向

更大模型（1B+）验证JEPA
预训练权重JEPA微调
扩展到代码/科学推理
探索潜空间可解释性

章节 07

技术实现亮点

模块化设计：config.py/data.py/model.py/train.py分离
完整评估工具：eval_alignment.py（潜对齐）、evaluate_accuracy.py（精确匹配）
可视化支持：自动生成loss曲线
Gradio演示：交互式潜空间推理展示
代码风格：简洁透明，受nanoGPT启发

NanoGEPA：在潜空间中推理的极简语言模型

NanoGEPA导读：探索潜空间推理的极简语言模型

NanoGEPA导读

背景：当前LLM的推理困境与JEPA架构

背景

当前LLM的问题

JEPA架构来源

方法：极简架构与双目标训练

方法

架构设计

双目标训练

证据：实验结果与消融分析

证据

训练结果

消融实验

性能评估

结论：核心启示与主流方法对比

结论

核心启示

主流方法对比

局限性与未来研究方向

局限性与未来方向

局限性

未来方向

技术实现亮点

技术实现亮点

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统