章节 01
NanoGEPA导读:探索潜空间推理的极简语言模型
NanoGEPA导读
NanoGEPA是基于JEPA架构的45M参数极简语言模型,核心探索:推理是否必须在token空间进行? 它将推理过程从文本生成中分离,在潜空间而非token空间进行数学推理,旨在验证潜空间推理的可行性(非追求SOTA性能,是研究原型)。
正文
一个基于JEPA架构的45M参数语言模型,探索将推理过程从文本生成中分离,在潜空间而非token空间进行数学推理。
章节 01
NanoGEPA是基于JEPA架构的45M参数极简语言模型,核心探索:推理是否必须在token空间进行? 它将推理过程从文本生成中分离,在潜空间而非token空间进行数学推理,旨在验证潜空间推理的可行性(非追求SOTA性能,是研究原型)。
章节 02
现代LLM训练目标为P(token_t | token_<t),学习文本生成流畅性而非结构化推理能力——解决数学问题时仅模仿思考样子,易犯简单算术错误。
由Yann LeCun提出,核心思想:智能系统应学习世界抽象表征,在潜空间预测而非像素/token级别。传统LLM是Question tokens → Answer tokens,JEPA风格为Question latent → Answer latent → Answer tokens(推理在潜空间,生成是解码步骤)。
章节 03
极简配置:
| 组件 | 配置 |
|---|---|
| 层数 | 6 |
| 注意力头数 | 8 |
| 隐藏维度 | 512 |
| 参数量 | ~45M |
| 数据集 | GSM8K (~7.5k样本) |
核心创新:自定义注意力掩码
损失公式:L_total = L_token + λ * L_jepa
1 − cos(pred_latent, answer_latent),对齐潜空间)章节 04
| 指标 | 最终值 |
|---|---|
| Token Loss | 0.1186 |
| JEPA Loss | 0.0525 |
| 余弦相似度 | 0.9475 |
| 高余弦相似度表明潜空间映射成功。 |
GSM8K验证集精确匹配准确率0.00%——作者称预期,因模型从头训练小数据集,是研究原型非追求性能。
章节 05
| 方法 | 推理位置 | 监督信号 | 典型规模 |
|---|---|---|---|
| 标准LLM | Token空间 | Next-token | 7B-70B+ |
| Chain-of-Thought | Token空间 | 显式推理步骤 | 同上 |
| NanoGEPA | 潜空间 | 潜表示对齐 | 45M |
章节 06
章节 07