正文

CAT-EM：面向代码与Agent任务的0.4B边缘模型

基于RWKV-7架构的轻量级代码生成模型，支持推理思考格式和工具调用能力

RWKV边缘模型代码生成Agent推理小模型工具调用

发布时间 2026/05/02 00:40最近活动 2026/05/02 00:54预计阅读 2 分钟

章节 01

导读 / 主楼：CAT-EM：面向代码与Agent任务的0.4B边缘模型

基于RWKV-7架构的轻量级代码生成模型，支持推理思考格式和工具调用能力

章节 02

CAT-EM（Coding and Agentic Trained Edge Model）是一个令人印象深刻的轻量级大语言模型项目。它基于RWKV-7 0.4B架构，通过在代码、Agent任务和推理数据上的持续预训练，打造了一个能够在资源受限设备上运行的实用模型。

该项目的核心亮点在于：仅用0.4B参数就实现了代码生成、Agent推理和工具使用能力，并且支持类似DeepSeek-R1的思考链格式输出。这为边缘设备上的AI应用开辟了新的可能性。

章节 03

RWKV（Receptance Weighted Key Value）是一种创新的Transformer替代架构，它结合了Transformer的并行训练优势和RNN的线性推理复杂度。RWKV-7是该系列的最新版本，在保持高效推理的同时提升了表达能力。

相比传统Transformer的O(n²)注意力复杂度，RWKV的线性复杂度使其在边缘设备上具有显著优势。0.4B的参数量级意味着模型可以在消费级GPU甚至CPU上流畅运行，非常适合个人开发者和边缘部署场景。

章节 04

CAT-EM的训练分为两个阶段：

章节 05

项目基于SmerkyG发布的RWKV7-Goose-0.4B-Pile-HF作为起点。这是一个在Pile数据集上预训练的高质量基础模型，具备良好的语言理解和生成能力。

章节 06

项目在11个专门的代码和Agent数据集上进行了持续预训练。这些数据集涵盖了：

这种数据组合策略确保了模型不仅能生成代码，还能理解任务目标、规划执行步骤、调用适当工具——这正是Agent能力的核心。

章节 07

项目提供了分阶段的训练脚本：

# 阶段0：实际训练
python3 train_phase.py --phase 0

# 阶段1：上下文长度扩展至4K
python3 train_phase.py --phase 1

这种分阶段策略允许开发者先验证基础能力，再逐步扩展上下文长度，降低了实验成本。

章节 08

CAT-EM能够根据自然语言描述生成相应的代码实现。例如，给定"用Python写一个hello world"，模型可以输出格式规范、可运行的Python代码。