章节 01
【导读】Thinking-Bert:让小模型具备"深度思考"能力的分层推理架构探索
本项目是一次实验性探索,旨在仅256维、8层的小型编码器模型上实现类似大型推理模型的"思考"能力。通过融合双层迭代处理机制与自适应计算时间(ACT)技术,验证轻量级模型的推理潜力,为资源受限场景(如边缘设备、移动端)提供新的可能性。
正文
一个实验性项目尝试在仅256维、8层的小型编码器模型上实现类似大型推理模型的"思考"能力,通过双层迭代处理机制和自适应计算时间(ACT)技术,探索轻量级模型的推理潜力。
章节 01
本项目是一次实验性探索,旨在仅256维、8层的小型编码器模型上实现类似大型推理模型的"思考"能力。通过融合双层迭代处理机制与自适应计算时间(ACT)技术,验证轻量级模型的推理潜力,为资源受限场景(如边缘设备、移动端)提供新的可能性。
章节 02
2024年底至2025年,推理模型(如OpenAI o系列、DeepSeek-R1)在复杂任务上表现突出,但依赖数百亿甚至数千亿参数量。核心问题:推理能力是否必然与模型规模成正比?Thinking-Bert项目融合ModernBert高效架构与HierarchicalReasoningModel分层推理机制,尝试在小模型上实现深度思考。
章节 03
模型核心为分层迭代处理机制,8层Transformer分为两个模块:
章节 04
章节 05
模型配置:
| 参数 | 数值 | 说明 |
|---|---|---|
| 维度 | 256 | 极小隐藏层维度 |
| 层数 | 8 | 4层低级+4层高级 |
| 注意力头 | 4 | 多头配置 |
| 词表 | 16384 | 紧凑BPE词表 |
| 序列长度 | 128 | 适中上下文窗口 |
| 批次大小 | 32 | 友好训练配置 |
| 推理流程:输入编码→掩码定位→张量准备→迭代思考→结果提取→解码输出。 |
章节 06
章节 07
局限:训练数据规模/质量信息有限;缺少标准推理基准(GSM8K、HumanEval)评估;迭代训练与ACT的稳定性挑战。 未来方向:引入更大预训练数据;设计推理任务专门训练目标;结合蒸馏技术迁移大模型知识;多下游任务验证有效性。
章节 08
Thinking-Bert证明,通过巧妙架构设计与训练策略,轻量级模型也能具备"思考"能力。未来AI生态或多元化:云端大模型与端侧小模型各展所长,本项目是通向多元未来的重要拼图。