# micro-kiki：35个领域专家LoRA与认知层架构的创新实践

> 基于Qwen3.6-35B-A3B构建的多领域专家系统，通过35个LoRA适配器和Aeon记忆、CAMP协商、KnowBias反偏见三层认知架构，实现专业领域的精准推理与持续学习。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-20T16:44:59.000Z
- 最近活动: 2026-04-20T16:51:02.529Z
- 热度: 163.9
- 关键词: LoRA, MoE, Qwen, 领域专家, MLX, 多模态路由, 认知架构, 灾难性遗忘, 量化推理, 开源模型
- 页面链接: https://www.zingnex.cn/forum/thread/micro-kiki-35lora
- Canonical: https://www.zingnex.cn/forum/thread/micro-kiki-35lora
- Markdown 来源: ingested_event

---

# micro-kiki：35个领域专家LoRA与认知层架构的创新实践\n\n在大型语言模型向专业化方向演进的过程中，如何在保持基础模型通用能力的同时，实现对特定领域的深度理解和精准推理，是一个核心挑战。**micro-kiki** 项目给出了一个令人印象深刻的答案：基于Qwen3.6-35B-A3B构建的多领域专家系统，通过35个LoRA适配器和三层认知架构，在硬件资源受限的条件下实现了专业级AI能力。\n\n## 项目背景与核心定位\n\nmicro-kiki 是 Hypneum Lab 旗下 dreamOfkiki 研究计划的部署成果，由 Clément Saillant 主导开发。项目的核心目标是构建一个能够同时处理35个不同专业领域（从电子工程到编程语言）的AI系统，且每个领域都具备专家级别的深度知识。\n\n基础模型选择颇具考量：Qwen3.6-35B-A3B 采用混合专家（MoE）架构，拥有256个专家网络但仅激活30亿参数，这种稀疏激活设计在保证推理效率的同时提供了庞大的参数容量。模型支持26.2万token的超长上下文，为复杂对话和文档理解奠定了基础。\n\n## 技术架构的三层创新\n\nmicro-kiki 的架构设计超越了简单的"基础模型+LoRA"组合，引入了完整的认知层概念：\n\n### 第一层：元路由器（MetaRouter）\n\n当用户查询进入系统，首先经过的是一个35输出的Sigmoid分类器。与Softmax不同，Sigmoid允许一个查询同时激活多个领域（例如STM32微控制器问题可能同时触发embedded、electronics和DSP三个领域）。系统限制最多同时加载4个适配器，在VRAM预算和推理质量之间取得平衡。\n\n路由决策基于查询内容的语义特征，而非简单的关键词匹配。这种设计使得系统能够处理跨领域的复杂问题，比如"为STM32设计一个低功耗DSP滤波器"就需要同时调用嵌入式系统、数字信号处理和电源管理三个领域的知识。\n\n### 第二层：Aeon记忆系统\n\nAeon是项目的记忆核心，采用双存储架构：Atlas负责向量化的语义记忆（基于SIMD优化），Trace则维护神经符号化的图结构记忆。这种设计借鉴了人类大脑的工作记忆与长期记忆的区分，使得系统能够在多轮对话中保持上下文连贯性。\n\n实测数据显示，配备Aeon的系统在14轮对话中平均进行36次以上的记忆召回，而原始LLM完全没有这种能力。这种差异在处理复杂技术咨询时尤为明显——系统能够引用之前讨论过的设计约束、 recall 用户的偏好设置，甚至发现当前建议与历史决策的潜在冲突。\n\n### 第三层：CAMP协商与KnowBias过滤\n\n当多个领域适配器同时激活时，它们的输出可能存在冲突。CAMP（协商仲裁协议）机制负责协调不同"专家"的意见，而Catfish组件则主动引入质疑视角，防止群体思维。最后的KnowBias层通过双重应用和RBD（偏见检测）、DeFrame（框架解构）技术，对最终输出进行偏见审查。\n\n这种多层校验机制确保了输出的专业性和中立性，在KiCad电路设计、SPICE仿真、FreeCAD建模等技术场景中尤为重要。\n\n## LoRA训练的技术细节\n\nmicro-kiki 的适配器训练展现了工程上的严谨性。项目团队通过大量实验确定了最优配置：\n\n- **层数选择**：32层（共40层）是最佳平衡点，8层欠拟合，40层则出现过拟合\n- **LoRA参数**：rank=16，alpha=16（1:1比例），覆盖17种模块类型（注意力层、MoE路由器、共享专家等）\n- **学习率**：1e-5，训练迭代1000次（基础领域）到100-200次（细分领域）\n- **硬件要求**：Mac Studio M3 Ultra 512GB是唯一能够进行BF16训练的设备，峰值显存占用约107GB\n\n特别值得注意的是"遗忘门"机制。每次训练新领域适配器后，系统会测量其与之前所有适配器的余弦相似度。如果角度小于30度且胜率下降超过3%，则触发回滚。这种机制有效防止了灾难性遗忘，确保新增领域不会破坏已有能力。\n\n## 已验证的领域覆盖\n\n目前项目已完成10个SFT领域的适配器训练和验证：\n\n| 领域 | 训练样本数 | 最终损失 | 典型应用场景 |\n|------|-----------|---------|-------------|\n| kicad-dsl | 694 | 0.42 | PCB电路板设计与规则检查 |\n| spice-sim | 368 | 0.38 | 电路仿真与参数优化 |\n| stm32 | 711 | 0.44 | 微控制器固件开发 |\n| embedded | 1532 | 0.47 | 嵌入式系统架构设计 |\n| freecad | 219 | 0.55 | 3D建模与工程图纸 |\n| platformio | 223 | 0.52 | 跨平台嵌入式开发 |\n| power | 1238 | 0.46 | 电源管理与效率优化 |\n| dsp | 953 | 0.49 | 数字信号处理算法 |\n| electronics | 1900 | 0.43 | 通用电子工程 |\n| emc | 1693 | 0.51 | 电磁兼容性设计 |\n\n其中4个领域（SPICE、STM32、electronics、DSP）通过了遗忘门测试，显示出良好的跨领域兼容性。\n\n## 部署与推理方案\n\n项目提供了两种部署方案以适应不同硬件条件：\n\n**Mac Studio方案**：使用MLX框架进行本地推理，支持Q4_K_M量化。通过设置`mx.set_memory_limit(460GB)`和`mx.set_cache_limit(32GB)`避免长时间运行时的GPU挂起。\n\n**RTX 4090方案**：基于vLLM的AWQ量化部署，24GB显存可同时加载基础模型和2-4个活跃适配器，推理速度约30-50 token/秒。\n\n值得注意的是，项目明确不建议在消费级显卡上进行训练——35B-A3B的BF16 LoRA训练需要超过100GB显存，远超RTX 4090的24GB容量。\n\n## 开源生态与相关项目\n\nmicro-kiki 并非孤立项目，而是Hypneum Lab研究生态的一部分：\n\n- **KIKI-Mac_tunner**：训练执行和MLX pipeline的配套仓库\n- **nerve-wml**：可选的神经协议顾问桥接，用于增强路由决策\n- **dream-of-kiki**：研究梦境式知识整合的姊妹项目\n\n所有模型和数据集均已发布到Hugging Face：\n- 数据集：489K样本覆盖35个领域\n- 4B轻量版模型和35B完整版模型（含35个适配器）\n\n## 总结\n\nmicro-kiki 代表了领域专业化LLM的一个成熟范式。它证明了通过精心设计的LoRA适配器组合、智能路由机制和认知层架构，可以在消费级硬件上实现对数十个专业领域的深度覆盖。项目的遗忘门机制、多层偏见过滤和严格的实验验证流程，为其他领域的专家模型开发提供了可借鉴的方法论。对于需要在特定技术领域部署AI能力的工程师和研究者来说，这是一个值得关注和参与的开源项目。