Zing 论坛

正文

Dual-System架构:不修改基座模型权重的大语言模型增强方案

本文深入解析Dual-System架构项目,这是一种创新的"几何边车"设计,通过附加可训练模块增强冻结的大语言模型,实现无审查生成和结构化数学推理,同时保持基座模型权重完全不变,支持多用户隔离和持续学习。

LLM边车架构无审查生成持续学习多用户隔离KV缓存压缩几何处理器纤维丛
发布时间 2026/04/01 07:11最近活动 2026/04/01 07:48预计阅读 3 分钟
Dual-System架构:不修改基座模型权重的大语言模型增强方案
1

章节 01

导读:Dual-System架构——不修改基座模型的LLM增强新范式

本文介绍的Dual-System架构是一种创新的LLM增强方案,核心在于通过附加“几何边车”模块,在不修改基座模型权重的前提下,实现无审查生成、结构化数学推理、多用户隔离和持续学习等功能。该架构将冻结的基座模型作为“系统1”(快速直觉),边车模块作为“系统2”(慢速推理),支持独立训练迭代,避免传统微调带来的模型退化风险,且兼容多种主流LLM架构(如Qwen2.5-3B、Llama-3.1-8B等)。

2

章节 02

背景:传统LLM增强方案的痛点与Dual-System的提出

传统LLM增强通常依赖微调或继续预训练,但存在计算成本高、难以回滚、可能破坏原有能力等问题。Dual-System架构提出“几何边车”设计,通过附加可训练模块增强冻结的基座模型,解决了上述痛点,为LLM能力扩展提供了新路径。

3

章节 03

方法:Dual-System的核心设计与技术架构

Dual-System架构的核心设计是“系统1+系统2”模式:系统1为冻结的基座LLM,系统2为几何边车模块。边车模块包含多个关键组件:

  1. 扩散规划器:基于DDIM和自适应层归一化,将输入token转换为高维潜在规划表示;
  2. 几何处理器:4层Transformer架构,对潜在表示进行几何变换;
  3. 纤维丛:基于主纤维丛理论的per-user个性化机制,保证用户隔离(跨用户cos_sim≥0.9999);
  4. EBM评判器:基于能量模型,识别事实幻觉和风格不匹配;
  5. 认知路由器:通过Kappa门控机制路由梯度,缓解持续学习中的灾难性遗忘。
4

章节 04

证据:关键能力的实验验证与性能优化

关键能力验证:

  • 无审查生成:采用FailSpy差分均值法提取“拒绝方向”并投影,拒绝率从约80%降至0%,同时6项基准测试(ARC-E、ARC-C等)与基线差异≤0.3个百分点;
  • 多用户隔离:per-user风格修正的输出变化cos_sim=0.997,跨用户隔离cos_sim≥0.9999;
  • 持续学习:EBM评判器执行token级信用分配,认知路由器自动路由梯度,BCH整合器合并跨会话扰动;
  • TurboKV缓存压缩:4位模式下显存占用降低3.9倍(8K上下文从896MB降至232MB)。
5

章节 05

部署与工具:硬件支持、Web仪表板及API服务

硬件与部署支持:

  • 硬件性能:RTX4060Ti运行Qwen2.5-3B-Instruct时峰值显存3.4GB,生成速度36token/秒;支持双GPU分片部署;
  • Web仪表板:提供神经终端、张量遥测、生成控制、反馈循环、检查点管理等功能;
  • API服务:OpenAI兼容API服务器,支持流式/非流式生成及反馈端点,实现多并发推理与独占GPU的持续学习更新。
6

章节 06

开源生态:许可证、预训练资源与扩展性

开源生态:

  • 采用Apache2.0许可证开源,包含训练流水线、基准测试工具和单元测试;
  • 预训练消融模型和边车检查点已上传至HuggingFace;
  • 包含M-A-K-E-R多角色审计框架,用于去中心化协议的自主安全分析。
7

章节 07

结论与展望:Dual-System架构的意义与应用价值

Dual-System架构代表了LLM增强的新范式:不修改基座模型,通过数学严谨的附加模块实现能力扩展。其优势包括降低实验迭代成本、支持多租户部署、持续学习和个性化服务。对于关注本地AI部署、模型安全和高效推理的研究者与开发者,该项目具有重要的探索价值。