章节 01
导读 / 主楼:大语言模型工程手册:从Transformer原理到智能体系统的完整技术指南
本文深入解析LLM工程手册的核心内容,涵盖Transformer架构、注意力机制变体、解码策略、MoE专家混合模型、高效微调技术(LoRA/QLoRA)、RLHF对齐方法、评估基准、推理优化及RAG与智能体系统,为从业者提供系统性的技术参考。
正文
本文深入解析LLM工程手册的核心内容,涵盖Transformer架构、注意力机制变体、解码策略、MoE专家混合模型、高效微调技术(LoRA/QLoRA)、RLHF对齐方法、评估基准、推理优化及RAG与智能体系统,为从业者提供系统性的技术参考。
章节 01
本文深入解析LLM工程手册的核心内容,涵盖Transformer架构、注意力机制变体、解码策略、MoE专家混合模型、高效微调技术(LoRA/QLoRA)、RLHF对齐方法、评估基准、推理优化及RAG与智能体系统,为从业者提供系统性的技术参考。
章节 02
在神经网络处理文本之前,必须先将原始文本转换为离散的数字表示。现代LLM采用子词(subword)分词算法,在词汇表大小和序列长度之间取得平衡。
主流分词算法对比:
分词决策对模型行为有深远影响。词汇表大小决定了嵌入矩阵的维度(V × d_model),进而影响内存占用和计算效率。特殊标记如<s>、</s>、[MASK]承载特定的语义功能。值得注意的是,数字可能被任意拆分(如"1234"→["12","34"]),这解释了为什么大模型的算术能力需要特殊设计。
嵌入层将分词后的整数ID映射到稠密向量空间。每个词嵌入都是d维向量,通过端到端训练获得。位置编码则解决Transformer本身缺乏序列顺序感知的问题——原始论文使用正弦/余弦函数,而现代模型更倾向于RoPE(旋转位置编码)或ALiBi。
章节 03
自注意力机制允许每个token关注序列中的所有其他token,这是Transformer强大表达能力的基础。
标准注意力计算公式:
Q = X · W_Q, K = X · W_K, V = X · W_V
Attention(Q,K,V) = softmax(Q·K^T / √d_k) · V
除以√d_k的缩放因子防止在高维情况下softmax饱和。多头注意力(MHA)并行运行h个注意力头,每个头关注不同的语义或句法关系,然后拼接并投影。
现代注意力变体:
| 变体 | 特点 | 应用模型 |
|---|---|---|
| MHA(多头注意力) | 标准实现,h个独立头 | GPT-2, BERT |
| MQA(多查询注意力) | 所有头共享K、V | PaLM, Falcon |
| GQA(分组查询注意力) | K、V在头组内共享 | LLaMA-2 70B, Mistral |
MQA和GQA显著减少KV缓存内存,是长上下文推理的关键优化。对于解码器模型,因果掩码(causal mask)确保位置i只能关注位置≤i的token,通过将上三角矩阵设为−∞实现。
章节 04
模型输出的是词汇表上的概率分布,解码策略决定如何从中采样或选择token。
基础策略:
采样策略:
重复惩罚通过对已生成token的logit进行惩罚来打破循环。推测解码(Speculative Decoding)使用小模型生成候选token,大模型并行验证,可实现2-3倍加速且保持分布不变性。
章节 05
MoE用多个专家子网络替代稠密FFN,每token只激活部分专家,实现总参数量巨大但计算量可控。
门控机制:
G(x) = Softmax(TopK(x · W_gate, k))
MoE(x) = Σᵢ G(x)ᵢ · Eᵢ(x)
主流MoE模型对比:
| 模型 | 专家数 | 激活数 | 总参数量 | 激活参数量 |
|---|---|---|---|---|
| Switch Transformer | 128 | 1 | 1.6T | ~12B |
| Mixtral 8×7B | 8 | 2 | 46.7B | ~12.9B |
| DeepSeek-V2 | 160 | 6 | 236B | ~21B |
| DBRX | 16 | 4 | 132B | ~36B |
负载均衡是关键挑战——没有正则化时,路由器会坍缩到少数专家。辅助损失函数L_aux = α × N × Σᵢ fᵢ · pᵢ鼓励均匀路由,其中fᵢ是分配给专家i的token比例,pᵢ是平均路由概率。
章节 06
全参数微调内存开销巨大(16-20字节/参数)且易导致灾难性遗忘。LoRA(低秩适应)通过低秩分解来微调:
W' = W + (α/r) · B · A
其中W冻结,只训练A∈ℝ^(r×k)和B∈ℝ^(d×r),r ≪ min(d,k)。初始化时A~N(0,σ²),B=0保证训练起点稳定。
LoRA变体演进:
章节 07
RLHF(基于人类反馈的强化学习)将SFT模型转化为有用、无害的助手,包含三个阶段:
PPO目标函数:
L_PPO(θ) = E[R_φ(x,y)] - β · KL[π_θ(y|x) || π_ref(y|x)]
KL惩罚防止奖励黑客攻击——策略找到欺骗奖励模型但质量下降的回复。
**DPO(直接偏好优化)**绕过RL循环,直接从偏好数据优化:
L_DPO(θ) = -E[log σ(β·log(π_θ(yw|x)/π_ref(yw|x)) - β·log(π_θ(yl|x)/π_ref(yl|x)))]
DPO仅需参考模型,无需显式奖励模型和PPO,现已成为生产主流。变体包括KTO(二元反馈)、SimPO(无参考模型)、ORPO(单阶段SFT+对齐)。
章节 08
学术基准测试:
| 基准 | 测试能力 | 格式 |
|---|---|---|
| MMLU | 多任务知识(57学科) | 选择题 |
| HellaSwag | 常识推理 | 选择题 |
| HumanEval/MBPP | 代码生成 | pass@k |
| GSM8K | 数学推理 | 思维链 |
| TruthfulQA | 事实准确性 | 开放/选择 |
| MATH | 竞赛数学 | 精确匹配 |
| MT-Bench | 多轮对话 | LLM评判 |
LLM-as-a-Judge:使用强模型(如GPT-4)自动评估开放式任务。包括单点评分(1-10分)、成对比较(选择更好回复)等方法。位置交换和详细评分标准可减少位置偏见和冗长偏见。
Chatbot Arena采用众包ELO评分系统,用户与两个匿名模型对话并选择胜者,已收集超过100万人类投票,是最可靠的整体用户偏好排名。