正文

大语言模型工程手册：从Transformer原理到智能体系统的完整技术指南

本文深入解析LLM工程手册的核心内容，涵盖Transformer架构、注意力机制变体、解码策略、MoE专家混合模型、高效微调技术（LoRA/QLoRA）、RLHF对齐方法、评估基准、推理优化及RAG与智能体系统，为从业者提供系统性的技术参考。

LLMTransformer注意力机制LoRARLHFMoERAG智能体推理优化大模型工程

发布时间 2026/04/07 16:44最近活动 2026/04/07 16:50预计阅读 6 分钟

章节 01

导读 / 主楼：大语言模型工程手册：从Transformer原理到智能体系统的完整技术指南

章节 02

一、Tokenizer与嵌入层：语言模型的第一道门槛

在神经网络处理文本之前，必须先将原始文本转换为离散的数字表示。现代LLM采用子词（subword）分词算法，在词汇表大小和序列长度之间取得平衡。

主流分词算法对比：

Byte-Pair Encoding (BPE)：迭代合并最频繁的相邻字符对，被GPT系列和LLaMA采用
WordPiece：基于似然度的合并策略，BERT和DistilBERT使用
SentencePiece/Unigram：概率子词模型，从大型初始词汇表中剪枝，T5和PaLM采用
Byte-Level BPE：直接在UTF-8字节上操作，无未知词问题，GPT-2和LLaMA-3使用

分词决策对模型行为有深远影响。词汇表大小决定了嵌入矩阵的维度（V × d_model），进而影响内存占用和计算效率。特殊标记如<s>、</s>、[MASK]承载特定的语义功能。值得注意的是，数字可能被任意拆分（如"1234"→["12","34"]），这解释了为什么大模型的算术能力需要特殊设计。

嵌入层将分词后的整数ID映射到稠密向量空间。每个词嵌入都是d维向量，通过端到端训练获得。位置编码则解决Transformer本身缺乏序列顺序感知的问题——原始论文使用正弦/余弦函数，而现代模型更倾向于RoPE（旋转位置编码）或ALiBi。

章节 03

二、注意力机制：Transformer的核心运算

自注意力机制允许每个token关注序列中的所有其他token，这是Transformer强大表达能力的基础。

标准注意力计算公式：

Q = X · W_Q,  K = X · W_K,  V = X · W_V
Attention(Q,K,V) = softmax(Q·K^T / √d_k) · V

除以√d_k的缩放因子防止在高维情况下softmax饱和。多头注意力（MHA）并行运行h个注意力头，每个头关注不同的语义或句法关系，然后拼接并投影。

现代注意力变体：

变体	特点	应用模型
MHA（多头注意力）	标准实现，h个独立头	GPT-2, BERT
MQA（多查询注意力）	所有头共享K、V	PaLM, Falcon
GQA（分组查询注意力）	K、V在头组内共享	LLaMA-2 70B, Mistral

MQA和GQA显著减少KV缓存内存，是长上下文推理的关键优化。对于解码器模型，因果掩码（causal mask）确保位置i只能关注位置≤i的token，通过将上三角矩阵设为−∞实现。

章节 04

三、解码策略：从概率分布到文本生成

模型输出的是词汇表上的概率分布，解码策略决定如何从中采样或选择token。

基础策略：

贪心解码：每步选择概率最高的token，快速但容易产生重复
束搜索（Beam Search）：维护k个候选序列，按累积对数概率保留最优，适合机器翻译和摘要

采样策略：

温度采样：将logits除以温度T，T<1使分布更尖锐（确定性），T>1更平坦（创造性）
Top-k采样：只保留概率最高的k个token
Top-p（核采样）：保留累积概率≥p的最小token集合，自适应调整
Min-p采样：保留概率≥min_p × max_prob的token，相对阈值更稳定

重复惩罚通过对已生成token的logit进行惩罚来打破循环。推测解码（Speculative Decoding）使用小模型生成候选token，大模型并行验证，可实现2-3倍加速且保持分布不变性。

章节 05

四、专家混合模型（MoE）：条件计算的极致

MoE用多个专家子网络替代稠密FFN，每token只激活部分专家，实现总参数量巨大但计算量可控。

门控机制：

G(x) = Softmax(TopK(x · W_gate, k))
MoE(x) = Σᵢ G(x)ᵢ · Eᵢ(x)

主流MoE模型对比：

模型	专家数	激活数	总参数量	激活参数量
Switch Transformer	128	1	1.6T	~12B
Mixtral 8×7B	8	2	46.7B	~12.9B
DeepSeek-V2	160	6	236B	~21B
DBRX	16	4	132B	~36B

负载均衡是关键挑战——没有正则化时，路由器会坍缩到少数专家。辅助损失函数L_aux = α × N × Σᵢ fᵢ · pᵢ鼓励均匀路由，其中fᵢ是分配给专家i的token比例，pᵢ是平均路由概率。

章节 06

五、高效微调：LoRA及其变体

全参数微调内存开销巨大（16-20字节/参数）且易导致灾难性遗忘。LoRA（低秩适应）通过低秩分解来微调：

W' = W + (α/r) · B · A

其中W冻结，只训练A∈ℝ^(r×k)和B∈ℝ^(d×r)，r ≪ min(d,k)。初始化时A~N(0,σ²)，B=0保证训练起点稳定。

LoRA变体演进：

QLoRA：4-bit NF4量化基模型+fp16适配器，可在48GB GPU上微调65B模型
DoRA：将权重分解为幅度和方向，仅通过LoRA训练方向
LoRA+：A和B使用不同学习率，B受益于更高LR
rsLoRA：按1/√r缩放，提高秩稳定性
VeRA：共享冻结的随机A、B，只训练缩放向量

章节 07

六、RLHF与偏好优化：从指令遵循到价值对齐

RLHF（基于人类反馈的强化学习）将SFT模型转化为有用、无害的助手，包含三个阶段：

SFT（监督微调）：在（指令，回复）对上进行标准训练
奖励模型训练：用Bradley-Terry损失在人类偏好对上训练标量输出模型
PPO优化：最大化奖励同时通过KL散度约束保持接近参考策略

PPO目标函数：

L_PPO(θ) = E[R_φ(x,y)] - β · KL[π_θ(y|x) || π_ref(y|x)]

KL惩罚防止奖励黑客攻击——策略找到欺骗奖励模型但质量下降的回复。

**DPO（直接偏好优化）**绕过RL循环，直接从偏好数据优化：

L_DPO(θ) = -E[log σ(β·log(π_θ(yw|x)/π_ref(yw|x)) - β·log(π_θ(yl|x)/π_ref(yl|x)))]

DPO仅需参考模型，无需显式奖励模型和PPO，现已成为生产主流。变体包括KTO（二元反馈）、SimPO（无参考模型）、ORPO（单阶段SFT+对齐）。

章节 08

七、评估体系：如何衡量模型能力

学术基准测试：

基准	测试能力	格式
MMLU	多任务知识（57学科）	选择题
HellaSwag	常识推理	选择题
HumanEval/MBPP	代码生成	pass@k
GSM8K	数学推理	思维链
TruthfulQA	事实准确性	开放/选择
MATH	竞赛数学	精确匹配
MT-Bench	多轮对话	LLM评判