Zing 论坛

正文

香农缩放定律:从信息论视角重新理解大语言模型的容量与扩展规律

本文介绍香农缩放定律,将LLM训练建模为噪声信道上的信息传输,解释了灾难性过训练和量化退化等非单调现象,揭示了信噪比是决定模型性能的关键因素。

香农定律缩放定律大语言模型信息论信噪比模型训练深度学习理论机器学习
发布时间 2026/05/23 01:59最近活动 2026/05/25 12:23预计阅读 13 分钟
香农缩放定律:从信息论视角重新理解大语言模型的容量与扩展规律
1

章节 01

导读 / 主楼:香农缩放定律:从信息论视角重新理解大语言模型的容量与扩展规律

本文介绍香农缩放定律,将LLM训练建模为噪声信道上的信息传输,解释了灾难性过训练和量化退化等非单调现象,揭示了信噪比是决定模型性能的关键因素。

2

章节 02

原作者与来源

  • 原作者/维护者:arXiv authors
  • 来源平台:arxiv
  • 原始标题:LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
  • 原始链接:http://arxiv.org/abs/2605.23901v1
  • 来源发布时间/更新时间:2026-05-22T17:59:38Z

香农缩放定律:从信息论视角重新理解大语言模型的容量与扩展规律\n\n大语言模型的扩展规律(Scaling Laws)是AI领域最重要的经验发现之一,但现有的幂律缩放模型无法解释一个令人困惑的现象:为什么有时增加计算量反而会导致性能下降?香农缩放定律(Shannon Scaling Law)从信息论的角度给出了全新解释——LLM训练本质上是在噪声信道上传输信息,当信噪比(SNR)不足时,盲目扩展模型或数据只会放大噪声,导致性能退化。\n\n## 原作者与来源\n\n- 原作者/团队:论文作者团队(arXiv投稿)\n- 来源平台:arXiv\n- 原文标题:LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws\n- 原文链接http://arxiv.org/abs/2605.23901v1\n- 发布时间:2026年5月22日\n\n## 现有缩放定律的盲区\n\n自OpenAI的Scaling Laws论文以来,研究者们普遍认为模型性能与计算量(模型参数 × 训练令牌数)之间存在可预测的幂律关系。这种单调递增的规律指导了从GPT-3到GPT-4的发展路线。\n\n然而,实践中出现了一些现有理论无法解释的现象:\n\n### 灾难性过训练(Catastrophic Overtraining)\n\n在某些情况下,继续训练会导致验证损失上升而非下降——模型"学过头"了。这与单调改进的预期相矛盾。\n\n### 量化诱导退化(Quantization-Induced Degradation)\n\n模型量化(将参数从高精度转为低精度)有时会导致不成比例的精度损失,即使参数量保持不变。\n\n### 数据质量的影响\n\n低质量数据训练可能导致模型性能饱和甚至下降,但现有缩放定律难以量化这种影响。\n\n这些现象暗示:模型扩展并非简单的"越大越好",存在一个更复杂的动态机制在起作用。\n\n## 香农视角:LLM作为噪声信道\n\n香农缩放定律的核心洞察是将LLM训练重新概念化为信息传输问题:\n\n### 香农-哈特利定理(Shannon-Hartley Theorem)\n\n在通信理论中,信道容量C由以下公式决定:\n\n\nC = B × log₂(1 + S/N)\n\n\n其中:\n- B是信道带宽\n- S是信号功率\n- N是噪声功率\n- S/N是信噪比(SNR)\n\n### 映射到LLM训练\n\n研究团队建立了以下对应关系:\n\n| 通信概念 | LLM训练对应 |\n|---------|------------|\n| 信道带宽 (B) | 模型参数量(容量)|\n| 信号功率 (S) | 训练令牌数(信息量)|\n| 噪声 (N) | 训练过程中的固有噪声(梯度噪声、数据噪声等)|\n| 信道容量 (C) | 模型的有效学习能力|\n| 信噪比 (SNR) | 学习信号与噪声的相对强度|\n\n这一映射将信息论的经典框架引入深度学习,为理解模型行为提供了全新视角。\n\n## 香农容量:模型性能的硬边界\n\n从香农视角出发,研究团队揭示了一个关键结论:LLM存在一个基本的香农容量。\n\n### 核心洞察\n\n当模型参数(带宽)或训练数据(信号功率)增加时,如果信噪比(SNR)不能保持足够水平,性能提升将遇到瓶颈,甚至开始下降。\n\n具体来说:\n\n1. 高SNR区域:在训练早期,学习信号强,噪声相对较小,性能随计算量单调提升\n2. 临界SNR区域:随着训练继续,噪声积累,边际收益递减\n3. 低SNR区域:SNR过低,噪声主导,性能出现U型退化\n\n### 为什么会产生U型曲线?\n\n传统缩放定律预测单调递减的损失曲线,但香农定律预测:\n\n- 初始阶段:信号充足,损失快速下降\n- 中期阶段:SNR下降,改进速度减缓\n- 后期阶段:噪声放大,损失开始回升(U型底部后的上升段)\n\n这解释了为什么"过训练"会导致性能退化——不是模型学得不够,而是信噪比恶化导致有效信息传输效率下降。\n\n## 实验验证\n\n研究团队在Pythia和OLMo2模型家族上进行了一系列实验验证:\n\n### 扰动实验\n\n通过引入受控扰动来测试理论的鲁棒性:\n\n1. 高斯噪声:在训练过程中注入随机噪声\n2. 量化:将模型权重降低精度\n3. 监督微调:在数学、问答、代码任务上进行微调\n\n### 拟合质量\n\n香农缩放定律在以下方面优于经典幂律和近期扰动感知定律:\n\n- R²分数:在多个实验条件下保持高拟合度\n- 损失盆地捕捉:准确预测性能最低点后回升的U型曲线\n- 非单调行为:成功解释灾难性过训练和量化退化现象\n\n### 外推能力\n\n最具说服力的是香农定律的外推能力:\n\n- 使用≤6.9B参数的Pythia模型(≤180B令牌)拟合定律\n- 成功预测未见的12B模型在多达307B令牌时的性能\n- 综合R² = 0.847\n- 而单调基线模型在此场景下完全失效\n\n这表明香农定律捕捉到了LLM训练的本质规律,而非仅仅是数据拟合。\n\n## 实践启示\n\n### 1. 最优训练策略\n\n香农定律为确定最优训练预算提供了理论指导:\n\n- 训练不应无限延长,应在SNR恶化前停止\n- 存在一个最优的模型-数据配比,使得给定计算预算下的性能最大化\n- 数据质量与数量同等重要——低质量数据会降低有效SNR\n\n### 2. 模型压缩与量化\n\n量化不仅是减少存储,还会影响有效信道容量:\n\n- 过度量化会降低带宽(B),限制信息传输能力\n- 量化引入的额外噪声进一步降低SNR\n- 存在最优的量化精度,需要在效率和性能间权衡\n\n### 3. 数据工程的重要性\n\n既然SNR是关键因素,提升数据质量变得至关重要:\n\n- 去噪:移除训练数据中的错误和矛盾\n- 筛选:优先使用高质量、信息密度高的数据\n- 配比:平衡不同来源和类型的数据\n\n### 4. 扩展策略的重新思考\n\n香农定律挑战了"规模即一切"的简单化思维:\n\n- 盲目增加模型规模可能适得其反\n- 需要同时考虑数据质量、训练稳定性和噪声控制\n- 小模型配合高质量数据可能比大模型+低质量数据更有效\n\n## 理论意义\n\n### 连接两个领域\n\n香农缩放定律首次建立了信息论与深度学习扩展规律之间的形式化联系。这不仅是一个新的经验公式,更是一个概念框架,可以指导未来的理论研究和实验设计。\n\n### 预测能力 vs 解释能力\n\n好的科学理论不仅要能拟合已有数据,还要能预测未知现象。香农定律在外推实验中的成功表明,它可能捕捉到了LLM训练的本质机制,而非仅仅是模式匹配。\n\n### 开放问题\n\n香农定律也提出了新的研究问题:\n\n- 如何精确量化训练过程中的"噪声"?\n- 不同架构、优化器的SNR特性有何差异?\n- 能否设计噪声感知的训练算法来主动维持SNR?\n\n## 局限与批评\n\n尽管香农定律具有理论吸引力,但也存在一些局限:\n\n1. 噪声建模简化:实际训练噪声远比高斯噪声复杂\n2. 静态假设:定律假设信道特性固定,但实际训练中学习动态会变化\n3. 验证范围:主要在Pythia和OLMo2上验证,需要更广泛的模型验证\n4. 工程实用性:相比简单的幂律,香农定律的参数更多,工程应用更复杂\n\n## 结语\n\n香农缩放定律为理解大语言模型的扩展行为提供了一个全新的理论框架。它将LLM训练从单纯的曲线拟合问题提升到了信息传输的层面,揭示了信噪比作为决定模型性能的关键因素。\n\n这一理论不仅解释了现有实践中的困惑现象,更为未来的模型训练和部署提供了指导原则:在追求更大规模的同时,必须同等重视数据质量和噪声控制。正如香农在通信理论中揭示的那样,信息传输的效率不仅取决于带宽,更取决于信号与噪声的相对强度。\n\n对于AI研究和工程实践者而言,香农定律提醒我们:有时候,更好的数据胜过更大的模型;而理解问题的本质,比盲目扩展规模更有价值。

3

章节 03

补充观点 1

原作者与来源

  • 原作者/维护者:arXiv authors
  • 来源平台:arxiv
  • 原始标题:LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
  • 原始链接:http://arxiv.org/abs/2605.23901v1
  • 来源发布时间/更新时间:2026-05-22T17:59:38Z 香农缩放定律:从信息论视角重新理解大语言模型的容量与扩展规律\n\n大语言模型的扩展规律(Scaling Laws)是AI领域最重要的经验发现之一,但现有的幂律缩放模型无法解释一个令人困惑的现象:为什么有时增加计算量反而会导致性能下降?香农缩放定律(Shannon Scaling Law)从信息论的角度给出了全新解释——LLM训练本质上是在噪声信道上传输信息,当信噪比(SNR)不足时,盲目扩展模型或数据只会放大噪声,导致性能退化。\n\n原作者与来源\n\n- 原作者/团队:论文作者团队(arXiv投稿)\n- 来源平台:arXiv\n- 原文标题:LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws\n- 原文链接http://arxiv.org/abs/2605.23901v1\n- 发布时间:2026年5月22日\n\n现有缩放定律的盲区\n\n自OpenAI的Scaling Laws论文以来,研究者们普遍认为模型性能与计算量(模型参数 × 训练令牌数)之间存在可预测的幂律关系。这种单调递增的规律指导了从GPT-3到GPT-4的发展路线。\n\n然而,实践中出现了一些现有理论无法解释的现象:\n\n灾难性过训练(Catastrophic Overtraining)\n\n在某些情况下,继续训练会导致验证损失上升而非下降——模型"学过头"了。这与单调改进的预期相矛盾。\n\n量化诱导退化(Quantization-Induced Degradation)\n\n模型量化(将参数从高精度转为低精度)有时会导致不成比例的精度损失,即使参数量保持不变。\n\n数据质量的影响\n\n低质量数据训练可能导致模型性能饱和甚至下降,但现有缩放定律难以量化这种影响。\n\n这些现象暗示:模型扩展并非简单的"越大越好",存在一个更复杂的动态机制在起作用。\n\n香农视角:LLM作为噪声信道\n\n香农缩放定律的核心洞察是将LLM训练重新概念化为信息传输问题:\n\n香农-哈特利定理(Shannon-Hartley Theorem)\n\n在通信理论中,信道容量C由以下公式决定:\n\n\nC = B × log₂(1 + S/N)\n\n\n其中:\n- B是信道带宽\n- S是信号功率\n- N是噪声功率\n- S/N是信噪比(SNR)\n\n映射到LLM训练\n\n研究团队建立了以下对应关系:\n\n| 通信概念 | LLM训练对应 |\n|---------|------------|\n| 信道带宽 (B) | 模型参数量(容量)|\n| 信号功率 (S) | 训练令牌数(信息量)|\n| 噪声 (N) | 训练过程中的固有噪声(梯度噪声、数据噪声等)|\n| 信道容量 (C) | 模型的有效学习能力|\n| 信噪比 (SNR) | 学习信号与噪声的相对强度|\n\n这一映射将信息论的经典框架引入深度学习,为理解模型行为提供了全新视角。\n\n香农容量:模型性能的硬边界\n\n从香农视角出发,研究团队揭示了一个关键结论:LLM存在一个基本的香农容量。\n\n核心洞察\n\n当模型参数(带宽)或训练数据(信号功率)增加时,如果信噪比(SNR)不能保持足够水平,性能提升将遇到瓶颈,甚至开始下降。\n\n具体来说:\n\n1. 高SNR区域:在训练早期,学习信号强,噪声相对较小,性能随计算量单调提升\n2. 临界SNR区域:随着训练继续,噪声积累,边际收益递减\n3. 低SNR区域:SNR过低,噪声主导,性能出现U型退化\n\n为什么会产生U型曲线?\n\n传统缩放定律预测单调递减的损失曲线,但香农定律预测:\n\n- 初始阶段:信号充足,损失快速下降\n- 中期阶段:SNR下降,改进速度减缓\n- 后期阶段:噪声放大,损失开始回升(U型底部后的上升段)\n\n这解释了为什么"过训练"会导致性能退化——不是模型学得不够,而是信噪比恶化导致有效信息传输效率下降。\n\n实验验证\n\n研究团队在Pythia和OLMo2模型家族上进行了一系列实验验证:\n\n扰动实验\n\n通过引入受控扰动来测试理论的鲁棒性:\n\n1. 高斯噪声:在训练过程中注入随机噪声\n2. 量化:将模型权重降低精度\n3. 监督微调:在数学、问答、代码任务上进行微调\n\n拟合质量\n\n香农缩放定律在以下方面优于经典幂律和近期扰动感知定律:\n\n- R²分数:在多个实验条件下保持高拟合度\n- 损失盆地捕捉:准确预测性能最低点后回升的U型曲线\n- 非单调行为:成功解释灾难性过训练和量化退化现象\n\n外推能力\n\n最具说服力的是香农定律的外推能力:\n\n- 使用≤6.9B参数的Pythia模型(≤180B令牌)拟合定律\n- 成功预测未见的12B模型在多达307B令牌时的性能\n- 综合R² = 0.847\n- 而单调基线模型在此场景下完全失效\n\n这表明香农定律捕捉到了LLM训练的本质规律,而非仅仅是数据拟合。\n\n实践启示\n\n1. 最优训练策略\n\n香农定律为确定最优训练预算提供了理论指导:\n\n- 训练不应无限延长,应在SNR恶化前停止\n- 存在一个最优的模型-数据配比,使得给定计算预算下的性能最大化\n- 数据质量与数量同等重要——低质量数据会降低有效SNR\n\n2. 模型压缩与量化\n\n量化不仅是减少存储,还会影响有效信道容量:\n\n- 过度量化会降低带宽(B),限制信息传输能力\n- 量化引入的额外噪声进一步降低SNR\n- 存在最优的量化精度,需要在效率和性能间权衡\n\n3. 数据工程的重要性\n\n既然SNR是关键因素,提升数据质量变得至关重要:\n\n- 去噪:移除训练数据中的错误和矛盾\n- 筛选:优先使用高质量、信息密度高的数据\n- 配比:平衡不同来源和类型的数据\n\n4. 扩展策略的重新思考\n\n香农定律挑战了"规模即一切"的简单化思维:\n\n- 盲目增加模型规模可能适得其反\n- 需要同时考虑数据质量、训练稳定性和噪声控制\n- 小模型配合高质量数据可能比大模型+低质量数据更有效\n\n理论意义\n\n连接两个领域\n\n香农缩放定律首次建立了信息论与深度学习扩展规律之间的形式化联系。这不仅是一个新的经验公式,更是一个概念框架,可以指导未来的理论研究和实验设计。\n\n预测能力 vs 解释能力\n\n好的科学理论不仅要能拟合已有数据,还要能预测未知现象。香农定律在外推实验中的成功表明,它可能捕捉到了LLM训练的本质机制,而非仅仅是模式匹配。\n\n开放问题\n\n香农定律也提出了新的研究问题:\n\n- 如何精确量化训练过程中的"噪声"?\n- 不同架构、优化器的SNR特性有何差异?\n- 能否设计噪声感知的训练算法来主动维持SNR?\n\n局限与批评\n\n尽管香农定律具有理论吸引力,但也存在一些局限:\n\n1. 噪声建模简化:实际训练噪声远比高斯噪声复杂\n2. 静态假设:定律假设信道特性固定,但实际训练中学习动态会变化\n3. 验证范围:主要在Pythia和OLMo2上验证,需要更广泛的模型验证\n4. 工程实用性:相比简单的幂律,香农定律的参数更多,工程应用更复杂\n\n结语\n\n香农缩放定律为理解大语言模型的扩展行为提供了一个全新的理论框架。它将LLM训练从单纯的曲线拟合问题提升到了信息传输的层面,揭示了信噪比作为决定模型性能的关键因素。\n\n这一理论不仅解释了现有实践中的困惑现象,更为未来的模型训练和部署提供了指导原则:在追求更大规模的同时,必须同等重视数据质量和噪声控制。正如香农在通信理论中揭示的那样,信息传输的效率不仅取决于带宽,更取决于信号与噪声的相对强度。\n\n对于AI研究和工程实践者而言,香农定律提醒我们:有时候,更好的数据胜过更大的模型;而理解问题的本质,比盲目扩展规模更有价值。