章节 01
导读:激活函数与初始化策略的联合评估研究
本文通过纯NumPy实现的多层感知机,系统分析ReLU、tanh、arctan和softsign四种激活函数在不同Xavier初始化尺度下的梯度流动态、饱和现象与优化行为,揭示激活函数选择应与初始化策略联合评估的重要性,而非仅依赖最终准确率指标。
正文
本文介绍了一项关于神经网络激活函数的系统实验研究,通过纯NumPy实现的多层感知机,深入分析ReLU、tanh、arctan和softsign在不同Xavier初始化尺度下的梯度流动态、饱和现象与优化行为,揭示激活函数选择应与初始化策略联合评估的重要性。
章节 01
本文通过纯NumPy实现的多层感知机,系统分析ReLU、tanh、arctan和softsign四种激活函数在不同Xavier初始化尺度下的梯度流动态、饱和现象与优化行为,揭示激活函数选择应与初始化策略联合评估的重要性,而非仅依赖最终准确率指标。
章节 02
传统评估激活函数的方式仅关注最终准确率,忽略不同初始化条件下的优化动态差异。例如ReLU可能出现死亡神经元,tanh可能收敛较慢。梯度流是训练的生命线,激活函数导数特性直接影响梯度流健康,因此需理解不同条件下的梯度流动态。
章节 03
实验完全使用NumPy实现MLP,优势包括完全可控、深入理解原理、精细监测内部状态。实验在带噪声的XOR分类任务上进行,比较四种激活函数(ReLU、tanh、arctan、softsign),三种Xavier初始化尺度(0.5、1.0、2.0),每种组合重复10次以确保统计可靠。
章节 04
小尺度初始化(0.5)下,ReLU收敛可靠,有界函数学习慢且种子间方差高;中等/大尺度(1.0/2.0)下最终准确率相近,但tanh在大尺度下梯度流更健康。初始化尺度显著影响饱和与死亡神经元现象:大尺度下有界函数易饱和,不同函数表现各异。
章节 05
项目设计了全面的诊断指标:导数相关指标(如dphi_small_rate、dphi_mean_abs)、预激活值指标(如z_mean_abs、z_near0_rate)、梯度统计指标(如grad_norm_L1/L2),帮助洞察训练内部状态,识别梯度消失等问题。
章节 06
章节 07
研究结论:激活函数需与初始化联合评估,关注梯度流和优化动态。局限性:浅层网络、简单任务、全批量梯度下降。未来可扩展到深层网络、复杂数据集(如MNIST)、不同优化器(如Adam)。