“Vanishing gradients(梯度消失)”指在训练深层神经网络时,反向传播过程中梯度在层与层之间逐步变得极小,导致前面(靠近输入端)的层几乎得不到有效更新,从而训练变慢、难以收敛或学不到长期依赖关系。该问题常见于很深的网络与传统循环神经网络(RNN)。
/ˈvænɪʃɪŋ ˈɡreɪdiənts/
The network trains slowly because of vanishing gradients.
由于梯度消失,这个网络训练得很慢。
In very deep models, vanishing gradients can prevent early layers from learning useful features, especially when using saturating activation functions.
在非常深的模型中,梯度消失可能会阻止前面层学到有用特征,尤其是在使用会饱和的激活函数时。
“Vanishing”来自动词“vanish(消失、逐渐不见)”,强调“越来越弱直到几乎没有”;“gradient”在数学与优化中指“梯度”,表示函数在参数空间中的变化方向与幅度。该术语在深度学习语境中,用来形象描述:梯度在反向传播时被多次相乘(例如连乘导数)后“越传越小”,最终近乎“消失”。