stochastic gradient:随机梯度。指在优化中,用随机抽样的一部分数据(如一个样本或一个小批量 mini-batch)来近似计算目标函数的梯度,从而更高效地更新参数;常见于机器学习训练(如随机梯度下降 SGD)。
/stəˈkæstɪk ˈɡreɪdiənt/
The model updates its weights using a stochastic gradient at each step.
模型在每一步都用随机梯度来更新权重。
To scale training to millions of examples, we approximate the full gradient with a stochastic gradient computed from a mini-batch, trading exactness for speed and often better generalization.
为了将训练扩展到数百万条样本,我们用由小批量数据计算的随机梯度来近似完整梯度,以速度(并且常常更好的泛化能力)换取不那么精确的梯度估计。
stochastic 源自希腊语 stokhos(“目标、猜测”相关),在数学与统计语境中引申为“随机的、概率性的”;gradient 原指“坡度/倾斜度”,在微积分中发展为“函数变化率的方向与大小(梯度)”。合在一起,stochastic gradient 就是“用随机方式得到的梯度(估计)”。