随机次梯度(stochastic subgradient):在目标函数不可导或仅次可导(如含绝对值、hinge loss、L1 正则等)时,用随机抽样(如抽取一个样本或小批量数据)得到的次梯度估计来进行迭代更新的一类方法/量。常用于大规模凸优化与机器学习中的非光滑优化问题。(该术语也常指“随机次梯度法”中每一步所用的次梯度。)
/stəˈkæstɪk ˈsʌbˌɡreɪdiənt/
The optimizer uses a stochastic subgradient at each step because the loss is not differentiable.
由于损失函数不可导,优化器在每一步都使用随机次梯度。
Under mild assumptions, a diminishing step size with stochastic subgradients can yield convergence in expectation for convex, nonsmooth objectives.
在一些温和条件下,对凸且非光滑的目标函数,采用递减步长并使用随机次梯度可在期望意义下收敛。
stochastic 源自希腊语 stokhastikos,意为“善于猜测/推测”,在现代数学与统计语境中引申为“随机的、概率性的”。subgradient 由 sub-(“次于/在下”)+ gradient(“梯度”)构成,表示在不可导点用来替代梯度的“次梯度”概念;合在一起强调:用随机抽样得到的(次)梯度信息来推进优化。