Proximal gradient(近端梯度法 / 近端梯度下降)是一类用于优化的迭代算法,常用于目标函数由“可微的光滑项 + 不可微但易处理的正则项”组成的情形(如 L1 正则、稀疏学习)。它通常结合梯度下降与近端算子(proximal operator)来更新参数。也常见变体如 (F)ISTA。
/ˈprɒksɪməl ˈɡreɪdiənt/
We use proximal gradient to solve L1-regularized regression.
我们使用近端梯度法来求解带 L1 正则的回归问题。
Because the loss is smooth but the regularizer is non-smooth, proximal gradient methods converge reliably under suitable step sizes.
由于损失函数是光滑的而正则项是非光滑的,在合适步长下,近端梯度方法通常能可靠收敛。
proximal源自拉丁语 proximus(“最近的”),在数学里引申为“通过一个‘靠近’当前点的操作来更新”。gradient来自拉丁语 gradus(“步/级”),在数学中指函数的梯度方向。合起来,“proximal gradient”强调:先按梯度方向走一步,再用“近端”步骤处理不可微的部分。