V2EX  ›  英汉词典
Enqueued related words: Parameter Server, Hogwild

Stale Gradients

Definition / 释义

“陈旧梯度;过期梯度”:在(尤其是分布式或异步)梯度下降/反向传播中,某个工作线程使用的是较早版本参数计算出来的梯度;由于参数已被其他更新改变,这些梯度与当前模型状态不一致,可能导致收敛变慢、震荡或精度下降。

Pronunciation / 发音

/steɪl ˈɡreɪdiənts/

Examples / 例句

The training became unstable because of stale gradients in asynchronous updates.
由于异步更新产生了陈旧梯度,训练变得不稳定。

In large distributed systems, stale gradients can accumulate and bias optimization unless you control delay or synchronize periodically.
在大型分布式系统中,若不控制延迟或定期同步,陈旧梯度可能累积并使优化产生偏差。

Etymology / 词源

stale 原意为“变质的、不新鲜的”,引申为“过时的、旧的”;gradient 来自拉丁语 gradiens(“行走/逐步前进的”),在数学与机器学习中表示“函数变化的方向与大小(梯度)”。合起来,“stale gradients”形象地表示“已经不再反映当前参数状态的旧梯度”。

Related Words / 相关词

Literary Works / 文学与著作例证

  • Recht et al. (2011), “Hogwild!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent”(讨论并行/异步 SGD 中梯度延迟带来的影响)
  • Dean et al. (2012), “Large Scale Distributed Deep Networks”(涉及分布式训练与异步更新情境下的梯度延迟问题)
  • Reddi et al. (2018), “On the Convergence of Adam and Beyond”(在分析优化算法与分布式设置时讨论与“过期/延迟梯度”相关的收敛问题)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1708 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 06:37 · PVG 14:37 · LAX 22:37 · JFK 01:37
♥ Do have faith in what you're doing.