本想使用多卡训练,训练结果应该会更加好,但是我发现使用三张 3090 训练,网络模型不收敛, 这是因为学习率的原因吗?
1
Ricardoo Jan 31, 2023
正常。
使用多卡后一般需要调小学习率,也有可能不需要调,比较玄学。 |
2
clemente0620 Jan 31, 2023
按卡倍数 降低 学习率
|
3
leimao Jan 31, 2023 via iPad
DDP 本质就是增加了 Batch Size 。Batch Size 变了,模型可能需要就 Training Recipe 进行微调。
|
4
hsfzxjy Feb 1, 2023 via Android
调学习率,以及注意 BN
|
5
yiyi1010 OP 对 DDP 增加了 batch size ,不是应该按照卡倍数 增加学习率吗?
|
10
yiyi1010 OP 看一般是需要线性提升 leanring rate
|