
本想使用多卡训练,训练结果应该会更加好,但是我发现使用三张 3090 训练,网络模型不收敛, 这是因为学习率的原因吗?
1 Ricardoo 2023-01-31 19:21:22 +08:00 正常。 使用多卡后一般需要调小学习率,也有可能不需要调,比较玄学。 |
2 clemente0620 2023-01-31 19:34:25 +08:00 按卡倍数 降低 学习率 |
3 leimao 2023-01-31 23:46:40 +08:00 via iPad DDP 本质就是增加了 Batch Size 。Batch Size 变了,模型可能需要就 Training Recipe 进行微调。 |
4 hsfzxjy 调学习率,以及注意 BN |
5 yiyi1010 OP 对 DDP 增加了 batch size ,不是应该按照卡倍数 增加学习率吗? |
10 yiyi1010 OP 看一般是需要线性提升 leanring rate |