深度学习训练如何防止被炸显存

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1152 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题，一张显卡上不同人提交任务多了，一不小心显存就会炸掉(OOM, OutOfMemory)导致全部中断有什么方法防止 OOM(OutOfMemory)或者减小 OOM 的影响？

oom

深度学习

炸掉

防止

12 条回复

dayeye2006199

2023 年 1 月 5 日

同时进行的任务太多导致 OOM ，这个基本无解。解决方法无外乎买更多的显卡，更大的现存型号，减少同时提交的任务树。

如果 OP 想要做一个好公民，减少自己程序的现存占用，可以考虑以下几点：
1. 减少 batch size
2. CPU + GPU 混合处理（比如数据处理的部分放在 CPU+内存里面处理完之后再发到 GPU 显存里面）
3. 多做 checkpoint 存盘
4. 多卡并行，减少单张卡的现存占用
5. 考虑使用混合精度训练
6. 考虑使用集群资源管理，例如 k8s, slurm ，让大家提交任务的时候声明需求