训练阶段的显存分析

元数据

本文探讨了深度学习训练阶段的显存消耗，重点分析了模型参数、优化器状态、梯度值和激活值对显存的影响。通过计算公式，我们可以估算不同数据类型和优化器配置下的显存需求。

模型显存：模型的显存消耗与参数量和数据类型有关。常见的数据类型有fp32、fp16/bf16和int8等。显存计算公式为：
$ModelMem = TypeSize \times Params$
根据不同数据类型，计算公式如下（单位：GB）：
- $fp32 = \frac{4 \times params}{1024 \times 1024 \times 1024}$
- $fp16/bf16 = \frac{2 \times params}{1024 \times 1024 \times 1024}$
- $fp8/int8 = \frac{1 \times params}{1024 \times 1024 \times 1024}$
优化器状态：在LLM中常用的优化器是Adam，它需要为每个参数维护Momentum和Variance状态。在混合精度训练中，还需一份模型参数副本。Adam的优化器状态显存计算公式为：
$OptMem = \frac{(4 + 4 + 4) \times Params}{1024 \times 1024 \times 1024}$

⚠ 在计算模型显存时，忽略了数据类型对结果的影响。确保选择正确的数据类型进行估算。

混合精度训练可以有效减少显存占用，但需要注意最终存储时仍需转为fp32。

原始出处：[选取内容]