#

半精度训练的 Adam Optimizer

10from typing import Dict, Tuple, Optional, Any
11
12import torch
13from torch import nn
14from torch.optim import Optimizer
15from torch.cuda.amp import grad_scaler
16from collections import defaultdict, abc
17
18from labml_nn.optimizers import WeightDecay
19from labml_nn.optimizers.adam import Adam

#

半精度训练的 Adam Optimizer

我们扩展了 Adam Optimizer，但使用 FP32 来存储渐变和时刻。

22class AdamFP16(Adam):

#

29    def __init__(self, params, lr: float = 1e-3, betas: Tuple[float, float] = (0.9, 0.999), eps: float = 1e-16,
30                 weight_decay: WeightDecay = WeightDecay(), optimized_update: bool = True,
31                 defaults: Optional[Dict[str, Any]] = None):

#

用于存储 32 位渐变的参数。这由下面GradScaler 定义的填充。

33        self.grad_fp32 = {}

#

调用 Adam 优化器初始化器

35        super().__init__(params, lr, betas, eps, weight_decay, optimized_update, defaults)

#

初始化参数状态

state 是参数（张量）的优化器状态
group 存储参数组的优化程序属性
param 是参数张量 $θ_{t - 1}$

所有状态张量都使用 FP32。

37    def init_state(self, state: Dict[str, any], group: Dict[str, any], param: nn.Parameter):

#

这是优化器对参数采取的步骤数， $t$

49        state['step'] = 0

#

梯度的指数移动平均线， $m_{t}$

51        state['exp_avg'] = torch.zeros_like(param, memory_format=torch.preserve_format, dtype=torch.float)

#

梯度平方值的指数移动平均线， $v_{t}$

53        state['exp_avg_sq'] = torch.zeros_like(param, memory_format=torch.preserve_format, dtype=torch.float)

#

维护参数的 FP32 副本

55        state['fp32_copy'] = param.to(torch.float)

#

对给定参数张量执行更新步骤

state 是参数（张量）的优化器状态
group 存储参数组的优化程序属性
grad 是参数的当前梯 $g_{t}$ 度张量 $θ_{t - 1}$
param 是参数张量 $θ_{t - 1}$

57    def step_param(self, state: Dict[str, any], group: Dict[str, any], grad: torch.Tensor, param: torch.nn.Parameter):

#

获取 FP32 参数

68        param_fp32 = state['fp32_copy']

#

获取 FP32 渐变（如果有）

70        grad_fp32 = self.grad_fp32.get(param, None)
71        if grad_fp32 is not None:
72            del self.grad_fp32[param]
73            grad = grad_fp32
74        else:

#

否则，将渐变转换为 FP32

76            grad = grad.to(torch.float)

#

计算体重衰减

79        grad = self.weight_decay(param_fp32, grad, group)

#

获取 $m_{t}$ 和 $v_{t}$

82        m, v = self.get_mv(state, group, grad)

#

$t$ 增加优化器步数

85        state['step'] += 1

#

执行 Adam 更新

88        self.adam_update(state, group, param_fp32, m, v)

#

设置参数

91        param.data = param_fp32.to(param.dtype)

#

具有半精度渐变的渐变缩放器

我们将 PyTorch 梯度缩放器扩展为使用 FP32 渐变。

94class GradScalerFP16(grad_scaler.GradScaler):

#

101    def _unscale_grads_(self, optimizer: Optimizer, inv_scale: torch.Tensor, found_inf: torch.Tensor,
102                        allow_fp16: bool) -> Dict[torch.device, torch.Tensor]:
103        per_device_inv_scale = grad_scaler._MultiDeviceReplicator(inv_scale)
104        per_device_found_inf = grad_scaler._MultiDeviceReplicator(found_inf)
105
106        per_device_and_dtype_grads = defaultdict(lambda: defaultdict(list))  # type: ignore[var-annotated]
107
108        with torch.no_grad():

#

循环浏览参数

110            for group in optimizer.param_groups:
111                for param in group["params"]:

#

跳过不可训练的参数

113                    if param.grad is None:
114                        continue

#

未针对稀疏张量实现

116                    if param.grad.is_sparse:
117                        raise NotImplementedError

#

如果我们使用设置为optimizer.grad_fp32[param] FP32 渐变的AdamFP16 优化器

120                    if isinstance(optimizer, AdamFP16):
121                        grad = param.grad.to(torch.float)
122                        optimizer.grad_fp32[param] = grad

#

否则，不要将渐变转换为 FP32

124                    else:
125                        grad = param.grad
126
127                    per_device_and_dtype_grads[grad.device][grad.dtype].append(grad)

#

取消缩放所有渐变

130            for device, per_dtype_grads in per_device_and_dtype_grads.items():
131                for grads in per_dtype_grads.values():
132                    torch._amp_foreach_non_finite_check_and_unscale_(grads,
133                                                                     per_device_found_inf.get(device),
134                                                                     per_device_inv_scale.get(device))

#

136        return per_device_found_inf._per_device_tensors