#

ADABeliefප්රශස්තකරණය

මෙයපදනම් වී ඇත්තේ AadaBelief කඩදාසි නිල වශයෙන් ක්රියාත්මක කිරීමෙනි AadaBelief Optimizer: නිරීක්ෂණය කරන ලද ශ්රේණියේ විශ්වාසය අනුව පියවර අනුවර්තනය කිරීම .

මෙය RADAM හි දිගුවක් ලෙස PyTorch හි ක්රියාත්මක වේ.

ආදම්ප්රශස්තකරණය සහ ඇඩබලිෆ් අතර ඇති ප්රධාන වෙනස නම්, එය අනුවර්තී ඉගෙනුම් අනුපාතය ගණනය කරන්නේ කෙසේද යන්නයි; අනුක්රමික වර්ග වල on ාතීය චලනය වන සාමාන්යයෙන් බෙදීම වෙනුවට, ඇඩබීලීෆ් විචලනය වන on ාතීය මධ්යන්යයෙන් බෙදේ.

m_{t} s_{t} \overset{m}{^}_{t} \overset{s}{^}_{t} θ_{t} \leftarrow β_{1} m_{t - 1} + (1 - β_{1}) \cdot g_{t} \leftarrow β_{2} s_{t - 1} + (1 - β_{2}) \cdot (g_{t} - m_{t})^{2} \leftarrow \frac{m _{t}}{1 - β _{1} ^{t}} \leftarrow \frac{s _{t} + ϵ}{1 - β _{2} ^{t}} \leftarrow θ_{t - 1} - α \cdot \frac{m ^ _{t}}{s ^ _{t} + ϵ}

🤔කඩදාසි විචලතාව ගණනය කරයි $(g_{t} - m_{t})^{2}$ , නමුත් එය නැඹුරුව නිවැරදි කළ ගම්යතාව භාවිතා කළ යුතු යැයි මට හැඟේ $(g_{t} - \overset{m}{^}_{t})^{2}$ . නැඹුරුව නිවැරදි කිරීම මූලික පුහුණු පියවරවලින් $\approx 1$ පසුව වන බැවින් මෙය බොහෝ දේට බලපාන්නේ නැතැයි මම සිතමි.

36from typing import Dict, Any
37
38import torch
39from torch import nn
40
41from labml_nn.optimizers import WeightDecay
42from labml_nn.optimizers.radam import RAdam

#

ADABeliefප්රශස්තකරණය

මෙමපන්තිය අර්ථ දක්වා ඇති RadAM ප්රශස්තකරණයෙන් විහිදේ radam.py .

45class AdaBelief(RAdam):

#

ප්රශස්තකරණයආරම්භ කරන්න

params යනු පරාමිතීන් ලැයිස්තුවයි
lr යනු ඉගෙනුම් අනුපාතයයි $α$
betas ( $β_{1}$ , $β_{2}$ ) ක tuple වේ
eps $\overset{ϵ}{^}$ හෝ මත $ϵ$ පදනම් වේ optimized_update
weight_decay WeightDecay අර්ථ දක්වා ඇති පන්තියේ අවස්ථාවකි __init__.py
optimized_update එකතු කිරීමෙන් පසු එය කිරීමෙන් දෙවන මොහොතේ පක්ෂග්රාහීව නිවැරදි කිරීම ප්රශස්ත කිරීම සඳහා ධජයකි $ϵ$
amsgrad ආදම් සරල කිරීම සඳහා AMSGrad හෝ වැටීම භාවිතා කළ යුතුද යන්න දැක්වෙන ධජයකි
degenerate_to_sgd නිවැරදි කිරීමේ පදය $r_{t}$ සොයාගත නොහැකි විට sgd භාවිතා කළ යුතුද යන්න
rectify RaDam යාවත්කාලීන කිරීම භාවිතා කළ යුතුද යන්න
defaults කණ්ඩායම් අගයන් සඳහා පෙරනිමි ශබ්ද කෝෂයකි. ඔබට පන්තිය දීර් extend කිරීමට අවශ්ය විට මෙය ප්රයෝජනවත් AdaBelief වේ.

52    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-16,
53                 weight_decay: WeightDecay = WeightDecay(), amsgrad=False,
54                 degenerate_to_sgd=True,
55                 rectify=True, defaults=None):

#

73        defaults = {} if defaults is None else defaults
74        super().__init__(params, lr, betas, eps, weight_decay, amsgrad, degenerate_to_sgd, defaults)
75        self.rectify = rectify

#

පරාමිතිතත්වයක් ආරම්භ කරන්න

state පරාමිතිය ප්රශස්තකරණය රාජ්ය වේ (tensor)
group පරාමිති කණ්ඩායමේ ප්රශස්තිකරණ ගුණාංග ගබඩා කරයි

param පරාමිතිය tensor වේ

θ_{t - 1}

77    def init_state(self, state: Dict[str, any], group: Dict[str, any], param: nn.Parameter):

#

85        state['step'] = 0

#

ඵලයඅනුක්රමික වටිනාකම් ඝාතීය වෙනස්වන සාමාන්යය

87        state['exp_avg'] = torch.zeros_like(param, memory_format=torch.preserve_format)

#

විචලතාවයේඝාතීය චලනය වන සාමාන්යය

89        state['exp_avg_var'] = torch.zeros_like(param, memory_format=torch.preserve_format)

#

amsgrad ධජය මෙම පරාමිතිය පිරිසක් True සඳහා නම්, අපි විචලතාව ඝාතීය වෙනස්වන සාමාන්ය උපරිම පවත්වා

93        if group['amsgrad']:

#

සියලුඑක්ස්ප්රස් උපරිම පවත්වාගෙන යයි. ගමන් Avg. වර්ග. ශ්රේණියේ. අගයන්

95            state['max_exp_avg_var'] = torch.zeros_like(param, memory_format=torch.preserve_format)

#

ගණනයකරන්න $m_{t}$ සහ $s_{t}$ හෝ $m a x (s_{1}, s_{2}, ..., s_{t - 1}, s_{t})$

state පරාමිතිය ප්රශස්තකරණය රාජ්ය වේ (tensor)
group පරාමිති කණ්ඩායමේ ප්රශස්තිකරණ ගුණාංග ගබඩා කරයි

grad පරාමිතිය

g_{t}

සඳහා වත්මන් ඵලය අනුක්රමික tensor වේ

θ_{t - 1}

97    def get_ms(self, state: Dict[str, Any], group: Dict[str, Any], grad: torch.Tensor):

#

ලබා $β_{1}$ ගන්න $β_{2}$

107        beta1, beta2 = group['betas']

#

ලබා $m_{t - 1}$ ගන්න $s_{t - 1}$

110        m, s = state['exp_avg'], state['exp_avg_var']

#

ස්ථානයෙහිගණනය කිරීම $m_{t}$ $m_{t} \leftarrow β_{1} m_{t - 1} + (1 - β_{1}) \cdot g_{t}$

114        m.mul_(beta1).add_(grad, alpha=1 - beta1)

#

ශ්රේණියසහ ගම්යතාව අතර වෙනස

116        grad_residual = grad - m

#

ස්ථානයෙහිගණනය කිරීම $s_{t}$ $s_{t} \leftarrow β_{2} s_{t - 1} + (1 - β_{2}) \cdot (g_{t} - m_{t})^{2}$

119        s.mul_(beta2).addcmul_(grad_residual, grad_residual, value=1 - beta2)

#

මෙමපරාමිති කණ්ඩායම භාවිතා කරන්නේ නම් amsgrad

122        if group['amsgrad']:

#

ලබාගන්න $max (s_{1}, s_{2}, ..., s_{t - 1})$ .

124            s_max = state['max_exp_avg_var']

#

ගණනයකරන්න $m a x (s_{1}, s_{2}, ..., s_{t - 1}, s_{t})$ .

126            torch.maximum(s_max, s, out=s_max)
127
128            return m, s_max
129        else:

#

$m_{t}$ සහ $s_{t}$ වෙනත් ආකාරයකින්

131            return m, s

#

දීඇති පරාමිති ටෙන්සරයක් සඳහා යාවත්කාලීන පියවරක් ගන්න

state පරාමිතිය ප්රශස්තකරණය රාජ්ය වේ (tensor)
group පරාමිති කණ්ඩායමේ ප්රශස්තිකරණ ගුණාංග ගබඩා කරයි
grad පරාමිතිය $g_{t}$ සඳහා වත්මන් ඵලය අනුක්රමික tensor වේ $θ_{t - 1}$

param පරාමිතිය tensor වේ

θ_{t - 1}

133    def step_param(self, state: Dict[str, any], group: Dict[str, any], grad: torch.Tensor, param: torch.nn.Parameter):

#

බරක්ෂය වීම ගණනය කරන්න

144        grad = self.weight_decay(param, grad, group)

#

ලබා $m_{t}$ ගන්න $v_{t}$

147        m, s = self.get_ms(state, group, grad)

#

ප්රශස්තිකරණපියවර ගණන වැඩි $t$ කරන්න

150        state['step'] += 1
151
152        if not self.rectify:

#

ආදම් යාවත්කාලීන කිරීම සිදු කරන්න adam.py , අර්ථ දක්වා $s_{t} + ϵ$ ඇත, වෙනුවට $v_{t}$ .

155            self.adam_update(state, group, param, m, s + group['eps'])
156        else:

#

නිවැරදිකරන ලද ආදම් යාවත්කාලීන කිරීම සිදු කරන්න radam.py , වෙනුවට අර්ථ දක්වා $v_{t}$ ඇත. $s_{t} + ϵ$

159            self.r_adam_update(state, group, param, m, s + group['eps'])

ADABeliefප්රශස්තකරණය

ADABeliefප්රශස්තකරණය

ප්රශස්තකරණයආරම්භ කරන්න

පරාමිතිතත්වයක් ආරම්භ කරන්න

ගණනයකරන්න mt​ සහ st​ හෝ max(s1​,s2​,...,st−1​,st​)

දීඇති පරාමිති ටෙන්සරයක් සඳහා යාවත්කාලීන පියවරක් ගන්න

ගණනයකරන්න $m_{t}$ සහ $s_{t}$ හෝ $m a x (s_{1}, s_{2}, ..., s_{t - 1}, s_{t})$