ප්රතිපත්තිප්රශස්තිකරණය - PPO

මෙය PyTorch ක්රියාත්මක කිරීමයි Proximal Policy ප්රශස්තිකරණය - PPO .

PPOයනු ශක්තිමත් කිරීමේ ඉගෙනීම සඳහා ප්රතිපත්තිමය ශ්රේණියේ ක්රමයකි. සරල ප්රතිපත්ති ඵලය අනුක්රමික ක්රම සාම්පලයක් (හෝ සාම්පල මාලාවක්) අනුව තනි ඵලය අනුක්රමික යාවත්කාලීන කරන්න. ප්රතිපත්තිය ඕනෑවට වඩා අපගමනය නිසා එක් සාම්පලයක් සඳහා බහු ඵලය අනුක්රමික පියවර කරන්නේ ප්රශ්න ඇති, නරක ප්රතිපත්තියක් නිෂ්පාදනය. දත්ත සාම්පල කිරීම සඳහා භාවිතා කරන ලද ප්රතිපත්තියට සමීපව ප්රතිපත්තිය තබා ගැනීමට උත්සාහ කිරීමෙන් නියැදියකට බහු ශ්රේණියේ යාවත්කාලීන කිරීම් කිරීමට PPO අපට ඉඩ දෙයි. යාවත්කාලීන කරන ලද ප්රතිපත්තිය දත්ත සාම්පල කිරීම සඳහා භාවිතා කරන ප්රතිපත්තියට සමීප නොවේ නම්, ශ්රේණියේ ප්රවාහය ක්ලිපින් කිරීමෙන් එය එසේ කරයි.

එයභාවිතා කරන අත්හදා බැලීමක් ඔබට සොයාගත හැකිය මෙහි. අත්හදා බැලීම සාමාන්යකරණය කළ වාසි ඇස්තමේන්තුභාවිතා කරයි.

29import torch
30
31from labml_helpers.module import Module
32from labml_nn.rl.ppo.gae import GAE

PPOපාඩුව

PPOයාවත්කාලීන කිරීමේ රීතිය ව්යුත්පන්න කර ඇති ආකාරය මෙන්න.

ප්රතිපත්තිවිපාකය උපරිම කිරීමට අපට අවශ්ය $r$ වන්නේ විපාකය $θ max J (π_{θ}) = E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} r_{t}]$ කොතැනද, ප්රතිපත්තිය ද, ප්රතිපත්තියෙන් සම්මාදිට්ඨි වූ ගමන් $τ$ මාර්ගයකි. $π$ $γ$ අතර වට්ටම් සාධකය $[0, 1]$ වේ.

E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} A^{π_{O L D}} (s_{t}, a_{t})] E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} (Q^{π_{O L D}} (s_{t}, a_{t}) - V^{π_{O L D}} (s_{t}))] E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} (r_{t} + V^{π_{O L D}} (s_{t + 1}) - V^{π_{O L D}} (s_{t}))] E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} (r_{t})] - E_{τ \sim π_{θ}} [V^{π_{O L D}} (s_{0})] = = = = J (π_{θ}) - J (π_{θ_{O L D}})

ඉතින්, $θ max J (π_{θ}) = θ max E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} A^{π_{O L D}} (s_{t}, a_{t})]$

වට්ටම්-අනාගතරාජ්ය ව්යාප්තිය නිර්වචනය කරන්න, $d^{π} (s) = (1 - γ) t = 0 \sum \infty γ^{t} P (s_{t} = s ∣ π)$

එවිට,

J (π_{θ}) - J (π_{θ_{O L D}}) = E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} A^{π_{O L D}} (s_{t}, a_{t})] = \frac{1}{1 - γ} E_{s \sim d^{π_{θ}}, a \sim π_{θ}} [A^{π_{O L D}} (s, a)]

වැදගත්කම $a$ නියැදීම $π_{θ_{O L D}}$ ,

J (π_{θ}) - J (π_{θ_{O L D}}) = \frac{1}{1 - γ} E_{s \sim d^{π_{θ}}, a \sim π_{θ}} [A^{π_{O L D}} (s, a)] = \frac{1}{1 - γ} E_{s \sim d^{π_{θ}}, a \sim π_{θ_{O L D}}} [\frac{π _{θ} ( a ∣ s )}{π _{θ_{O L D}} ( a ∣ s )} A^{π_{O L D}} (s, a)]

එවිටඅපි උපකල්පනය $d^{π_{θ}} (s)$ හා $d^{π_{θ_{O L D}}} (s)$ සමාන ය. මෙම උපකල්පනය $J (π_{θ}) - J (π_{θ_{O L D}})$ මගින් අප හඳුන්වා දෙන දෝෂය KL අපසරනය $π_{θ}$ හා අතර බැඳී $π_{θ_{O L D}}$ ඇත. සීමා සහිත ප්රතිපත්ති ප්රශස්තිකරණය මේ සඳහා සාක්ෂි පෙන්වයි. මම එය කියවා නැත.

J (π_{θ}) - J (π_{θ_{O L D}}) = \frac{1}{1 - γ} E_{a \sim π _{θ_{O L D}} s \sim d ^{π_{θ}}} [\frac{π _{θ} ( a ∣ s )}{π _{θ_{O L D}} ( a ∣ s )} A^{π_{O L D}} (s, a)] \approx \frac{1}{1 - γ} E_{a \sim π _{θ_{O L D}} s \sim d ^{π_{θ_{O L D}}}} [\frac{π _{θ} ( a ∣ s )}{π _{θ_{O L D}} ( a ∣ s )} A^{π_{O L D}} (s, a)] = \frac{1}{1 - γ} L^{CP I}

35class ClippedPPOLoss(Module):

137    def __init__(self):
138        super().__init__()

140    def forward(self, log_pi: torch.Tensor, sampled_log_pi: torch.Tensor,
141                advantage: torch.Tensor, clip: float) -> torch.Tensor:

අනුපාතය $r_{t} (θ) = \frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{θ_{O L D}} ( a _{t} ∣ s _{t} )}$ ; මෙය ත්යාගවලට වඩා වෙනස් $r_{t}$ ය.

144        ratio = torch.exp(log_pi - sampled_log_pi)

ප්රතිපත්තිඅනුපාතය අමුණන්න

L^{C L I P} (θ) = E_{a_{t}, s_{t} \sim π_{θ O L D}} [min (r_{t} (θ) \overset{ˉ}{A_{t}}, c l i p (r_{t} (θ), 1 - ϵ, 1 + ϵ) \overset{ˉ}{A_{t}})]

අනුපාතය1 ට ආසන්න වන පරිදි ක්ලිප් කර ඇත. අපි අවම වශයෙන් ගන්නා අතර එමඟින් අනුපාතය අතර නොවේ $π_{θ_{O L D}}$ නම් $1 - ϵ$ සහ ශ්රේණිය $π_{θ}$ දෙසට ඇද දමනු ඇත $1 + ϵ$ . මෙය KL අපසරනය අතර $π_{θ}$ හා $π_{θ_{O L D}}$ සීමා කර තබා ගනී. විශාල අපගමනය කාර්ය සාධනය බිඳවැටීමට හේතු විය හැක; එහිදී ප්රතිපත්ති කාර්ය සාධනය පහත වැටී අප නරක ප්රතිපත්තියකින් නියැදීම් නිසා යථා තත්ත්වයට පත් නොවේ.

සාමාන්යකරණයකරන ලද වාසිය භාවිතා කරමින් ප්රතිපත්ති ශ්රේණියේ තක්සේරුකරු වෙත නැඹුරුවක් $\overset{ˉ}{A_{t}} = \frac{A _{t} ^ - μ ( A _{t} ^ )}{σ ( A _{t} ^ )}$ හඳුන්වා දෙයි, නමුත් එය විචලතාව ගොඩක් අඩු කරයි.

173        clipped_ratio = ratio.clamp(min=1.0 - clip,
174                                    max=1.0 + clip)
175        policy_reward = torch.min(ratio * advantage,
176                                  clipped_ratio * advantage)
177
178        self.clip_fraction = (abs((ratio - 1.0)) > clip).to(torch.float).mean()
179
180        return -policy_reward.mean()

ක්ලිප්අගය කාර්යභාරය අඞු කිරීමට

ඒහා සමානව අපි අගය ශ්රිතය යාවත්කාලීන කිරීම ද ක්ලිප් කරමු

V_{C L I P}^{π_{θ}} (s_{t}) L^{V F} (θ) = c l i p (V^{π_{θ}} (s_{t}) - \hat{V_{t}}, - ϵ, + ϵ) = \frac{1}{2} E [m a x ((V^{π_{θ}} (s_{t}) - R_{t})^{2}, (V_{C L I P}^{π_{θ}} (s_{t}) - R_{t})^{2})]

ක්ලිපින්අගය ශ්රිතය සැලකිය යුතු ලෙස බැහැර $V_{θ}$ නොවන බවට වග බලා ගනී $V_{θ_{O L D}}$ .

183class ClippedValueFunctionLoss(Module):

205    def forward(self, value: torch.Tensor, sampled_value: torch.Tensor, sampled_return: torch.Tensor, clip: float):
206        clipped_value = sampled_value + (value - sampled_value).clamp(min=-clip, max=clip)
207        vf_loss = torch.max((value - sampled_return) ** 2, (clipped_value - sampled_return) ** 2)
208        return 0.5 * vf_loss.mean()