#

近端策略优化-PPO

PPO 是一种用于强化学习的策略梯度方法。简单的策略梯度方法对每个样本（或一组样本）进行一次梯度更新。对单个样本执行多个梯度步骤会导致问题，因为策略偏差太大，从而产生了糟糕的策略。PPO 允许我们尝试使策略接近用于采样数据的策略，从而为每个样本执行多次梯度更新。如果更新的策略与用于采样数据的策略不接近，则通过剪切梯度流来实现此目的。

你可以在这里找到一个使用它的实验。该实验使用广义优势估计。

29import torch
30
31from labml_helpers.module import Module
32from labml_nn.rl.ppo.gae import GAE

#

PPO 损失

以下是 PPO 更新规则的派生方式。

我们希望最大限度地提高保单奖励 $θ max J (π_{θ}) = E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} r_{t}]$ 在哪里 $r$ ， $π$ 奖励在哪里， $τ$ 是保单，是从保单中抽样的轨迹， $γ$ 是介于两者之间的折扣系数 $[0, 1]$ 。

E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} A^{π_{O L D}} (s_{t}, a_{t})] E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} (Q^{π_{O L D}} (s_{t}, a_{t}) - V^{π_{O L D}} (s_{t}))] E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} (r_{t} + V^{π_{O L D}} (s_{t + 1}) - V^{π_{O L D}} (s_{t}))] E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} (r_{t})] - E_{τ \sim π_{θ}} [V^{π_{O L D}} (s_{0})] = = = = J (π_{θ}) - J (π_{θ_{O L D}})

所以， $θ max J (π_{θ}) = θ max E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} A^{π_{O L D}} (s_{t}, a_{t})]$

定义折扣未来状态分配， $d^{π} (s) = (1 - γ) t = 0 \sum \infty γ^{t} P (s_{t} = s ∣ π)$

那么，

J (π_{θ}) - J (π_{θ_{O L D}}) = E_{τ \sim π_{θ}} [t = 0 \sum \infty γ^{t} A^{π_{O L D}} (s_{t}, a_{t})] = \frac{1}{1 - γ} E_{s \sim d^{π_{θ}}, a \sim π_{θ}} [A^{π_{O L D}} (s, a)]

重要性抽样 $a$ 来自 $π_{θ_{O L D}}$

J (π_{θ}) - J (π_{θ_{O L D}}) = \frac{1}{1 - γ} E_{s \sim d^{π_{θ}}, a \sim π_{θ}} [A^{π_{O L D}} (s, a)] = \frac{1}{1 - γ} E_{s \sim d^{π_{θ}}, a \sim π_{θ_{O L D}}} [\frac{π _{θ} ( a ∣ s )}{π _{θ_{O L D}} ( a ∣ s )} A^{π_{O L D}} (s, a)]

然后我们假设 $d^{π_{θ}} (s)$ 和 $d^{π_{θ_{O L D}}} (s)$ 是相似的。我们 $J (π_{θ}) - J (π_{θ_{O L D}})$ 通过这个假设引入的误差受 $π_{θ}$ 和之间的 KL 差异的约束 $π_{θ_{O L D}}$ 。约束策略优化证明了这一点。我还没看过。

J (π_{θ}) - J (π_{θ_{O L D}}) = \frac{1}{1 - γ} E_{a \sim π _{θ_{O L D}} s \sim d ^{π_{θ}}} [\frac{π _{θ} ( a ∣ s )}{π _{θ_{O L D}} ( a ∣ s )} A^{π_{O L D}} (s, a)] \approx \frac{1}{1 - γ} E_{a \sim π _{θ_{O L D}} s \sim d ^{π_{θ_{O L D}}}} [\frac{π _{θ} ( a ∣ s )}{π _{θ_{O L D}} ( a ∣ s )} A^{π_{O L D}} (s, a)] = \frac{1}{1 - γ} L^{CP I}

35class ClippedPPOLoss(Module):

#

137    def __init__(self):
138        super().__init__()

#

140    def forward(self, log_pi: torch.Tensor, sampled_log_pi: torch.Tensor,
141                advantage: torch.Tensor, clip: float) -> torch.Tensor:

#

比例 $r_{t} (θ) = \frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{θ_{O L D}} ( a _{t} ∣ s _{t} )}$ ；这与奖励不同 $r_{t}$ 。

144        ratio = torch.exp(log_pi - sampled_log_pi)

#

削减保单比率

L^{C L I P} (θ) = E_{a_{t}, s_{t} \sim π_{θ O L D}} [min (r_{t} (θ) \overset{ˉ}{A_{t}}, c l i p (r_{t} (θ), 1 - ϵ, 1 + ϵ) \overset{ˉ}{A_{t}})]

该比率被裁剪为接近 1。我们取最小值，以便只有当比率不在 $1 - ϵ$ 和之间时，梯度才会拉 $π_{θ}$ 向 $π_{θ_{O L D}}$ $1 + ϵ$ 。这保持了 KL 之间的差异 $π_{θ}$ 和 $π_{θ_{O L D}}$ 限制。较大的偏差可能导致性能下降；在这种情况下，策略性能会下降且无法恢复，因为我们正在从不良策略中抽样。

使用归一化优势会给政策梯度估计器 $\overset{ˉ}{A_{t}} = \frac{A _{t} ^ - μ ( A _{t} ^ )}{σ ( A _{t} ^ )}$ 带来偏差，但它大大减少了方差。

173        clipped_ratio = ratio.clamp(min=1.0 - clip,
174                                    max=1.0 + clip)
175        policy_reward = torch.min(ratio * advantage,
176                                  clipped_ratio * advantage)
177
178        self.clip_fraction = (abs((ratio - 1.0)) > clip).to(torch.float).mean()
179
180        return -policy_reward.mean()

#

削减值函数损失

同样，我们也裁剪值函数的更新。

V_{C L I P}^{π_{θ}} (s_{t}) L^{V F} (θ) = c l i p (V^{π_{θ}} (s_{t}) - \hat{V_{t}}, - ϵ, + ϵ) = \frac{1}{2} E [m a x ((V^{π_{θ}} (s_{t}) - R_{t})^{2}, (V_{C L I P}^{π_{θ}} (s_{t}) - R_{t})^{2})]

裁剪可确保值函数 $V_{θ}$ 不会明显偏离 $V_{θ_{O L D}}$ 。

183class ClippedValueFunctionLoss(Module):

#

205    def forward(self, value: torch.Tensor, sampled_value: torch.Tensor, sampled_return: torch.Tensor, clip: float):
206        clipped_value = sampled_value + (value - sampled_value).clamp(min=-clip, max=clip)
207        vf_loss = torch.max((value - sampled_return) ** 2, (clipped_value - sampled_return) ** 2)
208        return 0.5 * vf_loss.mean()