近端策略优化-PPO

这是近端策略优化-PPO 的 P yTorch 实现。

PPO 是一种用于强化学习的策略梯度方法。简单的策略梯度方法可以对每个样本（或一组样本）进行一次梯度更新。对单个样本执行多个梯度步骤会导致问题，因为策略偏差太大，从而产生了糟糕的策略。PPO 允许我们尝试使策略接近用于采样数据的策略，从而为每个样本执行多次梯度更新。如果更新的策略与用于采样数据的策略不接近，则通过剪切梯度流来实现此目的。

你可以在这里找到一个使用它的实验。该实验使用广义优势估计。