home rl ppo
View code on Github
这是近端策略优化-PPO 的 P yTorch 实现。
PPO 是一种用于强化学习的策略梯度方法。简单的策略梯度方法可以对每个样本(或一组样本)进行一次梯度更新。对单个样本执行多个梯度步骤会导致问题,因为策略偏差太大,从而产生了糟糕的策略。PPO 允许我们尝试使策略接近用于采样数据的策略,从而为每个样本执行多次梯度更新。如果更新的策略与用于采样数据的策略不接近,则通过剪切梯度流来实现此目的。
你可以在这里找到一个使用它的实验。该实验使用广义优势估计。