home rl ppo
View code on Github
这是 P yTorch 实现的近端策略优化-PPO。
PPO 是一种用于强化学习的策略梯度方法。简单的策略梯度方法可以对每个样本(或一组样本)进行一次梯度更新。对单个样本执行多个梯度步骤会导致问题,因为该策略偏离得太大,从而产生了错误的策略。PPO 允许我们在每个样本中进行多次梯度更新,方法是尽量使策略与用于采样数据的策略保持一致。如果更新后的策略与用于采样数据的策略不接近,则通过削减梯度流来实现此目的。
你可以在这里找到一个使用它的实验。该实验使用广义优势估计。