近接ポリシー最適化-PPO

これは近接ポリシー最適化(PPO)のPyTorch実装です

PPOは強化学習のポリシーグラデーション法です。単純なポリシーグラデーションメソッドでは、サンプル(またはサンプルのセット)ごとに1つのグラデーション更新を行います。1つのサンプルに対して複数のグラデーションステップを実行すると、ポリシーの偏差が大きすぎて不適切なポリシーが生成されるため、問題が発生します。PPO では、ポリシーをデータのサンプリングに使用したポリシーに近い状態に保つことで、サンプルごとに複数のグラデーション更新を行うことができます。更新されたポリシーがデータのサンプリングに使用されたポリシーに合わない場合は、グラデーションフローをクリッピングして更新します

これを使った実験はこちらからご覧いただけます。この実験では、一般化アドバンテージ推定を使用しています

Open In Colab