diff --git a/docs/zh/rl/ppo/gae.html b/docs/zh/rl/ppo/gae.html index 4f24233b..f2d85de1 100644 --- a/docs/zh/rl/ppo/gae.html +++ b/docs/zh/rl/ppo/gae.html @@ -112,8 +112,8 @@ #
是高偏差,低方差,而无偏差,高方差。
-我们采用加权平均值来平衡偏差和方差。这称为广义优势估计。我们设置,这给出了干净的计算
+是高偏差,低方差,而无偏差,高方差。
+我们采用加权平均值来平衡偏差和方差。这称为广义优势估计。我们设置,这给出了干净的计算
请注意,我们正在按相反的顺序收集。我最初的代码被追加到一个列表中,后来我忘记反转它了。我花了大约 4 到 5 个小时才发现 bug。在初始运行期间,该模型的性能略有改善,这可能是因为样本相似。
+
83 advantages[:, t] = last_advantage
-84
-85 last_value = values[:, t]
-86
-87 return advantages
77 advantages[:, t] = last_advantage
+78
+79 last_value = values[:, t]
+ +
82 return advantages