From 26e64a8827f899d28d4087f481e16f3029e104cc Mon Sep 17 00:00:00 2001 From: Varuna Jayasiri Date: Mon, 24 Jun 2024 15:59:56 +0530 Subject: [PATCH] zh --- docs/zh/rl/ppo/gae.html | 26 ++++++++++++++++++-------- translate_cache/rl/ppo/gae.zh.json | 2 +- 2 files changed, 19 insertions(+), 9 deletions(-) diff --git a/docs/zh/rl/ppo/gae.html b/docs/zh/rl/ppo/gae.html index 4f24233b..f2d85de1 100644 --- a/docs/zh/rl/ppo/gae.html +++ b/docs/zh/rl/ppo/gae.html @@ -112,8 +112,8 @@ #

计算优势

-

是高偏差,低方差,而无偏差,高方差。

-

我们采用加权平均值来平衡偏差和方差。这称为广义优势估计。我们设置,这给出了干净的计算

+

是高偏差,低方差,而无偏差,高方差。

+

我们采用加权平均值来平衡偏差和方差。这称为广义优势估计。我们设置,这给出了干净的计算

@@ -190,15 +190,25 @@ -

请注意,我们正在按相反的顺序收集。我最初的代码被追加到一个列表中,后来我忘记反转它了。我花了大约 4 到 5 个小时才发现 bug。在初始运行期间,该模型的性能略有改善,这可能是因为样本相似。

+

-
83            advantages[:, t] = last_advantage
-84
-85            last_value = values[:, t]
-86
-87        return advantages
+
77            advantages[:, t] = last_advantage
+78
+79            last_value = values[:, t]
+
+ +
+
+ +

+ +
+
+
82        return advantages