From bc86802ddc2220a41b30377489a26850c2d44fcc Mon Sep 17 00:00:00 2001
From: Varuna Jayasiri <vpjayasiri@gmail.com>
Date: Fri, 7 May 2021 16:21:12 +0530
Subject: [PATCH] =?UTF-8?q?=F0=9F=93=9A=20wasserstein=20gan?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 docs/cnn/utils/cv_train.html                  |  69 +---
 .../{cycle_gan.html => cycle_gan/index.html}  |  13 +-
 docs/gan/{dcgan.html => dcgan/index.html}     |  15 +-
 docs/gan/index.html                           | 238 +------------
 .../experiment.html}                          | 210 +++++------
 docs/gan/original/index.html                  | 327 ++++++++++++++++++
 docs/gan/wasserstein/experiment.html          | 217 ++++++++++++
 docs/gan/wasserstein/index.html               | 265 ++++++++++++++
 docs/sitemap.xml                              |  90 +++--
 labml_nn/gan/wasserstein/__init__.py          | 127 +++++--
 labml_nn/gan/wasserstein/experiment.py        |  19 +-
 11 files changed, 1140 insertions(+), 450 deletions(-)
 rename docs/gan/{cycle_gan.html => cycle_gan/index.html} (99%)
 rename docs/gan/{dcgan.html => dcgan/index.html} (98%)
 rename docs/gan/{simple_mnist_experiment.html => original/experiment.html} (81%)
 create mode 100644 docs/gan/original/index.html
 create mode 100644 docs/gan/wasserstein/experiment.html
 create mode 100644 docs/gan/wasserstein/index.html
diff --git a/docs/cnn/utils/cv_train.html b/docs/cnn/utils/cv_train.html
index 29f6db26..1bba00d4 100644
--- a/docs/cnn/utils/cv_train.html
+++ b/docs/cnn/utils/cv_train.html
@@ -72,38 +72,7 @@
                 <div class='section-link'>
                     <a href='#section-0'>#</a>
                 </div>
-                <h1>Cross-Validation & Early Stopping</h1>
-<p>Implementation of fundamental techniques namely <em>Cross-Validation</em> and <em>Early Stopping</em>
-<h3>Cross-Validation</h3>
-<p>
-    Getting data is expensive and in some cases, one has no option but to use a limited amount of data for training their machine learning models.
-    This is where Cross-Validation is useful. Steps are as follows:
-                <ol type = "1">
-                <li> Split the data in K folds </li>
-                <li> Use K-1 folds to train a set of models</li>
-                <li> Validate the models on the remaining fold</li>
-                <li> Repeat (1) and (2) for all the folds</li>
-                <li> Average the performance over all runs</li>
-            </ol>
-</p>
-                <h3>Early-Stopping</h3>
-    Deep Learning networks are prone to overfitting, that is although overfitted models have a good performance on train set, they have poor generalization capabilities.
-    In other words, overfitted models have low bias and high variance. Lower the bias higher the capability of model to fit the data. Higher the variance higher the sensitivity with respect to training data.
-    <br>Formally, it can be represented as: </br>
-                <p><script type="math/tex; mode=display"> loss = {bias}^2 + {variance} + noise </script></p>
-                <p>Therefore, user has to find a tradeoff between bias and variance.</p>
-                <p> </p>
-                <p> Early-Stopping is one of the way to find this tradeoff. It helps to find a good setting of parameters and preventing overfitting on dataset and saving computation time.
-                This can be visualized through the following graph of train loss and validation loss over time: </p> <br>
-
-
-                <a href="https://www.deeplearningbook.org/contents/regularization.html"><img src="Cross-validation.png" alt="Training v/s Validation set Loss"></a>
-                <br>
-                <p> It can be seen that train error continue to decrease but the validation error start to increase after around 40 epochs.
-                Therefore, our goal is to stop the training after the validation loss increases </p>
-
-</p>
-
+                
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">3</span><span></span><span class="kn">import</span> <span class="nn">torch</span>
@@ -128,10 +97,7 @@
                 <div class='section-link'>
                     <a href='#section-1'>#</a>
                 </div>
-                    <h3>Cross-Validation</h3>
-                    <p> Splitting of training set in folds can be represented as:  </p>
-                    <img src="cv-folds.png" alt="CV folds">
-
+                
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">21</span><span class="k">def</span> <span class="nf">cross_val_train</span><span class="p">(</span><span class="n">cost</span><span class="p">,</span> <span class="n">trainset</span><span class="p">,</span> <span class="n">epochs</span><span class="p">,</span> <span class="n">splits</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
@@ -190,7 +156,7 @@
                 <div class='section-link'>
                     <a href='#section-3'>#</a>
                 </div>
-                <p>Training steps</p>
+                <p>training steps</p>
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">65</span>            <span class="n">net</span><span class="o">.</span><span class="n">train</span><span class="p">()</span>  <span class="c1"># Enable Dropout</span>
@@ -203,7 +169,6 @@
                     <a href='#section-4'>#</a>
                 </div>
                 <p>Get the inputs; data is a list of [inputs, labels]</p>
-                <p>Load the inputs in GPU if available else CPU</p>
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">68</span>                <span class="k">if</span> <span class="n">device</span><span class="p">:</span>
@@ -242,7 +207,7 @@
                 <div class='section-link'>
                     <a href='#section-7'>#</a>
                 </div>
-                <p>Calculate loss</p>
+                <p>Print loss</p>
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">82</span>                <span class="n">running_loss</span> <span class="o">+=</span> <span class="n">loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
@@ -258,7 +223,7 @@
                 <div class='section-link'>
                     <a href='#section-8'>#</a>
                 </div>
-                <p>Validation and printing the metrics</p>
+                <p>Validation</p>
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">90</span>            <span class="n">loss_accuracy</span> <span class="o">=</span> <span class="n">Test</span><span class="p">(</span><span class="n">net</span><span class="p">,</span> <span class="n">cost</span><span class="p">,</span> <span class="n">valdata</span><span class="p">,</span> <span class="n">device</span><span class="p">)</span>
@@ -294,17 +259,7 @@
                 <div class='section-link'>
                     <a href='#section-10'>#</a>
                 </div>
-                <h3>Early stopping</h3>
-                <p>Early stopping can be understood graphically - the way weights change during the course of training.</p>
-                <ul>
-                    <li> Solid contour lines indicate the contours of the negative log-likelihood (train error)</li>
-                    <li> Dashed line indicates the trajectory taken by the optimizer</li>
-                    <li> w∗ denotes the weight setting correspoding to the minimum training error </li>
-                    <li> w denotes the final weights setting chosen by the model after early-stopping </li>
-                </ul>
-                <a href="https://www.deeplearningbook.org/contents/regularization.html"><img src="early-stopping.png" alt="early-stopping" hspace="100" ></a> <!--align="middle"-->
-                <br>
-                <a href="https://github.com/Bjarten/early-stopping-pytorch/blob/master/pytorchtools.py"><em>code reference here</em></a>
+                <p>Early stopping refered from https://github.com/Bjarten/early-stopping-pytorch/blob/master/pytorchtools.py</p>
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">110</span>            <span class="k">if</span> <span class="n">losses</span><span class="p">[</span><span class="n">epoch</span><span class="p">]</span> <span class="o">&gt;</span> <span class="n">min_loss</span><span class="p">:</span>
@@ -358,7 +313,7 @@
                 <div class='section-link'>
                     <a href='#section-13'>#</a>
                 </div>
-                <p>Retrieve the model which has the best accuracy over the validation set </p>
+                
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">138</span><span class="k">def</span> <span class="nf">retreive_best_trial</span><span class="p">():</span>
@@ -412,7 +367,7 @@
                 <div class='section-link'>
                     <a href='#section-16'>#</a>
                 </div>
-                <p>Forward pass</p>
+                <p>forward pass</p>
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">166</span>    <span class="n">output</span> <span class="o">=</span> <span class="n">net</span><span class="p">(</span><span class="n">images</span><span class="p">)</span></pre></div>
@@ -423,7 +378,7 @@
                 <div class='section-link'>
                     <a href='#section-17'>#</a>
                 </div>
-                <p>Loss in batch</p>
+                <p>loss in batch</p>
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">168</span>    <span class="n">loss</span> <span class="o">=</span> <span class="n">cost</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">labels</span><span class="p">)</span></pre></div>
@@ -434,7 +389,7 @@
                 <div class='section-link'>
                     <a href='#section-18'>#</a>
                 </div>
-                <p>Update validation loss</p>
+                <p>update validation loss</p>
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">171</span>    <span class="n">_</span><span class="p">,</span> <span class="n">preds</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
@@ -502,7 +457,7 @@
                 <div class='section-link'>
                     <a href='#section-23'>#</a>
                 </div>
-                <p>Loss in batch</p>
+                <p>loss in batch</p>
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">197</span>            <span class="n">loss</span> <span class="o">+=</span> <span class="n">cost</span><span class="p">(</span><span class="n">outputs</span><span class="p">,</span> <span class="n">labels</span><span class="p">)</span>
@@ -514,7 +469,7 @@
                 <div class='section-link'>
                     <a href='#section-24'>#</a>
                 </div>
-                <p>Calculate loss and accuracy over the validation set</p>
+                <p>losses[epoch] += loss.item()</p>
             </div>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">201</span>            <span class="n">_</span><span class="p">,</span> <span class="n">predicted</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="n">outputs</span><span class="o">.</span><span class="n">data</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
diff --git a/docs/gan/cycle_gan.html b/docs/gan/cycle_gan/index.html
similarity index 99%
rename from docs/gan/cycle_gan.html
rename to docs/gan/cycle_gan/index.html
index 538c6099..3fb584f1 100644
--- a/docs/gan/cycle_gan.html
+++ b/docs/gan/cycle_gan/index.html
@@ -12,7 +12,7 @@
     <meta name="twitter:site" content="@labmlai"/>
     <meta name="twitter:creator" content="@labmlai"/>
 
-    <meta property="og:url" content="https://nn.labml.ai/gan/cycle_gan.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/gan/cycle_gan/index.html"/>
     <meta property="og:title" content="Cycle GAN"/>
     <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
     <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,8 +22,8 @@
 
     <title>Cycle GAN</title>
     <link rel="shortcut icon" href="/icon.png"/>
-    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://nn.labml.ai/gan/cycle_gan.html"/>
+    <link rel="stylesheet" href="../../pylit.css">
+    <link rel="canonical" href="https://nn.labml.ai/gan/cycle_gan/index.html"/>
     <!-- Global site tag (gtag.js) - Google Analytics -->
     <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
     <script>
@@ -45,11 +45,12 @@
         <div class='docs'>
             <p>
                 <a class="parent" href="/">home</a>
-                <a class="parent" href="index.html">gan</a>
+                <a class="parent" href="../index.html">gan</a>
+                <a class="parent" href="index.html">cycle_gan</a>
             </p>
             <p>
 
-                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/gan/cycle_gan.py">
+                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/gan/cycle_gan/__init__.py">
                     <img alt="Github"
                          src="https://img.shields.io/github/stars/lab-ml/nn?style=social"
                          style="max-width:100%;"/></a>
@@ -88,7 +89,7 @@ One generator translates images from A to B and the other from B to A.
 The discriminators test whether the generated images look real.</p>
 <p>This file contains the model code as well as the training code.
 We also have a Google Colab notebook.</p>
-<p><a href="https://colab.research.google.com/github/lab-ml/nn/blob/master/labml_nn/gan/cycle_gan.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg" /></a>
+<p><a href="https://colab.research.google.com/github/lab-ml/nn/blob/master/labml_nn/gan/cycle_gan/experiment.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg" /></a>
 <a href="https://app.labml.ai/run/93b11a665d6811ebaac80242ac1c0002"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>
             </div>
             <div class='code'>
diff --git a/docs/gan/dcgan.html b/docs/gan/dcgan/index.html
similarity index 98%
rename from docs/gan/dcgan.html
rename to docs/gan/dcgan/index.html
index 3ab295a8..12f0ef33 100644
--- a/docs/gan/dcgan.html
+++ b/docs/gan/dcgan/index.html
@@ -12,7 +12,7 @@
     <meta name="twitter:site" content="@labmlai"/>
     <meta name="twitter:creator" content="@labmlai"/>
 
-    <meta property="og:url" content="https://nn.labml.ai/gan/dcgan.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/gan/dcgan/index.html"/>
     <meta property="og:title" content="Deep Convolutional Generative Adversarial Networks (DCGAN)"/>
     <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
     <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,8 +22,8 @@
 
     <title>Deep Convolutional Generative Adversarial Networks (DCGAN)</title>
     <link rel="shortcut icon" href="/icon.png"/>
-    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://nn.labml.ai/gan/dcgan.html"/>
+    <link rel="stylesheet" href="../../pylit.css">
+    <link rel="canonical" href="https://nn.labml.ai/gan/dcgan/index.html"/>
     <!-- Global site tag (gtag.js) - Google Analytics -->
     <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
     <script>
@@ -45,11 +45,12 @@
         <div class='docs'>
             <p>
                 <a class="parent" href="/">home</a>
-                <a class="parent" href="index.html">gan</a>
+                <a class="parent" href="../index.html">gan</a>
+                <a class="parent" href="index.html">dcgan</a>
             </p>
             <p>
 
-                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/gan/dcgan.py">
+                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/gan/dcgan/__init__.py">
                     <img alt="Github"
                          src="https://img.shields.io/github/stars/lab-ml/nn?style=social"
                          style="max-width:100%;"/></a>
@@ -82,7 +83,7 @@
 <span class="lineno">17</span><span class="kn">from</span> <span class="nn">labml</span> <span class="kn">import</span> <span class="n">experiment</span>
 <span class="lineno">18</span><span class="kn">from</span> <span class="nn">labml.configs</span> <span class="kn">import</span> <span class="n">calculate</span>
 <span class="lineno">19</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
-<span class="lineno">20</span><span class="kn">from</span> <span class="nn">labml_nn.gan.simple_mnist_experiment</span> <span class="kn">import</span> <span class="n">Configs</span></pre></div>
+<span class="lineno">20</span><span class="kn">from</span> <span class="nn">labml_nn.gan.original.experiment</span> <span class="kn">import</span> <span class="n">Configs</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-1'>
@@ -338,7 +339,7 @@ generator and discriminator networks</p>
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">108</span><span class="k">def</span> <span class="nf">main</span><span class="p">():</span>
 <span class="lineno">109</span>    <span class="n">conf</span> <span class="o">=</span> <span class="n">Configs</span><span class="p">()</span>
-<span class="lineno">110</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s1">&#39;mnist_dcgan&#39;</span><span class="p">,</span> <span class="n">comment</span><span class="o">=</span><span class="s1">&#39;test&#39;</span><span class="p">)</span>
+<span class="lineno">110</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s1">&#39;mnist_dcgan&#39;</span><span class="p">)</span>
 <span class="lineno">111</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">configs</span><span class="p">(</span><span class="n">conf</span><span class="p">,</span>
 <span class="lineno">112</span>                       <span class="p">{</span><span class="s1">&#39;discriminator&#39;</span><span class="p">:</span> <span class="s1">&#39;cnn&#39;</span><span class="p">,</span>
 <span class="lineno">113</span>                        <span class="s1">&#39;generator&#39;</span><span class="p">:</span> <span class="s1">&#39;cnn&#39;</span><span class="p">,</span>
diff --git a/docs/gan/index.html b/docs/gan/index.html
index 23271ef7..57550a50 100644
--- a/docs/gan/index.html
+++ b/docs/gan/index.html
@@ -3,24 +3,24 @@
 <head>
     <meta http-equiv="content-type" content="text/html;charset=utf-8"/>
     <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
-    <meta name="description" content="A simple PyTorch implementation/tutorial of Generative Adversarial Networks (GAN) loss functions."/>
+    <meta name="description" content=""/>
 
     <meta name="twitter:card" content="summary"/>
     <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
-    <meta name="twitter:title" content="Generative Adversarial Networks (GAN)"/>
-    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of Generative Adversarial Networks (GAN) loss functions."/>
+    <meta name="twitter:title" content="None"/>
+    <meta name="twitter:description" content=""/>
     <meta name="twitter:site" content="@labmlai"/>
     <meta name="twitter:creator" content="@labmlai"/>
 
     <meta property="og:url" content="https://nn.labml.ai/gan/index.html"/>
-    <meta property="og:title" content="Generative Adversarial Networks (GAN)"/>
+    <meta property="og:title" content="None"/>
     <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
     <meta property="og:site_name" content="LabML Neural Networks"/>
     <meta property="og:type" content="object"/>
-    <meta property="og:title" content="Generative Adversarial Networks (GAN)"/>
-    <meta property="og:description" content="A simple PyTorch implementation/tutorial of Generative Adversarial Networks (GAN) loss functions."/>
+    <meta property="og:title" content="None"/>
+    <meta property="og:description" content=""/>
 
-    <title>Generative Adversarial Networks (GAN)</title>
+    <title>None</title>
     <link rel="shortcut icon" href="/icon.png"/>
     <link rel="stylesheet" href="../pylit.css">
     <link rel="canonical" href="https://nn.labml.ai/gan/index.html"/>
@@ -66,230 +66,6 @@
             </p>
         </div>
     </div>
-    <div class='section' id='section-0'>
-        <div class='docs doc-strings'>
-                <div class='section-link'>
-                    <a href='#section-0'>#</a>
-                </div>
-                <h1>Generative Adversarial Networks (GAN)</h1>
-<p>This is an implementation of
-<a href="https://arxiv.org/abs/1406.2661">Generative Adversarial Networks</a>.</p>
-<p>The generator, $G(\pmb{z}; \theta_g)$ generates samples that match the
-distribution of data, while the discriminator, $D(\pmb{x}; \theta_g)$
-gives the probability that $\pmb{x}$ came from data rather than $G$.</p>
-<p>We train $D$ and $G$ simultaneously on a two-player min-max game with value
-function $V(G, D)$.</p>
-<p>
-<script type="math/tex; mode=display">\min_G \max_D V(D, G) =
-    \mathop{\mathbb{E}}_{\pmb{x} \sim p_{data}(\pmb{x})}
-        \big[\log D(\pmb{x})\big] +
-    \mathop{\mathbb{E}}_{\pmb{z} \sim p_{\pmb{z}}(\pmb{z})}
-        \big[\log (1 - D(G(\pmb{z}))\big]
-</script>
-</p>
-<p>$p_{data}(\pmb{x})$ is the probability distribution over data,
-whilst $p_{\pmb{z}}(\pmb{z})$ probability distribution of $\pmb{z}$, which is set to
-gaussian noise.</p>
-<p>This file defines the loss functions. <a href="simple_mnist_experiment.html">Here</a> is an MNIST example
-with two multilayer perceptron for the generator and discriminator.</p>
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">34</span><span></span><span class="kn">import</span> <span class="nn">torch</span>
-<span class="lineno">35</span><span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-<span class="lineno">36</span><span class="kn">import</span> <span class="nn">torch.utils.data</span>
-<span class="lineno">37</span><span class="kn">import</span> <span class="nn">torch.utils.data</span>
-<span class="lineno">38</span>
-<span class="lineno">39</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-1'>
-        <div class='docs doc-strings'>
-                <div class='section-link'>
-                    <a href='#section-1'>#</a>
-                </div>
-                <h2>Discriminator Loss</h2>
-<p>Discriminator should <strong>ascend</strong> on the gradient,</p>
-<p>
-<script type="math/tex; mode=display">\nabla_{\theta_d} \frac{1}{m} \sum_{i=1}^m \Bigg[
-    \log D\Big(\pmb{x}^{(i)}\Big) +
-    \log \Big(1 - D\Big(G\Big(\pmb{z}^{(i)}\Big)\Big)\Big)
-\Bigg]</script>
-</p>
-<p>$m$ is the mini-batch size and $(i)$ is used to index samples in the mini-batch.
-$\pmb{x}$ are samples from $p_{data}$ and $\pmb{z}$ are samples from $p_z$.</p>
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">42</span><span class="k">class</span> <span class="nc">DiscriminatorLogitsLoss</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-2'>
-            <div class='docs'>
-                <div class='section-link'>
-                    <a href='#section-2'>#</a>
-                </div>
-                
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">57</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">smoothing</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">):</span>
-<span class="lineno">58</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-3'>
-            <div class='docs'>
-                <div class='section-link'>
-                    <a href='#section-3'>#</a>
-                </div>
-                <p>We use PyTorch Binary Cross Entropy Loss, which is
-$-\sum\Big[y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})\Big]$,
-where $y$ are the labels and $\hat{y}$ are the predictions.
-<em>Note the negative sign</em>.
-We use labels equal to $1$ for $\pmb{x}$ from $p_{data}$
-and labels equal to $0$ for $\pmb{x}$ from $p_{G}.$
-Then descending on the sum of these is the same as ascending on
-the above gradient.</p>
-<p><code>BCEWithLogitsLoss</code> combines softmax and binary cross entropy loss.</p>
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">69</span>        <span class="bp">self</span><span class="o">.</span><span class="n">loss_true</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">BCEWithLogitsLoss</span><span class="p">()</span>
-<span class="lineno">70</span>        <span class="bp">self</span><span class="o">.</span><span class="n">loss_false</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">BCEWithLogitsLoss</span><span class="p">()</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-4'>
-            <div class='docs'>
-                <div class='section-link'>
-                    <a href='#section-4'>#</a>
-                </div>
-                <p>We use label smoothing because it seems to work better in some cases</p>
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">73</span>        <span class="bp">self</span><span class="o">.</span><span class="n">smoothing</span> <span class="o">=</span> <span class="n">smoothing</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-5'>
-            <div class='docs'>
-                <div class='section-link'>
-                    <a href='#section-5'>#</a>
-                </div>
-                <p>Labels are registered as buffered and persistence is set to <code>False</code>.</p>
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">76</span>        <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s1">&#39;labels_true&#39;</span><span class="p">,</span> <span class="n">_create_labels</span><span class="p">(</span><span class="mi">256</span><span class="p">,</span> <span class="mf">1.0</span> <span class="o">-</span> <span class="n">smoothing</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span>
-<span class="lineno">77</span>        <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s1">&#39;labels_false&#39;</span><span class="p">,</span> <span class="n">_create_labels</span><span class="p">(</span><span class="mi">256</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">,</span> <span class="n">smoothing</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-6'>
-        <div class='docs doc-strings'>
-                <div class='section-link'>
-                    <a href='#section-6'>#</a>
-                </div>
-                <p><code>logits_true</code> are logits from $D(\pmb{x}^{(i)})$ and
-<code>logits_false</code> are logits from $D(G(\pmb{z}^{(i)}))$</p>
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">79</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">logits_true</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">logits_false</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-7'>
-            <div class='docs'>
-                <div class='section-link'>
-                    <a href='#section-7'>#</a>
-                </div>
-                
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">84</span>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">logits_true</span><span class="p">)</span> <span class="o">&gt;</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_true</span><span class="p">):</span>
-<span class="lineno">85</span>            <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s2">&quot;labels_true&quot;</span><span class="p">,</span>
-<span class="lineno">86</span>                                 <span class="n">_create_labels</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">logits_true</span><span class="p">),</span> <span class="mf">1.0</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">smoothing</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">logits_true</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span>
-<span class="lineno">87</span>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">logits_false</span><span class="p">)</span> <span class="o">&gt;</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_false</span><span class="p">):</span>
-<span class="lineno">88</span>            <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s2">&quot;labels_false&quot;</span><span class="p">,</span>
-<span class="lineno">89</span>                                 <span class="n">_create_labels</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">logits_false</span><span class="p">),</span> <span class="mf">0.0</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">smoothing</span><span class="p">,</span> <span class="n">logits_false</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span>
-<span class="lineno">90</span>
-<span class="lineno">91</span>        <span class="k">return</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">loss_true</span><span class="p">(</span><span class="n">logits_true</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">labels_true</span><span class="p">[:</span><span class="nb">len</span><span class="p">(</span><span class="n">logits_true</span><span class="p">)]),</span>
-<span class="lineno">92</span>                <span class="bp">self</span><span class="o">.</span><span class="n">loss_false</span><span class="p">(</span><span class="n">logits_false</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">labels_false</span><span class="p">[:</span><span class="nb">len</span><span class="p">(</span><span class="n">logits_false</span><span class="p">)]))</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-8'>
-        <div class='docs doc-strings'>
-                <div class='section-link'>
-                    <a href='#section-8'>#</a>
-                </div>
-                <h2>Generator Loss</h2>
-<p>Generator should <strong>descend</strong> on the gradient,</p>
-<p>
-<script type="math/tex; mode=display">\nabla_{\theta_g} \frac{1}{m} \sum_{i=1}^m \Bigg[
-    \log \Big(1 - D\Big(G\Big(\pmb{z}^{(i)}\Big)\Big)\Big)
-\Bigg]</script>
-</p>
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">95</span><span class="k">class</span> <span class="nc">GeneratorLogitsLoss</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-9'>
-            <div class='docs'>
-                <div class='section-link'>
-                    <a href='#section-9'>#</a>
-                </div>
-                
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">105</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">smoothing</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">):</span>
-<span class="lineno">106</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-<span class="lineno">107</span>        <span class="bp">self</span><span class="o">.</span><span class="n">loss_true</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">BCEWithLogitsLoss</span><span class="p">()</span>
-<span class="lineno">108</span>        <span class="bp">self</span><span class="o">.</span><span class="n">smoothing</span> <span class="o">=</span> <span class="n">smoothing</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-10'>
-            <div class='docs'>
-                <div class='section-link'>
-                    <a href='#section-10'>#</a>
-                </div>
-                <p>We use labels equal to $1$ for $\pmb{x}$ from $p_{G}.$
-Then descending on this loss is the same as descending on
-the above gradient.</p>
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">112</span>        <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s1">&#39;fake_labels&#39;</span><span class="p">,</span> <span class="n">_create_labels</span><span class="p">(</span><span class="mi">256</span><span class="p">,</span> <span class="mf">1.0</span> <span class="o">-</span> <span class="n">smoothing</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-11'>
-            <div class='docs'>
-                <div class='section-link'>
-                    <a href='#section-11'>#</a>
-                </div>
-                
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">114</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">logits</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span>
-<span class="lineno">115</span>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">logits</span><span class="p">)</span> <span class="o">&gt;</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">fake_labels</span><span class="p">):</span>
-<span class="lineno">116</span>            <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s2">&quot;fake_labels&quot;</span><span class="p">,</span>
-<span class="lineno">117</span>                                 <span class="n">_create_labels</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">logits</span><span class="p">),</span> <span class="mf">1.0</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">smoothing</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">logits</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span>
-<span class="lineno">118</span>
-<span class="lineno">119</span>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss_true</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">fake_labels</span><span class="p">[:</span><span class="nb">len</span><span class="p">(</span><span class="n">logits</span><span class="p">)])</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-12'>
-        <div class='docs doc-strings'>
-                <div class='section-link'>
-                    <a href='#section-12'>#</a>
-                </div>
-                <p>Create smoothed labels</p>
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">122</span><span class="k">def</span> <span class="nf">_create_labels</span><span class="p">(</span><span class="n">n</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">r1</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">r2</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">device</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span></pre></div>
-            </div>
-        </div>
-    <div class='section' id='section-13'>
-            <div class='docs'>
-                <div class='section-link'>
-                    <a href='#section-13'>#</a>
-                </div>
-                
-            </div>
-            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">126</span>    <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">empty</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">requires_grad</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">)</span><span class="o">.</span><span class="n">uniform_</span><span class="p">(</span><span class="n">r1</span><span class="p">,</span> <span class="n">r2</span><span class="p">)</span></pre></div>
-            </div>
-        </div>
     </div>
 </div>
 <script src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.4/MathJax.js?config=TeX-AMS_HTML">
diff --git a/docs/gan/simple_mnist_experiment.html b/docs/gan/original/experiment.html
similarity index 81%
rename from docs/gan/simple_mnist_experiment.html
rename to docs/gan/original/experiment.html
index bef68bc7..3fd059dc 100644
--- a/docs/gan/simple_mnist_experiment.html
+++ b/docs/gan/original/experiment.html
@@ -12,7 +12,7 @@
     <meta name="twitter:site" content="@labmlai"/>
     <meta name="twitter:creator" content="@labmlai"/>
 
-    <meta property="og:url" content="https://nn.labml.ai/gan/simple_mnist_experiment.html"/>
+    <meta property="og:url" content="https://nn.labml.ai/gan/original/experiment.html"/>
     <meta property="og:title" content="Generative Adversarial Networks experiment with MNIST"/>
     <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
     <meta property="og:site_name" content="LabML Neural Networks"/>
@@ -22,8 +22,8 @@
 
     <title>Generative Adversarial Networks experiment with MNIST</title>
     <link rel="shortcut icon" href="/icon.png"/>
-    <link rel="stylesheet" href="../pylit.css">
-    <link rel="canonical" href="https://nn.labml.ai/gan/simple_mnist_experiment.html"/>
+    <link rel="stylesheet" href="../../pylit.css">
+    <link rel="canonical" href="https://nn.labml.ai/gan/original/experiment.html"/>
     <!-- Global site tag (gtag.js) - Google Analytics -->
     <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
     <script>
@@ -45,11 +45,12 @@
         <div class='docs'>
             <p>
                 <a class="parent" href="/">home</a>
-                <a class="parent" href="index.html">gan</a>
+                <a class="parent" href="../index.html">gan</a>
+                <a class="parent" href="index.html">original</a>
             </p>
             <p>
 
-                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/gan/simple_mnist_experiment.py">
+                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/gan/original/experiment.py">
                     <img alt="Github"
                          src="https://img.shields.io/github/stars/lab-ml/nn?style=social"
                          style="max-width:100%;"/></a>
@@ -82,13 +83,13 @@
 <span class="lineno">15</span><span class="kn">from</span> <span class="nn">torchvision</span> <span class="kn">import</span> <span class="n">transforms</span>
 <span class="lineno">16</span>
 <span class="lineno">17</span><span class="kn">from</span> <span class="nn">labml</span> <span class="kn">import</span> <span class="n">tracker</span><span class="p">,</span> <span class="n">monit</span><span class="p">,</span> <span class="n">experiment</span>
-<span class="lineno">18</span><span class="kn">from</span> <span class="nn">labml.configs</span> <span class="kn">import</span> <span class="n">option</span>
+<span class="lineno">18</span><span class="kn">from</span> <span class="nn">labml.configs</span> <span class="kn">import</span> <span class="n">option</span><span class="p">,</span> <span class="n">calculate</span>
 <span class="lineno">19</span><span class="kn">from</span> <span class="nn">labml_helpers.datasets.mnist</span> <span class="kn">import</span> <span class="n">MNISTConfigs</span>
 <span class="lineno">20</span><span class="kn">from</span> <span class="nn">labml_helpers.device</span> <span class="kn">import</span> <span class="n">DeviceConfigs</span>
 <span class="lineno">21</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
 <span class="lineno">22</span><span class="kn">from</span> <span class="nn">labml_helpers.optimizer</span> <span class="kn">import</span> <span class="n">OptimizerConfigs</span>
 <span class="lineno">23</span><span class="kn">from</span> <span class="nn">labml_helpers.train_valid</span> <span class="kn">import</span> <span class="n">TrainValidConfigs</span><span class="p">,</span> <span class="n">hook_model_outputs</span><span class="p">,</span> <span class="n">BatchIndex</span>
-<span class="lineno">24</span><span class="kn">from</span> <span class="nn">labml_nn.gan</span> <span class="kn">import</span> <span class="n">DiscriminatorLogitsLoss</span><span class="p">,</span> <span class="n">GeneratorLogitsLoss</span></pre></div>
+<span class="lineno">24</span><span class="kn">from</span> <span class="nn">labml_nn.gan.original</span> <span class="kn">import</span> <span class="n">DiscriminatorLogitsLoss</span><span class="p">,</span> <span class="n">GeneratorLogitsLoss</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-1'>
@@ -212,17 +213,18 @@ is real or fake. You can get the probability by calculating the sigmoid of it.</
             <div class='code'>
                 <div class="highlight"><pre><span class="lineno">86</span><span class="k">class</span> <span class="nc">Configs</span><span class="p">(</span><span class="n">MNISTConfigs</span><span class="p">,</span> <span class="n">TrainValidConfigs</span><span class="p">):</span>
 <span class="lineno">87</span>    <span class="n">device</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">DeviceConfigs</span><span class="p">()</span>
-<span class="lineno">88</span>    <span class="n">epochs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span>
-<span class="lineno">89</span>
-<span class="lineno">90</span>    <span class="n">is_save_models</span> <span class="o">=</span> <span class="kc">True</span>
-<span class="lineno">91</span>    <span class="n">discriminator</span><span class="p">:</span> <span class="n">Module</span>
-<span class="lineno">92</span>    <span class="n">generator</span><span class="p">:</span> <span class="n">Module</span>
-<span class="lineno">93</span>    <span class="n">generator_optimizer</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span>
-<span class="lineno">94</span>    <span class="n">discriminator_optimizer</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span>
-<span class="lineno">95</span>    <span class="n">generator_loss</span><span class="p">:</span> <span class="n">GeneratorLogitsLoss</span>
-<span class="lineno">96</span>    <span class="n">discriminator_loss</span><span class="p">:</span> <span class="n">DiscriminatorLogitsLoss</span>
-<span class="lineno">97</span>    <span class="n">label_smoothing</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span>
-<span class="lineno">98</span>    <span class="n">discriminator_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span></pre></div>
+<span class="lineno">88</span>    <span class="n">dataset_transforms</span> <span class="o">=</span> <span class="s1">&#39;mnist_gan_transforms&#39;</span>
+<span class="lineno">89</span>    <span class="n">epochs</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span>
+<span class="lineno">90</span>
+<span class="lineno">91</span>    <span class="n">is_save_models</span> <span class="o">=</span> <span class="kc">True</span>
+<span class="lineno">92</span>    <span class="n">discriminator</span><span class="p">:</span> <span class="n">Module</span> <span class="o">=</span> <span class="s1">&#39;mlp&#39;</span>
+<span class="lineno">93</span>    <span class="n">generator</span><span class="p">:</span> <span class="n">Module</span> <span class="o">=</span> <span class="s1">&#39;mlp&#39;</span>
+<span class="lineno">94</span>    <span class="n">generator_optimizer</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span>
+<span class="lineno">95</span>    <span class="n">discriminator_optimizer</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span>
+<span class="lineno">96</span>    <span class="n">generator_loss</span><span class="p">:</span> <span class="n">GeneratorLogitsLoss</span> <span class="o">=</span> <span class="s1">&#39;original&#39;</span>
+<span class="lineno">97</span>    <span class="n">discriminator_loss</span><span class="p">:</span> <span class="n">DiscriminatorLogitsLoss</span> <span class="o">=</span> <span class="s1">&#39;original&#39;</span>
+<span class="lineno">98</span>    <span class="n">label_smoothing</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span>
+<span class="lineno">99</span>    <span class="n">discriminator_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-9'>
@@ -233,18 +235,14 @@ is real or fake. You can get the probability by calculating the sigmoid of it.</
                 
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">100</span>    <span class="k">def</span> <span class="nf">init</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="lineno">101</span>        <span class="bp">self</span><span class="o">.</span><span class="n">state_modules</span> <span class="o">=</span> <span class="p">[]</span>
-<span class="lineno">102</span>        <span class="bp">self</span><span class="o">.</span><span class="n">generator</span> <span class="o">=</span> <span class="n">Generator</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-<span class="lineno">103</span>        <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span> <span class="o">=</span> <span class="n">Discriminator</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-<span class="lineno">104</span>        <span class="bp">self</span><span class="o">.</span><span class="n">generator_loss</span> <span class="o">=</span> <span class="n">GeneratorLogitsLoss</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">label_smoothing</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-<span class="lineno">105</span>        <span class="bp">self</span><span class="o">.</span><span class="n">discriminator_loss</span> <span class="o">=</span> <span class="n">DiscriminatorLogitsLoss</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">label_smoothing</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-<span class="lineno">106</span>
-<span class="lineno">107</span>        <span class="n">hook_model_outputs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="p">,</span> <span class="s1">&#39;generator&#39;</span><span class="p">)</span>
-<span class="lineno">108</span>        <span class="n">hook_model_outputs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="p">,</span> <span class="s1">&#39;discriminator&#39;</span><span class="p">)</span>
-<span class="lineno">109</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;loss.generator.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span>
-<span class="lineno">110</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;loss.discriminator.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span>
-<span class="lineno">111</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_image</span><span class="p">(</span><span class="s2">&quot;generated&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="mi">1</span> <span class="o">/</span> <span class="mi">100</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">101</span>    <span class="k">def</span> <span class="nf">init</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="lineno">102</span>        <span class="bp">self</span><span class="o">.</span><span class="n">state_modules</span> <span class="o">=</span> <span class="p">[]</span>
+<span class="lineno">103</span>
+<span class="lineno">104</span>        <span class="n">hook_model_outputs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="p">,</span> <span class="s1">&#39;generator&#39;</span><span class="p">)</span>
+<span class="lineno">105</span>        <span class="n">hook_model_outputs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="p">,</span> <span class="s1">&#39;discriminator&#39;</span><span class="p">)</span>
+<span class="lineno">106</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;loss.generator.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span>
+<span class="lineno">107</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;loss.discriminator.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span>
+<span class="lineno">108</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_image</span><span class="p">(</span><span class="s2">&quot;generated&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="mi">1</span> <span class="o">/</span> <span class="mi">100</span><span class="p">)</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-10'>
@@ -255,11 +253,11 @@ is real or fake. You can get the probability by calculating the sigmoid of it.</
                 
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">113</span>    <span class="k">def</span> <span class="nf">step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">:</span> <span class="n">Any</span><span class="p">,</span> <span class="n">batch_idx</span><span class="p">:</span> <span class="n">BatchIndex</span><span class="p">):</span>
-<span class="lineno">114</span>        <span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="o">.</span><span class="n">train</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">)</span>
-<span class="lineno">115</span>        <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="o">.</span><span class="n">train</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">)</span>
-<span class="lineno">116</span>
-<span class="lineno">117</span>        <span class="n">data</span><span class="p">,</span> <span class="n">target</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="n">batch</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">110</span>    <span class="k">def</span> <span class="nf">step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">:</span> <span class="n">Any</span><span class="p">,</span> <span class="n">batch_idx</span><span class="p">:</span> <span class="n">BatchIndex</span><span class="p">):</span>
+<span class="lineno">111</span>        <span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="o">.</span><span class="n">train</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">)</span>
+<span class="lineno">112</span>        <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="o">.</span><span class="n">train</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">)</span>
+<span class="lineno">113</span>
+<span class="lineno">114</span>        <span class="n">data</span><span class="p">,</span> <span class="n">target</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="n">batch</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-11'>
@@ -270,8 +268,8 @@ is real or fake. You can get the probability by calculating the sigmoid of it.</
                 <p>Increment step in training mode</p>
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">120</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
-<span class="lineno">121</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add_global_step</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">))</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">117</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
+<span class="lineno">118</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add_global_step</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">data</span><span class="p">))</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-12'>
@@ -282,13 +280,13 @@ is real or fake. You can get the probability by calculating the sigmoid of it.</
                 <p>Train the discriminator</p>
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">124</span>        <span class="k">with</span> <span class="n">monit</span><span class="o">.</span><span class="n">section</span><span class="p">(</span><span class="s2">&quot;discriminator&quot;</span><span class="p">):</span>
-<span class="lineno">125</span>            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">discriminator_k</span><span class="p">):</span>
-<span class="lineno">126</span>                <span class="n">latent</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">100</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-<span class="lineno">127</span>                <span class="n">logits_true</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
-<span class="lineno">128</span>                <span class="n">logits_false</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="p">(</span><span class="n">latent</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">())</span>
-<span class="lineno">129</span>                <span class="n">loss_true</span><span class="p">,</span> <span class="n">loss_false</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator_loss</span><span class="p">(</span><span class="n">logits_true</span><span class="p">,</span> <span class="n">logits_false</span><span class="p">)</span>
-<span class="lineno">130</span>                <span class="n">loss</span> <span class="o">=</span> <span class="n">loss_true</span> <span class="o">+</span> <span class="n">loss_false</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">121</span>        <span class="k">with</span> <span class="n">monit</span><span class="o">.</span><span class="n">section</span><span class="p">(</span><span class="s2">&quot;discriminator&quot;</span><span class="p">):</span>
+<span class="lineno">122</span>            <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">discriminator_k</span><span class="p">):</span>
+<span class="lineno">123</span>                <span class="n">latent</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">100</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+<span class="lineno">124</span>                <span class="n">logits_true</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="p">(</span><span class="n">data</span><span class="p">)</span>
+<span class="lineno">125</span>                <span class="n">logits_false</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="p">(</span><span class="n">latent</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">())</span>
+<span class="lineno">126</span>                <span class="n">loss_true</span><span class="p">,</span> <span class="n">loss_false</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator_loss</span><span class="p">(</span><span class="n">logits_true</span><span class="p">,</span> <span class="n">logits_false</span><span class="p">)</span>
+<span class="lineno">127</span>                <span class="n">loss</span> <span class="o">=</span> <span class="n">loss_true</span> <span class="o">+</span> <span class="n">loss_false</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-13'>
@@ -299,9 +297,9 @@ is real or fake. You can get the probability by calculating the sigmoid of it.</
                 <p>Log stuff</p>
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">133</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.discriminator.true.&quot;</span><span class="p">,</span> <span class="n">loss_true</span><span class="p">)</span>
-<span class="lineno">134</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.discriminator.false.&quot;</span><span class="p">,</span> <span class="n">loss_false</span><span class="p">)</span>
-<span class="lineno">135</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.discriminator.&quot;</span><span class="p">,</span> <span class="n">loss</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">130</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.discriminator.true.&quot;</span><span class="p">,</span> <span class="n">loss_true</span><span class="p">)</span>
+<span class="lineno">131</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.discriminator.false.&quot;</span><span class="p">,</span> <span class="n">loss_false</span><span class="p">)</span>
+<span class="lineno">132</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.discriminator.&quot;</span><span class="p">,</span> <span class="n">loss</span><span class="p">)</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-14'>
@@ -312,12 +310,12 @@ is real or fake. You can get the probability by calculating the sigmoid of it.</
                 <p>Train</p>
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">138</span>                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
-<span class="lineno">139</span>                    <span class="bp">self</span><span class="o">.</span><span class="n">discriminator_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
-<span class="lineno">140</span>                    <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
-<span class="lineno">141</span>                    <span class="k">if</span> <span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">:</span>
-<span class="lineno">142</span>                        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;discriminator&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="p">)</span>
-<span class="lineno">143</span>                    <span class="bp">self</span><span class="o">.</span><span class="n">discriminator_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">135</span>                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
+<span class="lineno">136</span>                    <span class="bp">self</span><span class="o">.</span><span class="n">discriminator_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
+<span class="lineno">137</span>                    <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+<span class="lineno">138</span>                    <span class="k">if</span> <span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">:</span>
+<span class="lineno">139</span>                        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;discriminator&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="p">)</span>
+<span class="lineno">140</span>                    <span class="bp">self</span><span class="o">.</span><span class="n">discriminator_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-15'>
@@ -328,11 +326,11 @@ is real or fake. You can get the probability by calculating the sigmoid of it.</
                 <p>Train the generator</p>
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">146</span>        <span class="k">with</span> <span class="n">monit</span><span class="o">.</span><span class="n">section</span><span class="p">(</span><span class="s2">&quot;generator&quot;</span><span class="p">):</span>
-<span class="lineno">147</span>            <span class="n">latent</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">100</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
-<span class="lineno">148</span>            <span class="n">generated_images</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="p">(</span><span class="n">latent</span><span class="p">)</span>
-<span class="lineno">149</span>            <span class="n">logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="p">(</span><span class="n">generated_images</span><span class="p">)</span>
-<span class="lineno">150</span>            <span class="n">loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">generator_loss</span><span class="p">(</span><span class="n">logits</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">143</span>        <span class="k">with</span> <span class="n">monit</span><span class="o">.</span><span class="n">section</span><span class="p">(</span><span class="s2">&quot;generator&quot;</span><span class="p">):</span>
+<span class="lineno">144</span>            <span class="n">latent</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">100</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+<span class="lineno">145</span>            <span class="n">generated_images</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="p">(</span><span class="n">latent</span><span class="p">)</span>
+<span class="lineno">146</span>            <span class="n">logits</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">discriminator</span><span class="p">(</span><span class="n">generated_images</span><span class="p">)</span>
+<span class="lineno">147</span>            <span class="n">loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">generator_loss</span><span class="p">(</span><span class="n">logits</span><span class="p">)</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-16'>
@@ -343,8 +341,8 @@ is real or fake. You can get the probability by calculating the sigmoid of it.</
                 <p>Log stuff</p>
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">153</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;generated&#39;</span><span class="p">,</span> <span class="n">generated_images</span><span class="p">[</span><span class="mi">0</span><span class="p">:</span><span class="mi">5</span><span class="p">])</span>
-<span class="lineno">154</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.generator.&quot;</span><span class="p">,</span> <span class="n">loss</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">150</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;generated&#39;</span><span class="p">,</span> <span class="n">generated_images</span><span class="p">[</span><span class="mi">0</span><span class="p">:</span><span class="mi">6</span><span class="p">])</span>
+<span class="lineno">151</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.generator.&quot;</span><span class="p">,</span> <span class="n">loss</span><span class="p">)</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-17'>
@@ -355,14 +353,14 @@ is real or fake. You can get the probability by calculating the sigmoid of it.</
                 <p>Train</p>
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">157</span>            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
-<span class="lineno">158</span>                <span class="bp">self</span><span class="o">.</span><span class="n">generator_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
-<span class="lineno">159</span>                <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
-<span class="lineno">160</span>                <span class="k">if</span> <span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">:</span>
-<span class="lineno">161</span>                    <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;generator&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="p">)</span>
-<span class="lineno">162</span>                <span class="bp">self</span><span class="o">.</span><span class="n">generator_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
-<span class="lineno">163</span>
-<span class="lineno">164</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">save</span><span class="p">()</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">154</span>            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
+<span class="lineno">155</span>                <span class="bp">self</span><span class="o">.</span><span class="n">generator_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
+<span class="lineno">156</span>                <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+<span class="lineno">157</span>                <span class="k">if</span> <span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">:</span>
+<span class="lineno">158</span>                    <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;generator&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="p">)</span>
+<span class="lineno">159</span>                <span class="bp">self</span><span class="o">.</span><span class="n">generator_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+<span class="lineno">160</span>
+<span class="lineno">161</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">save</span><span class="p">()</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-18'>
@@ -373,20 +371,20 @@ is real or fake. You can get the probability by calculating the sigmoid of it.</
                 
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">167</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">dataset_transforms</span><span class="p">)</span>
-<span class="lineno">168</span><span class="k">def</span> <span class="nf">mnist_transforms</span><span class="p">():</span>
-<span class="lineno">169</span>    <span class="k">return</span> <span class="n">transforms</span><span class="o">.</span><span class="n">Compose</span><span class="p">([</span>
-<span class="lineno">170</span>        <span class="n">transforms</span><span class="o">.</span><span class="n">ToTensor</span><span class="p">(),</span>
-<span class="lineno">171</span>        <span class="n">transforms</span><span class="o">.</span><span class="n">Normalize</span><span class="p">((</span><span class="mf">0.5</span><span class="p">,),</span> <span class="p">(</span><span class="mf">0.5</span><span class="p">,))</span>
-<span class="lineno">172</span>    <span class="p">])</span>
-<span class="lineno">173</span>
-<span class="lineno">174</span>
-<span class="lineno">175</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">discriminator_optimizer</span><span class="p">)</span>
-<span class="lineno">176</span><span class="k">def</span> <span class="nf">_discriminator_optimizer</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span>
-<span class="lineno">177</span>    <span class="n">opt_conf</span> <span class="o">=</span> <span class="n">OptimizerConfigs</span><span class="p">()</span>
-<span class="lineno">178</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="s1">&#39;Adam&#39;</span>
-<span class="lineno">179</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">parameters</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">discriminator</span><span class="o">.</span><span class="n">parameters</span><span class="p">()</span>
-<span class="lineno">180</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">learning_rate</span> <span class="o">=</span> <span class="mf">2.5e-4</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">164</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">dataset_transforms</span><span class="p">)</span>
+<span class="lineno">165</span><span class="k">def</span> <span class="nf">mnist_gan_transforms</span><span class="p">():</span>
+<span class="lineno">166</span>    <span class="k">return</span> <span class="n">transforms</span><span class="o">.</span><span class="n">Compose</span><span class="p">([</span>
+<span class="lineno">167</span>        <span class="n">transforms</span><span class="o">.</span><span class="n">ToTensor</span><span class="p">(),</span>
+<span class="lineno">168</span>        <span class="n">transforms</span><span class="o">.</span><span class="n">Normalize</span><span class="p">((</span><span class="mf">0.5</span><span class="p">,),</span> <span class="p">(</span><span class="mf">0.5</span><span class="p">,))</span>
+<span class="lineno">169</span>    <span class="p">])</span>
+<span class="lineno">170</span>
+<span class="lineno">171</span>
+<span class="lineno">172</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">discriminator_optimizer</span><span class="p">)</span>
+<span class="lineno">173</span><span class="k">def</span> <span class="nf">_discriminator_optimizer</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span>
+<span class="lineno">174</span>    <span class="n">opt_conf</span> <span class="o">=</span> <span class="n">OptimizerConfigs</span><span class="p">()</span>
+<span class="lineno">175</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="s1">&#39;Adam&#39;</span>
+<span class="lineno">176</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">parameters</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">discriminator</span><span class="o">.</span><span class="n">parameters</span><span class="p">()</span>
+<span class="lineno">177</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">learning_rate</span> <span class="o">=</span> <span class="mf">2.5e-4</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-19'>
@@ -399,8 +397,8 @@ $\beta_<code>$ to</code>0.5<code>is important.
 Default of</code>0.9` fails.</p>
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">184</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">betas</span> <span class="o">=</span> <span class="p">(</span><span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.999</span><span class="p">)</span>
-<span class="lineno">185</span>    <span class="k">return</span> <span class="n">opt_conf</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">181</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">betas</span> <span class="o">=</span> <span class="p">(</span><span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.999</span><span class="p">)</span>
+<span class="lineno">182</span>    <span class="k">return</span> <span class="n">opt_conf</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-20'>
@@ -411,12 +409,12 @@ Default of</code>0.9` fails.</p>
                 
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">188</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">generator_optimizer</span><span class="p">)</span>
-<span class="lineno">189</span><span class="k">def</span> <span class="nf">_generator_optimizer</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span>
-<span class="lineno">190</span>    <span class="n">opt_conf</span> <span class="o">=</span> <span class="n">OptimizerConfigs</span><span class="p">()</span>
-<span class="lineno">191</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="s1">&#39;Adam&#39;</span>
-<span class="lineno">192</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">parameters</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">generator</span><span class="o">.</span><span class="n">parameters</span><span class="p">()</span>
-<span class="lineno">193</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">learning_rate</span> <span class="o">=</span> <span class="mf">2.5e-4</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">185</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">generator_optimizer</span><span class="p">)</span>
+<span class="lineno">186</span><span class="k">def</span> <span class="nf">_generator_optimizer</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span>
+<span class="lineno">187</span>    <span class="n">opt_conf</span> <span class="o">=</span> <span class="n">OptimizerConfigs</span><span class="p">()</span>
+<span class="lineno">188</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="s1">&#39;Adam&#39;</span>
+<span class="lineno">189</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">parameters</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">generator</span><span class="o">.</span><span class="n">parameters</span><span class="p">()</span>
+<span class="lineno">190</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">learning_rate</span> <span class="o">=</span> <span class="mf">2.5e-4</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-21'>
@@ -429,8 +427,14 @@ $\beta_<code>$ to</code>0.5<code>is important.
 Default of</code>0.9` fails.</p>
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">197</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">betas</span> <span class="o">=</span> <span class="p">(</span><span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.999</span><span class="p">)</span>
-<span class="lineno">198</span>    <span class="k">return</span> <span class="n">opt_conf</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">194</span>    <span class="n">opt_conf</span><span class="o">.</span><span class="n">betas</span> <span class="o">=</span> <span class="p">(</span><span class="mf">0.5</span><span class="p">,</span> <span class="mf">0.999</span><span class="p">)</span>
+<span class="lineno">195</span>    <span class="k">return</span> <span class="n">opt_conf</span>
+<span class="lineno">196</span>
+<span class="lineno">197</span>
+<span class="lineno">198</span><span class="n">calculate</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">generator</span><span class="p">,</span> <span class="s1">&#39;mlp&#39;</span><span class="p">,</span> <span class="k">lambda</span> <span class="n">c</span><span class="p">:</span> <span class="n">Generator</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">device</span><span class="p">))</span>
+<span class="lineno">199</span><span class="n">calculate</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">discriminator</span><span class="p">,</span> <span class="s1">&#39;mlp&#39;</span><span class="p">,</span> <span class="k">lambda</span> <span class="n">c</span><span class="p">:</span> <span class="n">Discriminator</span><span class="p">()</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">device</span><span class="p">))</span>
+<span class="lineno">200</span><span class="n">calculate</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">generator_loss</span><span class="p">,</span> <span class="s1">&#39;original&#39;</span><span class="p">,</span> <span class="k">lambda</span> <span class="n">c</span><span class="p">:</span> <span class="n">GeneratorLogitsLoss</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">label_smoothing</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">device</span><span class="p">))</span>
+<span class="lineno">201</span><span class="n">calculate</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">discriminator_loss</span><span class="p">,</span> <span class="s1">&#39;original&#39;</span><span class="p">,</span> <span class="k">lambda</span> <span class="n">c</span><span class="p">:</span> <span class="n">DiscriminatorLogitsLoss</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">label_smoothing</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">device</span><span class="p">))</span></pre></div>
             </div>
         </div>
     <div class='section' id='section-22'>
@@ -441,17 +445,17 @@ Default of</code>0.9` fails.</p>
                 
             </div>
             <div class='code'>
-                <div class="highlight"><pre><span class="lineno">201</span><span class="k">def</span> <span class="nf">main</span><span class="p">():</span>
-<span class="lineno">202</span>    <span class="n">conf</span> <span class="o">=</span> <span class="n">Configs</span><span class="p">()</span>
-<span class="lineno">203</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s1">&#39;mnist_gan&#39;</span><span class="p">,</span> <span class="n">comment</span><span class="o">=</span><span class="s1">&#39;test&#39;</span><span class="p">)</span>
-<span class="lineno">204</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">configs</span><span class="p">(</span><span class="n">conf</span><span class="p">,</span>
-<span class="lineno">205</span>                       <span class="p">{</span><span class="s1">&#39;label_smoothing&#39;</span><span class="p">:</span> <span class="mf">0.01</span><span class="p">})</span>
-<span class="lineno">206</span>    <span class="k">with</span> <span class="n">experiment</span><span class="o">.</span><span class="n">start</span><span class="p">():</span>
-<span class="lineno">207</span>        <span class="n">conf</span><span class="o">.</span><span class="n">run</span><span class="p">()</span>
-<span class="lineno">208</span>
-<span class="lineno">209</span>
-<span class="lineno">210</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
-<span class="lineno">211</span>    <span class="n">main</span><span class="p">()</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">204</span><span class="k">def</span> <span class="nf">main</span><span class="p">():</span>
+<span class="lineno">205</span>    <span class="n">conf</span> <span class="o">=</span> <span class="n">Configs</span><span class="p">()</span>
+<span class="lineno">206</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s1">&#39;mnist_gan&#39;</span><span class="p">,</span> <span class="n">comment</span><span class="o">=</span><span class="s1">&#39;test&#39;</span><span class="p">)</span>
+<span class="lineno">207</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">configs</span><span class="p">(</span><span class="n">conf</span><span class="p">,</span>
+<span class="lineno">208</span>                       <span class="p">{</span><span class="s1">&#39;label_smoothing&#39;</span><span class="p">:</span> <span class="mf">0.01</span><span class="p">})</span>
+<span class="lineno">209</span>    <span class="k">with</span> <span class="n">experiment</span><span class="o">.</span><span class="n">start</span><span class="p">():</span>
+<span class="lineno">210</span>        <span class="n">conf</span><span class="o">.</span><span class="n">run</span><span class="p">()</span>
+<span class="lineno">211</span>
+<span class="lineno">212</span>
+<span class="lineno">213</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
+<span class="lineno">214</span>    <span class="n">main</span><span class="p">()</span></pre></div>
             </div>
         </div>
     </div>
diff --git a/docs/gan/original/index.html b/docs/gan/original/index.html
new file mode 100644
index 00000000..6944be4d
--- /dev/null
+++ b/docs/gan/original/index.html
@@ -0,0 +1,327 @@
+<!DOCTYPE html>
+<html>
+<head>
+    <meta http-equiv="content-type" content="text/html;charset=utf-8"/>
+    <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
+    <meta name="description" content="A simple PyTorch implementation/tutorial of Generative Adversarial Networks (GAN) loss functions."/>
+
+    <meta name="twitter:card" content="summary"/>
+    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta name="twitter:title" content="Generative Adversarial Networks (GAN)"/>
+    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of Generative Adversarial Networks (GAN) loss functions."/>
+    <meta name="twitter:site" content="@labmlai"/>
+    <meta name="twitter:creator" content="@labmlai"/>
+
+    <meta property="og:url" content="https://nn.labml.ai/gan/original/index.html"/>
+    <meta property="og:title" content="Generative Adversarial Networks (GAN)"/>
+    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta property="og:site_name" content="LabML Neural Networks"/>
+    <meta property="og:type" content="object"/>
+    <meta property="og:title" content="Generative Adversarial Networks (GAN)"/>
+    <meta property="og:description" content="A simple PyTorch implementation/tutorial of Generative Adversarial Networks (GAN) loss functions."/>
+
+    <title>Generative Adversarial Networks (GAN)</title>
+    <link rel="shortcut icon" href="/icon.png"/>
+    <link rel="stylesheet" href="../../pylit.css">
+    <link rel="canonical" href="https://nn.labml.ai/gan/original/index.html"/>
+    <!-- Global site tag (gtag.js) - Google Analytics -->
+    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
+    <script>
+        window.dataLayer = window.dataLayer || [];
+
+        function gtag() {
+            dataLayer.push(arguments);
+        }
+
+        gtag('js', new Date());
+
+        gtag('config', 'G-4V3HC8HBLH');
+    </script>
+</head>
+<body>
+<div id='container'>
+    <div id="background"></div>
+    <div class='section'>
+        <div class='docs'>
+            <p>
+                <a class="parent" href="/">home</a>
+                <a class="parent" href="../index.html">gan</a>
+                <a class="parent" href="index.html">original</a>
+            </p>
+            <p>
+
+                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/gan/original/__init__.py">
+                    <img alt="Github"
+                         src="https://img.shields.io/github/stars/lab-ml/nn?style=social"
+                         style="max-width:100%;"/></a>
+                <a href="https://join.slack.com/t/labforml/shared_invite/zt-egj9zvq9-Dl3hhZqobexgT7aVKnD14g/"
+                   rel="nofollow">
+                    <img alt="Join Slact"
+                         src="https://img.shields.io/badge/slack-chat-green.svg?logo=slack"
+                         style="max-width:100%;"/></a>
+                <a href="https://twitter.com/labmlai"
+                   rel="nofollow">
+                    <img alt="Twitter"
+                         src="https://img.shields.io/twitter/follow/labmlai?style=social"
+                         style="max-width:100%;"/></a>
+            </p>
+        </div>
+    </div>
+    <div class='section' id='section-0'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-0'>#</a>
+                </div>
+                <h1>Generative Adversarial Networks (GAN)</h1>
+<p>This is an implementation of
+<a href="https://arxiv.org/abs/1406.2661">Generative Adversarial Networks</a>.</p>
+<p>The generator, $G(\pmb{z}; \theta_g)$ generates samples that match the
+distribution of data, while the discriminator, $D(\pmb{x}; \theta_g)$
+gives the probability that $\pmb{x}$ came from data rather than $G$.</p>
+<p>We train $D$ and $G$ simultaneously on a two-player min-max game with value
+function $V(G, D)$.</p>
+<p>
+<script type="math/tex; mode=display">\min_G \max_D V(D, G) =
+    \mathop{\mathbb{E}}_{\pmb{x} \sim p_{data}(\pmb{x})}
+        \big[\log D(\pmb{x})\big] +
+    \mathop{\mathbb{E}}_{\pmb{z} \sim p_{\pmb{z}}(\pmb{z})}
+        \big[\log (1 - D(G(\pmb{z}))\big]
+</script>
+</p>
+<p>$p_{data}(\pmb{x})$ is the probability distribution over data,
+whilst $p_{\pmb{z}}(\pmb{z})$ probability distribution of $\pmb{z}$, which is set to
+gaussian noise.</p>
+<p>This file defines the loss functions. <a href="../simple_mnist_experiment.html">Here</a> is an MNIST example
+with two multilayer perceptron for the generator and discriminator.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">34</span><span></span><span class="kn">import</span> <span class="nn">torch</span>
+<span class="lineno">35</span><span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="lineno">36</span><span class="kn">import</span> <span class="nn">torch.utils.data</span>
+<span class="lineno">37</span><span class="kn">import</span> <span class="nn">torch.utils.data</span>
+<span class="lineno">38</span>
+<span class="lineno">39</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-1'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-1'>#</a>
+                </div>
+                <h2>Discriminator Loss</h2>
+<p>Discriminator should <strong>ascend</strong> on the gradient,</p>
+<p>
+<script type="math/tex; mode=display">\nabla_{\theta_d} \frac{1}{m} \sum_{i=1}^m \Bigg[
+    \log D\Big(\pmb{x}^{(i)}\Big) +
+    \log \Big(1 - D\Big(G\Big(\pmb{z}^{(i)}\Big)\Big)\Big)
+\Bigg]</script>
+</p>
+<p>$m$ is the mini-batch size and $(i)$ is used to index samples in the mini-batch.
+$\pmb{x}$ are samples from $p_{data}$ and $\pmb{z}$ are samples from $p_z$.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">42</span><span class="k">class</span> <span class="nc">DiscriminatorLogitsLoss</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-2'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-2'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">57</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">smoothing</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">):</span>
+<span class="lineno">58</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-3'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-3'>#</a>
+                </div>
+                <p>We use PyTorch Binary Cross Entropy Loss, which is
+$-\sum\Big[y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})\Big]$,
+where $y$ are the labels and $\hat{y}$ are the predictions.
+<em>Note the negative sign</em>.
+We use labels equal to $1$ for $\pmb{x}$ from $p_{data}$
+and labels equal to $0$ for $\pmb{x}$ from $p_{G}.$
+Then descending on the sum of these is the same as ascending on
+the above gradient.</p>
+<p><code>BCEWithLogitsLoss</code> combines softmax and binary cross entropy loss.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">69</span>        <span class="bp">self</span><span class="o">.</span><span class="n">loss_true</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">BCEWithLogitsLoss</span><span class="p">()</span>
+<span class="lineno">70</span>        <span class="bp">self</span><span class="o">.</span><span class="n">loss_false</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">BCEWithLogitsLoss</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-4'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-4'>#</a>
+                </div>
+                <p>We use label smoothing because it seems to work better in some cases</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">73</span>        <span class="bp">self</span><span class="o">.</span><span class="n">smoothing</span> <span class="o">=</span> <span class="n">smoothing</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-5'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-5'>#</a>
+                </div>
+                <p>Labels are registered as buffered and persistence is set to <code>False</code>.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">76</span>        <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s1">&#39;labels_true&#39;</span><span class="p">,</span> <span class="n">_create_labels</span><span class="p">(</span><span class="mi">256</span><span class="p">,</span> <span class="mf">1.0</span> <span class="o">-</span> <span class="n">smoothing</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span>
+<span class="lineno">77</span>        <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s1">&#39;labels_false&#39;</span><span class="p">,</span> <span class="n">_create_labels</span><span class="p">(</span><span class="mi">256</span><span class="p">,</span> <span class="mf">0.0</span><span class="p">,</span> <span class="n">smoothing</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-6'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-6'>#</a>
+                </div>
+                <p><code>logits_true</code> are logits from $D(\pmb{x}^{(i)})$ and
+<code>logits_false</code> are logits from $D(G(\pmb{z}^{(i)}))$</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">79</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">logits_true</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">logits_false</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-7'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-7'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">84</span>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">logits_true</span><span class="p">)</span> <span class="o">&gt;</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_true</span><span class="p">):</span>
+<span class="lineno">85</span>            <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s2">&quot;labels_true&quot;</span><span class="p">,</span>
+<span class="lineno">86</span>                                 <span class="n">_create_labels</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">logits_true</span><span class="p">),</span> <span class="mf">1.0</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">smoothing</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">logits_true</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span>
+<span class="lineno">87</span>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">logits_false</span><span class="p">)</span> <span class="o">&gt;</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">labels_false</span><span class="p">):</span>
+<span class="lineno">88</span>            <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s2">&quot;labels_false&quot;</span><span class="p">,</span>
+<span class="lineno">89</span>                                 <span class="n">_create_labels</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">logits_false</span><span class="p">),</span> <span class="mf">0.0</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">smoothing</span><span class="p">,</span> <span class="n">logits_false</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span>
+<span class="lineno">90</span>
+<span class="lineno">91</span>        <span class="k">return</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">loss_true</span><span class="p">(</span><span class="n">logits_true</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">labels_true</span><span class="p">[:</span><span class="nb">len</span><span class="p">(</span><span class="n">logits_true</span><span class="p">)]),</span>
+<span class="lineno">92</span>                <span class="bp">self</span><span class="o">.</span><span class="n">loss_false</span><span class="p">(</span><span class="n">logits_false</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">labels_false</span><span class="p">[:</span><span class="nb">len</span><span class="p">(</span><span class="n">logits_false</span><span class="p">)]))</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-8'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-8'>#</a>
+                </div>
+                <h2>Generator Loss</h2>
+<p>Generator should <strong>descend</strong> on the gradient,</p>
+<p>
+<script type="math/tex; mode=display">\nabla_{\theta_g} \frac{1}{m} \sum_{i=1}^m \Bigg[
+    \log \Big(1 - D\Big(G\Big(\pmb{z}^{(i)}\Big)\Big)\Big)
+\Bigg]</script>
+</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">95</span><span class="k">class</span> <span class="nc">GeneratorLogitsLoss</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-9'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-9'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">105</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">smoothing</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.2</span><span class="p">):</span>
+<span class="lineno">106</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+<span class="lineno">107</span>        <span class="bp">self</span><span class="o">.</span><span class="n">loss_true</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">BCEWithLogitsLoss</span><span class="p">()</span>
+<span class="lineno">108</span>        <span class="bp">self</span><span class="o">.</span><span class="n">smoothing</span> <span class="o">=</span> <span class="n">smoothing</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-10'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-10'>#</a>
+                </div>
+                <p>We use labels equal to $1$ for $\pmb{x}$ from $p_{G}.$
+Then descending on this loss is the same as descending on
+the above gradient.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">112</span>        <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s1">&#39;fake_labels&#39;</span><span class="p">,</span> <span class="n">_create_labels</span><span class="p">(</span><span class="mi">256</span><span class="p">,</span> <span class="mf">1.0</span> <span class="o">-</span> <span class="n">smoothing</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-11'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-11'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">114</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">logits</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span>
+<span class="lineno">115</span>        <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">logits</span><span class="p">)</span> <span class="o">&gt;</span> <span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">fake_labels</span><span class="p">):</span>
+<span class="lineno">116</span>            <span class="bp">self</span><span class="o">.</span><span class="n">register_buffer</span><span class="p">(</span><span class="s2">&quot;fake_labels&quot;</span><span class="p">,</span>
+<span class="lineno">117</span>                                 <span class="n">_create_labels</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">logits</span><span class="p">),</span> <span class="mf">1.0</span> <span class="o">-</span> <span class="bp">self</span><span class="o">.</span><span class="n">smoothing</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">logits</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="kc">False</span><span class="p">)</span>
+<span class="lineno">118</span>
+<span class="lineno">119</span>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss_true</span><span class="p">(</span><span class="n">logits</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">fake_labels</span><span class="p">[:</span><span class="nb">len</span><span class="p">(</span><span class="n">logits</span><span class="p">)])</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-12'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-12'>#</a>
+                </div>
+                <p>Create smoothed labels</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">122</span><span class="k">def</span> <span class="nf">_create_labels</span><span class="p">(</span><span class="n">n</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">r1</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">r2</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">device</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-13'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-13'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">126</span>    <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">empty</span><span class="p">(</span><span class="n">n</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="n">requires_grad</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">device</span><span class="p">)</span><span class="o">.</span><span class="n">uniform_</span><span class="p">(</span><span class="n">r1</span><span class="p">,</span> <span class="n">r2</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    </div>
+</div>
+<script src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.4/MathJax.js?config=TeX-AMS_HTML">
+</script>
+<!-- MathJax configuration -->
+<script type="text/x-mathjax-config">
+    MathJax.Hub.Config({
+        tex2jax: {
+            inlineMath: [ ['$','$'] ],
+            displayMath: [ ['$$','$$'] ],
+            processEscapes: true,
+            processEnvironments: true
+        },
+        // Center justify equations in code and markdown cells. Elsewhere
+        // we use CSS to left justify single line equations in code cells.
+        displayAlign: 'center',
+        "HTML-CSS": { fonts: ["TeX"] }
+    });
+
+
+
+
+
+
+
+
+
+
+
+
+
+</script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/gan/wasserstein/experiment.html b/docs/gan/wasserstein/experiment.html
new file mode 100644
index 00000000..c0f76c87
--- /dev/null
+++ b/docs/gan/wasserstein/experiment.html
@@ -0,0 +1,217 @@
+<!DOCTYPE html>
+<html>
+<head>
+    <meta http-equiv="content-type" content="text/html;charset=utf-8"/>
+    <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
+    <meta name="description" content="This experiment generates MNIST images using convolutional neural network."/>
+
+    <meta name="twitter:card" content="summary"/>
+    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta name="twitter:title" content="WGAN experiment with MNIST"/>
+    <meta name="twitter:description" content="This experiment generates MNIST images using convolutional neural network."/>
+    <meta name="twitter:site" content="@labmlai"/>
+    <meta name="twitter:creator" content="@labmlai"/>
+
+    <meta property="og:url" content="https://nn.labml.ai/gan/wasserstein/experiment.html"/>
+    <meta property="og:title" content="WGAN experiment with MNIST"/>
+    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta property="og:site_name" content="LabML Neural Networks"/>
+    <meta property="og:type" content="object"/>
+    <meta property="og:title" content="WGAN experiment with MNIST"/>
+    <meta property="og:description" content="This experiment generates MNIST images using convolutional neural network."/>
+
+    <title>WGAN experiment with MNIST</title>
+    <link rel="shortcut icon" href="/icon.png"/>
+    <link rel="stylesheet" href="../../pylit.css">
+    <link rel="canonical" href="https://nn.labml.ai/gan/wasserstein/experiment.html"/>
+    <!-- Global site tag (gtag.js) - Google Analytics -->
+    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
+    <script>
+        window.dataLayer = window.dataLayer || [];
+
+        function gtag() {
+            dataLayer.push(arguments);
+        }
+
+        gtag('js', new Date());
+
+        gtag('config', 'G-4V3HC8HBLH');
+    </script>
+</head>
+<body>
+<div id='container'>
+    <div id="background"></div>
+    <div class='section'>
+        <div class='docs'>
+            <p>
+                <a class="parent" href="/">home</a>
+                <a class="parent" href="../index.html">gan</a>
+                <a class="parent" href="index.html">wasserstein</a>
+            </p>
+            <p>
+
+                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/gan/wasserstein/experiment.py">
+                    <img alt="Github"
+                         src="https://img.shields.io/github/stars/lab-ml/nn?style=social"
+                         style="max-width:100%;"/></a>
+                <a href="https://join.slack.com/t/labforml/shared_invite/zt-egj9zvq9-Dl3hhZqobexgT7aVKnD14g/"
+                   rel="nofollow">
+                    <img alt="Join Slact"
+                         src="https://img.shields.io/badge/slack-chat-green.svg?logo=slack"
+                         style="max-width:100%;"/></a>
+                <a href="https://twitter.com/labmlai"
+                   rel="nofollow">
+                    <img alt="Twitter"
+                         src="https://img.shields.io/twitter/follow/labmlai?style=social"
+                         style="max-width:100%;"/></a>
+            </p>
+        </div>
+    </div>
+    <div class='section' id='section-0'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-0'>#</a>
+                </div>
+                <h1>WGAN experiment with MNIST</h1>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">9</span><span></span><span class="kn">from</span> <span class="nn">labml</span> <span class="kn">import</span> <span class="n">experiment</span>
+<span class="lineno">10</span>
+<span class="lineno">11</span><span class="kn">from</span> <span class="nn">labml.configs</span> <span class="kn">import</span> <span class="n">calculate</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-1'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-1'>#</a>
+                </div>
+                <p>Import configurations from <a href="../dcgan/index.html">DCGAN experiment</a></p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">13</span><span class="kn">from</span> <span class="nn">labml_nn.gan.dcgan</span> <span class="kn">import</span> <span class="n">Configs</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-2'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-2'>#</a>
+                </div>
+                <p>Import <a href="./index.html">Wasserstein GAN losses</a></p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">16</span><span class="kn">from</span> <span class="nn">labml_nn.gan.wasserstein</span> <span class="kn">import</span> <span class="n">GeneratorLoss</span><span class="p">,</span> <span class="n">DiscriminatorLoss</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-3'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-3'>#</a>
+                </div>
+                <p>Set configurations options for Wasserstein GAN losses</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">19</span><span class="n">calculate</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">generator_loss</span><span class="p">,</span> <span class="s1">&#39;wasserstein&#39;</span><span class="p">,</span> <span class="k">lambda</span> <span class="n">c</span><span class="p">:</span> <span class="n">GeneratorLoss</span><span class="p">())</span>
+<span class="lineno">20</span><span class="n">calculate</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">discriminator_loss</span><span class="p">,</span> <span class="s1">&#39;wasserstein&#39;</span><span class="p">,</span> <span class="k">lambda</span> <span class="n">c</span><span class="p">:</span> <span class="n">DiscriminatorLoss</span><span class="p">())</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-4'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-4'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">23</span><span class="k">def</span> <span class="nf">main</span><span class="p">():</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-5'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-5'>#</a>
+                </div>
+                <p>Create configs object</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">25</span>    <span class="n">conf</span> <span class="o">=</span> <span class="n">Configs</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-6'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-6'>#</a>
+                </div>
+                <p>Create experiment</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">27</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s1">&#39;mnist_wassertein_dcgan&#39;</span><span class="p">,</span> <span class="n">comment</span><span class="o">=</span><span class="s1">&#39;test&#39;</span><span class="p">)</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-7'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-7'>#</a>
+                </div>
+                <p>Override configurations</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">29</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">configs</span><span class="p">(</span><span class="n">conf</span><span class="p">,</span>
+<span class="lineno">30</span>                       <span class="p">{</span>
+<span class="lineno">31</span>                           <span class="s1">&#39;discriminator&#39;</span><span class="p">:</span> <span class="s1">&#39;cnn&#39;</span><span class="p">,</span>
+<span class="lineno">32</span>                           <span class="s1">&#39;generator&#39;</span><span class="p">:</span> <span class="s1">&#39;cnn&#39;</span><span class="p">,</span>
+<span class="lineno">33</span>                           <span class="s1">&#39;label_smoothing&#39;</span><span class="p">:</span> <span class="mf">0.01</span><span class="p">,</span>
+<span class="lineno">34</span>                           <span class="s1">&#39;generator_loss&#39;</span><span class="p">:</span> <span class="s1">&#39;wasserstein&#39;</span><span class="p">,</span>
+<span class="lineno">35</span>                           <span class="s1">&#39;discriminator_loss&#39;</span><span class="p">:</span> <span class="s1">&#39;wasserstein&#39;</span><span class="p">,</span>
+<span class="lineno">36</span>                       <span class="p">})</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-8'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-8'>#</a>
+                </div>
+                <p>Start the experiment and run training loop</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">39</span>    <span class="k">with</span> <span class="n">experiment</span><span class="o">.</span><span class="n">start</span><span class="p">():</span>
+<span class="lineno">40</span>        <span class="n">conf</span><span class="o">.</span><span class="n">run</span><span class="p">()</span>
+<span class="lineno">41</span>
+<span class="lineno">42</span>
+<span class="lineno">43</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
+<span class="lineno">44</span>    <span class="n">main</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    </div>
+</div>
+<script src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.4/MathJax.js?config=TeX-AMS_HTML">
+</script>
+<!-- MathJax configuration -->
+<script type="text/x-mathjax-config">
+    MathJax.Hub.Config({
+        tex2jax: {
+            inlineMath: [ ['$','$'] ],
+            displayMath: [ ['$$','$$'] ],
+            processEscapes: true,
+            processEnvironments: true
+        },
+        // Center justify equations in code and markdown cells. Elsewhere
+        // we use CSS to left justify single line equations in code cells.
+        displayAlign: 'center',
+        "HTML-CSS": { fonts: ["TeX"] }
+    });
+
+
+
+
+
+
+
+
+
+
+
+
+
+</script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/gan/wasserstein/index.html b/docs/gan/wasserstein/index.html
new file mode 100644
index 00000000..5c557bde
--- /dev/null
+++ b/docs/gan/wasserstein/index.html
@@ -0,0 +1,265 @@
+<!DOCTYPE html>
+<html>
+<head>
+    <meta http-equiv="content-type" content="text/html;charset=utf-8"/>
+    <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
+    <meta name="description" content="A simple PyTorch implementation/tutorial of Wasserstein Generative Adversarial Networks (WGAN) loss functions."/>
+
+    <meta name="twitter:card" content="summary"/>
+    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta name="twitter:title" content="Wasserstein GAN (WGAN)"/>
+    <meta name="twitter:description" content="A simple PyTorch implementation/tutorial of Wasserstein Generative Adversarial Networks (WGAN) loss functions."/>
+    <meta name="twitter:site" content="@labmlai"/>
+    <meta name="twitter:creator" content="@labmlai"/>
+
+    <meta property="og:url" content="https://nn.labml.ai/gan/wasserstein/index.html"/>
+    <meta property="og:title" content="Wasserstein GAN (WGAN)"/>
+    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
+    <meta property="og:site_name" content="LabML Neural Networks"/>
+    <meta property="og:type" content="object"/>
+    <meta property="og:title" content="Wasserstein GAN (WGAN)"/>
+    <meta property="og:description" content="A simple PyTorch implementation/tutorial of Wasserstein Generative Adversarial Networks (WGAN) loss functions."/>
+
+    <title>Wasserstein GAN (WGAN)</title>
+    <link rel="shortcut icon" href="/icon.png"/>
+    <link rel="stylesheet" href="../../pylit.css">
+    <link rel="canonical" href="https://nn.labml.ai/gan/wasserstein/index.html"/>
+    <!-- Global site tag (gtag.js) - Google Analytics -->
+    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
+    <script>
+        window.dataLayer = window.dataLayer || [];
+
+        function gtag() {
+            dataLayer.push(arguments);
+        }
+
+        gtag('js', new Date());
+
+        gtag('config', 'G-4V3HC8HBLH');
+    </script>
+</head>
+<body>
+<div id='container'>
+    <div id="background"></div>
+    <div class='section'>
+        <div class='docs'>
+            <p>
+                <a class="parent" href="/">home</a>
+                <a class="parent" href="../index.html">gan</a>
+                <a class="parent" href="index.html">wasserstein</a>
+            </p>
+            <p>
+
+                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/gan/wasserstein/__init__.py">
+                    <img alt="Github"
+                         src="https://img.shields.io/github/stars/lab-ml/nn?style=social"
+                         style="max-width:100%;"/></a>
+                <a href="https://join.slack.com/t/labforml/shared_invite/zt-egj9zvq9-Dl3hhZqobexgT7aVKnD14g/"
+                   rel="nofollow">
+                    <img alt="Join Slact"
+                         src="https://img.shields.io/badge/slack-chat-green.svg?logo=slack"
+                         style="max-width:100%;"/></a>
+                <a href="https://twitter.com/labmlai"
+                   rel="nofollow">
+                    <img alt="Twitter"
+                         src="https://img.shields.io/twitter/follow/labmlai?style=social"
+                         style="max-width:100%;"/></a>
+            </p>
+        </div>
+    </div>
+    <div class='section' id='section-0'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-0'>#</a>
+                </div>
+                <p>This is an implementation of
+<a href="https://arxiv.org/abs/1701.07875">Wasserstein GAN</a>.</p>
+<p>The original GAN loss is based on Jensen-Shannon (JS) divergence
+between the real distribution $\mathbb{P}_r$ and generated distribution $\mathbb{P}_g$.
+The Wasserstein GAN is based on Earth Mover distance between these distributions.</p>
+<p>
+<script type="math/tex; mode=display">
+W(\mathbb{P}_r, \mathbb{P}_g) =
+ \underset{\gamma \in \Pi(\mathbb{P}_r, \mathbb{P}_g)} {\mathrm{inf}}
+ \mathbb{E}_{(x,y) \sim \gamma}
+ \Vert x - y \Vert
+</script>
+</p>
+<p>$\Pi(\mathbb{P}_r, \mathbb{P}_g)$ is the set of all joint distributions, whose
+marginal probabilities are $\gamma(x, y)$.</p>
+<p>$\mathbb{E}_{(x,y) \sim \gamma} \Vert x - y \Vert$ is the earth mover distance for
+a given joint distribution ($x$ and $y$ are probabilities).</p>
+<p>So $W(\mathbb{P}_r, \mathbb{P}g)$ is equal to the least earth mover distance for
+any joint distribution between the real distribution $\mathbb{P}_r$ and generated distribution $\mathbb{P}_g$.</p>
+<p>The paper shows that Jensen-Shannon (JS) divergence and other measures for difference between two probability
+distributions are not smooth. And therefore if we are doing a gradient descent on one of the probability
+distributions (parameterized) it will not converge.</p>
+<p>Based on Kantorovich-Rubinstein duality,
+<script type="math/tex; mode=display">
+W(\mathbb{P}_r, \mathbb{P}_g) =
+ \underset{\Vert f \Vert_L \le 1} {\mathrm{sup}}
+ \mathbb{E}_{x \sim \mathbb{P}_r} [f(x)]- \mathbb{E}_{x \sim \mathbb{P}_g} [f(x)]
+</script>
+</p>
+<p>where $\Vert f \Vert_L \le 1$ are all 1-Lipschitz functions.</p>
+<p>That is, it is equal to the greatest difference
+<script type="math/tex; mode=display">\mathbb{E}_{x \sim \mathbb{P}_r} [f(x)] - \mathbb{E}_{x \sim \mathbb{P}_g} [f(x)]</script>
+among all 1-Lipschitz functions.</p>
+<p>For $K$-Lipschitz functions,
+<script type="math/tex; mode=display">
+W(\mathbb{P}_r, \mathbb{P}_g) =
+ \underset{\Vert f \Vert_L \le K} {\mathrm{sup}}
+ \mathbb{E}_{x \sim \mathbb{P}_r} \Bigg[\frac{1}{K} f(x) \Bigg]
+  - \mathbb{E}_{x \sim \mathbb{P}_g} \Bigg[\frac{1}{K} f(x) \Bigg]
+</script>
+</p>
+<p>If all $K$-Lipschitz functions can be represented as $f_w$ where $f$ is parameterized by
+$w \in \mathcal{W}$,</p>
+<p>
+<script type="math/tex; mode=display">
+K \cdot W(\mathbb{P}_r, \mathbb{P}_g) =
+ \max_{w \in \mathcal{W}}
+ \mathbb{E}_{x \sim \mathbb{P}_r} [f_w(x)]- \mathbb{E}_{x \sim \mathbb{P}_g} [f_w(x)]
+</script>
+</p>
+<p>If $(\mathbb{P}_{g})$ is represented by a generator <script type="math/tex; mode=display">g_\theta (z)</script> and $z$ is from a known
+distribution $z \sim p(z)$,</p>
+<p>
+<script type="math/tex; mode=display">
+K \ cdot W(\mathbb{P}_r, \mathbb{P}_\theta) =
+ \max_{w \in \mathcal{W}}
+ \mathbb{E}_{x \sim \mathbb{P}_r} [f_w(x)]- \mathbb{E}_{z \sim p(z)} [f_w(g_\theta(z))]
+</script>
+</p>
+<p>Now to converge $g_\theta$ with $\mathbb{P}_{r}$ we can gradient descent on $\theta$
+to minimize above formula.</p>
+<p>Similarly we can find $\max_{w \in \mathcal{W}}$ by ascending on $w$,
+while keeping $K$ bounded. <em>One way to keep $K$ bounded is to clip all weights in the neural
+network that defines $f$ clipped within a range.</em></p>
+<p>Here is the code to try this on a <a href="experiment.html">simple MNIST generation experiment</a>.</p>
+<p><a href="https://colab.research.google.com/github/lab-ml/nn/blob/master/labml_nn/gan/wasserstein/experiment.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg" /></a></p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">85</span><span></span><span class="kn">import</span> <span class="nn">torch.utils.data</span>
+<span class="lineno">86</span><span class="kn">from</span> <span class="nn">torch.nn</span> <span class="kn">import</span> <span class="n">functional</span> <span class="k">as</span> <span class="n">F</span>
+<span class="lineno">87</span>
+<span class="lineno">88</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-1'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-1'>#</a>
+                </div>
+                <h2>Discriminator Loss</h2>
+<p>We want to find $w$ to maximize
+<script type="math/tex; mode=display">\mathbb{E}_{x \sim \mathbb{P}_r} [f_w(x)]- \mathbb{E}_{z \sim p(z)} [f_w(g_\theta(z))]</script>,
+so we minimize,
+<script type="math/tex; mode=display">-\frac{1}{m} \sum_{i=1}^m f_w \big(x^{(i)} \big) +
+ \frac{1}{m} \sum_{i=1}^m f_w \big( g_\theta(z^{(i)}) \big)</script>
+</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">91</span><span class="k">class</span> <span class="nc">DiscriminatorLoss</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-2'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-2'>#</a>
+                </div>
+                <ul>
+<li><code>f_real</code> is $f_w(x)$</li>
+<li><code>f_fake</code> is $f_w(g_\theta(z))$</li>
+</ul>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">102</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">f_real</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">f_fake</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-3'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-3'>#</a>
+                </div>
+                <p>We use ReLUs to clip the loss to keep $f \in [-1, +1]$ range.</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">109</span>        <span class="k">return</span> <span class="n">F</span><span class="o">.</span><span class="n">relu</span><span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">f_real</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">(),</span> <span class="n">F</span><span class="o">.</span><span class="n">relu</span><span class="p">(</span><span class="mi">1</span> <span class="o">+</span> <span class="n">f_fake</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-4'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-4'>#</a>
+                </div>
+                <h2>Generator Loss</h2>
+<p>We want to find $\theta$ to minimize
+<script type="math/tex; mode=display">\mathbb{E}_{x \sim \mathbb{P}_r} [f_w(x)]- \mathbb{E}_{z \sim p(z)} [f_w(g_\theta(z))]</script>
+The first component is independent of $\theta$,
+so we minimize,
+<script type="math/tex; mode=display">-\frac{1}{m} \sum_{i=1}^m f_w \big( g_\theta(z^{(i)}) \big)</script>
+</p>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">112</span><span class="k">class</span> <span class="nc">GeneratorLoss</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-5'>
+        <div class='docs doc-strings'>
+                <div class='section-link'>
+                    <a href='#section-5'>#</a>
+                </div>
+                <ul>
+<li><code>f_fake</code> is $f_w(g_\theta(z))$</li>
+</ul>
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">124</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">f_fake</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+            </div>
+        </div>
+    <div class='section' id='section-6'>
+            <div class='docs'>
+                <div class='section-link'>
+                    <a href='#section-6'>#</a>
+                </div>
+                
+            </div>
+            <div class='code'>
+                <div class="highlight"><pre><span class="lineno">128</span>        <span class="k">return</span> <span class="o">-</span><span class="n">f_fake</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span></pre></div>
+            </div>
+        </div>
+    </div>
+</div>
+<script src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.4/MathJax.js?config=TeX-AMS_HTML">
+</script>
+<!-- MathJax configuration -->
+<script type="text/x-mathjax-config">
+    MathJax.Hub.Config({
+        tex2jax: {
+            inlineMath: [ ['$','$'] ],
+            displayMath: [ ['$$','$$'] ],
+            processEscapes: true,
+            processEnvironments: true
+        },
+        // Center justify equations in code and markdown cells. Elsewhere
+        // we use CSS to left justify single line equations in code cells.
+        displayAlign: 'center',
+        "HTML-CSS": { fonts: ["TeX"] }
+    });
+
+
+
+
+
+
+
+
+
+
+
+
+
+</script>
+</body>
+</html>
\ No newline at end of file
diff --git a/docs/sitemap.xml b/docs/sitemap.xml
index 83fe00de..2bf1d6dd 100644
--- a/docs/sitemap.xml
+++ b/docs/sitemap.xml
@@ -7,36 +7,78 @@
             http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
       
     <url>
-      <loc>https://nn.labml.ai/gan/cycle_gan.html</loc>
-      <lastmod>2021-01-23T16:30:00+00:00</lastmod>
+      <loc>https://nn.labml.ai/gan/wasserstein/experiment.html</loc>
+      <lastmod>2021-05-06T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
+    <url>
+      <loc>https://nn.labml.ai/gan/wasserstein/index.html</loc>
+      <lastmod>2021-05-05T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
+    <url>
+      <loc>https://nn.labml.ai/gan/wasserstein/experiment.html</loc>
+      <lastmod>2021-05-06T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
+    <url>
+      <loc>https://nn.labml.ai/gan/original/experiment.html</loc>
+      <lastmod>2021-05-06T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
+    <url>
+      <loc>https://nn.labml.ai/gan/original/index.html</loc>
+      <lastmod>2021-05-05T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
+    <url>
+      <loc>https://nn.labml.ai/gan/original/experiment.html</loc>
+      <lastmod>2021-05-06T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
+    <url>
+      <loc>https://nn.labml.ai/gan/dcgan/experiment.html</loc>
+      <lastmod>2021-05-06T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
+    <url>
+      <loc>https://nn.labml.ai/gan/dcgan/index.html</loc>
+      <lastmod>2021-05-06T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
+    <url>
+      <loc>https://nn.labml.ai/gan/cycle_gan/experiment.html</loc>
+      <lastmod>2021-05-05T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
+    <url>
+      <loc>https://nn.labml.ai/gan/cycle_gan/index.html</loc>
+      <lastmod>2021-05-05T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/gan/index.html</loc>
-      <lastmod>2021-02-14T16:30:00+00:00</lastmod>
-      <priority>1.00</priority>
-    </url>
-    
-
-    <url>
-      <loc>https://nn.labml.ai/gan/simple_mnist_experiment.html</loc>
-      <lastmod>2020-12-10T16:30:00+00:00</lastmod>
-      <priority>1.00</priority>
-    </url>
-    
-
-    <url>
-      <loc>https://nn.labml.ai/gan/dcgan.html</loc>
-      <lastmod>2021-02-14T16:30:00+00:00</lastmod>
-      <priority>1.00</priority>
-    </url>
-    
-
-    <url>
-      <loc>https://nn.labml.ai/gan/cycle_gan.html</loc>
-      <lastmod>2021-02-27T16:30:00+00:00</lastmod>
+      <lastmod>2021-05-05T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
diff --git a/labml_nn/gan/wasserstein/__init__.py b/labml_nn/gan/wasserstein/__init__.py
index c70a96d4..9919db3f 100644
--- a/labml_nn/gan/wasserstein/__init__.py
+++ b/labml_nn/gan/wasserstein/__init__.py
@@ -1,4 +1,87 @@
-import torch
+r"""
+---
+title: Wasserstein GAN (WGAN)
+summary: A simple PyTorch implementation/tutorial of Wasserstein Generative Adversarial Networks (WGAN) loss functions.
+---
+
+This is an implementation of
+[Wasserstein GAN](https://arxiv.org/abs/1701.07875).
+
+The original GAN loss is based on Jensen-Shannon (JS) divergence
+between the real distribution $\mathbb{P}_r$ and generated distribution $\mathbb{P}_g$.
+The Wasserstein GAN is based on Earth Mover distance between these distributions.
+
+$$
+W(\mathbb{P}_r, \mathbb{P}_g) =
+ \underset{\gamma \in \Pi(\mathbb{P}_r, \mathbb{P}_g)} {\mathrm{inf}}
+ \mathbb{E}_{(x,y) \sim \gamma}
+ \Vert x - y \Vert
+$$
+
+$\Pi(\mathbb{P}_r, \mathbb{P}_g)$ is the set of all joint distributions, whose
+marginal probabilities are $\gamma(x, y)$.
+
+$\mathbb{E}_{(x,y) \sim \gamma} \Vert x - y \Vert$ is the earth mover distance for
+a given joint distribution ($x$ and $y$ are probabilities).
+
+So $W(\mathbb{P}_r, \mathbb{P}g)$ is equal to the least earth mover distance for
+any joint distribution between the real distribution $\mathbb{P}_r$ and generated distribution $\mathbb{P}_g$.
+
+The paper shows that Jensen-Shannon (JS) divergence and other measures for difference between two probability
+distributions are not smooth. And therefore if we are doing a gradient descent on one of the probability
+distributions (parameterized) it will not converge.
+
+Based on Kantorovich-Rubinstein duality,
+$$
+W(\mathbb{P}_r, \mathbb{P}_g) =
+ \underset{\Vert f \Vert_L \le 1} {\mathrm{sup}}
+ \mathbb{E}_{x \sim \mathbb{P}_r} [f(x)]- \mathbb{E}_{x \sim \mathbb{P}_g} [f(x)]
+$$
+
+where $\Vert f \Vert_L \le 1$ are all 1-Lipschitz functions.
+
+That is, it is equal to the greatest difference
+$$\mathbb{E}_{x \sim \mathbb{P}_r} [f(x)] - \mathbb{E}_{x \sim \mathbb{P}_g} [f(x)]$$
+among all 1-Lipschitz functions.
+
+For $K$-Lipschitz functions,
+$$
+W(\mathbb{P}_r, \mathbb{P}_g) =
+ \underset{\Vert f \Vert_L \le K} {\mathrm{sup}}
+ \mathbb{E}_{x \sim \mathbb{P}_r} \Bigg[\frac{1}{K} f(x) \Bigg]
+  - \mathbb{E}_{x \sim \mathbb{P}_g} \Bigg[\frac{1}{K} f(x) \Bigg]
+$$
+
+If all $K$-Lipschitz functions can be represented as $f_w$ where $f$ is parameterized by
+$w \in \mathcal{W}$,
+
+$$
+K \cdot W(\mathbb{P}_r, \mathbb{P}_g) =
+ \max_{w \in \mathcal{W}}
+ \mathbb{E}_{x \sim \mathbb{P}_r} [f_w(x)]- \mathbb{E}_{x \sim \mathbb{P}_g} [f_w(x)]
+$$
+
+If $(\mathbb{P}_{g})$ is represented by a generator $$g_\theta (z)$$ and $z$ is from a known
+distribution $z \sim p(z)$,
+
+$$
+K \ cdot W(\mathbb{P}_r, \mathbb{P}_\theta) =
+ \max_{w \in \mathcal{W}}
+ \mathbb{E}_{x \sim \mathbb{P}_r} [f_w(x)]- \mathbb{E}_{z \sim p(z)} [f_w(g_\theta(z))]
+$$
+
+Now to converge $g_\theta$ with $\mathbb{P}_{r}$ we can gradient descent on $\theta$
+to minimize above formula.
+
+Similarly we can find $\max_{w \in \mathcal{W}}$ by ascending on $w$,
+while keeping $K$ bounded. *One way to keep $K$ bounded is to clip all weights in the neural
+network that defines $f$ clipped within a range.*
+
+Here is the code to try this on a [simple MNIST generation experiment](experiment.html).
+
+[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/lab-ml/nn/blob/master/labml_nn/gan/wasserstein/experiment.ipynb)
+"""
+
 import torch.utils.data
 from torch.nn import functional as F
 
@@ -8,34 +91,38 @@ from labml_helpers.module import Module
 class DiscriminatorLoss(Module):
     """
     ## Discriminator Loss
+
+    We want to find $w$ to maximize
+    $$\mathbb{E}_{x \sim \mathbb{P}_r} [f_w(x)]- \mathbb{E}_{z \sim p(z)} [f_w(g_\theta(z))]$$,
+    so we minimize,
+    $$-\frac{1}{m} \sum_{i=1}^m f_w \big(x^{(i)} \big) +
+     \frac{1}{m} \sum_{i=1}^m f_w \big( g_\theta(z^{(i)}) \big)$$
     """
 
-    def __init__(self):
-        super().__init__()
-
-    def __call__(self, logits_true: torch.Tensor, logits_false: torch.Tensor):
+    def __call__(self, f_real: torch.Tensor, f_fake: torch.Tensor):
         """
-        `logits_true` are logits from $D(\pmb{x}^{(i)})$ and
-        `logits_false` are logits from $D(G(\pmb{z}^{(i)}))$
+        * `f_real` is $f_w(x)$
+        * `f_fake` is $f_w(g_\theta(z))$
         """
 
-        return F.relu(1 - logits_true).mean(), F.relu(1 + logits_false).mean()
+        # We use ReLUs to clip the loss to keep $f \in [-1, +1]$ range.
+        return F.relu(1 - f_real).mean(), F.relu(1 + f_fake).mean()
 
 
 class GeneratorLoss(Module):
     """
     ## Generator Loss
+
+    We want to find $\theta$ to minimize
+    $$\mathbb{E}_{x \sim \mathbb{P}_r} [f_w(x)]- \mathbb{E}_{z \sim p(z)} [f_w(g_\theta(z))]$$
+    The first component is independent of $\theta$,
+    so we minimize,
+    $$-\frac{1}{m} \sum_{i=1}^m f_w \big( g_\theta(z^{(i)}) \big)$$
+
     """
 
-    def __init__(self):
-        super().__init__()
-
-    def __call__(self, logits: torch.Tensor):
-        return -logits.mean()
-
-
-def _create_labels(n: int, r1: float, r2: float, device: torch.device = None):
-    """
-    Create smoothed labels
-    """
-    return torch.empty(n, 1, requires_grad=False, device=device).uniform_(r1, r2)
+    def __call__(self, f_fake: torch.Tensor):
+        """
+        * `f_fake` is $f_w(g_\theta(z))$
+        """
+        return -f_fake.mean()
diff --git a/labml_nn/gan/wasserstein/experiment.py b/labml_nn/gan/wasserstein/experiment.py
index 3eb6f795..54a71fc3 100644
--- a/labml_nn/gan/wasserstein/experiment.py
+++ b/labml_nn/gan/wasserstein/experiment.py
@@ -1,18 +1,31 @@
-# We import the [DCGAN experiment]((../dcgan.html) and change the
-# loss functions
+"""
+---
+title: WGAN experiment with MNIST
+summary: This experiment generates MNIST images using convolutional neural network.
+---
+
+# WGAN experiment with MNIST
+"""
 from labml import experiment
 
 from labml.configs import calculate
+# Import configurations from [DCGAN experiment](../dcgan/index.html)
 from labml_nn.gan.dcgan import Configs
+
+# Import [Wasserstein GAN losses](./index.html)
 from labml_nn.gan.wasserstein import GeneratorLoss, DiscriminatorLoss
 
+# Set configurations options for Wasserstein GAN losses
 calculate(Configs.generator_loss, 'wasserstein', lambda c: GeneratorLoss())
 calculate(Configs.discriminator_loss, 'wasserstein', lambda c: DiscriminatorLoss())
 
 
 def main():
+    # Create configs object
     conf = Configs()
+    # Create experiment
     experiment.create(name='mnist_wassertein_dcgan', comment='test')
+    # Override configurations
     experiment.configs(conf,
                        {
                            'discriminator': 'cnn',
@@ -21,6 +34,8 @@ def main():
                            'generator_loss': 'wasserstein',
                            'discriminator_loss': 'wasserstein',
                        })
+
+    # Start the experiment and run training loop
     with experiment.start():
         conf.run()