diff --git a/docs/sitemap.xml b/docs/sitemap.xml
index 98c691af..e4cf5fa1 100644
--- a/docs/sitemap.xml
+++ b/docs/sitemap.xml
@@ -603,14 +603,14 @@
 
     <url>
       <loc>https://nn.labml.ai/transformers/switch/index.html</loc>
-      <lastmod>2021-08-17T16:30:00+00:00</lastmod>
+      <lastmod>2021-09-17T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/transformers/switch/experiment.html</loc>
-      <lastmod>2021-09-06T16:30:00+00:00</lastmod>
+      <lastmod>2021-09-17T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
diff --git a/docs/transformers/switch/experiment.html b/docs/transformers/switch/experiment.html
index c9d45783..5acfe778 100644
--- a/docs/transformers/switch/experiment.html
+++ b/docs/transformers/switch/experiment.html
@@ -69,16 +69,18 @@
             </div>
             <h1>Switch Transformer Experiment</h1>
 <p>This is an annotated PyTorch experiment to train a switch transformer.</p>
+<p><a href="https://colab.research.google.com/github/labmlai/annotated_deep_learning_paper_implementations/blob/master/labml_nn/transformers/switch/experiment.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg" /></a>
+<a href="https://app.labml.ai/run/353770ce177c11ecaa5fb74452424f46"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">12</span><span></span><span class="kn">import</span> <span class="nn">torch</span>
-<span class="lineno">13</span><span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-<span class="lineno">14</span>
-<span class="lineno">15</span><span class="kn">from</span> <span class="nn">labml</span> <span class="kn">import</span> <span class="n">experiment</span><span class="p">,</span> <span class="n">tracker</span>
-<span class="lineno">16</span><span class="kn">from</span> <span class="nn">labml.configs</span> <span class="kn">import</span> <span class="n">option</span>
-<span class="lineno">17</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
-<span class="lineno">18</span><span class="kn">from</span> <span class="nn">labml_helpers.train_valid</span> <span class="kn">import</span> <span class="n">BatchIndex</span>
-<span class="lineno">19</span><span class="kn">from</span> <span class="nn">labml_nn.experiments.nlp_autoregression</span> <span class="kn">import</span> <span class="n">NLPAutoRegressionConfigs</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">15</span><span></span><span class="kn">import</span> <span class="nn">torch</span>
+<span class="lineno">16</span><span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="lineno">17</span>
+<span class="lineno">18</span><span class="kn">from</span> <span class="nn">labml</span> <span class="kn">import</span> <span class="n">experiment</span><span class="p">,</span> <span class="n">tracker</span>
+<span class="lineno">19</span><span class="kn">from</span> <span class="nn">labml.configs</span> <span class="kn">import</span> <span class="n">option</span>
+<span class="lineno">20</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
+<span class="lineno">21</span><span class="kn">from</span> <span class="nn">labml_helpers.train_valid</span> <span class="kn">import</span> <span class="n">BatchIndex</span>
+<span class="lineno">22</span><span class="kn">from</span> <span class="nn">labml_nn.experiments.nlp_autoregression</span> <span class="kn">import</span> <span class="n">NLPAutoRegressionConfigs</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-1'>
@@ -89,7 +91,7 @@
             <h2>Auto regressive model</h2>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">22</span><span class="k">class</span> <span class="nc">AutoregressiveModel</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">25</span><span class="k">class</span> <span class="nc">AutoregressiveModel</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-2'>
@@ -100,8 +102,8 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">27</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">n_vocab</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">transformer</span><span class="p">:</span> <span class="n">Module</span><span class="p">):</span>
-<span class="lineno">28</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">30</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">n_vocab</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">transformer</span><span class="p">:</span> <span class="n">Module</span><span class="p">):</span>
+<span class="lineno">31</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-3'>
@@ -112,7 +114,7 @@
             <p>Token embedding module</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">30</span>        <span class="bp">self</span><span class="o">.</span><span class="n">src_embed</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embedding</span><span class="p">(</span><span class="n">n_vocab</span><span class="p">,</span> <span class="n">d_model</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">33</span>        <span class="bp">self</span><span class="o">.</span><span class="n">src_embed</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embedding</span><span class="p">(</span><span class="n">n_vocab</span><span class="p">,</span> <span class="n">d_model</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-4'>
@@ -123,7 +125,7 @@
             <p>Transformer</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">32</span>        <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span> <span class="o">=</span> <span class="n">transformer</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">35</span>        <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span> <span class="o">=</span> <span class="n">transformer</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-5'>
@@ -134,8 +136,8 @@
             <p>Final layer</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">34</span>        <span class="bp">self</span><span class="o">.</span><span class="n">generator</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">n_vocab</span><span class="p">)</span>
-<span class="lineno">35</span>        <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="o">=</span> <span class="kc">None</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">37</span>        <span class="bp">self</span><span class="o">.</span><span class="n">generator</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">n_vocab</span><span class="p">)</span>
+<span class="lineno">38</span>        <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="o">=</span> <span class="kc">None</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-6'>
@@ -146,7 +148,7 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">37</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">40</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-7'>
@@ -157,9 +159,9 @@
             <p>Initialize the subsequent mask</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">39</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">):</span>
-<span class="lineno">40</span>            <span class="kn">from</span> <span class="nn">labml_nn.transformers.utils</span> <span class="kn">import</span> <span class="n">subsequent_mask</span>
-<span class="lineno">41</span>            <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="o">=</span> <span class="n">subsequent_mask</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">))</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">42</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">):</span>
+<span class="lineno">43</span>            <span class="kn">from</span> <span class="nn">labml_nn.transformers.utils</span> <span class="kn">import</span> <span class="n">subsequent_mask</span>
+<span class="lineno">44</span>            <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="o">=</span> <span class="n">subsequent_mask</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">))</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-8'>
@@ -170,7 +172,7 @@
             <p>Token embeddings</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">43</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">src_embed</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">46</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">src_embed</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-9'>
@@ -181,7 +183,7 @@
             <p>Run it through the transformer</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">45</span>        <span class="n">res</span><span class="p">,</span> <span class="n">counts</span><span class="p">,</span> <span class="n">route_prob</span><span class="p">,</span> <span class="n">n_dropped</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">48</span>        <span class="n">res</span><span class="p">,</span> <span class="n">counts</span><span class="p">,</span> <span class="n">route_prob</span><span class="p">,</span> <span class="n">n_dropped</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-10'>
@@ -192,7 +194,7 @@
             <p>Generate logits of the next token</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">47</span>        <span class="n">res</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="p">(</span><span class="n">res</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">50</span>        <span class="n">res</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">generator</span><span class="p">(</span><span class="n">res</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-11'>
@@ -203,7 +205,7 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">49</span>        <span class="k">return</span> <span class="n">res</span><span class="p">,</span> <span class="n">counts</span><span class="p">,</span> <span class="n">route_prob</span><span class="p">,</span> <span class="n">n_dropped</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">52</span>        <span class="k">return</span> <span class="n">res</span><span class="p">,</span> <span class="n">counts</span><span class="p">,</span> <span class="n">route_prob</span><span class="p">,</span> <span class="n">n_dropped</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-12'>
@@ -216,7 +218,7 @@
 <p>The default configs can and will be over-ridden when we start the experiment</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">52</span><span class="k">class</span> <span class="nc">Configs</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">55</span><span class="k">class</span> <span class="nc">Configs</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-13'>
@@ -227,8 +229,8 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">61</span>    <span class="n">model</span><span class="p">:</span> <span class="n">AutoregressiveModel</span>
-<span class="lineno">62</span>    <span class="n">transformer</span><span class="p">:</span> <span class="n">Module</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">64</span>    <span class="n">model</span><span class="p">:</span> <span class="n">AutoregressiveModel</span>
+<span class="lineno">65</span>    <span class="n">transformer</span><span class="p">:</span> <span class="n">Module</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-14'>
@@ -239,7 +241,7 @@
             <p>Token embedding size</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">65</span>    <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">128</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">68</span>    <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">128</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-15'>
@@ -250,7 +252,7 @@
             <p>Number of attention heads</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">67</span>    <span class="n">heads</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">70</span>    <span class="n">heads</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-16'>
@@ -261,7 +263,7 @@
             <p>Dropout probability</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">69</span>    <span class="n">dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">72</span>    <span class="n">dropout</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.0</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-17'>
@@ -272,7 +274,7 @@
             <p>Number of features in FFN hidden layer</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">71</span>    <span class="n">d_ff</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">256</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">74</span>    <span class="n">d_ff</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">256</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-18'>
@@ -283,7 +285,7 @@
             <p>Number of transformer layers</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">73</span>    <span class="n">n_layers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">6</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">76</span>    <span class="n">n_layers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">6</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-19'>
@@ -294,7 +296,7 @@
             <p>Number of experts</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">75</span>    <span class="n">n_experts</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">78</span>    <span class="n">n_experts</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-20'>
@@ -305,7 +307,7 @@
             <p>Load balancing coefficient</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">77</span>    <span class="n">load_balancing_loss_ceof</span> <span class="o">=</span> <span class="mf">0.01</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">80</span>    <span class="n">load_balancing_loss_ceof</span> <span class="o">=</span> <span class="mf">0.01</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-21'>
@@ -316,7 +318,7 @@
             <p>Whether to scale the chosen expert outputs by the routing probability</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">79</span>    <span class="n">is_scale_prob</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">82</span>    <span class="n">is_scale_prob</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-22'>
@@ -327,7 +329,7 @@
             <p>Whether to drop tokens</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">81</span>    <span class="n">drop_tokens</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">84</span>    <span class="n">drop_tokens</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-23'>
@@ -338,7 +340,7 @@
             <p>Capacity factor to determine capacity of each model</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">83</span>    <span class="n">capacity_factor</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">86</span>    <span class="n">capacity_factor</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-24'>
@@ -349,8 +351,8 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">85</span>    <span class="k">def</span> <span class="nf">init</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
-<span class="lineno">86</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">init</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">88</span>    <span class="k">def</span> <span class="nf">init</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span>
+<span class="lineno">89</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="n">init</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-25'>
@@ -361,9 +363,9 @@
             <p>Initialize tracking indicators</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">88</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;lb_loss.*&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
-<span class="lineno">89</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;route.*&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
-<span class="lineno">90</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;dropped.*&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">91</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;lb_loss.*&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
+<span class="lineno">92</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;route.*&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span>
+<span class="lineno">93</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;dropped.*&quot;</span><span class="p">,</span> <span class="kc">False</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-26'>
@@ -374,7 +376,7 @@
             <h3>Training or validation step</h3>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">92</span>    <span class="k">def</span> <span class="nf">step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">:</span> <span class="nb">any</span><span class="p">,</span> <span class="n">batch_idx</span><span class="p">:</span> <span class="n">BatchIndex</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">95</span>    <span class="k">def</span> <span class="nf">step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">:</span> <span class="nb">any</span><span class="p">,</span> <span class="n">batch_idx</span><span class="p">:</span> <span class="n">BatchIndex</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-27'>
@@ -385,7 +387,7 @@
             <p>Move data to the device</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">98</span>        <span class="n">data</span><span class="p">,</span> <span class="n">target</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="n">batch</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">101</span>        <span class="n">data</span><span class="p">,</span> <span class="n">target</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="n">batch</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-28'>
@@ -396,8 +398,8 @@
             <p>Update global step (number of tokens processed) when in training mode</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">101</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
-<span class="lineno">102</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add_global_step</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">104</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
+<span class="lineno">105</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add_global_step</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-29'>
@@ -408,7 +410,7 @@
             <p>Whether to capture model outputs</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">105</span>        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">is_log_activations</span><span class="o">=</span><span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">108</span>        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">is_log_activations</span><span class="o">=</span><span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-30'>
@@ -419,7 +421,7 @@
             <p>Get model outputs.</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">107</span>            <span class="n">output</span><span class="p">,</span> <span class="n">counts</span><span class="p">,</span> <span class="n">route_prob</span><span class="p">,</span> <span class="n">n_dropped</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">110</span>            <span class="n">output</span><span class="p">,</span> <span class="n">counts</span><span class="p">,</span> <span class="n">route_prob</span><span class="p">,</span> <span class="n">n_dropped</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-31'>
@@ -430,7 +432,7 @@
             <p>Calculate and cross entropy loss</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">110</span>        <span class="n">cross_entropy_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss_func</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">113</span>        <span class="n">cross_entropy_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss_func</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-32'>
@@ -441,7 +443,7 @@
             <p>Total number of tokens processed, $T$, in the current batch $\mathscr{B}$</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">112</span>        <span class="n">total</span> <span class="o">=</span> <span class="n">counts</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">,</span> <span class="n">keepdims</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">115</span>        <span class="n">total</span> <span class="o">=</span> <span class="n">counts</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">,</span> <span class="n">keepdims</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-33'>
@@ -454,7 +456,7 @@
 $f_i$ is the count of tokens where the argmax of $p(x)$ is equal to $i$.</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">116</span>        <span class="n">route_frac</span> <span class="o">=</span> <span class="n">counts</span> <span class="o">/</span> <span class="n">total</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">119</span>        <span class="n">route_frac</span> <span class="o">=</span> <span class="n">counts</span> <span class="o">/</span> <span class="n">total</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-34'>
@@ -467,7 +469,7 @@ $f_i$ is the count of tokens where the argmax of $p(x)$ is equal to $i$.</p>
 </p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">119</span>        <span class="n">route_prob</span> <span class="o">=</span> <span class="n">route_prob</span> <span class="o">/</span> <span class="n">total</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">122</span>        <span class="n">route_prob</span> <span class="o">=</span> <span class="n">route_prob</span> <span class="o">/</span> <span class="n">total</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-35'>
@@ -481,7 +483,7 @@ $\mathscr{L}$ is the loss for a single layer and here we are
 taking the sum of losses across all layers.</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">124</span>        <span class="n">load_balancing_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span> <span class="o">*</span> <span class="p">(</span><span class="n">route_frac</span> <span class="o">*</span> <span class="n">route_prob</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">127</span>        <span class="n">load_balancing_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span> <span class="o">*</span> <span class="p">(</span><span class="n">route_frac</span> <span class="o">*</span> <span class="n">route_prob</span><span class="p">)</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-36'>
@@ -492,12 +494,12 @@ taking the sum of losses across all layers.</p>
             <p>Track stats</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">127</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;dropped.&#39;</span><span class="p">,</span> <span class="n">total</span><span class="o">.</span><span class="n">new_tensor</span><span class="p">(</span><span class="n">n_dropped</span><span class="p">)</span> <span class="o">/</span> <span class="n">total</span><span class="p">)</span>
-<span class="lineno">128</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;route.min.&#39;</span><span class="p">,</span> <span class="n">route_frac</span><span class="o">.</span><span class="n">min</span><span class="p">())</span>
-<span class="lineno">129</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;route.max.&#39;</span><span class="p">,</span> <span class="n">route_frac</span><span class="o">.</span><span class="n">max</span><span class="p">())</span>
-<span class="lineno">130</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;route.std.&#39;</span><span class="p">,</span> <span class="n">route_frac</span><span class="o">.</span><span class="n">std</span><span class="p">())</span>
-<span class="lineno">131</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.&quot;</span><span class="p">,</span> <span class="n">cross_entropy_loss</span><span class="p">)</span>
-<span class="lineno">132</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;lb_loss.&quot;</span><span class="p">,</span> <span class="n">load_balancing_loss</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">130</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;dropped.&#39;</span><span class="p">,</span> <span class="n">total</span><span class="o">.</span><span class="n">new_tensor</span><span class="p">(</span><span class="n">n_dropped</span><span class="p">)</span> <span class="o">/</span> <span class="n">total</span><span class="p">)</span>
+<span class="lineno">131</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;route.min.&#39;</span><span class="p">,</span> <span class="n">route_frac</span><span class="o">.</span><span class="n">min</span><span class="p">())</span>
+<span class="lineno">132</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;route.max.&#39;</span><span class="p">,</span> <span class="n">route_frac</span><span class="o">.</span><span class="n">max</span><span class="p">())</span>
+<span class="lineno">133</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;route.std.&#39;</span><span class="p">,</span> <span class="n">route_frac</span><span class="o">.</span><span class="n">std</span><span class="p">())</span>
+<span class="lineno">134</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.&quot;</span><span class="p">,</span> <span class="n">cross_entropy_loss</span><span class="p">)</span>
+<span class="lineno">135</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;lb_loss.&quot;</span><span class="p">,</span> <span class="n">load_balancing_loss</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-37'>
@@ -510,7 +512,7 @@ The load balancing loss is multiplied by a coefficient $\alpha$ which is
 set to something small like $\alpha = 0.01$.</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">137</span>        <span class="n">loss</span> <span class="o">=</span> <span class="n">cross_entropy_loss</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">load_balancing_loss_ceof</span> <span class="o">*</span> <span class="n">load_balancing_loss</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">140</span>        <span class="n">loss</span> <span class="o">=</span> <span class="n">cross_entropy_loss</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">load_balancing_loss_ceof</span> <span class="o">*</span> <span class="n">load_balancing_loss</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-38'>
@@ -521,8 +523,8 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Calculate and log accuracy</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">140</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
-<span class="lineno">141</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="o">.</span><span class="n">track</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">143</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
+<span class="lineno">144</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="o">.</span><span class="n">track</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-39'>
@@ -533,7 +535,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Train the model</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">144</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">147</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-40'>
@@ -544,7 +546,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Calculate gradients</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">146</span>            <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">149</span>            <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-41'>
@@ -555,7 +557,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Clip gradients</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">148</span>            <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">clip_grad_norm_</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">max_norm</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">grad_norm_clip</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">151</span>            <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">clip_grad_norm_</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">max_norm</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">grad_norm_clip</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-42'>
@@ -566,7 +568,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Take optimizer step</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">150</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">153</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-43'>
@@ -577,8 +579,8 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Log the model parameters and gradients on last batch of every epoch</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">152</span>            <span class="k">if</span> <span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">:</span>
-<span class="lineno">153</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;model&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">155</span>            <span class="k">if</span> <span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">:</span>
+<span class="lineno">156</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;model&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-44'>
@@ -589,7 +591,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Clear the gradients</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">155</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">158</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-45'>
@@ -600,7 +602,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Save the tracked metrics</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">158</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">save</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">161</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">save</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-46'>
@@ -611,8 +613,8 @@ set to something small like $\alpha = 0.01$.</p>
             <h3>Initialize the auto-regressive model</h3>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">161</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
-<span class="lineno">162</span><span class="k">def</span> <span class="nf">autoregressive_model</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">164</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+<span class="lineno">165</span><span class="k">def</span> <span class="nf">autoregressive_model</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-47'>
@@ -623,8 +625,8 @@ set to something small like $\alpha = 0.01$.</p>
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">166</span>    <span class="n">m</span> <span class="o">=</span> <span class="n">AutoregressiveModel</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">n_tokens</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">transformer</span><span class="p">)</span>
-<span class="lineno">167</span>    <span class="k">return</span> <span class="n">m</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">169</span>    <span class="n">m</span> <span class="o">=</span> <span class="n">AutoregressiveModel</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">n_tokens</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">transformer</span><span class="p">)</span>
+<span class="lineno">170</span>    <span class="k">return</span> <span class="n">m</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-48'>
@@ -635,8 +637,8 @@ set to something small like $\alpha = 0.01$.</p>
             <h3>Initialize the switch transformer</h3>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">170</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">transformer</span><span class="p">)</span>
-<span class="lineno">171</span><span class="k">def</span> <span class="nf">switch_transformer</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">173</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">transformer</span><span class="p">)</span>
+<span class="lineno">174</span><span class="k">def</span> <span class="nf">switch_transformer</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-49'>
@@ -647,21 +649,21 @@ set to something small like $\alpha = 0.01$.</p>
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">175</span>    <span class="kn">from</span> <span class="nn">labml_nn.transformers.switch</span> <span class="kn">import</span> <span class="n">SwitchTransformer</span><span class="p">,</span> <span class="n">SwitchTransformerLayer</span><span class="p">,</span> <span class="n">SwitchFeedForward</span>
-<span class="lineno">176</span>    <span class="kn">from</span> <span class="nn">labml_nn.transformers</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
-<span class="lineno">177</span>    <span class="kn">from</span> <span class="nn">labml_nn.transformers.feed_forward</span> <span class="kn">import</span> <span class="n">FeedForward</span>
-<span class="lineno">178</span>
-<span class="lineno">179</span>    <span class="k">return</span> <span class="n">SwitchTransformer</span><span class="p">(</span>
-<span class="lineno">180</span>        <span class="n">SwitchTransformerLayer</span><span class="p">(</span><span class="n">d_model</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span>
-<span class="lineno">181</span>                               <span class="n">attn</span><span class="o">=</span><span class="n">MultiHeadAttention</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">heads</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">dropout</span><span class="p">),</span>
-<span class="lineno">182</span>                               <span class="n">feed_forward</span><span class="o">=</span><span class="n">SwitchFeedForward</span><span class="p">(</span><span class="n">capacity_factor</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">capacity_factor</span><span class="p">,</span>
-<span class="lineno">183</span>                                                              <span class="n">drop_tokens</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">drop_tokens</span><span class="p">,</span>
-<span class="lineno">184</span>                                                              <span class="n">is_scale_prob</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">is_scale_prob</span><span class="p">,</span>
-<span class="lineno">185</span>                                                              <span class="n">n_experts</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">n_experts</span><span class="p">,</span>
-<span class="lineno">186</span>                                                              <span class="n">expert</span><span class="o">=</span><span class="n">FeedForward</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">d_ff</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">dropout</span><span class="p">),</span>
-<span class="lineno">187</span>                                                              <span class="n">d_model</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">),</span>
-<span class="lineno">188</span>                               <span class="n">dropout_prob</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">dropout</span><span class="p">),</span>
-<span class="lineno">189</span>        <span class="n">c</span><span class="o">.</span><span class="n">n_layers</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">178</span>    <span class="kn">from</span> <span class="nn">labml_nn.transformers.switch</span> <span class="kn">import</span> <span class="n">SwitchTransformer</span><span class="p">,</span> <span class="n">SwitchTransformerLayer</span><span class="p">,</span> <span class="n">SwitchFeedForward</span>
+<span class="lineno">179</span>    <span class="kn">from</span> <span class="nn">labml_nn.transformers</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
+<span class="lineno">180</span>    <span class="kn">from</span> <span class="nn">labml_nn.transformers.feed_forward</span> <span class="kn">import</span> <span class="n">FeedForward</span>
+<span class="lineno">181</span>
+<span class="lineno">182</span>    <span class="k">return</span> <span class="n">SwitchTransformer</span><span class="p">(</span>
+<span class="lineno">183</span>        <span class="n">SwitchTransformerLayer</span><span class="p">(</span><span class="n">d_model</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span>
+<span class="lineno">184</span>                               <span class="n">attn</span><span class="o">=</span><span class="n">MultiHeadAttention</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">heads</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">dropout</span><span class="p">),</span>
+<span class="lineno">185</span>                               <span class="n">feed_forward</span><span class="o">=</span><span class="n">SwitchFeedForward</span><span class="p">(</span><span class="n">capacity_factor</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">capacity_factor</span><span class="p">,</span>
+<span class="lineno">186</span>                                                              <span class="n">drop_tokens</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">drop_tokens</span><span class="p">,</span>
+<span class="lineno">187</span>                                                              <span class="n">is_scale_prob</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">is_scale_prob</span><span class="p">,</span>
+<span class="lineno">188</span>                                                              <span class="n">n_experts</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">n_experts</span><span class="p">,</span>
+<span class="lineno">189</span>                                                              <span class="n">expert</span><span class="o">=</span><span class="n">FeedForward</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">d_ff</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">dropout</span><span class="p">),</span>
+<span class="lineno">190</span>                                                              <span class="n">d_model</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">),</span>
+<span class="lineno">191</span>                               <span class="n">dropout_prob</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">dropout</span><span class="p">),</span>
+<span class="lineno">192</span>        <span class="n">c</span><span class="o">.</span><span class="n">n_layers</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-50'>
@@ -672,7 +674,7 @@ set to something small like $\alpha = 0.01$.</p>
             <h3>Run the experiment</h3>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">192</span><span class="k">def</span> <span class="nf">main</span><span class="p">():</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">195</span><span class="k">def</span> <span class="nf">main</span><span class="p">():</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-51'>
@@ -683,7 +685,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Create experiment</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">197</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s2">&quot;switch_transformer&quot;</span><span class="p">,</span> <span class="n">comment</span><span class="o">=</span><span class="s1">&#39;&#39;</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">200</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s2">&quot;switch_transformer&quot;</span><span class="p">,</span> <span class="n">comment</span><span class="o">=</span><span class="s1">&#39;&#39;</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-52'>
@@ -694,7 +696,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Create configs</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">199</span>    <span class="n">conf</span> <span class="o">=</span> <span class="n">Configs</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">202</span>    <span class="n">conf</span> <span class="o">=</span> <span class="n">Configs</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-53'>
@@ -705,7 +707,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Load configurations</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">201</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">configs</span><span class="p">(</span><span class="n">conf</span><span class="p">,</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">204</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">configs</span><span class="p">(</span><span class="n">conf</span><span class="p">,</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-54'>
@@ -716,28 +718,27 @@ set to something small like $\alpha = 0.01$.</p>
             <p>A dictionary of configurations to override</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">203</span>                       <span class="p">{</span><span class="s1">&#39;tokenizer&#39;</span><span class="p">:</span> <span class="s1">&#39;character&#39;</span><span class="p">,</span>
-<span class="lineno">204</span>                        <span class="s1">&#39;text&#39;</span><span class="p">:</span> <span class="s1">&#39;tiny_shakespeare&#39;</span><span class="p">,</span>
-<span class="lineno">205</span>                        <span class="s1">&#39;optimizer.learning_rate&#39;</span><span class="p">:</span> <span class="mf">1.</span><span class="p">,</span>
-<span class="lineno">206</span>                        <span class="s1">&#39;optimizer.optimizer&#39;</span><span class="p">:</span> <span class="s1">&#39;Noam&#39;</span><span class="p">,</span>
-<span class="lineno">207</span>                        <span class="s1">&#39;prompt&#39;</span><span class="p">:</span> <span class="s1">&#39;It is&#39;</span><span class="p">,</span>
-<span class="lineno">208</span>                        <span class="s1">&#39;prompt_separator&#39;</span><span class="p">:</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
-<span class="lineno">209</span>
-<span class="lineno">210</span>                        <span class="s1">&#39;transformer&#39;</span><span class="p">:</span> <span class="s1">&#39;switch_transformer&#39;</span><span class="p">,</span>
-<span class="lineno">211</span>                        <span class="s1">&#39;is_scale_prob&#39;</span><span class="p">:</span> <span class="kc">False</span><span class="p">,</span>
-<span class="lineno">212</span>                        <span class="s1">&#39;n_experts&#39;</span><span class="p">:</span> <span class="mi">4</span><span class="p">,</span>
-<span class="lineno">213</span>
-<span class="lineno">214</span>                        <span class="s1">&#39;drop_tokens&#39;</span><span class="p">:</span> <span class="kc">True</span><span class="p">,</span>
-<span class="lineno">215</span>                        <span class="s1">&#39;capacity_factor&#39;</span><span class="p">:</span> <span class="mf">1.2</span><span class="p">,</span>
-<span class="lineno">216</span>
-<span class="lineno">217</span>                        <span class="s1">&#39;train_loader&#39;</span><span class="p">:</span> <span class="s1">&#39;shuffled_train_loader&#39;</span><span class="p">,</span>
-<span class="lineno">218</span>                        <span class="s1">&#39;valid_loader&#39;</span><span class="p">:</span> <span class="s1">&#39;shuffled_valid_loader&#39;</span><span class="p">,</span>
-<span class="lineno">219</span>
-<span class="lineno">220</span>                        <span class="s1">&#39;seq_len&#39;</span><span class="p">:</span> <span class="mi">64</span><span class="p">,</span>
-<span class="lineno">221</span>                        <span class="s1">&#39;epochs&#39;</span><span class="p">:</span> <span class="mi">128</span><span class="p">,</span>
-<span class="lineno">222</span>                        <span class="s1">&#39;batch_size&#39;</span><span class="p">:</span> <span class="mi">32</span><span class="p">,</span>
-<span class="lineno">223</span>                        <span class="s1">&#39;inner_iterations&#39;</span><span class="p">:</span> <span class="mi">25</span><span class="p">,</span>
-<span class="lineno">224</span>                        <span class="p">})</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">206</span>                       <span class="p">{</span><span class="s1">&#39;tokenizer&#39;</span><span class="p">:</span> <span class="s1">&#39;character&#39;</span><span class="p">,</span>
+<span class="lineno">207</span>                        <span class="s1">&#39;text&#39;</span><span class="p">:</span> <span class="s1">&#39;tiny_shakespeare&#39;</span><span class="p">,</span>
+<span class="lineno">208</span>                        <span class="s1">&#39;optimizer.learning_rate&#39;</span><span class="p">:</span> <span class="mf">1.</span><span class="p">,</span>
+<span class="lineno">209</span>                        <span class="s1">&#39;optimizer.optimizer&#39;</span><span class="p">:</span> <span class="s1">&#39;Noam&#39;</span><span class="p">,</span>
+<span class="lineno">210</span>                        <span class="s1">&#39;prompt&#39;</span><span class="p">:</span> <span class="s1">&#39;It is&#39;</span><span class="p">,</span>
+<span class="lineno">211</span>                        <span class="s1">&#39;prompt_separator&#39;</span><span class="p">:</span> <span class="s1">&#39;&#39;</span><span class="p">,</span>
+<span class="lineno">212</span>
+<span class="lineno">213</span>                        <span class="s1">&#39;transformer&#39;</span><span class="p">:</span> <span class="s1">&#39;switch_transformer&#39;</span><span class="p">,</span>
+<span class="lineno">214</span>                        <span class="s1">&#39;n_experts&#39;</span><span class="p">:</span> <span class="mi">4</span><span class="p">,</span>
+<span class="lineno">215</span>
+<span class="lineno">216</span>                        <span class="s1">&#39;drop_tokens&#39;</span><span class="p">:</span> <span class="kc">True</span><span class="p">,</span>
+<span class="lineno">217</span>                        <span class="s1">&#39;capacity_factor&#39;</span><span class="p">:</span> <span class="mf">1.2</span><span class="p">,</span>
+<span class="lineno">218</span>
+<span class="lineno">219</span>                        <span class="s1">&#39;train_loader&#39;</span><span class="p">:</span> <span class="s1">&#39;shuffled_train_loader&#39;</span><span class="p">,</span>
+<span class="lineno">220</span>                        <span class="s1">&#39;valid_loader&#39;</span><span class="p">:</span> <span class="s1">&#39;shuffled_valid_loader&#39;</span><span class="p">,</span>
+<span class="lineno">221</span>
+<span class="lineno">222</span>                        <span class="s1">&#39;seq_len&#39;</span><span class="p">:</span> <span class="mi">64</span><span class="p">,</span>
+<span class="lineno">223</span>                        <span class="s1">&#39;epochs&#39;</span><span class="p">:</span> <span class="mi">128</span><span class="p">,</span>
+<span class="lineno">224</span>                        <span class="s1">&#39;batch_size&#39;</span><span class="p">:</span> <span class="mi">32</span><span class="p">,</span>
+<span class="lineno">225</span>                        <span class="s1">&#39;inner_iterations&#39;</span><span class="p">:</span> <span class="mi">25</span><span class="p">,</span>
+<span class="lineno">226</span>                        <span class="p">})</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-55'>
@@ -748,7 +749,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Set models for saving and loading</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">227</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">add_pytorch_models</span><span class="p">({</span><span class="s1">&#39;model&#39;</span><span class="p">:</span> <span class="n">conf</span><span class="o">.</span><span class="n">model</span><span class="p">})</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">229</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">add_pytorch_models</span><span class="p">({</span><span class="s1">&#39;model&#39;</span><span class="p">:</span> <span class="n">conf</span><span class="o">.</span><span class="n">model</span><span class="p">})</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-56'>
@@ -759,7 +760,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p>Start the experiment</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">230</span>    <span class="k">with</span> <span class="n">experiment</span><span class="o">.</span><span class="n">start</span><span class="p">():</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">232</span>    <span class="k">with</span> <span class="n">experiment</span><span class="o">.</span><span class="n">start</span><span class="p">():</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-57'>
@@ -770,7 +771,7 @@ set to something small like $\alpha = 0.01$.</p>
             <p><code>TrainValidConfigs.run</code></p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">232</span>        <span class="n">conf</span><span class="o">.</span><span class="n">run</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">234</span>        <span class="n">conf</span><span class="o">.</span><span class="n">run</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-58'>
@@ -781,8 +782,8 @@ set to something small like $\alpha = 0.01$.</p>
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">236</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
-<span class="lineno">237</span>    <span class="n">main</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">238</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
+<span class="lineno">239</span>    <span class="n">main</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='footer'>
diff --git a/docs/transformers/switch/index.html b/docs/transformers/switch/index.html
index 49b8ed49..3559ddc9 100644
--- a/docs/transformers/switch/index.html
+++ b/docs/transformers/switch/index.html
@@ -90,15 +90,15 @@ In a distributed setup you would have each FFN (each very large) on a different
 discusses dropping tokens when routing is not balanced.</p>
 <p>Here&rsquo;s <a href="experiment.html">the training code</a> and a notebook for training a switch transformer on Tiny Shakespeare dataset.</p>
 <p><a href="https://colab.research.google.com/github/labmlai/annotated_deep_learning_paper_implementations/blob/master/labml_nn/transformers/switch/experiment.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg" /></a>
-<a href="https://app.labml.ai/run/c4656c605b9311eba13d0242ac1c0002"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>
+<a href="https://app.labml.ai/run/353770ce177c11ecaa5fb74452424f46"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>
         </div>
         <div class='code'>
             <div class="highlight"><pre><span class="lineno">40</span><span></span><span class="kn">import</span> <span class="nn">torch</span>
 <span class="lineno">41</span><span class="kn">from</span> <span class="nn">torch</span> <span class="kn">import</span> <span class="n">nn</span>
 <span class="lineno">42</span>
 <span class="lineno">43</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
-<span class="lineno">44</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.mha</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
-<span class="lineno">45</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.feed_forward</span> <span class="kn">import</span> <span class="n">FeedForward</span>
+<span class="lineno">44</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.feed_forward</span> <span class="kn">import</span> <span class="n">FeedForward</span>
+<span class="lineno">45</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.mha</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
 <span class="lineno">46</span><span class="kn">from</span> <span class="nn">labml_nn.utils</span> <span class="kn">import</span> <span class="n">clone_module_list</span></pre></div>
         </div>
     </div>
@@ -244,11 +244,10 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-11'>#</a>
             </div>
-            <p>Scale the inputs to the experts by the routing probabilities</p>
+            <p>Get indexes of tokens going to each expert</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">105</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_scale_prob</span><span class="p">:</span>
-<span class="lineno">106</span>            <span class="n">factor</span> <span class="o">=</span> <span class="n">route_prob_max</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">105</span>        <span class="n">indexes_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">eq</span><span class="p">(</span><span class="n">routes</span><span class="p">,</span> <span class="n">i</span><span class="p">)</span><span class="o">.</span><span class="n">nonzero</span><span class="p">(</span><span class="n">as_tuple</span><span class="o">=</span><span class="kc">True</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">)]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-12'>
@@ -256,11 +255,10 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-12'>#</a>
             </div>
-            <p>Don&rsquo;t scale the values but multiply by $\frac{p}{\hat{p}} = 1$ so that the gradients flow</p>
+            <p>Initialize an empty tensor to store outputs</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">108</span>        <span class="k">else</span><span class="p">:</span>
-<span class="lineno">109</span>            <span class="n">factor</span> <span class="o">=</span> <span class="n">route_prob_max</span> <span class="o">/</span> <span class="n">route_prob_max</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">108</span>        <span class="n">final_output</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">new_zeros</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-13'>
@@ -268,39 +266,6 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-13'>#</a>
             </div>
-            <p>Multiply by the scaling factor</p>
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">111</span>        <span class="n">x</span> <span class="o">=</span> <span class="n">x</span> <span class="o">*</span> <span class="n">factor</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-14'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-14'>#</a>
-            </div>
-            <p>Get indexes of tokens going to each expert</p>
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">114</span>        <span class="n">indexes_list</span> <span class="o">=</span> <span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">eq</span><span class="p">(</span><span class="n">routes</span><span class="p">,</span> <span class="n">i</span><span class="p">)</span><span class="o">.</span><span class="n">nonzero</span><span class="p">(</span><span class="n">as_tuple</span><span class="o">=</span><span class="kc">True</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">)]</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-15'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-15'>#</a>
-            </div>
-            <p>Initialize an empty tensor to store outputs</p>
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">117</span>        <span class="n">final_output</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">new_zeros</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">)</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-16'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-16'>#</a>
-            </div>
             <p>Capacity of each expert.
 <script type="math/tex; mode=display">\mathrm{expert\;capacity} =
 \frac{\mathrm{tokens\;per\;batch}}{\mathrm{number\;of\;experts}}
@@ -308,7 +273,40 @@ We route to the expert with highest probability</p>
 </p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">123</span>        <span class="n">capacity</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">capacity_factor</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="o">/</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">114</span>        <span class="n">capacity</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">capacity_factor</span> <span class="o">*</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="o">/</span> <span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">)</span></pre></div>
+        </div>
+    </div>
+    <div class='section' id='section-14'>
+        <div class='docs'>
+            <div class='section-link'>
+                <a href='#section-14'>#</a>
+            </div>
+            <p>Number of tokens routed to each expert.</p>
+        </div>
+        <div class='code'>
+            <div class="highlight"><pre><span class="lineno">116</span>        <span class="n">counts</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">new_tensor</span><span class="p">([</span><span class="nb">len</span><span class="p">(</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">])</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">)])</span></pre></div>
+        </div>
+    </div>
+    <div class='section' id='section-15'>
+        <div class='docs'>
+            <div class='section-link'>
+                <a href='#section-15'>#</a>
+            </div>
+            <p>Initialize an empty list of dropped tokens</p>
+        </div>
+        <div class='code'>
+            <div class="highlight"><pre><span class="lineno">119</span>        <span class="n">dropped</span> <span class="o">=</span> <span class="p">[]</span></pre></div>
+        </div>
+    </div>
+    <div class='section' id='section-16'>
+        <div class='docs'>
+            <div class='section-link'>
+                <a href='#section-16'>#</a>
+            </div>
+            <p>Only drop tokens if <code>drop_tokens</code> is <code>True</code>.</p>
+        </div>
+        <div class='code'>
+            <div class="highlight"><pre><span class="lineno">121</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop_tokens</span><span class="p">:</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-17'>
@@ -316,10 +314,10 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-17'>#</a>
             </div>
-            <p>Number of tokens routed to each expert.</p>
+            <p>Drop tokens in each of the experts</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">125</span>        <span class="n">counts</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">new_tensor</span><span class="p">([</span><span class="nb">len</span><span class="p">(</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">])</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">)])</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">123</span>            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-18'>
@@ -327,10 +325,11 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-18'>#</a>
             </div>
-            <p>Initialize an empty list of dropped tokens</p>
+            <p>Ignore if the expert is not over capacity</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">128</span>        <span class="n">dropped</span> <span class="o">=</span> <span class="p">[]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">125</span>                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">])</span> <span class="o">&lt;=</span> <span class="n">capacity</span><span class="p">:</span>
+<span class="lineno">126</span>                    <span class="k">continue</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-19'>
@@ -338,10 +337,10 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-19'>#</a>
             </div>
-            <p>Only drop tokens if <code>drop_tokens</code> is <code>True</code>.</p>
+            <p>Shuffle indexes before dropping</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">130</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">drop_tokens</span><span class="p">:</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">128</span>                <span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="n">torch</span><span class="o">.</span><span class="n">randperm</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">]))]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-20'>
@@ -349,10 +348,10 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-20'>#</a>
             </div>
-            <p>Drop tokens in each of the experts</p>
+            <p>Collect the tokens over capacity as dropped tokens</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">132</span>            <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">130</span>                <span class="n">dropped</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="n">capacity</span><span class="p">:])</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-21'>
@@ -360,11 +359,10 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-21'>#</a>
             </div>
-            <p>Ignore if the expert is not over capacity</p>
+            <p>Keep only the tokens upto the capacity of the expert</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">134</span>                <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">])</span> <span class="o">&lt;=</span> <span class="n">capacity</span><span class="p">:</span>
-<span class="lineno">135</span>                    <span class="k">continue</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">132</span>                <span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">][:</span><span class="n">capacity</span><span class="p">]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-22'>
@@ -372,10 +370,10 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-22'>#</a>
             </div>
-            <p>Shuffle indexes before dropping</p>
+            <p>Get outputs of the expert FFNs</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">137</span>                <span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="n">torch</span><span class="o">.</span><span class="n">randperm</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">]))]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">135</span>        <span class="n">expert_output</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">experts</span><span class="p">[</span><span class="n">i</span><span class="p">](</span><span class="n">x</span><span class="p">[</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">],</span> <span class="p">:])</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">)]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-23'>
@@ -383,10 +381,11 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-23'>#</a>
             </div>
-            <p>Collect the tokens over capacity as dropped tokens</p>
+            <p>Assign to final output</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">139</span>                <span class="n">dropped</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="n">capacity</span><span class="p">:])</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">138</span>        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">):</span>
+<span class="lineno">139</span>            <span class="n">final_output</span><span class="p">[</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">],</span> <span class="p">:]</span> <span class="o">=</span> <span class="n">expert_output</span><span class="p">[</span><span class="n">i</span><span class="p">]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-24'>
@@ -394,10 +393,14 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-24'>#</a>
             </div>
-            <p>Keep only the tokens upto the capacity of the expert</p>
+            <p>Pass through the dropped tokens</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">141</span>                <span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">][:</span><span class="n">capacity</span><span class="p">]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">142</span>        <span class="k">if</span> <span class="n">dropped</span><span class="p">:</span>
+<span class="lineno">143</span>            <span class="n">dropped</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span><span class="n">dropped</span><span class="p">)</span>
+<span class="lineno">144</span>            <span class="n">final_output</span><span class="p">[</span><span class="n">dropped</span><span class="p">,</span> <span class="p">:]</span> <span class="o">=</span> <span class="n">x</span><span class="p">[</span><span class="n">dropped</span><span class="p">,</span> <span class="p">:]</span>
+<span class="lineno">145</span>
+<span class="lineno">146</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_scale_prob</span><span class="p">:</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-25'>
@@ -405,10 +408,11 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-25'>#</a>
             </div>
-            <p>Get outputs of the expert FFNs</p>
+            <p>Multiply by the expert outputs by the probabilities $y = p_i(x) E_i(x)$</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">144</span>        <span class="n">route_outputs</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">experts</span><span class="p">[</span><span class="n">i</span><span class="p">](</span><span class="n">x</span><span class="p">[</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">],</span> <span class="p">:])</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">)]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">148</span>            <span class="n">final_output</span> <span class="o">=</span> <span class="n">final_output</span> <span class="o">*</span> <span class="n">route_prob_max</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span>
+<span class="lineno">149</span>        <span class="k">else</span><span class="p">:</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-26'>
@@ -416,11 +420,11 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-26'>#</a>
             </div>
-            <p>Assign to final output</p>
+            <p>Don&rsquo;t scale the values but multiply by $\frac{p}{\hat{p}} = 1$ so that the gradients flow
+(this is something we experimented with).</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">147</span>        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">n_experts</span><span class="p">):</span>
-<span class="lineno">148</span>            <span class="n">final_output</span><span class="p">[</span><span class="n">indexes_list</span><span class="p">[</span><span class="n">i</span><span class="p">],</span> <span class="p">:]</span> <span class="o">=</span> <span class="n">route_outputs</span><span class="p">[</span><span class="n">i</span><span class="p">]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">152</span>            <span class="n">final_output</span> <span class="o">=</span> <span class="n">final_output</span> <span class="o">*</span> <span class="p">(</span><span class="n">route_prob_max</span> <span class="o">/</span> <span class="n">route_prob_max</span><span class="o">.</span><span class="n">detach</span><span class="p">())</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-27'>
@@ -428,12 +432,10 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-27'>#</a>
             </div>
-            <p>Pass through the dropped tokens</p>
+            <p>Change the shape of the final output back to <code>[seq_len, batch_size, d_model]</code></p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">151</span>        <span class="k">if</span> <span class="n">dropped</span><span class="p">:</span>
-<span class="lineno">152</span>            <span class="n">dropped</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span><span class="n">dropped</span><span class="p">)</span>
-<span class="lineno">153</span>            <span class="n">final_output</span><span class="p">[</span><span class="n">dropped</span><span class="p">,</span> <span class="p">:]</span> <span class="o">=</span> <span class="n">x</span><span class="p">[</span><span class="n">dropped</span><span class="p">,</span> <span class="p">:]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">155</span>        <span class="n">final_output</span> <span class="o">=</span> <span class="n">final_output</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">seq_len</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">d_model</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-28'>
@@ -441,17 +443,6 @@ We route to the expert with highest probability</p>
             <div class='section-link'>
                 <a href='#section-28'>#</a>
             </div>
-            <p>Change the shape of the final output back to <code>[seq_len, batch_size, d_model]</code></p>
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">156</span>        <span class="n">final_output</span> <span class="o">=</span> <span class="n">final_output</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">seq_len</span><span class="p">,</span> <span class="n">batch_size</span><span class="p">,</span> <span class="n">d_model</span><span class="p">)</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-29'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-29'>#</a>
-            </div>
             <p>Return
 * the final output
 * number of tokens routed to each expert
@@ -460,26 +451,26 @@ We route to the expert with highest probability</p>
 These are used for the load balancing loss and logging</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">164</span>        <span class="k">return</span> <span class="n">final_output</span><span class="p">,</span> <span class="n">counts</span><span class="p">,</span> <span class="n">route_prob</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="nb">len</span><span class="p">(</span><span class="n">dropped</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">163</span>        <span class="k">return</span> <span class="n">final_output</span><span class="p">,</span> <span class="n">counts</span><span class="p">,</span> <span class="n">route_prob</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="mi">0</span><span class="p">),</span> <span class="nb">len</span><span class="p">(</span><span class="n">dropped</span><span class="p">)</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-30'>
+    <div class='section' id='section-29'>
         <div class='docs doc-strings'>
             <div class='section-link'>
-                <a href='#section-30'>#</a>
+                <a href='#section-29'>#</a>
             </div>
             <h1>Switch Transformer Block</h1>
 <p>This is the same as <a href="../models.html#TransformerLayer">normal transformer block</a>
 with handling extra outputs of switch feedforward module.</p>
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">167</span><span class="k">class</span> <span class="nc">SwitchTransformerLayer</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">166</span><span class="k">class</span> <span class="nc">SwitchTransformerLayer</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-31'>
+    <div class='section' id='section-30'>
         <div class='docs doc-strings'>
             <div class='section-link'>
-                <a href='#section-31'>#</a>
+                <a href='#section-30'>#</a>
             </div>
             <ul>
 <li><code>d_model</code> is the token embedding size</li>
@@ -496,10 +487,10 @@ with handling extra outputs of switch feedforward module.</p>
 <span class="lineno">178</span>                 <span class="n">dropout_prob</span><span class="p">:</span> <span class="nb">float</span><span class="p">):</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-32'>
+    <div class='section' id='section-31'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-32'>#</a>
+                <a href='#section-31'>#</a>
             </div>
             
         </div>
@@ -513,23 +504,23 @@ with handling extra outputs of switch feedforward module.</p>
 <span class="lineno">191</span>        <span class="bp">self</span><span class="o">.</span><span class="n">norm_ff</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">([</span><span class="n">d_model</span><span class="p">])</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-33'>
+    <div class='section' id='section-32'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-33'>#</a>
+                <a href='#section-32'>#</a>
             </div>
             
         </div>
         <div class='code'>
             <div class="highlight"><pre><span class="lineno">193</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span>
-<span class="lineno">194</span>                 <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
-<span class="lineno">195</span>                 <span class="n">mask</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+<span class="lineno">194</span>                <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
+<span class="lineno">195</span>                <span class="n">mask</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-34'>
+    <div class='section' id='section-33'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-34'>#</a>
+                <a href='#section-33'>#</a>
             </div>
             <p>Normalize the vectors before doing self attention</p>
         </div>
@@ -537,10 +528,10 @@ with handling extra outputs of switch feedforward module.</p>
             <div class="highlight"><pre><span class="lineno">197</span>        <span class="n">z</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_self_attn</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-35'>
+    <div class='section' id='section-34'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-35'>#</a>
+                <a href='#section-34'>#</a>
             </div>
             <p>Run through self attention, i.e. keys and values are from self</p>
         </div>
@@ -548,10 +539,10 @@ with handling extra outputs of switch feedforward module.</p>
             <div class="highlight"><pre><span class="lineno">199</span>        <span class="n">self_attn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">z</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">z</span><span class="p">,</span> <span class="n">value</span><span class="o">=</span><span class="n">z</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="n">mask</span><span class="p">)</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-36'>
+    <div class='section' id='section-35'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-36'>#</a>
+                <a href='#section-35'>#</a>
             </div>
             <p>Add the self attention results</p>
         </div>
@@ -559,10 +550,10 @@ with handling extra outputs of switch feedforward module.</p>
             <div class="highlight"><pre><span class="lineno">201</span>        <span class="n">x</span> <span class="o">=</span> <span class="n">x</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">self_attn</span><span class="p">)</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-37'>
+    <div class='section' id='section-36'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-37'>#</a>
+                <a href='#section-36'>#</a>
             </div>
             <p>Normalize for feed-forward</p>
         </div>
@@ -570,10 +561,10 @@ with handling extra outputs of switch feedforward module.</p>
             <div class="highlight"><pre><span class="lineno">204</span>        <span class="n">z</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_ff</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-38'>
+    <div class='section' id='section-37'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-38'>#</a>
+                <a href='#section-37'>#</a>
             </div>
             <p>Pass through the switching feed-forward network</p>
         </div>
@@ -581,10 +572,10 @@ with handling extra outputs of switch feedforward module.</p>
             <div class="highlight"><pre><span class="lineno">206</span>        <span class="n">ff</span><span class="p">,</span> <span class="n">counts</span><span class="p">,</span> <span class="n">route_prob</span><span class="p">,</span> <span class="n">n_dropped</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span><span class="p">(</span><span class="n">z</span><span class="p">)</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-39'>
+    <div class='section' id='section-38'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-39'>#</a>
+                <a href='#section-38'>#</a>
             </div>
             <p>Add the feed-forward results back</p>
         </div>
@@ -594,10 +585,10 @@ with handling extra outputs of switch feedforward module.</p>
 <span class="lineno">210</span>        <span class="k">return</span> <span class="n">x</span><span class="p">,</span> <span class="n">counts</span><span class="p">,</span> <span class="n">route_prob</span><span class="p">,</span> <span class="n">n_dropped</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-40'>
+    <div class='section' id='section-39'>
         <div class='docs doc-strings'>
             <div class='section-link'>
-                <a href='#section-40'>#</a>
+                <a href='#section-39'>#</a>
             </div>
             <h2>Switch Transformer</h2>
         </div>
@@ -605,10 +596,10 @@ with handling extra outputs of switch feedforward module.</p>
             <div class="highlight"><pre><span class="lineno">213</span><span class="k">class</span> <span class="nc">SwitchTransformer</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-41'>
+    <div class='section' id='section-40'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-41'>#</a>
+                <a href='#section-40'>#</a>
             </div>
             
         </div>
@@ -617,10 +608,10 @@ with handling extra outputs of switch feedforward module.</p>
 <span class="lineno">219</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-42'>
+    <div class='section' id='section-41'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-42'>#</a>
+                <a href='#section-41'>#</a>
             </div>
             <p>Make copies of the transformer layer</p>
         </div>
@@ -628,10 +619,10 @@ with handling extra outputs of switch feedforward module.</p>
             <div class="highlight"><pre><span class="lineno">221</span>        <span class="bp">self</span><span class="o">.</span><span class="n">layers</span> <span class="o">=</span> <span class="n">clone_module_list</span><span class="p">(</span><span class="n">layer</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">)</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-43'>
+    <div class='section' id='section-42'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-43'>#</a>
+                <a href='#section-42'>#</a>
             </div>
             <p>Final normalization layer</p>
         </div>
@@ -639,10 +630,10 @@ with handling extra outputs of switch feedforward module.</p>
             <div class="highlight"><pre><span class="lineno">223</span>        <span class="bp">self</span><span class="o">.</span><span class="n">norm</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">([</span><span class="n">layer</span><span class="o">.</span><span class="n">size</span><span class="p">])</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-44'>
+    <div class='section' id='section-43'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-44'>#</a>
+                <a href='#section-43'>#</a>
             </div>
             
         </div>
@@ -650,10 +641,10 @@ with handling extra outputs of switch feedforward module.</p>
             <div class="highlight"><pre><span class="lineno">225</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">mask</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-45'>
+    <div class='section' id='section-44'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-45'>#</a>
+                <a href='#section-44'>#</a>
             </div>
             <p>Run through each transformer layer</p>
         </div>
@@ -666,10 +657,10 @@ with handling extra outputs of switch feedforward module.</p>
 <span class="lineno">232</span>            <span class="n">n_dropped</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">n_d</span><span class="p">)</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-46'>
+    <div class='section' id='section-45'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-46'>#</a>
+                <a href='#section-45'>#</a>
             </div>
             <p>Finally, normalize the vectors</p>
         </div>
@@ -677,10 +668,10 @@ with handling extra outputs of switch feedforward module.</p>
             <div class="highlight"><pre><span class="lineno">234</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-47'>
+    <div class='section' id='section-46'>
         <div class='docs'>
             <div class='section-link'>
-                <a href='#section-47'>#</a>
+                <a href='#section-46'>#</a>
             </div>
             
         </div>
diff --git a/docs/transformers/switch/readme.html b/docs/transformers/switch/readme.html
index b0e19b9a..bef22c2d 100644
--- a/docs/transformers/switch/readme.html
+++ b/docs/transformers/switch/readme.html
@@ -90,7 +90,7 @@ In a distributed setup you would have each FFN (each very large) on a different
 discusses dropping tokens when routing is not balanced.</p>
 <p>Here&rsquo;s <a href="experiment.html">the training code</a> and a notebook for training a switch transformer on Tiny Shakespeare dataset.</p>
 <p><a href="https://colab.research.google.com/github/labmlai/annotated_deep_learning_paper_implementations/blob/master/labml_nn/transformers/switch/experiment.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg" /></a>
-<a href="https://app.labml.ai/run/c4656c605b9311eba13d0242ac1c0002"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>
+<a href="https://app.labml.ai/run/353770ce177c11ecaa5fb74452424f46"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>
         </div>
         <div class='code'>
             
diff --git a/labml_nn/transformers/switch/__init__.py b/labml_nn/transformers/switch/__init__.py
index f6aefdce..6cd82fec 100644
--- a/labml_nn/transformers/switch/__init__.py
+++ b/labml_nn/transformers/switch/__init__.py
@@ -143,16 +143,13 @@ class SwitchFeedForward(Module):
             dropped = torch.cat(dropped)
             final_output[dropped, :] = x[dropped, :]
 
-        # Scale the outputs of the the experts by the routing probabilities
         if self.is_scale_prob:
-            factor = route_prob_max
-        # Don't scale the values but multiply by $\frac{p}{\hat{p}} = 1$ so that the gradients flow
-        # (this is just something we experimented with)
+            # Multiply by the expert outputs by the probabilities $y = p_i(x) E_i(x)$
+            final_output = final_output * route_prob_max.view(-1, 1)
         else:
-            factor = route_prob_max / route_prob_max.detach()
-
-        # Multiply by the scaling factor
-        final_output = final_output * factor.view(-1, 1)
+            # Don't scale the values but multiply by $\frac{p}{\hat{p}} = 1$ so that the gradients flow
+            # (this is something we experimented with).
+            final_output = final_output * (route_prob_max / route_prob_max.detach()).view(-1, 1)
 
         # Change the shape of the final output back to `[seq_len, batch_size, d_model]`
         final_output = final_output.view(seq_len, batch_size, d_model)
diff --git a/papers/2109.02869.pdf b/papers/2109.02869.pdf
new file mode 100644
index 00000000..eab2b355
Binary files /dev/null and b/papers/2109.02869.pdf differ
diff --git a/setup.py b/setup.py
index ca0d6d1b..83704786 100644
--- a/setup.py
+++ b/setup.py
@@ -5,7 +5,7 @@ with open("readme.md", "r") as f:
 
 setuptools.setup(
     name='labml-nn',
-    version='0.4.112',
+    version='0.4.113',
     author="Varuna Jayasiri, Nipun Wijerathne",
     author_email="vpjayasiri@gmail.com, hnipun@gmail.com",
     description="🧑‍🏫 Implementations/tutorials of deep learning papers with side-by-side notes 📝; including transformers (original, xl, switch, feedback, vit), optimizers (adam, radam, adabelief), gans(dcgan, cyclegan, stylegan2), 🎮 reinforcement learning (ppo, dqn), capsnet, distillation, etc. 🧠",