diff --git a/docs/experiments/nlp_autoregression.html b/docs/experiments/nlp_autoregression.html
index 9108f515..e35de1a6 100644
--- a/docs/experiments/nlp_autoregression.html
+++ b/docs/experiments/nlp_autoregression.html
@@ -357,15 +357,15 @@
         </div>
     </div>
     <div class='section' id='section-23'>
-        <div class='docs doc-strings'>
+        <div class='docs'>
             <div class='section-link'>
                 <a href='#section-23'>#</a>
             </div>
-            <h3>Initialization</h3>
+            <p>Whether to log model parameters and gradients (once per epoch). These are summarized stats per layer, but it could still lead to many indicators for very deep networks. </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">94</span>    <span class="k">def</span> <span class="nf">init</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">97</span>    <span class="n">is_log_model_params_grads</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-24'>
@@ -373,24 +373,23 @@
             <div class='section-link'>
                 <a href='#section-24'>#</a>
             </div>
-            <p>Set tracker configurations </p>
+            <p>Whether to log model activations (once per epoch). These are summarized stats per layer, but it could still lead to many indicators for very deep networks. </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">99</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;accuracy.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span>
-<span class="lineno">100</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;loss.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">102</span>    <span class="n">is_log_model_activations</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-25'>
-        <div class='docs'>
+        <div class='docs doc-strings'>
             <div class='section-link'>
                 <a href='#section-25'>#</a>
             </div>
-            <p>Add a hook to log module outputs </p>
+            <h3>Initialization</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">102</span>        <span class="n">hook_model_outputs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="s1">&#39;model&#39;</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">104</span>    <span class="k">def</span> <span class="nf">init</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-26'>
@@ -398,23 +397,24 @@
             <div class='section-link'>
                 <a href='#section-26'>#</a>
             </div>
-            <p>Add accuracy as a state module. The name is probably confusing, since it&#x27;s meant to store states between training and validation for RNNs. This will keep the accuracy metric stats separate for training and validation. </p>
+            <p>Set tracker configurations </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">107</span>        <span class="bp">self</span><span class="o">.</span><span class="n">state_modules</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="p">]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">109</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;accuracy.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span>
+<span class="lineno">110</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;loss.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-27'>
-        <div class='docs doc-strings'>
+        <div class='docs'>
             <div class='section-link'>
                 <a href='#section-27'>#</a>
             </div>
-            <p>Override to calculate and log other metrics </p>
+            <p>Add a hook to log module outputs </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">109</span>    <span class="k">def</span> <span class="nf">other_metrics</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">output</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">target</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">112</span>        <span class="n">hook_model_outputs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="s1">&#39;model&#39;</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-28'>
@@ -422,10 +422,11 @@
             <div class='section-link'>
                 <a href='#section-28'>#</a>
             </div>
-            
+            <p>Add accuracy as a state module. The name is probably confusing, since it&#x27;s meant to store states between training and validation for RNNs. This will keep the accuracy metric stats separate for training and validation. </p>
+
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">111</span>        <span class="k">pass</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">117</span>        <span class="bp">self</span><span class="o">.</span><span class="n">state_modules</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="p">]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-29'>
@@ -433,11 +434,11 @@
             <div class='section-link'>
                 <a href='#section-29'>#</a>
             </div>
-            <h3>Training or validation step</h3>
+            <p>Override to calculate and log other metrics </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">113</span>    <span class="k">def</span> <span class="nf">step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">:</span> <span class="nb">any</span><span class="p">,</span> <span class="n">batch_idx</span><span class="p">:</span> <span class="n">BatchIndex</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">119</span>    <span class="k">def</span> <span class="nf">other_metrics</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">output</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">target</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-30'>
@@ -445,23 +446,22 @@
             <div class='section-link'>
                 <a href='#section-30'>#</a>
             </div>
-            <p>Set training/eval mode </p>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">119</span>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">train</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">121</span>        <span class="k">pass</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-31'>
-        <div class='docs'>
+        <div class='docs doc-strings'>
             <div class='section-link'>
                 <a href='#section-31'>#</a>
             </div>
-            <p>Move data to the device </p>
+            <h3>Training or validation step</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">122</span>        <span class="n">data</span><span class="p">,</span> <span class="n">target</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="n">batch</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">123</span>    <span class="k">def</span> <span class="nf">step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">:</span> <span class="nb">any</span><span class="p">,</span> <span class="n">batch_idx</span><span class="p">:</span> <span class="n">BatchIndex</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-32'>
@@ -469,12 +469,11 @@
             <div class='section-link'>
                 <a href='#section-32'>#</a>
             </div>
-            <p>Update global step (number of tokens processed) when in training mode </p>
+            <p>Set training/eval mode </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">125</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
-<span class="lineno">126</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add_global_step</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">129</span>        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">train</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-33'>
@@ -482,11 +481,11 @@
             <div class='section-link'>
                 <a href='#section-33'>#</a>
             </div>
-            <p>Whether to capture model outputs </p>
+            <p>Move data to the device </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">129</span>        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">is_log_activations</span><span class="o">=</span><span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">132</span>        <span class="n">data</span><span class="p">,</span> <span class="n">target</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="n">batch</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-34'>
@@ -494,11 +493,12 @@
             <div class='section-link'>
                 <a href='#section-34'>#</a>
             </div>
-            <p>Get model outputs. It&#x27;s returning a tuple for states when using RNNs. This is not implemented yet. 😜 </p>
+            <p>Update global step (number of tokens processed) when in training mode </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">133</span>            <span class="n">output</span><span class="p">,</span> <span class="o">*</span><span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">135</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
+<span class="lineno">136</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add_global_step</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-35'>
@@ -506,12 +506,11 @@
             <div class='section-link'>
                 <a href='#section-35'>#</a>
             </div>
-            <p>Calculate and log loss </p>
+            <p>Whether to capture model outputs </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">136</span>        <span class="n">loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss_func</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
-<span class="lineno">137</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.&quot;</span><span class="p">,</span> <span class="n">loss</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">139</span>        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">is_log_activations</span><span class="o">=</span><span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_log_model_activations</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-36'>
@@ -519,14 +518,11 @@
             <div class='section-link'>
                 <a href='#section-36'>#</a>
             </div>
-            <p>Calculate and log accuracy </p>
+            <p>Get model outputs. It&#x27;s returning a tuple for states when using RNNs. This is not implemented yet. 😜 </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">140</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
-<span class="lineno">141</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="o">.</span><span class="n">track</span><span class="p">()</span>
-<span class="lineno">142</span>
-<span class="lineno">143</span>        <span class="bp">self</span><span class="o">.</span><span class="n">other_metrics</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">143</span>            <span class="n">output</span><span class="p">,</span> <span class="o">*</span><span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-37'>
@@ -534,11 +530,12 @@
             <div class='section-link'>
                 <a href='#section-37'>#</a>
             </div>
-            <p>Train the model </p>
+            <p>Calculate and log loss </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">146</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">146</span>        <span class="n">loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss_func</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
+<span class="lineno">147</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.&quot;</span><span class="p">,</span> <span class="n">loss</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-38'>
@@ -546,11 +543,14 @@
             <div class='section-link'>
                 <a href='#section-38'>#</a>
             </div>
-            <p>Calculate gradients </p>
+            <p>Calculate and log accuracy </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">148</span>            <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">150</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
+<span class="lineno">151</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="o">.</span><span class="n">track</span><span class="p">()</span>
+<span class="lineno">152</span>
+<span class="lineno">153</span>        <span class="bp">self</span><span class="o">.</span><span class="n">other_metrics</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-39'>
@@ -558,11 +558,11 @@
             <div class='section-link'>
                 <a href='#section-39'>#</a>
             </div>
-            <p>Clip gradients </p>
+            <p>Train the model </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">150</span>            <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">clip_grad_norm_</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">max_norm</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">grad_norm_clip</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">156</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-40'>
@@ -570,11 +570,11 @@
             <div class='section-link'>
                 <a href='#section-40'>#</a>
             </div>
-            <p>Take optimizer step </p>
+            <p>Calculate gradients </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">152</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">158</span>            <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-41'>
@@ -582,12 +582,11 @@
             <div class='section-link'>
                 <a href='#section-41'>#</a>
             </div>
-            <p>Log the model parameters and gradients on last batch of every epoch </p>
+            <p>Clip gradients </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">154</span>            <span class="k">if</span> <span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">:</span>
-<span class="lineno">155</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;model&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">160</span>            <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">clip_grad_norm_</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">max_norm</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">grad_norm_clip</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-42'>
@@ -595,11 +594,11 @@
             <div class='section-link'>
                 <a href='#section-42'>#</a>
             </div>
-            <p>Clear the gradients </p>
+            <p>Take optimizer step </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">157</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">162</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-43'>
@@ -607,23 +606,24 @@
             <div class='section-link'>
                 <a href='#section-43'>#</a>
             </div>
-            <p>Save the tracked metrics </p>
+            <p>Log the model parameters and gradients on last batch of every epoch </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">160</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">save</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">164</span>            <span class="k">if</span> <span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_log_model_params_grads</span><span class="p">:</span>
+<span class="lineno">165</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;model&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-44'>
-        <div class='docs doc-strings'>
+        <div class='docs'>
             <div class='section-link'>
                 <a href='#section-44'>#</a>
             </div>
-            <h3>Sampling function to generate samples periodically while training</h3>
+            <p>Clear the gradients </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">162</span>    <span class="k">def</span> <span class="nf">sample</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">167</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-45'>
@@ -631,23 +631,23 @@
             <div class='section-link'>
                 <a href='#section-45'>#</a>
             </div>
-            <p>Starting prompt </p>
+            <p>Save the tracked metrics </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">168</span>        <span class="n">prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">170</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">save</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-46'>
-        <div class='docs'>
+        <div class='docs doc-strings'>
             <div class='section-link'>
                 <a href='#section-46'>#</a>
             </div>
-            <p>Collect output for printing </p>
+            <h3>Sampling function to generate samples periodically while training</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">170</span>        <span class="n">log</span> <span class="o">=</span> <span class="p">[(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">Text</span><span class="o">.</span><span class="n">subtle</span><span class="p">)]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">172</span>    <span class="k">def</span> <span class="nf">sample</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-47'>
@@ -655,11 +655,11 @@
             <div class='section-link'>
                 <a href='#section-47'>#</a>
             </div>
-            <p>Sample 25 tokens </p>
+            <p>Starting prompt </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">172</span>        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">monit</span><span class="o">.</span><span class="n">iterate</span><span class="p">(</span><span class="s1">&#39;Sample&#39;</span><span class="p">,</span> <span class="mi">25</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">178</span>        <span class="n">prompt</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-48'>
@@ -667,12 +667,11 @@
             <div class='section-link'>
                 <a href='#section-48'>#</a>
             </div>
-            <p>Tokenize the prompt </p>
+            <p>Collect output for printing </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">174</span>            <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">text_to_i</span><span class="p">(</span><span class="n">prompt</span><span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
-<span class="lineno">175</span>            <span class="n">data</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">180</span>        <span class="n">log</span> <span class="o">=</span> <span class="p">[(</span><span class="n">prompt</span><span class="p">,</span> <span class="n">Text</span><span class="o">.</span><span class="n">subtle</span><span class="p">)]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-49'>
@@ -680,11 +679,11 @@
             <div class='section-link'>
                 <a href='#section-49'>#</a>
             </div>
-            <p>Get the model output </p>
+            <p>Sample 25 tokens </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">177</span>            <span class="n">output</span><span class="p">,</span> <span class="o">*</span><span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">182</span>        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="n">monit</span><span class="o">.</span><span class="n">iterate</span><span class="p">(</span><span class="s1">&#39;Sample&#39;</span><span class="p">,</span> <span class="mi">25</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-50'>
@@ -692,11 +691,12 @@
             <div class='section-link'>
                 <a href='#section-50'>#</a>
             </div>
-            <p>Get the model prediction (greedy) </p>
+            <p>Tokenize the prompt </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">179</span>            <span class="n">output</span> <span class="o">=</span> <span class="n">output</span><span class="o">.</span><span class="n">argmax</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">squeeze</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">184</span>            <span class="n">data</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">text_to_i</span><span class="p">(</span><span class="n">prompt</span><span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+<span class="lineno">185</span>            <span class="n">data</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-51'>
@@ -704,11 +704,11 @@
             <div class='section-link'>
                 <a href='#section-51'>#</a>
             </div>
-            <p>Add the prediction to prompt </p>
+            <p>Get the model output </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">181</span>            <span class="n">prompt</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt_separator</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">itos</span><span class="p">[</span><span class="n">output</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">187</span>            <span class="n">output</span><span class="p">,</span> <span class="o">*</span><span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-52'>
@@ -716,11 +716,11 @@
             <div class='section-link'>
                 <a href='#section-52'>#</a>
             </div>
-            <p>Add the prediction for logging </p>
+            <p>Get the model prediction (greedy) </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">183</span>            <span class="n">log</span> <span class="o">+=</span> <span class="p">[(</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt_separator</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">itos</span><span class="p">[</span><span class="n">output</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]],</span> <span class="n">Text</span><span class="o">.</span><span class="n">value</span><span class="p">)]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">189</span>            <span class="n">output</span> <span class="o">=</span> <span class="n">output</span><span class="o">.</span><span class="n">argmax</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">squeeze</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-53'>
@@ -728,24 +728,23 @@
             <div class='section-link'>
                 <a href='#section-53'>#</a>
             </div>
-            <p>Print the sampled output </p>
+            <p>Add the prediction to prompt </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">186</span>        <span class="n">logger</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">log</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">191</span>            <span class="n">prompt</span> <span class="o">+=</span> <span class="bp">self</span><span class="o">.</span><span class="n">prompt_separator</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">itos</span><span class="p">[</span><span class="n">output</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-54'>
-        <div class='docs doc-strings'>
+        <div class='docs'>
             <div class='section-link'>
                 <a href='#section-54'>#</a>
             </div>
-            <h3>Default <a href="../optimizers/configs.html">optimizer configurations</a></h3>
+            <p>Add the prediction for logging </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">189</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">optimizer</span><span class="p">)</span>
-<span class="lineno">190</span><span class="k">def</span> <span class="nf">_optimizer</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">193</span>            <span class="n">log</span> <span class="o">+=</span> <span class="p">[(</span><span class="bp">self</span><span class="o">.</span><span class="n">prompt_separator</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">itos</span><span class="p">[</span><span class="n">output</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]],</span> <span class="n">Text</span><span class="o">.</span><span class="n">value</span><span class="p">)]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-55'>
@@ -753,15 +752,11 @@
             <div class='section-link'>
                 <a href='#section-55'>#</a>
             </div>
-            
+            <p>Print the sampled output </p>
+
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">195</span>    <span class="n">optimizer</span> <span class="o">=</span> <span class="n">OptimizerConfigs</span><span class="p">()</span>
-<span class="lineno">196</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">parameters</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">()</span>
-<span class="lineno">197</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="s1">&#39;Adam&#39;</span>
-<span class="lineno">198</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">d_model</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span>
-<span class="lineno">199</span>
-<span class="lineno">200</span>    <span class="k">return</span> <span class="n">optimizer</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">196</span>        <span class="n">logger</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">log</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-56'>
@@ -769,12 +764,12 @@
             <div class='section-link'>
                 <a href='#section-56'>#</a>
             </div>
-            <p> Get number of tokens</p>
+            <h3>Default <a href="../optimizers/configs.html">optimizer configurations</a></h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">203</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">n_tokens</span><span class="p">)</span>
-<span class="lineno">204</span><span class="k">def</span> <span class="nf">_n_tokens</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">199</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">optimizer</span><span class="p">)</span>
+<span class="lineno">200</span><span class="k">def</span> <span class="nf">_optimizer</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-57'>
@@ -785,7 +780,12 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">208</span>    <span class="k">return</span> <span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">n_tokens</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">205</span>    <span class="n">optimizer</span> <span class="o">=</span> <span class="n">OptimizerConfigs</span><span class="p">()</span>
+<span class="lineno">206</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">parameters</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">()</span>
+<span class="lineno">207</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="s1">&#39;Adam&#39;</span>
+<span class="lineno">208</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">d_model</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span>
+<span class="lineno">209</span>
+<span class="lineno">210</span>    <span class="k">return</span> <span class="n">optimizer</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-58'>
@@ -793,15 +793,12 @@
             <div class='section-link'>
                 <a href='#section-58'>#</a>
             </div>
-            <h3>Basic english tokenizer</h3>
-<p>We use character level tokenizer in this experiment. You can switch by setting,</p>
-<pre class="highlight lang-"><code><span></span><span class="s1">&#39;tokenizer&#39;</span><span class="p">:</span> <span class="s1">&#39;basic_english&#39;</span><span class="p">,</span></code></pre>
-<p>in the configurations dictionary when starting the experiment.</p>
+            <p> Get number of tokens</p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">211</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">)</span>
-<span class="lineno">212</span><span class="k">def</span> <span class="nf">basic_english</span><span class="p">():</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">213</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">n_tokens</span><span class="p">)</span>
+<span class="lineno">214</span><span class="k">def</span> <span class="nf">_n_tokens</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-59'>
@@ -812,8 +809,7 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">226</span>    <span class="kn">from</span> <span class="nn">torchtext.data</span> <span class="kn">import</span> <span class="n">get_tokenizer</span>
-<span class="lineno">227</span>    <span class="k">return</span> <span class="n">get_tokenizer</span><span class="p">(</span><span class="s1">&#39;basic_english&#39;</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">218</span>    <span class="k">return</span> <span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">n_tokens</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-60'>
@@ -821,11 +817,15 @@
             <div class='section-link'>
                 <a href='#section-60'>#</a>
             </div>
-            <h3>Character level tokenizer</h3>
+            <h3>Basic english tokenizer</h3>
+<p>We use character level tokenizer in this experiment. You can switch by setting,</p>
+<pre class="highlight lang-"><code><span></span><span class="s1">&#39;tokenizer&#39;</span><span class="p">:</span> <span class="s1">&#39;basic_english&#39;</span><span class="p">,</span></code></pre>
+<p>in the configurations dictionary when starting the experiment.</p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">230</span><span class="k">def</span> <span class="nf">character_tokenizer</span><span class="p">(</span><span class="n">x</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">221</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">)</span>
+<span class="lineno">222</span><span class="k">def</span> <span class="nf">basic_english</span><span class="p">():</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-61'>
@@ -836,7 +836,8 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">234</span>    <span class="k">return</span> <span class="nb">list</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">236</span>    <span class="kn">from</span> <span class="nn">torchtext.data</span> <span class="kn">import</span> <span class="n">get_tokenizer</span>
+<span class="lineno">237</span>    <span class="k">return</span> <span class="n">get_tokenizer</span><span class="p">(</span><span class="s1">&#39;basic_english&#39;</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-62'>
@@ -844,12 +845,11 @@
             <div class='section-link'>
                 <a href='#section-62'>#</a>
             </div>
-            <h3>Character level tokenizer configuration</h3>
+            <h3>Character level tokenizer</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">237</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">)</span>
-<span class="lineno">238</span><span class="k">def</span> <span class="nf">character</span><span class="p">():</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">240</span><span class="k">def</span> <span class="nf">character_tokenizer</span><span class="p">(</span><span class="n">x</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-63'>
@@ -860,7 +860,7 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">242</span>    <span class="k">return</span> <span class="n">character_tokenizer</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">244</span>    <span class="k">return</span> <span class="nb">list</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-64'>
@@ -868,13 +868,12 @@
             <div class='section-link'>
                 <a href='#section-64'>#</a>
             </div>
-            <h3>Tiny Shakespeare dataset</h3>
-<p>It will download from the url if not present</p>
+            <h3>Character level tokenizer configuration</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">245</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">text</span><span class="p">)</span>
-<span class="lineno">246</span><span class="k">def</span> <span class="nf">tiny_shakespeare</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">247</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">)</span>
+<span class="lineno">248</span><span class="k">def</span> <span class="nf">character</span><span class="p">():</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-65'>
@@ -885,10 +884,7 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">252</span>    <span class="k">return</span> <span class="n">TextFileDataset</span><span class="p">(</span>
-<span class="lineno">253</span>        <span class="n">lab</span><span class="o">.</span><span class="n">get_data_path</span><span class="p">()</span> <span class="o">/</span> <span class="s1">&#39;tiny_shakespeare.txt&#39;</span><span class="p">,</span>
-<span class="lineno">254</span>        <span class="n">c</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span>
-<span class="lineno">255</span>        <span class="n">url</span><span class="o">=</span><span class="s1">&#39;https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt&#39;</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">252</span>    <span class="k">return</span> <span class="n">character_tokenizer</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-66'>
@@ -896,12 +892,13 @@
             <div class='section-link'>
                 <a href='#section-66'>#</a>
             </div>
-            <h3>Sequential training data loader</h3>
+            <h3>Tiny Shakespeare dataset</h3>
+<p>It will download from the url if not present</p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">258</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">train_loader</span><span class="p">)</span>
-<span class="lineno">259</span><span class="k">def</span> <span class="nf">sequential_train_loader</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">255</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">text</span><span class="p">)</span>
+<span class="lineno">256</span><span class="k">def</span> <span class="nf">tiny_shakespeare</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-67'>
@@ -912,10 +909,10 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">263</span>    <span class="k">return</span> <span class="n">SequentialDataLoader</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">train</span><span class="p">,</span>
-<span class="lineno">264</span>                                <span class="n">dataset</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="p">,</span>
-<span class="lineno">265</span>                                <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
-<span class="lineno">266</span>                                <span class="n">seq_len</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">262</span>    <span class="k">return</span> <span class="n">TextFileDataset</span><span class="p">(</span>
+<span class="lineno">263</span>        <span class="n">lab</span><span class="o">.</span><span class="n">get_data_path</span><span class="p">()</span> <span class="o">/</span> <span class="s1">&#39;tiny_shakespeare.txt&#39;</span><span class="p">,</span>
+<span class="lineno">264</span>        <span class="n">c</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">,</span>
+<span class="lineno">265</span>        <span class="n">url</span><span class="o">=</span><span class="s1">&#39;https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt&#39;</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-68'>
@@ -923,12 +920,12 @@
             <div class='section-link'>
                 <a href='#section-68'>#</a>
             </div>
-            <h3>Sequential validation data loader</h3>
+            <h3>Sequential training data loader</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">269</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">valid_loader</span><span class="p">)</span>
-<span class="lineno">270</span><span class="k">def</span> <span class="nf">sequential_valid_loader</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">268</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">train_loader</span><span class="p">)</span>
+<span class="lineno">269</span><span class="k">def</span> <span class="nf">sequential_train_loader</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-69'>
@@ -939,10 +936,10 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">274</span>    <span class="k">return</span> <span class="n">SequentialDataLoader</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">valid</span><span class="p">,</span>
-<span class="lineno">275</span>                                <span class="n">dataset</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="p">,</span>
-<span class="lineno">276</span>                                <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
-<span class="lineno">277</span>                                <span class="n">seq_len</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">273</span>    <span class="k">return</span> <span class="n">SequentialDataLoader</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">train</span><span class="p">,</span>
+<span class="lineno">274</span>                                <span class="n">dataset</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="p">,</span>
+<span class="lineno">275</span>                                <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+<span class="lineno">276</span>                                <span class="n">seq_len</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-70'>
@@ -950,13 +947,12 @@
             <div class='section-link'>
                 <a href='#section-70'>#</a>
             </div>
-            <h3>Transpose batch</h3>
-<p><code class="highlight"><span></span><span class="n">DataLoader</span></code>
- collects the batches on the first dimension. We need to transpose it to be sequence first.</p>
+            <h3>Sequential validation data loader</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">280</span><span class="k">def</span> <span class="nf">transpose_batch</span><span class="p">(</span><span class="n">batch</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">279</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">valid_loader</span><span class="p">)</span>
+<span class="lineno">280</span><span class="k">def</span> <span class="nf">sequential_valid_loader</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-71'>
@@ -967,36 +963,35 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">288</span>    <span class="n">transposed_data</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">zip</span><span class="p">(</span><span class="o">*</span><span class="n">batch</span><span class="p">))</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">284</span>    <span class="k">return</span> <span class="n">SequentialDataLoader</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">valid</span><span class="p">,</span>
+<span class="lineno">285</span>                                <span class="n">dataset</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="p">,</span>
+<span class="lineno">286</span>                                <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+<span class="lineno">287</span>                                <span class="n">seq_len</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-72'>
-        <div class='docs'>
+        <div class='docs doc-strings'>
             <div class='section-link'>
                 <a href='#section-72'>#</a>
             </div>
-            <p>Stack the batch along the second dimension <code class="highlight"><span></span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span></code>
- </p>
+            <h3>Transpose batch</h3>
+<p><code class="highlight"><span></span><span class="n">DataLoader</span></code>
+ collects the batches on the first dimension. We need to transpose it to be sequence first.</p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">290</span>    <span class="n">src</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">transposed_data</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
-<span class="lineno">291</span>    <span class="n">tgt</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">transposed_data</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
-<span class="lineno">292</span>
-<span class="lineno">293</span>    <span class="k">return</span> <span class="n">src</span><span class="p">,</span> <span class="n">tgt</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">290</span><span class="k">def</span> <span class="nf">transpose_batch</span><span class="p">(</span><span class="n">batch</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-73'>
-        <div class='docs doc-strings'>
+        <div class='docs'>
             <div class='section-link'>
                 <a href='#section-73'>#</a>
             </div>
-            <h3>Shuffled training data loader</h3>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">296</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">train_loader</span><span class="p">)</span>
-<span class="lineno">297</span><span class="k">def</span> <span class="nf">shuffled_train_loader</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">298</span>    <span class="n">transposed_data</span> <span class="o">=</span> <span class="nb">list</span><span class="p">(</span><span class="nb">zip</span><span class="p">(</span><span class="o">*</span><span class="n">batch</span><span class="p">))</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-74'>
@@ -1004,18 +999,15 @@
             <div class='section-link'>
                 <a href='#section-74'>#</a>
             </div>
-            
+            <p>Stack the batch along the second dimension <code class="highlight"><span></span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span></code>
+ </p>
+
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">301</span>    <span class="n">dataset</span> <span class="o">=</span> <span class="n">SequentialUnBatchedDataset</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">train</span><span class="p">,</span>
-<span class="lineno">302</span>                                         <span class="n">dataset</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="p">,</span>
-<span class="lineno">303</span>                                         <span class="n">seq_len</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">)</span>
-<span class="lineno">304</span>    <span class="n">sampler</span> <span class="o">=</span> <span class="n">RandomSampler</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">replacement</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">dataloader_shuffle_with_replacement</span><span class="p">)</span>
-<span class="lineno">305</span>
-<span class="lineno">306</span>    <span class="k">return</span> <span class="n">DataLoader</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span>
-<span class="lineno">307</span>                      <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
-<span class="lineno">308</span>                      <span class="n">collate_fn</span><span class="o">=</span><span class="n">transpose_batch</span><span class="p">,</span>
-<span class="lineno">309</span>                      <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">300</span>    <span class="n">src</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">transposed_data</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+<span class="lineno">301</span>    <span class="n">tgt</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">transposed_data</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+<span class="lineno">302</span>
+<span class="lineno">303</span>    <span class="k">return</span> <span class="n">src</span><span class="p">,</span> <span class="n">tgt</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-75'>
@@ -1023,12 +1015,12 @@
             <div class='section-link'>
                 <a href='#section-75'>#</a>
             </div>
-            <h3>Shuffled validation data loader</h3>
+            <h3>Shuffled training data loader</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">312</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">valid_loader</span><span class="p">)</span>
-<span class="lineno">313</span><span class="k">def</span> <span class="nf">shuffled_valid_loader</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">306</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">train_loader</span><span class="p">)</span>
+<span class="lineno">307</span><span class="k">def</span> <span class="nf">shuffled_train_loader</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-76'>
@@ -1039,15 +1031,47 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">317</span>    <span class="n">dataset</span> <span class="o">=</span> <span class="n">SequentialUnBatchedDataset</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">valid</span><span class="p">,</span>
-<span class="lineno">318</span>                                         <span class="n">dataset</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="p">,</span>
-<span class="lineno">319</span>                                         <span class="n">seq_len</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">)</span>
-<span class="lineno">320</span>    <span class="n">sampler</span> <span class="o">=</span> <span class="n">RandomSampler</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">replacement</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">dataloader_shuffle_with_replacement</span><span class="p">)</span>
-<span class="lineno">321</span>
-<span class="lineno">322</span>    <span class="k">return</span> <span class="n">DataLoader</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span>
-<span class="lineno">323</span>                      <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
-<span class="lineno">324</span>                      <span class="n">collate_fn</span><span class="o">=</span><span class="n">transpose_batch</span><span class="p">,</span>
-<span class="lineno">325</span>                      <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">311</span>    <span class="n">dataset</span> <span class="o">=</span> <span class="n">SequentialUnBatchedDataset</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">train</span><span class="p">,</span>
+<span class="lineno">312</span>                                         <span class="n">dataset</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="p">,</span>
+<span class="lineno">313</span>                                         <span class="n">seq_len</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">)</span>
+<span class="lineno">314</span>    <span class="n">sampler</span> <span class="o">=</span> <span class="n">RandomSampler</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">replacement</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">dataloader_shuffle_with_replacement</span><span class="p">)</span>
+<span class="lineno">315</span>
+<span class="lineno">316</span>    <span class="k">return</span> <span class="n">DataLoader</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span>
+<span class="lineno">317</span>                      <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+<span class="lineno">318</span>                      <span class="n">collate_fn</span><span class="o">=</span><span class="n">transpose_batch</span><span class="p">,</span>
+<span class="lineno">319</span>                      <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">)</span></pre></div>
+        </div>
+    </div>
+    <div class='section' id='section-77'>
+        <div class='docs doc-strings'>
+            <div class='section-link'>
+                <a href='#section-77'>#</a>
+            </div>
+            <h3>Shuffled validation data loader</h3>
+
+        </div>
+        <div class='code'>
+            <div class="highlight"><pre><span class="lineno">322</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="o">.</span><span class="n">valid_loader</span><span class="p">)</span>
+<span class="lineno">323</span><span class="k">def</span> <span class="nf">shuffled_valid_loader</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
+        </div>
+    </div>
+    <div class='section' id='section-78'>
+        <div class='docs'>
+            <div class='section-link'>
+                <a href='#section-78'>#</a>
+            </div>
+            
+        </div>
+        <div class='code'>
+            <div class="highlight"><pre><span class="lineno">327</span>    <span class="n">dataset</span> <span class="o">=</span> <span class="n">SequentialUnBatchedDataset</span><span class="p">(</span><span class="n">text</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="o">.</span><span class="n">valid</span><span class="p">,</span>
+<span class="lineno">328</span>                                         <span class="n">dataset</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">text</span><span class="p">,</span>
+<span class="lineno">329</span>                                         <span class="n">seq_len</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">)</span>
+<span class="lineno">330</span>    <span class="n">sampler</span> <span class="o">=</span> <span class="n">RandomSampler</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span> <span class="n">replacement</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">dataloader_shuffle_with_replacement</span><span class="p">)</span>
+<span class="lineno">331</span>
+<span class="lineno">332</span>    <span class="k">return</span> <span class="n">DataLoader</span><span class="p">(</span><span class="n">dataset</span><span class="p">,</span>
+<span class="lineno">333</span>                      <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+<span class="lineno">334</span>                      <span class="n">collate_fn</span><span class="o">=</span><span class="n">transpose_batch</span><span class="p">,</span>
+<span class="lineno">335</span>                      <span class="n">sampler</span><span class="o">=</span><span class="n">sampler</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='footer'>
diff --git a/docs/experiments/nlp_classification.html b/docs/experiments/nlp_classification.html
index 917dcda1..6433cefc 100644
--- a/docs/experiments/nlp_classification.html
+++ b/docs/experiments/nlp_classification.html
@@ -298,15 +298,15 @@
         </div>
     </div>
     <div class='section' id='section-18'>
-        <div class='docs doc-strings'>
+        <div class='docs'>
             <div class='section-link'>
                 <a href='#section-18'>#</a>
             </div>
-            <h3>Initialization</h3>
+            <p>Whether to log model parameters and gradients (once per epoch). These are summarized stats per layer, but it could still lead to many indicators for very deep networks. </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">77</span>    <span class="k">def</span> <span class="nf">init</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">80</span>    <span class="n">is_log_model_params_grads</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-19'>
@@ -314,24 +314,23 @@
             <div class='section-link'>
                 <a href='#section-19'>#</a>
             </div>
-            <p>Set tracker configurations </p>
+            <p>Whether to log model activations (once per epoch). These are summarized stats per layer, but it could still lead to many indicators for very deep networks. </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">82</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;accuracy.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span>
-<span class="lineno">83</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;loss.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">85</span>    <span class="n">is_log_model_activations</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-20'>
-        <div class='docs'>
+        <div class='docs doc-strings'>
             <div class='section-link'>
                 <a href='#section-20'>#</a>
             </div>
-            <p>Add a hook to log module outputs </p>
+            <h3>Initialization</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">85</span>        <span class="n">hook_model_outputs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="s1">&#39;model&#39;</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">87</span>    <span class="k">def</span> <span class="nf">init</span><span class="p">(</span><span class="bp">self</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-21'>
@@ -339,23 +338,24 @@
             <div class='section-link'>
                 <a href='#section-21'>#</a>
             </div>
-            <p>Add accuracy as a state module. The name is probably confusing, since it&#x27;s meant to store states between training and validation for RNNs. This will keep the accuracy metric stats separate for training and validation. </p>
+            <p>Set tracker configurations </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">90</span>        <span class="bp">self</span><span class="o">.</span><span class="n">state_modules</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="p">]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">92</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;accuracy.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span>
+<span class="lineno">93</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">set_scalar</span><span class="p">(</span><span class="s2">&quot;loss.*&quot;</span><span class="p">,</span> <span class="kc">True</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-22'>
-        <div class='docs doc-strings'>
+        <div class='docs'>
             <div class='section-link'>
                 <a href='#section-22'>#</a>
             </div>
-            <h3>Training or validation step</h3>
+            <p>Add a hook to log module outputs </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">92</span>    <span class="k">def</span> <span class="nf">step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">:</span> <span class="nb">any</span><span class="p">,</span> <span class="n">batch_idx</span><span class="p">:</span> <span class="n">BatchIndex</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">95</span>        <span class="n">hook_model_outputs</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="s1">&#39;model&#39;</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-23'>
@@ -363,24 +363,23 @@
             <div class='section-link'>
                 <a href='#section-23'>#</a>
             </div>
-            <p>Move data to the device </p>
+            <p>Add accuracy as a state module. The name is probably confusing, since it&#x27;s meant to store states between training and validation for RNNs. This will keep the accuracy metric stats separate for training and validation. </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">98</span>        <span class="n">data</span><span class="p">,</span> <span class="n">target</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="n">batch</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">100</span>        <span class="bp">self</span><span class="o">.</span><span class="n">state_modules</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="p">]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-24'>
-        <div class='docs'>
+        <div class='docs doc-strings'>
             <div class='section-link'>
                 <a href='#section-24'>#</a>
             </div>
-            <p>Update global step (number of tokens processed) when in training mode </p>
+            <h3>Training or validation step</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">101</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
-<span class="lineno">102</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add_global_step</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">102</span>    <span class="k">def</span> <span class="nf">step</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">:</span> <span class="nb">any</span><span class="p">,</span> <span class="n">batch_idx</span><span class="p">:</span> <span class="n">BatchIndex</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-25'>
@@ -388,11 +387,11 @@
             <div class='section-link'>
                 <a href='#section-25'>#</a>
             </div>
-            <p>Whether to capture model outputs </p>
+            <p>Move data to the device </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">105</span>        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">is_log_activations</span><span class="o">=</span><span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">108</span>        <span class="n">data</span><span class="p">,</span> <span class="n">target</span> <span class="o">=</span> <span class="n">batch</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">),</span> <span class="n">batch</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-26'>
@@ -400,11 +399,12 @@
             <div class='section-link'>
                 <a href='#section-26'>#</a>
             </div>
-            <p>Get model outputs. It&#x27;s returning a tuple for states when using RNNs. This is not implemented yet. 😜 </p>
+            <p>Update global step (number of tokens processed) when in training mode </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">109</span>            <span class="n">output</span><span class="p">,</span> <span class="o">*</span><span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">111</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span>
+<span class="lineno">112</span>            <span class="n">tracker</span><span class="o">.</span><span class="n">add_global_step</span><span class="p">(</span><span class="n">data</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-27'>
@@ -412,12 +412,11 @@
             <div class='section-link'>
                 <a href='#section-27'>#</a>
             </div>
-            <p>Calculate and log loss </p>
+            <p>Whether to capture model outputs </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">112</span>        <span class="n">loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss_func</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
-<span class="lineno">113</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.&quot;</span><span class="p">,</span> <span class="n">loss</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">115</span>        <span class="k">with</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">is_log_activations</span><span class="o">=</span><span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_log_model_activations</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-28'>
@@ -425,12 +424,11 @@
             <div class='section-link'>
                 <a href='#section-28'>#</a>
             </div>
-            <p>Calculate and log accuracy </p>
+            <p>Get model outputs. It&#x27;s returning a tuple for states when using RNNs. This is not implemented yet. 😜 </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">116</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
-<span class="lineno">117</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="o">.</span><span class="n">track</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">119</span>            <span class="n">output</span><span class="p">,</span> <span class="o">*</span><span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">(</span><span class="n">data</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-29'>
@@ -438,11 +436,12 @@
             <div class='section-link'>
                 <a href='#section-29'>#</a>
             </div>
-            <p>Train the model </p>
+            <p>Calculate and log loss </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">120</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">122</span>        <span class="n">loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">loss_func</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
+<span class="lineno">123</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s2">&quot;loss.&quot;</span><span class="p">,</span> <span class="n">loss</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-30'>
@@ -450,11 +449,12 @@
             <div class='section-link'>
                 <a href='#section-30'>#</a>
             </div>
-            <p>Calculate gradients </p>
+            <p>Calculate and log accuracy </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">122</span>            <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">126</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="p">(</span><span class="n">output</span><span class="p">,</span> <span class="n">target</span><span class="p">)</span>
+<span class="lineno">127</span>        <span class="bp">self</span><span class="o">.</span><span class="n">accuracy</span><span class="o">.</span><span class="n">track</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-31'>
@@ -462,11 +462,11 @@
             <div class='section-link'>
                 <a href='#section-31'>#</a>
             </div>
-            <p>Clip gradients </p>
+            <p>Train the model </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">124</span>            <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">clip_grad_norm_</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">max_norm</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">grad_norm_clip</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">130</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mode</span><span class="o">.</span><span class="n">is_train</span><span class="p">:</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-32'>
@@ -474,11 +474,11 @@
             <div class='section-link'>
                 <a href='#section-32'>#</a>
             </div>
-            <p>Take optimizer step </p>
+            <p>Calculate gradients </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">126</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">132</span>            <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-33'>
@@ -486,12 +486,11 @@
             <div class='section-link'>
                 <a href='#section-33'>#</a>
             </div>
-            <p>Log the model parameters and gradients on last batch of every epoch </p>
+            <p>Clip gradients </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">128</span>            <span class="k">if</span> <span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span><span class="p">:</span>
-<span class="lineno">129</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;model&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">134</span>            <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">utils</span><span class="o">.</span><span class="n">clip_grad_norm_</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">max_norm</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">grad_norm_clip</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-34'>
@@ -499,11 +498,11 @@
             <div class='section-link'>
                 <a href='#section-34'>#</a>
             </div>
-            <p>Clear the gradients </p>
+            <p>Take optimizer step </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">131</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">136</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-35'>
@@ -511,24 +510,24 @@
             <div class='section-link'>
                 <a href='#section-35'>#</a>
             </div>
-            <p>Save the tracked metrics </p>
+            <p>Log the model parameters and gradients on last batch of every epoch </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">134</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">save</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">138</span>            <span class="k">if</span> <span class="n">batch_idx</span><span class="o">.</span><span class="n">is_last</span> <span class="ow">and</span> <span class="bp">self</span><span class="o">.</span><span class="n">is_log_model_params_grads</span><span class="p">:</span>
+<span class="lineno">139</span>                <span class="n">tracker</span><span class="o">.</span><span class="n">add</span><span class="p">(</span><span class="s1">&#39;model&#39;</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-36'>
-        <div class='docs doc-strings'>
+        <div class='docs'>
             <div class='section-link'>
                 <a href='#section-36'>#</a>
             </div>
-            <h3>Default <a href="../optimizers/configs.html">optimizer configurations</a></h3>
+            <p>Clear the gradients </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">137</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">optimizer</span><span class="p">)</span>
-<span class="lineno">138</span><span class="k">def</span> <span class="nf">_optimizer</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPClassificationConfigs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">141</span>            <span class="bp">self</span><span class="o">.</span><span class="n">optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-37'>
@@ -536,15 +535,11 @@
             <div class='section-link'>
                 <a href='#section-37'>#</a>
             </div>
-            
+            <p>Save the tracked metrics </p>
+
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">143</span>    <span class="n">optimizer</span> <span class="o">=</span> <span class="n">OptimizerConfigs</span><span class="p">()</span>
-<span class="lineno">144</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">parameters</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">()</span>
-<span class="lineno">145</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="s1">&#39;Adam&#39;</span>
-<span class="lineno">146</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">d_model</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span>
-<span class="lineno">147</span>
-<span class="lineno">148</span>    <span class="k">return</span> <span class="n">optimizer</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">144</span>        <span class="n">tracker</span><span class="o">.</span><span class="n">save</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-38'>
@@ -552,15 +547,12 @@
             <div class='section-link'>
                 <a href='#section-38'>#</a>
             </div>
-            <h3>Basic english tokenizer</h3>
-<p>We use character level tokenizer in this experiment. You can switch by setting,</p>
-<pre class="highlight lang-"><code><span></span><span class="s1">&#39;tokenizer&#39;</span><span class="p">:</span> <span class="s1">&#39;basic_english&#39;</span><span class="p">,</span></code></pre>
-<p>in the configurations dictionary when starting the experiment.</p>
+            <h3>Default <a href="../optimizers/configs.html">optimizer configurations</a></h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">151</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">)</span>
-<span class="lineno">152</span><span class="k">def</span> <span class="nf">basic_english</span><span class="p">():</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">147</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">optimizer</span><span class="p">)</span>
+<span class="lineno">148</span><span class="k">def</span> <span class="nf">_optimizer</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPClassificationConfigs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-39'>
@@ -571,8 +563,12 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">166</span>    <span class="kn">from</span> <span class="nn">torchtext.data</span> <span class="kn">import</span> <span class="n">get_tokenizer</span>
-<span class="lineno">167</span>    <span class="k">return</span> <span class="n">get_tokenizer</span><span class="p">(</span><span class="s1">&#39;basic_english&#39;</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">153</span>    <span class="n">optimizer</span> <span class="o">=</span> <span class="n">OptimizerConfigs</span><span class="p">()</span>
+<span class="lineno">154</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">parameters</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">()</span>
+<span class="lineno">155</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">optimizer</span> <span class="o">=</span> <span class="s1">&#39;Adam&#39;</span>
+<span class="lineno">156</span>    <span class="n">optimizer</span><span class="o">.</span><span class="n">d_model</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span>
+<span class="lineno">157</span>
+<span class="lineno">158</span>    <span class="k">return</span> <span class="n">optimizer</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-40'>
@@ -580,11 +576,15 @@
             <div class='section-link'>
                 <a href='#section-40'>#</a>
             </div>
-            <h3>Character level tokenizer</h3>
+            <h3>Basic english tokenizer</h3>
+<p>We use character level tokenizer in this experiment. You can switch by setting,</p>
+<pre class="highlight lang-"><code><span></span><span class="s1">&#39;tokenizer&#39;</span><span class="p">:</span> <span class="s1">&#39;basic_english&#39;</span><span class="p">,</span></code></pre>
+<p>in the configurations dictionary when starting the experiment.</p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">170</span><span class="k">def</span> <span class="nf">character_tokenizer</span><span class="p">(</span><span class="n">x</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">161</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">)</span>
+<span class="lineno">162</span><span class="k">def</span> <span class="nf">basic_english</span><span class="p">():</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-41'>
@@ -595,7 +595,8 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">174</span>    <span class="k">return</span> <span class="nb">list</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">176</span>    <span class="kn">from</span> <span class="nn">torchtext.data</span> <span class="kn">import</span> <span class="n">get_tokenizer</span>
+<span class="lineno">177</span>    <span class="k">return</span> <span class="n">get_tokenizer</span><span class="p">(</span><span class="s1">&#39;basic_english&#39;</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-42'>
@@ -603,12 +604,11 @@
             <div class='section-link'>
                 <a href='#section-42'>#</a>
             </div>
-            <p> Character level tokenizer configuration</p>
+            <h3>Character level tokenizer</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">177</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">)</span>
-<span class="lineno">178</span><span class="k">def</span> <span class="nf">character</span><span class="p">():</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">180</span><span class="k">def</span> <span class="nf">character_tokenizer</span><span class="p">(</span><span class="n">x</span><span class="p">:</span> <span class="nb">str</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-43'>
@@ -619,7 +619,7 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">182</span>    <span class="k">return</span> <span class="n">character_tokenizer</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">184</span>    <span class="k">return</span> <span class="nb">list</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-44'>
@@ -627,12 +627,12 @@
             <div class='section-link'>
                 <a href='#section-44'>#</a>
             </div>
-            <p> Get number of tokens</p>
+            <p> Character level tokenizer configuration</p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">185</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">n_tokens</span><span class="p">)</span>
-<span class="lineno">186</span><span class="k">def</span> <span class="nf">_n_tokens</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPClassificationConfigs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">187</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">)</span>
+<span class="lineno">188</span><span class="k">def</span> <span class="nf">character</span><span class="p">():</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-45'>
@@ -643,7 +643,7 @@
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">190</span>    <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">vocab</span><span class="p">)</span> <span class="o">+</span> <span class="mi">2</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">192</span>    <span class="k">return</span> <span class="n">character_tokenizer</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-46'>
@@ -651,17 +651,41 @@
             <div class='section-link'>
                 <a href='#section-46'>#</a>
             </div>
+            <p> Get number of tokens</p>
+
+        </div>
+        <div class='code'>
+            <div class="highlight"><pre><span class="lineno">195</span><span class="nd">@option</span><span class="p">(</span><span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">n_tokens</span><span class="p">)</span>
+<span class="lineno">196</span><span class="k">def</span> <span class="nf">_n_tokens</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPClassificationConfigs</span><span class="p">):</span></pre></div>
+        </div>
+    </div>
+    <div class='section' id='section-47'>
+        <div class='docs'>
+            <div class='section-link'>
+                <a href='#section-47'>#</a>
+            </div>
+            
+        </div>
+        <div class='code'>
+            <div class="highlight"><pre><span class="lineno">200</span>    <span class="k">return</span> <span class="nb">len</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">vocab</span><span class="p">)</span> <span class="o">+</span> <span class="mi">2</span></pre></div>
+        </div>
+    </div>
+    <div class='section' id='section-48'>
+        <div class='docs doc-strings'>
+            <div class='section-link'>
+                <a href='#section-48'>#</a>
+            </div>
             <h2>Function to load data into batches</h2>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">193</span><span class="k">class</span> <span class="nc">CollateFunc</span><span class="p">:</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">203</span><span class="k">class</span> <span class="nc">CollateFunc</span><span class="p">:</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-47'>
+    <div class='section' id='section-49'>
         <div class='docs doc-strings'>
             <div class='section-link'>
-                <a href='#section-47'>#</a>
+                <a href='#section-49'>#</a>
             </div>
             <ul><li><code class="highlight"><span></span><span class="n">tokenizer</span></code>
  is the tokenizer function </li>
@@ -678,36 +702,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">198</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">,</span> <span class="n">vocab</span><span class="p">:</span> <span class="n">Vocab</span><span class="p">,</span> <span class="n">seq_len</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">padding_token</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">classifier_token</span><span class="p">:</span> <span class="nb">int</span><span class="p">):</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-48'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-48'>#</a>
-            </div>
-            
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">206</span>        <span class="bp">self</span><span class="o">.</span><span class="n">classifier_token</span> <span class="o">=</span> <span class="n">classifier_token</span>
-<span class="lineno">207</span>        <span class="bp">self</span><span class="o">.</span><span class="n">padding_token</span> <span class="o">=</span> <span class="n">padding_token</span>
-<span class="lineno">208</span>        <span class="bp">self</span><span class="o">.</span><span class="n">seq_len</span> <span class="o">=</span> <span class="n">seq_len</span>
-<span class="lineno">209</span>        <span class="bp">self</span><span class="o">.</span><span class="n">vocab</span> <span class="o">=</span> <span class="n">vocab</span>
-<span class="lineno">210</span>        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-49'>
-        <div class='docs doc-strings'>
-            <div class='section-link'>
-                <a href='#section-49'>#</a>
-            </div>
-            <ul><li><code class="highlight"><span></span><span class="n">batch</span></code>
- is the batch of data collected by the <code class="highlight"><span></span><span class="n">DataLoader</span></code>
-</li></ul>
-
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">212</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">208</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">tokenizer</span><span class="p">,</span> <span class="n">vocab</span><span class="p">:</span> <span class="n">Vocab</span><span class="p">,</span> <span class="n">seq_len</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">padding_token</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">classifier_token</span><span class="p">:</span> <span class="nb">int</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-50'>
@@ -715,24 +710,28 @@
             <div class='section-link'>
                 <a href='#section-50'>#</a>
             </div>
-            <p>Input data tensor, initialized with <code class="highlight"><span></span><span class="n">padding_token</span></code>
- </p>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">218</span>        <span class="n">data</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">full</span><span class="p">((</span><span class="bp">self</span><span class="o">.</span><span class="n">seq_len</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">batch</span><span class="p">)),</span> <span class="bp">self</span><span class="o">.</span><span class="n">padding_token</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">long</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">216</span>        <span class="bp">self</span><span class="o">.</span><span class="n">classifier_token</span> <span class="o">=</span> <span class="n">classifier_token</span>
+<span class="lineno">217</span>        <span class="bp">self</span><span class="o">.</span><span class="n">padding_token</span> <span class="o">=</span> <span class="n">padding_token</span>
+<span class="lineno">218</span>        <span class="bp">self</span><span class="o">.</span><span class="n">seq_len</span> <span class="o">=</span> <span class="n">seq_len</span>
+<span class="lineno">219</span>        <span class="bp">self</span><span class="o">.</span><span class="n">vocab</span> <span class="o">=</span> <span class="n">vocab</span>
+<span class="lineno">220</span>        <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span> <span class="o">=</span> <span class="n">tokenizer</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-51'>
-        <div class='docs'>
+        <div class='docs doc-strings'>
             <div class='section-link'>
                 <a href='#section-51'>#</a>
             </div>
-            <p>Empty labels tensor </p>
+            <ul><li><code class="highlight"><span></span><span class="n">batch</span></code>
+ is the batch of data collected by the <code class="highlight"><span></span><span class="n">DataLoader</span></code>
+</li></ul>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">220</span>        <span class="n">labels</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">batch</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">long</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">222</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">batch</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-52'>
@@ -740,11 +739,12 @@
             <div class='section-link'>
                 <a href='#section-52'>#</a>
             </div>
-            <p>Loop through the samples </p>
+            <p>Input data tensor, initialized with <code class="highlight"><span></span><span class="n">padding_token</span></code>
+ </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">223</span>        <span class="k">for</span> <span class="p">(</span><span class="n">i</span><span class="p">,</span> <span class="p">(</span><span class="n">_label</span><span class="p">,</span> <span class="n">_text</span><span class="p">))</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">batch</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">228</span>        <span class="n">data</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">full</span><span class="p">((</span><span class="bp">self</span><span class="o">.</span><span class="n">seq_len</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">batch</span><span class="p">)),</span> <span class="bp">self</span><span class="o">.</span><span class="n">padding_token</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">long</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-53'>
@@ -752,11 +752,11 @@
             <div class='section-link'>
                 <a href='#section-53'>#</a>
             </div>
-            <p>Set the label </p>
+            <p>Empty labels tensor </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">225</span>            <span class="n">labels</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">_label</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">230</span>        <span class="n">labels</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">batch</span><span class="p">),</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">long</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-54'>
@@ -764,11 +764,11 @@
             <div class='section-link'>
                 <a href='#section-54'>#</a>
             </div>
-            <p>Tokenize the input text </p>
+            <p>Loop through the samples </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">227</span>            <span class="n">_text</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">vocab</span><span class="p">[</span><span class="n">token</span><span class="p">]</span> <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">_text</span><span class="p">)]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">233</span>        <span class="k">for</span> <span class="p">(</span><span class="n">i</span><span class="p">,</span> <span class="p">(</span><span class="n">_label</span><span class="p">,</span> <span class="n">_text</span><span class="p">))</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">batch</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-55'>
@@ -776,12 +776,11 @@
             <div class='section-link'>
                 <a href='#section-55'>#</a>
             </div>
-            <p>Truncate upto <code class="highlight"><span></span><span class="n">seq_len</span></code>
- </p>
+            <p>Set the label </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">229</span>            <span class="n">_text</span> <span class="o">=</span> <span class="n">_text</span><span class="p">[:</span><span class="bp">self</span><span class="o">.</span><span class="n">seq_len</span><span class="p">]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">235</span>            <span class="n">labels</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="nb">int</span><span class="p">(</span><span class="n">_label</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-56'>
@@ -789,11 +788,11 @@
             <div class='section-link'>
                 <a href='#section-56'>#</a>
             </div>
-            <p>Transpose and add to data </p>
+            <p>Tokenize the input text </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">231</span>            <span class="n">data</span><span class="p">[:</span><span class="nb">len</span><span class="p">(</span><span class="n">_text</span><span class="p">),</span> <span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">new_tensor</span><span class="p">(</span><span class="n">_text</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">237</span>            <span class="n">_text</span> <span class="o">=</span> <span class="p">[</span><span class="bp">self</span><span class="o">.</span><span class="n">vocab</span><span class="p">[</span><span class="n">token</span><span class="p">]</span> <span class="k">for</span> <span class="n">token</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">_text</span><span class="p">)]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-57'>
@@ -801,12 +800,12 @@
             <div class='section-link'>
                 <a href='#section-57'>#</a>
             </div>
-            <p>Set the final token in the sequence to <code class="highlight"><span></span><span class="p">[</span><span class="n">CLS</span><span class="p">]</span></code>
+            <p>Truncate upto <code class="highlight"><span></span><span class="n">seq_len</span></code>
  </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">234</span>        <span class="n">data</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">classifier_token</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">239</span>            <span class="n">_text</span> <span class="o">=</span> <span class="n">_text</span><span class="p">[:</span><span class="bp">self</span><span class="o">.</span><span class="n">seq_len</span><span class="p">]</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-58'>
@@ -814,17 +813,42 @@
             <div class='section-link'>
                 <a href='#section-58'>#</a>
             </div>
+            <p>Transpose and add to data </p>
+
+        </div>
+        <div class='code'>
+            <div class="highlight"><pre><span class="lineno">241</span>            <span class="n">data</span><span class="p">[:</span><span class="nb">len</span><span class="p">(</span><span class="n">_text</span><span class="p">),</span> <span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">data</span><span class="o">.</span><span class="n">new_tensor</span><span class="p">(</span><span class="n">_text</span><span class="p">)</span></pre></div>
+        </div>
+    </div>
+    <div class='section' id='section-59'>
+        <div class='docs'>
+            <div class='section-link'>
+                <a href='#section-59'>#</a>
+            </div>
+            <p>Set the final token in the sequence to <code class="highlight"><span></span><span class="p">[</span><span class="n">CLS</span><span class="p">]</span></code>
+ </p>
+
+        </div>
+        <div class='code'>
+            <div class="highlight"><pre><span class="lineno">244</span>        <span class="n">data</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="p">:]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">classifier_token</span></pre></div>
+        </div>
+    </div>
+    <div class='section' id='section-60'>
+        <div class='docs'>
+            <div class='section-link'>
+                <a href='#section-60'>#</a>
+            </div>
             <p> </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">237</span>        <span class="k">return</span> <span class="n">data</span><span class="p">,</span> <span class="n">labels</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">247</span>        <span class="k">return</span> <span class="n">data</span><span class="p">,</span> <span class="n">labels</span></pre></div>
         </div>
     </div>
-    <div class='section' id='section-59'>
+    <div class='section' id='section-61'>
         <div class='docs doc-strings'>
             <div class='section-link'>
-                <a href='#section-59'>#</a>
+                <a href='#section-61'>#</a>
             </div>
             <h3>AG News dataset</h3>
 <p>This loads the AG News dataset and the set the values for  <code class="highlight"><span></span><span class="n">n_classes</span></code>
@@ -835,36 +859,11 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">240</span><span class="nd">@option</span><span class="p">([</span><span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">n_classes</span><span class="p">,</span>
-<span class="lineno">241</span>         <span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">vocab</span><span class="p">,</span>
-<span class="lineno">242</span>         <span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">train_loader</span><span class="p">,</span>
-<span class="lineno">243</span>         <span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">valid_loader</span><span class="p">])</span>
-<span class="lineno">244</span><span class="k">def</span> <span class="nf">ag_news</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPClassificationConfigs</span><span class="p">):</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-60'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-60'>#</a>
-            </div>
-            <p>Get training and validation datasets </p>
-
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">253</span>    <span class="n">train</span><span class="p">,</span> <span class="n">valid</span> <span class="o">=</span> <span class="n">torchtext</span><span class="o">.</span><span class="n">datasets</span><span class="o">.</span><span class="n">AG_NEWS</span><span class="p">(</span><span class="n">root</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="n">lab</span><span class="o">.</span><span class="n">get_data_path</span><span class="p">()</span> <span class="o">/</span> <span class="s1">&#39;ag_news&#39;</span><span class="p">),</span> <span class="n">split</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;train&#39;</span><span class="p">,</span> <span class="s1">&#39;test&#39;</span><span class="p">))</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-61'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-61'>#</a>
-            </div>
-            <p>Load data to memory </p>
-
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">256</span>    <span class="k">with</span> <span class="n">monit</span><span class="o">.</span><span class="n">section</span><span class="p">(</span><span class="s1">&#39;Load data&#39;</span><span class="p">):</span>
-<span class="lineno">257</span>        <span class="kn">from</span> <span class="nn">labml_nn.utils</span> <span class="kn">import</span> <span class="n">MapStyleDataset</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">250</span><span class="nd">@option</span><span class="p">([</span><span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">n_classes</span><span class="p">,</span>
+<span class="lineno">251</span>         <span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">vocab</span><span class="p">,</span>
+<span class="lineno">252</span>         <span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">train_loader</span><span class="p">,</span>
+<span class="lineno">253</span>         <span class="n">NLPClassificationConfigs</span><span class="o">.</span><span class="n">valid_loader</span><span class="p">])</span>
+<span class="lineno">254</span><span class="k">def</span> <span class="nf">ag_news</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">NLPClassificationConfigs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-62'>
@@ -872,11 +871,11 @@
             <div class='section-link'>
                 <a href='#section-62'>#</a>
             </div>
-            <p>Create <a href="../utils.html#map_style_dataset">map-style datasets</a> </p>
+            <p>Get training and validation datasets </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">260</span>        <span class="n">train</span><span class="p">,</span> <span class="n">valid</span> <span class="o">=</span> <span class="n">MapStyleDataset</span><span class="p">(</span><span class="n">train</span><span class="p">),</span> <span class="n">MapStyleDataset</span><span class="p">(</span><span class="n">valid</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">263</span>    <span class="n">train</span><span class="p">,</span> <span class="n">valid</span> <span class="o">=</span> <span class="n">torchtext</span><span class="o">.</span><span class="n">datasets</span><span class="o">.</span><span class="n">AG_NEWS</span><span class="p">(</span><span class="n">root</span><span class="o">=</span><span class="nb">str</span><span class="p">(</span><span class="n">lab</span><span class="o">.</span><span class="n">get_data_path</span><span class="p">()</span> <span class="o">/</span> <span class="s1">&#39;ag_news&#39;</span><span class="p">),</span> <span class="n">split</span><span class="o">=</span><span class="p">(</span><span class="s1">&#39;train&#39;</span><span class="p">,</span> <span class="s1">&#39;test&#39;</span><span class="p">))</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-63'>
@@ -884,11 +883,12 @@
             <div class='section-link'>
                 <a href='#section-63'>#</a>
             </div>
-            <p>Get tokenizer </p>
+            <p>Load data to memory </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">263</span>    <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">tokenizer</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">266</span>    <span class="k">with</span> <span class="n">monit</span><span class="o">.</span><span class="n">section</span><span class="p">(</span><span class="s1">&#39;Load data&#39;</span><span class="p">):</span>
+<span class="lineno">267</span>        <span class="kn">from</span> <span class="nn">labml_nn.utils</span> <span class="kn">import</span> <span class="n">MapStyleDataset</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-64'>
@@ -896,11 +896,11 @@
             <div class='section-link'>
                 <a href='#section-64'>#</a>
             </div>
-            <p>Create a counter </p>
+            <p>Create <a href="../utils.html#map_style_dataset">map-style datasets</a> </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">266</span>    <span class="n">counter</span> <span class="o">=</span> <span class="n">Counter</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">270</span>        <span class="n">train</span><span class="p">,</span> <span class="n">valid</span> <span class="o">=</span> <span class="n">MapStyleDataset</span><span class="p">(</span><span class="n">train</span><span class="p">),</span> <span class="n">MapStyleDataset</span><span class="p">(</span><span class="n">valid</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-65'>
@@ -908,12 +908,11 @@
             <div class='section-link'>
                 <a href='#section-65'>#</a>
             </div>
-            <p>Collect tokens from training dataset </p>
+            <p>Get tokenizer </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">268</span>    <span class="k">for</span> <span class="p">(</span><span class="n">label</span><span class="p">,</span> <span class="n">line</span><span class="p">)</span> <span class="ow">in</span> <span class="n">train</span><span class="p">:</span>
-<span class="lineno">269</span>        <span class="n">counter</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">line</span><span class="p">))</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">273</span>    <span class="n">tokenizer</span> <span class="o">=</span> <span class="n">c</span><span class="o">.</span><span class="n">tokenizer</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-66'>
@@ -921,12 +920,11 @@
             <div class='section-link'>
                 <a href='#section-66'>#</a>
             </div>
-            <p>Collect tokens from validation dataset </p>
+            <p>Create a counter </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">271</span>    <span class="k">for</span> <span class="p">(</span><span class="n">label</span><span class="p">,</span> <span class="n">line</span><span class="p">)</span> <span class="ow">in</span> <span class="n">valid</span><span class="p">:</span>
-<span class="lineno">272</span>        <span class="n">counter</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">line</span><span class="p">))</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">276</span>    <span class="n">counter</span> <span class="o">=</span> <span class="n">Counter</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-67'>
@@ -934,11 +932,12 @@
             <div class='section-link'>
                 <a href='#section-67'>#</a>
             </div>
-            <p>Create vocabulary </p>
+            <p>Collect tokens from training dataset </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">274</span>    <span class="n">vocab</span> <span class="o">=</span> <span class="n">torchtext</span><span class="o">.</span><span class="n">vocab</span><span class="o">.</span><span class="n">vocab</span><span class="p">(</span><span class="n">counter</span><span class="p">,</span> <span class="n">min_freq</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">278</span>    <span class="k">for</span> <span class="p">(</span><span class="n">label</span><span class="p">,</span> <span class="n">line</span><span class="p">)</span> <span class="ow">in</span> <span class="n">train</span><span class="p">:</span>
+<span class="lineno">279</span>        <span class="n">counter</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">line</span><span class="p">))</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-68'>
@@ -946,12 +945,12 @@
             <div class='section-link'>
                 <a href='#section-68'>#</a>
             </div>
-            <p>Create training data loader </p>
+            <p>Collect tokens from validation dataset </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">277</span>    <span class="n">train_loader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span><span class="n">train</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">shuffle</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-<span class="lineno">278</span>                              <span class="n">collate_fn</span><span class="o">=</span><span class="n">CollateFunc</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">,</span> <span class="n">vocab</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">vocab</span><span class="p">),</span> <span class="nb">len</span><span class="p">(</span><span class="n">vocab</span><span class="p">)</span> <span class="o">+</span> <span class="mi">1</span><span class="p">))</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">281</span>    <span class="k">for</span> <span class="p">(</span><span class="n">label</span><span class="p">,</span> <span class="n">line</span><span class="p">)</span> <span class="ow">in</span> <span class="n">valid</span><span class="p">:</span>
+<span class="lineno">282</span>        <span class="n">counter</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">(</span><span class="n">line</span><span class="p">))</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-69'>
@@ -959,12 +958,11 @@
             <div class='section-link'>
                 <a href='#section-69'>#</a>
             </div>
-            <p>Create validation data loader </p>
+            <p>Create vocabulary </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">280</span>    <span class="n">valid_loader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span><span class="n">valid</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">shuffle</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
-<span class="lineno">281</span>                              <span class="n">collate_fn</span><span class="o">=</span><span class="n">CollateFunc</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">,</span> <span class="n">vocab</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">vocab</span><span class="p">),</span> <span class="nb">len</span><span class="p">(</span><span class="n">vocab</span><span class="p">)</span> <span class="o">+</span> <span class="mi">1</span><span class="p">))</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">284</span>    <span class="n">vocab</span> <span class="o">=</span> <span class="n">torchtext</span><span class="o">.</span><span class="n">vocab</span><span class="o">.</span><span class="n">vocab</span><span class="p">(</span><span class="n">counter</span><span class="p">,</span> <span class="n">min_freq</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-70'>
@@ -972,6 +970,32 @@
             <div class='section-link'>
                 <a href='#section-70'>#</a>
             </div>
+            <p>Create training data loader </p>
+
+        </div>
+        <div class='code'>
+            <div class="highlight"><pre><span class="lineno">287</span>    <span class="n">train_loader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span><span class="n">train</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">shuffle</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+<span class="lineno">288</span>                              <span class="n">collate_fn</span><span class="o">=</span><span class="n">CollateFunc</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">,</span> <span class="n">vocab</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">vocab</span><span class="p">),</span> <span class="nb">len</span><span class="p">(</span><span class="n">vocab</span><span class="p">)</span> <span class="o">+</span> <span class="mi">1</span><span class="p">))</span></pre></div>
+        </div>
+    </div>
+    <div class='section' id='section-71'>
+        <div class='docs'>
+            <div class='section-link'>
+                <a href='#section-71'>#</a>
+            </div>
+            <p>Create validation data loader </p>
+
+        </div>
+        <div class='code'>
+            <div class="highlight"><pre><span class="lineno">290</span>    <span class="n">valid_loader</span> <span class="o">=</span> <span class="n">DataLoader</span><span class="p">(</span><span class="n">valid</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span> <span class="n">shuffle</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+<span class="lineno">291</span>                              <span class="n">collate_fn</span><span class="o">=</span><span class="n">CollateFunc</span><span class="p">(</span><span class="n">tokenizer</span><span class="p">,</span> <span class="n">vocab</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">seq_len</span><span class="p">,</span> <span class="nb">len</span><span class="p">(</span><span class="n">vocab</span><span class="p">),</span> <span class="nb">len</span><span class="p">(</span><span class="n">vocab</span><span class="p">)</span> <span class="o">+</span> <span class="mi">1</span><span class="p">))</span></pre></div>
+        </div>
+    </div>
+    <div class='section' id='section-72'>
+        <div class='docs'>
+            <div class='section-link'>
+                <a href='#section-72'>#</a>
+            </div>
             <p>Return <code class="highlight"><span></span><span class="n">n_classes</span></code>
 , <code class="highlight"><span></span><span class="n">vocab</span></code>
 , <code class="highlight"><span></span><span class="n">train_loader</span></code>
@@ -980,7 +1004,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">284</span>    <span class="k">return</span> <span class="mi">4</span><span class="p">,</span> <span class="n">vocab</span><span class="p">,</span> <span class="n">train_loader</span><span class="p">,</span> <span class="n">valid_loader</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">294</span>    <span class="k">return</span> <span class="mi">4</span><span class="p">,</span> <span class="n">vocab</span><span class="p">,</span> <span class="n">train_loader</span><span class="p">,</span> <span class="n">valid_loader</span></pre></div>
         </div>
     </div>
     <div class='footer'>
diff --git a/docs/normalization/deep_norm/experiment.html b/docs/normalization/deep_norm/experiment.html
index aa3e01f3..fb5c8448 100644
--- a/docs/normalization/deep_norm/experiment.html
+++ b/docs/normalization/deep_norm/experiment.html
@@ -74,18 +74,18 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">15</span><span></span><span class="kn">import</span> <span class="nn">copy</span>
-<span class="lineno">16</span>
-<span class="lineno">17</span><span class="kn">import</span> <span class="nn">torch</span>
-<span class="lineno">18</span><span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-<span class="lineno">19</span>
-<span class="lineno">20</span><span class="kn">from</span> <span class="nn">labml</span> <span class="kn">import</span> <span class="n">experiment</span>
-<span class="lineno">21</span><span class="kn">from</span> <span class="nn">labml.configs</span> <span class="kn">import</span> <span class="n">option</span>
-<span class="lineno">22</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
-<span class="lineno">23</span><span class="kn">from</span> <span class="nn">labml_nn.experiments.nlp_autoregression</span> <span class="kn">import</span> <span class="n">NLPAutoRegressionConfigs</span>
-<span class="lineno">24</span><span class="kn">from</span> <span class="nn">labml_nn.normalization.deep_norm</span> <span class="kn">import</span> <span class="n">DeepNormTransformerLayer</span>
-<span class="lineno">25</span><span class="kn">from</span> <span class="nn">labml_nn.transformers</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
-<span class="lineno">26</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.feed_forward</span> <span class="kn">import</span> <span class="n">FeedForward</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">14</span><span></span><span class="kn">import</span> <span class="nn">copy</span>
+<span class="lineno">15</span>
+<span class="lineno">16</span><span class="kn">import</span> <span class="nn">torch</span>
+<span class="lineno">17</span><span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="lineno">18</span>
+<span class="lineno">19</span><span class="kn">from</span> <span class="nn">labml</span> <span class="kn">import</span> <span class="n">experiment</span>
+<span class="lineno">20</span><span class="kn">from</span> <span class="nn">labml.configs</span> <span class="kn">import</span> <span class="n">option</span>
+<span class="lineno">21</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
+<span class="lineno">22</span><span class="kn">from</span> <span class="nn">labml_nn.experiments.nlp_autoregression</span> <span class="kn">import</span> <span class="n">NLPAutoRegressionConfigs</span>
+<span class="lineno">23</span><span class="kn">from</span> <span class="nn">labml_nn.normalization.deep_norm</span> <span class="kn">import</span> <span class="n">DeepNormTransformerLayer</span>
+<span class="lineno">24</span><span class="kn">from</span> <span class="nn">labml_nn.transformers</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
+<span class="lineno">25</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.feed_forward</span> <span class="kn">import</span> <span class="n">FeedForward</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-1'>
@@ -98,7 +98,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">29</span><span class="k">class</span> <span class="nc">AutoregressiveTransformer</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">28</span><span class="k">class</span> <span class="nc">AutoregressiveTransformer</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-2'>
@@ -114,7 +114,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">36</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">n_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">layer</span><span class="p">:</span> <span class="n">DeepNormTransformerLayer</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">35</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">n_tokens</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">layer</span><span class="p">:</span> <span class="n">DeepNormTransformerLayer</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-3'>
@@ -122,10 +122,10 @@
             <div class='section-link'>
                 <a href='#section-3'>#</a>
             </div>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">43</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">42</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-4'>
@@ -138,7 +138,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">45</span>        <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span><span class="o">*</span><span class="p">[</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">layer</span><span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">n_layers</span><span class="p">)])</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">44</span>        <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span><span class="o">*</span><span class="p">[</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="n">layer</span><span class="p">)</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">n_layers</span><span class="p">)])</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-5'>
@@ -150,7 +150,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">48</span>        <span class="bp">self</span><span class="o">.</span><span class="n">emb</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embedding</span><span class="p">(</span><span class="n">n_tokens</span><span class="p">,</span> <span class="n">d_model</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">47</span>        <span class="bp">self</span><span class="o">.</span><span class="n">emb</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Embedding</span><span class="p">(</span><span class="n">n_tokens</span><span class="p">,</span> <span class="n">d_model</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-6'>
@@ -162,7 +162,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">50</span>        <span class="bp">self</span><span class="o">.</span><span class="n">readout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">n_tokens</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">49</span>        <span class="bp">self</span><span class="o">.</span><span class="n">readout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">n_tokens</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-7'>
@@ -175,7 +175,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">52</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">51</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-8'>
@@ -187,7 +187,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">57</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">emb</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">56</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">emb</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-9'>
@@ -199,7 +199,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">59</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">58</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">transformer</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-10'>
@@ -211,7 +211,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">61</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">readout</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">60</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">readout</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-11'>
@@ -223,7 +223,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">64</span>        <span class="k">return</span> <span class="n">x</span><span class="p">,</span> <span class="kc">None</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">63</span>        <span class="k">return</span> <span class="n">x</span><span class="p">,</span> <span class="kc">None</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-12'>
@@ -237,7 +237,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">67</span><span class="k">class</span> <span class="nc">Configs</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">66</span><span class="k">class</span> <span class="nc">Configs</span><span class="p">(</span><span class="n">NLPAutoRegressionConfigs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-13'>
@@ -249,7 +249,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">76</span>    <span class="n">model</span><span class="p">:</span> <span class="n">AutoregressiveTransformer</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">75</span>    <span class="n">model</span><span class="p">:</span> <span class="n">AutoregressiveTransformer</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-14'>
@@ -261,7 +261,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">79</span>    <span class="n">n_layers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">78</span>    <span class="n">n_layers</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-15'>
@@ -273,8 +273,8 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">82</span>    <span class="n">deep_norm_alpha</span><span class="p">:</span> <span class="nb">float</span>
-<span class="lineno">83</span>    <span class="n">deep_norm_beta</span><span class="p">:</span> <span class="nb">float</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">81</span>    <span class="n">deep_norm_alpha</span><span class="p">:</span> <span class="nb">float</span>
+<span class="lineno">82</span>    <span class="n">deep_norm_beta</span><span class="p">:</span> <span class="nb">float</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-16'>
@@ -286,7 +286,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">86</span>    <span class="n">n_heads</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">85</span>    <span class="n">n_heads</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">4</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-17'>
@@ -298,7 +298,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">88</span>    <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">87</span>    <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">64</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-18'>
@@ -310,7 +310,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">90</span>    <span class="n">d_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">89</span>    <span class="n">d_k</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-19'>
@@ -323,8 +323,8 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">93</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">deep_norm_alpha</span><span class="p">)</span>
-<span class="lineno">94</span><span class="k">def</span> <span class="nf">_deep_norm_alpha</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">92</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">deep_norm_alpha</span><span class="p">)</span>
+<span class="lineno">93</span><span class="k">def</span> <span class="nf">_deep_norm_alpha</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-20'>
@@ -332,10 +332,10 @@
             <div class='section-link'>
                 <a href='#section-20'>#</a>
             </div>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">100</span>    <span class="k">return</span> <span class="p">(</span><span class="mf">2.</span> <span class="o">*</span> <span class="n">c</span><span class="o">.</span><span class="n">n_layers</span><span class="p">)</span> <span class="o">**</span> <span class="p">(</span><span class="mf">1.</span> <span class="o">/</span> <span class="mf">4.</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">99</span>    <span class="k">return</span> <span class="p">(</span><span class="mf">2.</span> <span class="o">*</span> <span class="n">c</span><span class="o">.</span><span class="n">n_layers</span><span class="p">)</span> <span class="o">**</span> <span class="p">(</span><span class="mf">1.</span> <span class="o">/</span> <span class="mf">4.</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-21'>
@@ -348,8 +348,8 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">103</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">deep_norm_beta</span><span class="p">)</span>
-<span class="lineno">104</span><span class="k">def</span> <span class="nf">_deep_norm_beta</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">102</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">deep_norm_beta</span><span class="p">)</span>
+<span class="lineno">103</span><span class="k">def</span> <span class="nf">_deep_norm_beta</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-22'>
@@ -357,10 +357,10 @@
             <div class='section-link'>
                 <a href='#section-22'>#</a>
             </div>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">110</span>    <span class="k">return</span> <span class="p">(</span><span class="mf">8.</span> <span class="o">*</span> <span class="n">c</span><span class="o">.</span><span class="n">n_layers</span><span class="p">)</span> <span class="o">**</span> <span class="o">-</span><span class="p">(</span><span class="mf">1.</span> <span class="o">/</span> <span class="mf">4.</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">109</span>    <span class="k">return</span> <span class="p">(</span><span class="mf">8.</span> <span class="o">*</span> <span class="n">c</span><span class="o">.</span><span class="n">n_layers</span><span class="p">)</span> <span class="o">**</span> <span class="o">-</span><span class="p">(</span><span class="mf">1.</span> <span class="o">/</span> <span class="mf">4.</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-23'>
@@ -372,8 +372,8 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">113</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
-<span class="lineno">114</span><span class="k">def</span> <span class="nf">_model</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">112</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+<span class="lineno">113</span><span class="k">def</span> <span class="nf">_model</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-24'>
@@ -381,19 +381,19 @@
             <div class='section-link'>
                 <a href='#section-24'>#</a>
             </div>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">118</span>    <span class="n">m</span> <span class="o">=</span> <span class="n">AutoregressiveTransformer</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">n_tokens</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">n_layers</span><span class="p">,</span>
-<span class="lineno">119</span>                                  <span class="n">DeepNormTransformerLayer</span><span class="p">(</span><span class="n">d_model</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span>
-<span class="lineno">120</span>                                                           <span class="n">deep_norm_alpha</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">deep_norm_alpha</span><span class="p">,</span>
-<span class="lineno">121</span>                                                           <span class="n">deep_norm_beta</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">deep_norm_beta</span><span class="p">,</span>
-<span class="lineno">122</span>                                                           <span class="n">feed_forward</span><span class="o">=</span><span class="n">FeedForward</span><span class="p">(</span><span class="n">d_model</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span>
-<span class="lineno">123</span>                                                                                    <span class="n">d_ff</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span> <span class="o">*</span> <span class="mi">4</span><span class="p">),</span>
-<span class="lineno">124</span>                                                           <span class="n">self_attn</span><span class="o">=</span><span class="n">MultiHeadAttention</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">n_heads</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span>
-<span class="lineno">125</span>                                                                                        <span class="n">dropout_prob</span><span class="o">=</span><span class="mf">0.0</span><span class="p">)))</span>
-<span class="lineno">126</span>
-<span class="lineno">127</span>    <span class="k">return</span> <span class="n">m</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">117</span>    <span class="n">m</span> <span class="o">=</span> <span class="n">AutoregressiveTransformer</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">n_tokens</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">n_layers</span><span class="p">,</span>
+<span class="lineno">118</span>                                  <span class="n">DeepNormTransformerLayer</span><span class="p">(</span><span class="n">d_model</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span>
+<span class="lineno">119</span>                                                           <span class="n">deep_norm_alpha</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">deep_norm_alpha</span><span class="p">,</span>
+<span class="lineno">120</span>                                                           <span class="n">deep_norm_beta</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">deep_norm_beta</span><span class="p">,</span>
+<span class="lineno">121</span>                                                           <span class="n">feed_forward</span><span class="o">=</span><span class="n">FeedForward</span><span class="p">(</span><span class="n">d_model</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span>
+<span class="lineno">122</span>                                                                                    <span class="n">d_ff</span><span class="o">=</span><span class="n">c</span><span class="o">.</span><span class="n">d_model</span> <span class="o">*</span> <span class="mi">4</span><span class="p">),</span>
+<span class="lineno">123</span>                                                           <span class="n">self_attn</span><span class="o">=</span><span class="n">MultiHeadAttention</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">n_heads</span><span class="p">,</span> <span class="n">c</span><span class="o">.</span><span class="n">d_model</span><span class="p">,</span>
+<span class="lineno">124</span>                                                                                        <span class="n">dropout_prob</span><span class="o">=</span><span class="mf">0.0</span><span class="p">)))</span>
+<span class="lineno">125</span>
+<span class="lineno">126</span>    <span class="k">return</span> <span class="n">m</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-25'>
@@ -405,7 +405,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">130</span><span class="k">def</span> <span class="nf">main</span><span class="p">():</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">129</span><span class="k">def</span> <span class="nf">main</span><span class="p">():</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-26'>
@@ -417,7 +417,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">135</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s2">&quot;deep_norm&quot;</span><span class="p">,</span> <span class="n">writers</span><span class="o">=</span><span class="p">{</span><span class="s1">&#39;screen&#39;</span><span class="p">,</span> <span class="s1">&#39;web_api&#39;</span><span class="p">})</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">134</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s2">&quot;deep_norm&quot;</span><span class="p">,</span> <span class="n">writers</span><span class="o">=</span><span class="p">{</span><span class="s1">&#39;screen&#39;</span><span class="p">,</span> <span class="s1">&#39;web_api&#39;</span><span class="p">,</span> <span class="s1">&#39;comet&#39;</span><span class="p">})</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-27'>
@@ -429,7 +429,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">137</span>    <span class="n">conf</span> <span class="o">=</span> <span class="n">Configs</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">136</span>    <span class="n">conf</span> <span class="o">=</span> <span class="n">Configs</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-28'>
@@ -441,7 +441,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">139</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">configs</span><span class="p">(</span><span class="n">conf</span><span class="p">,</span> <span class="p">{</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">138</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">configs</span><span class="p">(</span><span class="n">conf</span><span class="p">,</span> <span class="p">{</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-29'>
@@ -453,7 +453,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">141</span>        <span class="s1">&#39;tokenizer&#39;</span><span class="p">:</span> <span class="s1">&#39;character&#39;</span><span class="p">,</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">140</span>        <span class="s1">&#39;tokenizer&#39;</span><span class="p">:</span> <span class="s1">&#39;character&#39;</span><span class="p">,</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-30'>
@@ -465,7 +465,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">143</span>        <span class="s1">&#39;prompt_separator&#39;</span><span class="p">:</span> <span class="s1">&#39;&#39;</span><span class="p">,</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">142</span>        <span class="s1">&#39;prompt_separator&#39;</span><span class="p">:</span> <span class="s1">&#39;&#39;</span><span class="p">,</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-31'>
@@ -477,7 +477,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">145</span>        <span class="s1">&#39;prompt&#39;</span><span class="p">:</span> <span class="s1">&#39;It is &#39;</span><span class="p">,</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">144</span>        <span class="s1">&#39;prompt&#39;</span><span class="p">:</span> <span class="s1">&#39;It is &#39;</span><span class="p">,</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-32'>
@@ -489,7 +489,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">147</span>        <span class="s1">&#39;text&#39;</span><span class="p">:</span> <span class="s1">&#39;tiny_shakespeare&#39;</span><span class="p">,</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">146</span>        <span class="s1">&#39;text&#39;</span><span class="p">:</span> <span class="s1">&#39;tiny_shakespeare&#39;</span><span class="p">,</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-33'>
@@ -501,7 +501,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">150</span>        <span class="s1">&#39;seq_len&#39;</span><span class="p">:</span> <span class="mi">256</span><span class="p">,</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">149</span>        <span class="s1">&#39;seq_len&#39;</span><span class="p">:</span> <span class="mi">256</span><span class="p">,</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-34'>
@@ -513,7 +513,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">152</span>        <span class="s1">&#39;epochs&#39;</span><span class="p">:</span> <span class="mi">32</span><span class="p">,</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">151</span>        <span class="s1">&#39;epochs&#39;</span><span class="p">:</span> <span class="mi">32</span><span class="p">,</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-35'>
@@ -525,7 +525,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">154</span>        <span class="s1">&#39;batch_size&#39;</span><span class="p">:</span> <span class="mi">16</span><span class="p">,</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">153</span>        <span class="s1">&#39;batch_size&#39;</span><span class="p">:</span> <span class="mi">16</span><span class="p">,</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-36'>
@@ -537,7 +537,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">156</span>        <span class="s1">&#39;inner_iterations&#39;</span><span class="p">:</span> <span class="mi">10</span><span class="p">,</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">155</span>        <span class="s1">&#39;inner_iterations&#39;</span><span class="p">:</span> <span class="mi">10</span><span class="p">,</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-37'>
@@ -549,9 +549,9 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">159</span>        <span class="s1">&#39;optimizer.optimizer&#39;</span><span class="p">:</span> <span class="s1">&#39;Adam&#39;</span><span class="p">,</span>
-<span class="lineno">160</span>        <span class="s1">&#39;optimizer.learning_rate&#39;</span><span class="p">:</span> <span class="mf">3e-4</span><span class="p">,</span>
-<span class="lineno">161</span>    <span class="p">})</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">158</span>        <span class="s1">&#39;optimizer.optimizer&#39;</span><span class="p">:</span> <span class="s1">&#39;Adam&#39;</span><span class="p">,</span>
+<span class="lineno">159</span>        <span class="s1">&#39;optimizer.learning_rate&#39;</span><span class="p">:</span> <span class="mf">3e-4</span><span class="p">,</span>
+<span class="lineno">160</span>    <span class="p">})</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-38'>
@@ -563,7 +563,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">164</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">add_pytorch_models</span><span class="p">({</span><span class="s1">&#39;model&#39;</span><span class="p">:</span> <span class="n">conf</span><span class="o">.</span><span class="n">model</span><span class="p">})</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">163</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">add_pytorch_models</span><span class="p">({</span><span class="s1">&#39;model&#39;</span><span class="p">:</span> <span class="n">conf</span><span class="o">.</span><span class="n">model</span><span class="p">})</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-39'>
@@ -575,7 +575,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">167</span>    <span class="k">with</span> <span class="n">experiment</span><span class="o">.</span><span class="n">start</span><span class="p">():</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">166</span>    <span class="k">with</span> <span class="n">experiment</span><span class="o">.</span><span class="n">start</span><span class="p">():</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-40'>
@@ -587,7 +587,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">169</span>        <span class="n">conf</span><span class="o">.</span><span class="n">run</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">168</span>        <span class="n">conf</span><span class="o">.</span><span class="n">run</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-41'>
@@ -599,8 +599,8 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">173</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
-<span class="lineno">174</span>    <span class="n">main</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">172</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
+<span class="lineno">173</span>    <span class="n">main</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='footer'>
@@ -649,4 +649,4 @@
     handleImages()
 </script>
 </body>
-</html>
+</html>
\ No newline at end of file
diff --git a/docs/normalization/deep_norm/index.html b/docs/normalization/deep_norm/index.html
index 8cbc2d6f..d1811879 100644
--- a/docs/normalization/deep_norm/index.html
+++ b/docs/normalization/deep_norm/index.html
@@ -85,19 +85,19 @@
 <span class="katex-display"><span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:6.642060000000001em;vertical-align:-3.071030000000001em;"></span><span class="mord"><span class="mtable"><span class="col-align-r"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:3.57103em;"><span style="top:-5.57103em;"><span class="pstrut" style="height:5.42103em;"></span><span class="mord"><span class="mord"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:3.4210300000000005em;"><span style="top:-5.42103em;"><span class="pstrut" style="height:5.42103em;"></span><span class="mtable"><span class="arraycolsep" style="width:0.5em;"></span><span class="col-align-c"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:3.4210300000000005em;"><span style="top:-5.581030000000001em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord text"><span class="mord">Type</span></span></span></span><span style="top:-4.38103em;"><span class="pstrut" style="height:3em;"></span><span class="mord"></span></span><span style="top:-3.06701em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord text"><span class="mord">Encoder on</span><span class="mord coloredeq eqk" style=""><span class="mord" style="">l</span></span><span class="mord">y</span></span></span></span><span style="top:-1.7529899999999998em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord text"><span class="mord">Decoder on</span><span class="mord coloredeq eqk" style=""><span class="mord" style="">l</span></span><span class="mord">y</span></span></span></span><span style="top:-0.4389699999999996em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord text"><span class="mord">Enc-Dec</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.9210300000000005em;"><span></span></span></span></span></span><span class="arraycolsep" style="width:0.5em;"></span><span class="vertical-separator" style="height:6.342060000000001em;border-right-width:0.04em;border-right-style:solid;margin:0 -0.02em;vertical-align:-2.9210300000000005em;"></span><span class="arraycolsep" style="width:0.5em;"></span><span class="col-align-c"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:3.4210300000000005em;"><span style="top:-5.581030000000001em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord text"><span class="mord">Enc-</span></span><span class="mord coloredeq eqf" style=""><span class="mord mathnormal" style="margin-right:0.0037em">α</span></span></span></span><span style="top:-3.0670100000000002em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mopen">(</span><span class="mord">2</span><span class="mord coloredeq eqj" style=""><span class="mord mathnormal" style="margin-right:0.10903em">N</span></span><span class="mclose"><span class="mclose">)</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9540200000000001em;"><span style="top:-3.363em;margin-right:0.05em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mopen nulldelimiter sizing reset-size3 size6"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8443142857142858em;"><span style="top:-2.656em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">4</span></span></span></span><span style="top:-3.2255000000000003em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line mtight" style="border-bottom-width:0.049em;"></span></span><span style="top:-3.384em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.344em;"><span></span></span></span></span></span><span class="mclose nulldelimiter sizing reset-size3 size6"></span></span></span></span></span></span></span></span></span></span></span></span><span style="top:-1.7529900000000003em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">−</span></span></span><span style="top:-0.43897em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">0.81</span><span class="mopen">(</span><span class="mord"><span class="mord coloredeq eqj" style=""><span class="mord mathnormal" style="margin-right:0.10903em">N</span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8141079999999999em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">4</span></span></span></span></span></span></span></span><span class="mord coloredeq eqi" style=""><span class="mord mathnormal" style="margin-right:0.10903em">M</span></span><span class="mclose"><span class="mclose">)</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9540200000000001em;"><span style="top:-3.363em;margin-right:0.05em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mopen nulldelimiter sizing reset-size3 size6"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8443142857142858em;"><span style="top:-2.656em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">16</span></span></span></span><span style="top:-3.2255000000000003em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line mtight" style="border-bottom-width:0.049em;"></span></span><span style="top:-3.384em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.344em;"><span></span></span></span></span></span><span class="mclose nulldelimiter sizing reset-size3 size6"></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.92103em;"><span></span></span></span></span></span><span class="arraycolsep" style="width:0.5em;"></span><span class="arraycolsep" style="width:0.5em;"></span><span class="col-align-c"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:3.4210300000000005em;"><span style="top:-5.581030000000001em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord text"><span class="mord">Enc-</span></span><span class="mord coloredeq eqg" style=""><span class="mord mathnormal" style="margin-right:0.05278em">β</span></span></span></span><span style="top:-3.0670100000000002em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mopen">(</span><span class="mord">8</span><span class="mord coloredeq eqj" style=""><span class="mord mathnormal" style="margin-right:0.10903em">N</span></span><span class="mclose"><span class="mclose">)</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9540200000000001em;"><span style="top:-3.363em;margin-right:0.05em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">−</span><span class="mord mtight"><span class="mopen nulldelimiter sizing reset-size3 size6"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8443142857142858em;"><span style="top:-2.656em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">4</span></span></span></span><span style="top:-3.2255000000000003em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line mtight" style="border-bottom-width:0.049em;"></span></span><span style="top:-3.384em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.344em;"><span></span></span></span></span></span><span class="mclose nulldelimiter sizing reset-size3 size6"></span></span></span></span></span></span></span></span></span></span></span></span><span style="top:-1.7529900000000003em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">−</span></span></span><span style="top:-0.43897em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">0.87</span><span class="mopen">(</span><span class="mord"><span class="mord coloredeq eqj" style=""><span class="mord mathnormal" style="margin-right:0.10903em">N</span></span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.8141079999999999em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">4</span></span></span></span></span></span></span></span><span class="mord coloredeq eqi" style=""><span class="mord mathnormal" style="margin-right:0.10903em">M</span></span><span class="mclose"><span class="mclose">)</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9540200000000001em;"><span style="top:-3.363em;margin-right:0.05em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">−</span><span class="mord mtight"><span class="mopen nulldelimiter sizing reset-size3 size6"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8443142857142858em;"><span style="top:-2.656em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">16</span></span></span></span><span style="top:-3.2255000000000003em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line mtight" style="border-bottom-width:0.049em;"></span></span><span style="top:-3.384em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.344em;"><span></span></span></span></span></span><span class="mclose nulldelimiter sizing reset-size3 size6"></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.92103em;"><span></span></span></span></span></span><span class="arraycolsep" style="width:0.5em;"></span><span class="vertical-separator" style="height:6.342060000000001em;border-right-width:0.04em;border-right-style:solid;margin:0 -0.02em;vertical-align:-2.9210300000000005em;"></span><span class="arraycolsep" style="width:0.5em;"></span><span class="col-align-c"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:3.4210300000000005em;"><span style="top:-5.581030000000001em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord text"><span class="mord">Dec-</span></span><span class="mord coloredeq eqf" style=""><span class="mord mathnormal" style="margin-right:0.0037em">α</span></span></span></span><span style="top:-3.0670100000000002em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">−</span></span></span><span style="top:-1.7529900000000003em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mopen">(</span><span class="mord">2</span><span class="mord coloredeq eqi" style=""><span class="mord mathnormal" style="margin-right:0.10903em">M</span></span><span class="mclose"><span class="mclose">)</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9540200000000001em;"><span style="top:-3.363em;margin-right:0.05em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mopen nulldelimiter sizing reset-size3 size6"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8443142857142858em;"><span style="top:-2.656em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">4</span></span></span></span><span style="top:-3.2255000000000003em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line mtight" style="border-bottom-width:0.049em;"></span></span><span style="top:-3.384em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.344em;"><span></span></span></span></span></span><span class="mclose nulldelimiter sizing reset-size3 size6"></span></span></span></span></span></span></span></span></span></span></span></span><span style="top:-0.43897em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mopen">(</span><span class="mord">3</span><span class="mord coloredeq eqi" style=""><span class="mord mathnormal" style="margin-right:0.10903em">M</span></span><span class="mclose"><span class="mclose">)</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9540200000000001em;"><span style="top:-3.363em;margin-right:0.05em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mopen nulldelimiter sizing reset-size3 size6"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8443142857142858em;"><span style="top:-2.656em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">4</span></span></span></span><span style="top:-3.2255000000000003em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line mtight" style="border-bottom-width:0.049em;"></span></span><span style="top:-3.384em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.344em;"><span></span></span></span></span></span><span class="mclose nulldelimiter sizing reset-size3 size6"></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.92103em;"><span></span></span></span></span></span><span class="arraycolsep" style="width:0.5em;"></span><span class="arraycolsep" style="width:0.5em;"></span><span class="col-align-c"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:3.4210300000000005em;"><span style="top:-5.581030000000001em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord text"><span class="mord">Dec-</span></span><span class="mord coloredeq eqg" style=""><span class="mord mathnormal" style="margin-right:0.05278em">β</span></span></span></span><span style="top:-3.0670100000000002em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mord">−</span></span></span><span style="top:-1.7529900000000003em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mopen">(</span><span class="mord">8</span><span class="mord coloredeq eqi" style=""><span class="mord mathnormal" style="margin-right:0.10903em">M</span></span><span class="mclose"><span class="mclose">)</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9540200000000001em;"><span style="top:-3.363em;margin-right:0.05em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">−</span><span class="mord mtight"><span class="mopen nulldelimiter sizing reset-size3 size6"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8443142857142858em;"><span style="top:-2.656em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">4</span></span></span></span><span style="top:-3.2255000000000003em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line mtight" style="border-bottom-width:0.049em;"></span></span><span style="top:-3.384em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.344em;"><span></span></span></span></span></span><span class="mclose nulldelimiter sizing reset-size3 size6"></span></span></span></span></span></span></span></span></span></span></span></span><span style="top:-0.43897em;"><span class="pstrut" style="height:3em;"></span><span class="mord"><span class="mopen">(</span><span class="mord">12</span><span class="mord coloredeq eqi" style=""><span class="mord mathnormal" style="margin-right:0.10903em">M</span></span><span class="mclose"><span class="mclose">)</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.9540200000000001em;"><span style="top:-3.363em;margin-right:0.05em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight">−</span><span class="mord mtight"><span class="mopen nulldelimiter sizing reset-size3 size6"></span><span class="mfrac"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.8443142857142858em;"><span style="top:-2.656em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">4</span></span></span></span><span style="top:-3.2255000000000003em;"><span class="pstrut" style="height:3em;"></span><span class="frac-line mtight" style="border-bottom-width:0.049em;"></span></span><span style="top:-3.384em;"><span class="pstrut" style="height:3em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight"><span class="mord mtight">1</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.344em;"><span></span></span></span></span></span><span class="mclose nulldelimiter sizing reset-size3 size6"></span></span></span></span></span></span></span></span></span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.92103em;"><span></span></span></span></span></span><span class="arraycolsep" style="width:0.5em;"></span></span></span><span style="top:-7.642060000000001em;"><span class="pstrut" style="height:5.42103em;"></span><span class="hline" style="border-bottom-width:0.04em;"></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:2.9210300000000005em;"><span></span></span></span></span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:3.071030000000001em;"><span></span></span></span></span></span></span></span></span></span></span></span><p>Where <span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord coloredeq eqj" style=""><span class="mord mathnormal" style="margin-right:0.10903em">N</span></span></span></span></span> is the number of layers in the encoder and <span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord coloredeq eqi" style=""><span class="mord mathnormal" style="margin-right:0.10903em">M</span></span></span></span></span> is the number of layers in the decoder.</p>
 <p>Refer to <a href="https://papers.labml.ai/paper/2203.00555">the paper</a> for derivation.</p>
 <p><a href="experiment.html">Here is an experiment implementation</a> that uses DeepNorm.</p>
-<p><a href="https://colab.research.google.com/github/labmlai/annotated_deep_learning_paper_implementations/blob/master/labml_nn/normalization/deep_norm/experiment.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg"></a> <a href="https://app.labml.ai/run/ec8e4dacb7f311ec8d1cd37d50b05c3d"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen"></a> </p>
+<p><a href="https://colab.research.google.com/github/labmlai/annotated_deep_learning_paper_implementations/blob/master/labml_nn/normalization/deep_norm/experiment.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg"></a> <a href="https://app.labml.ai/run/ec8e4dacb7f311ec8d1cd37d50b05c3d"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen"></a></p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">75</span><span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Union</span><span class="p">,</span> <span class="n">List</span>
-<span class="lineno">76</span>
-<span class="lineno">77</span><span class="kn">import</span> <span class="nn">torch</span>
-<span class="lineno">78</span><span class="kn">from</span> <span class="nn">torch</span> <span class="kn">import</span> <span class="n">nn</span><span class="p">,</span> <span class="n">Size</span>
-<span class="lineno">79</span>
-<span class="lineno">80</span><span class="kn">from</span> <span class="nn">labml_nn.normalization.layer_norm</span> <span class="kn">import</span> <span class="n">LayerNorm</span>
-<span class="lineno">81</span><span class="kn">from</span> <span class="nn">labml_nn.transformers</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
-<span class="lineno">82</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.feed_forward</span> <span class="kn">import</span> <span class="n">FeedForward</span>
-<span class="lineno">83</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.utils</span> <span class="kn">import</span> <span class="n">subsequent_mask</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">74</span><span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Union</span><span class="p">,</span> <span class="n">List</span>
+<span class="lineno">75</span>
+<span class="lineno">76</span><span class="kn">import</span> <span class="nn">torch</span>
+<span class="lineno">77</span><span class="kn">from</span> <span class="nn">torch</span> <span class="kn">import</span> <span class="n">nn</span><span class="p">,</span> <span class="n">Size</span>
+<span class="lineno">78</span>
+<span class="lineno">79</span><span class="kn">from</span> <span class="nn">labml_nn.normalization.layer_norm</span> <span class="kn">import</span> <span class="n">LayerNorm</span>
+<span class="lineno">80</span><span class="kn">from</span> <span class="nn">labml_nn.transformers</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
+<span class="lineno">81</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.feed_forward</span> <span class="kn">import</span> <span class="n">FeedForward</span>
+<span class="lineno">82</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.utils</span> <span class="kn">import</span> <span class="n">subsequent_mask</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-1'>
@@ -110,7 +110,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">86</span><span class="k">class</span> <span class="nc">DeepNorm</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">85</span><span class="k">class</span> <span class="nc">DeepNorm</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-2'>
@@ -125,9 +125,9 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">93</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">alpha</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">normalized_shape</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">Size</span><span class="p">],</span> <span class="o">*</span><span class="p">,</span>
-<span class="lineno">94</span>                 <span class="n">eps</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1e-5</span><span class="p">,</span>
-<span class="lineno">95</span>                 <span class="n">elementwise_affine</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">92</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">alpha</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span> <span class="n">normalized_shape</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="nb">int</span><span class="p">,</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">Size</span><span class="p">],</span> <span class="o">*</span><span class="p">,</span>
+<span class="lineno">93</span>                 <span class="n">eps</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1e-5</span><span class="p">,</span>
+<span class="lineno">94</span>                 <span class="n">elementwise_affine</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">True</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-3'>
@@ -135,12 +135,12 @@
             <div class='section-link'>
                 <a href='#section-3'>#</a>
             </div>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">102</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-<span class="lineno">103</span>
-<span class="lineno">104</span>        <span class="bp">self</span><span class="o">.</span><span class="n">alpha</span> <span class="o">=</span> <span class="n">alpha</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">101</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+<span class="lineno">102</span>
+<span class="lineno">103</span>        <span class="bp">self</span><span class="o">.</span><span class="n">alpha</span> <span class="o">=</span> <span class="n">alpha</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-4'>
@@ -152,7 +152,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">106</span>        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm</span> <span class="o">=</span> <span class="n">LayerNorm</span><span class="p">(</span><span class="n">normalized_shape</span><span class="p">,</span> <span class="n">eps</span><span class="o">=</span><span class="n">eps</span><span class="p">,</span> <span class="n">elementwise_affine</span><span class="o">=</span><span class="n">elementwise_affine</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">105</span>        <span class="bp">self</span><span class="o">.</span><span class="n">layer_norm</span> <span class="o">=</span> <span class="n">LayerNorm</span><span class="p">(</span><span class="n">normalized_shape</span><span class="p">,</span> <span class="n">eps</span><span class="o">=</span><span class="n">eps</span><span class="p">,</span> <span class="n">elementwise_affine</span><span class="o">=</span><span class="n">elementwise_affine</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-5'>
@@ -165,7 +165,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">108</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">gx</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">107</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">gx</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-6'>
@@ -177,7 +177,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">114</span>        <span class="k">return</span> <span class="n">x</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">alpha</span> <span class="o">*</span> <span class="n">gx</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">113</span>        <span class="k">return</span> <span class="n">x</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">alpha</span> <span class="o">*</span> <span class="n">gx</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-7'>
@@ -190,7 +190,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">117</span><span class="k">class</span> <span class="nc">DeepNormTransformerLayer</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">116</span><span class="k">class</span> <span class="nc">DeepNormTransformerLayer</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-8'>
@@ -206,13 +206,13 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">124</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span>
-<span class="lineno">125</span>                 <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
-<span class="lineno">126</span>                 <span class="n">self_attn</span><span class="p">:</span> <span class="n">MultiHeadAttention</span><span class="p">,</span>
-<span class="lineno">127</span>                 <span class="n">feed_forward</span><span class="p">:</span> <span class="n">FeedForward</span><span class="p">,</span>
-<span class="lineno">128</span>                 <span class="n">deep_norm_alpha</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
-<span class="lineno">129</span>                 <span class="n">deep_norm_beta</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
-<span class="lineno">130</span>                 <span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">123</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span>
+<span class="lineno">124</span>                 <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+<span class="lineno">125</span>                 <span class="n">self_attn</span><span class="p">:</span> <span class="n">MultiHeadAttention</span><span class="p">,</span>
+<span class="lineno">126</span>                 <span class="n">feed_forward</span><span class="p">:</span> <span class="n">FeedForward</span><span class="p">,</span>
+<span class="lineno">127</span>                 <span class="n">deep_norm_alpha</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+<span class="lineno">128</span>                 <span class="n">deep_norm_beta</span><span class="p">:</span> <span class="nb">float</span><span class="p">,</span>
+<span class="lineno">129</span>                 <span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-9'>
@@ -220,13 +220,13 @@
             <div class='section-link'>
                 <a href='#section-9'>#</a>
             </div>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">138</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-<span class="lineno">139</span>
-<span class="lineno">140</span>        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">self_attn</span>
-<span class="lineno">141</span>        <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span> <span class="o">=</span> <span class="n">feed_forward</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">137</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+<span class="lineno">138</span>
+<span class="lineno">139</span>        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">self_attn</span>
+<span class="lineno">140</span>        <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span> <span class="o">=</span> <span class="n">feed_forward</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-10'>
@@ -238,8 +238,8 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">143</span>        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn_norm</span> <span class="o">=</span> <span class="n">DeepNorm</span><span class="p">(</span><span class="n">deep_norm_alpha</span><span class="p">,</span> <span class="p">[</span><span class="n">d_model</span><span class="p">])</span>
-<span class="lineno">144</span>        <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward_norm</span> <span class="o">=</span> <span class="n">DeepNorm</span><span class="p">(</span><span class="n">deep_norm_alpha</span><span class="p">,</span> <span class="p">[</span><span class="n">d_model</span><span class="p">])</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">142</span>        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn_norm</span> <span class="o">=</span> <span class="n">DeepNorm</span><span class="p">(</span><span class="n">deep_norm_alpha</span><span class="p">,</span> <span class="p">[</span><span class="n">d_model</span><span class="p">])</span>
+<span class="lineno">143</span>        <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward_norm</span> <span class="o">=</span> <span class="n">DeepNorm</span><span class="p">(</span><span class="n">deep_norm_alpha</span><span class="p">,</span> <span class="p">[</span><span class="n">d_model</span><span class="p">])</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-11'>
@@ -251,7 +251,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">147</span>        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">146</span>        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-12'>
@@ -263,8 +263,8 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">149</span>            <span class="n">feed_forward</span><span class="o">.</span><span class="n">layer1</span><span class="o">.</span><span class="n">weight</span> <span class="o">*=</span> <span class="n">deep_norm_beta</span>
-<span class="lineno">150</span>            <span class="n">feed_forward</span><span class="o">.</span><span class="n">layer2</span><span class="o">.</span><span class="n">weight</span> <span class="o">*=</span> <span class="n">deep_norm_beta</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">148</span>            <span class="n">feed_forward</span><span class="o">.</span><span class="n">layer1</span><span class="o">.</span><span class="n">weight</span> <span class="o">*=</span> <span class="n">deep_norm_beta</span>
+<span class="lineno">149</span>            <span class="n">feed_forward</span><span class="o">.</span><span class="n">layer2</span><span class="o">.</span><span class="n">weight</span> <span class="o">*=</span> <span class="n">deep_norm_beta</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-13'>
@@ -276,7 +276,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">153</span>            <span class="n">self_attn</span><span class="o">.</span><span class="n">value</span><span class="o">.</span><span class="n">linear</span><span class="o">.</span><span class="n">weight</span> <span class="o">*=</span> <span class="n">deep_norm_beta</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">152</span>            <span class="n">self_attn</span><span class="o">.</span><span class="n">value</span><span class="o">.</span><span class="n">linear</span><span class="o">.</span><span class="n">weight</span> <span class="o">*=</span> <span class="n">deep_norm_beta</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-14'>
@@ -288,7 +288,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">155</span>            <span class="n">self_attn</span><span class="o">.</span><span class="n">output</span><span class="o">.</span><span class="n">weight</span> <span class="o">*=</span> <span class="n">deep_norm_beta</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">154</span>            <span class="n">self_attn</span><span class="o">.</span><span class="n">output</span><span class="o">.</span><span class="n">weight</span> <span class="o">*=</span> <span class="n">deep_norm_beta</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-15'>
@@ -300,7 +300,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">158</span>        <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="o">=</span> <span class="kc">None</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">157</span>        <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="o">=</span> <span class="kc">None</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-16'>
@@ -313,7 +313,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">160</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">159</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-17'>
@@ -325,7 +325,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">165</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">164</span>        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="ow">is</span> <span class="kc">None</span> <span class="ow">or</span> <span class="bp">self</span><span class="o">.</span><span class="n">mask</span><span class="o">.</span><span class="n">size</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span> <span class="o">!=</span> <span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-18'>
@@ -337,7 +337,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">167</span>            <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="o">=</span> <span class="n">subsequent_mask</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">))</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">166</span>            <span class="bp">self</span><span class="o">.</span><span class="n">mask</span> <span class="o">=</span> <span class="n">subsequent_mask</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">x</span><span class="p">))</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-19'>
@@ -349,7 +349,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">170</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn_norm</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">x</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">x</span><span class="p">,</span> <span class="n">value</span><span class="o">=</span><span class="n">x</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mask</span><span class="p">))</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">169</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn_norm</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">x</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">x</span><span class="p">,</span> <span class="n">value</span><span class="o">=</span><span class="n">x</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">mask</span><span class="p">))</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-20'>
@@ -361,7 +361,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">172</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward_norm</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span><span class="p">(</span><span class="n">x</span><span class="p">))</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">171</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward_norm</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span><span class="p">(</span><span class="n">x</span><span class="p">))</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-21'>
@@ -373,7 +373,7 @@
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">175</span>        <span class="k">return</span> <span class="n">x</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">174</span>        <span class="k">return</span> <span class="n">x</span></pre></div>
         </div>
     </div>
     <div class='footer'>
@@ -422,4 +422,4 @@
     handleImages()
 </script>
 </body>
-</html>
+</html>
\ No newline at end of file
diff --git a/docs/sitemap.xml b/docs/sitemap.xml
index 6bb1ae5f..9e338d24 100644
--- a/docs/sitemap.xml
+++ b/docs/sitemap.xml
@@ -190,14 +190,14 @@
 
     <url>
       <loc>https://nn.labml.ai/normalization/deep_norm/index.html</loc>
-      <lastmod>2022-04-10T16:30:00+00:00</lastmod>
+      <lastmod>2022-04-23T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
 
     <url>
       <loc>https://nn.labml.ai/normalization/deep_norm/experiment.html</loc>
-      <lastmod>2022-04-10T16:30:00+00:00</lastmod>
+      <lastmod>2022-04-23T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
@@ -260,7 +260,7 @@
 
     <url>
       <loc>https://nn.labml.ai/resnet/index.html</loc>
-      <lastmod>2021-10-21T16:30:00+00:00</lastmod>
+      <lastmod>2022-04-10T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
diff --git a/labml_nn/experiments/nlp_autoregression.py b/labml_nn/experiments/nlp_autoregression.py
index 7d7fbee2..fe4e67d1 100644
--- a/labml_nn/experiments/nlp_autoregression.py
+++ b/labml_nn/experiments/nlp_autoregression.py
@@ -91,6 +91,16 @@ class NLPAutoRegressionConfigs(TrainValidConfigs):
     # Data loaders shuffle with replacement
     dataloader_shuffle_with_replacement: bool = False
 
+    # Whether to log model parameters and gradients (once per epoch).
+    # These are summarized stats per layer, but it could still lead
+    # to many indicators for very deep networks.
+    is_log_model_params_grads: bool = False
+
+    # Whether to log model activations (once per epoch).
+    # These are summarized stats per layer, but it could still lead
+    # to many indicators for very deep networks.
+    is_log_model_activations: bool = False
+
     def init(self):
         """
         ### Initialization
@@ -126,7 +136,7 @@ class NLPAutoRegressionConfigs(TrainValidConfigs):
             tracker.add_global_step(data.shape[0] * data.shape[1])
 
         # Whether to capture model outputs
-        with self.mode.update(is_log_activations=batch_idx.is_last):
+        with self.mode.update(is_log_activations=batch_idx.is_last and self.is_log_model_activations):
             # Get model outputs.
             # It's returning a tuple for states when using RNNs.
             # This is not implemented yet. 😜
@@ -151,7 +161,7 @@ class NLPAutoRegressionConfigs(TrainValidConfigs):
             # Take optimizer step
             self.optimizer.step()
             # Log the model parameters and gradients on last batch of every epoch
-            if batch_idx.is_last:
+            if batch_idx.is_last and self.is_log_model_params_grads:
                 tracker.add('model', self.model)
             # Clear the gradients
             self.optimizer.zero_grad()
diff --git a/labml_nn/experiments/nlp_classification.py b/labml_nn/experiments/nlp_classification.py
index 84c28198..5e643466 100644
--- a/labml_nn/experiments/nlp_classification.py
+++ b/labml_nn/experiments/nlp_classification.py
@@ -74,6 +74,16 @@ class NLPClassificationConfigs(TrainValidConfigs):
     # Validation data loader
     valid_loader: DataLoader = 'ag_news'
 
+    # Whether to log model parameters and gradients (once per epoch).
+    # These are summarized stats per layer, but it could still lead
+    # to many indicators for very deep networks.
+    is_log_model_params_grads: bool = False
+
+    # Whether to log model activations (once per epoch).
+    # These are summarized stats per layer, but it could still lead
+    # to many indicators for very deep networks.
+    is_log_model_activations: bool = False
+
     def init(self):
         """
         ### Initialization
@@ -102,7 +112,7 @@ class NLPClassificationConfigs(TrainValidConfigs):
             tracker.add_global_step(data.shape[1])
 
         # Whether to capture model outputs
-        with self.mode.update(is_log_activations=batch_idx.is_last):
+        with self.mode.update(is_log_activations=batch_idx.is_last and self.is_log_model_activations):
             # Get model outputs.
             # It's returning a tuple for states when using RNNs.
             # This is not implemented yet. 😜
@@ -125,7 +135,7 @@ class NLPClassificationConfigs(TrainValidConfigs):
             # Take optimizer step
             self.optimizer.step()
             # Log the model parameters and gradients on last batch of every epoch
-            if batch_idx.is_last:
+            if batch_idx.is_last and self.is_log_model_params_grads:
                 tracker.add('model', self.model)
             # Clear the gradients
             self.optimizer.zero_grad()
diff --git a/labml_nn/transformers/basic/autoregressive_experiment.ipynb b/labml_nn/transformers/basic/autoregressive_experiment.ipynb
index 7daa2156..311acf76 100644
--- a/labml_nn/transformers/basic/autoregressive_experiment.ipynb
+++ b/labml_nn/transformers/basic/autoregressive_experiment.ipynb
@@ -17,7 +17,10 @@
   {
    "cell_type": "markdown",
    "metadata": {
-    "id": "AYV_dMVDxyc2"
+    "id": "AYV_dMVDxyc2",
+    "pycharm": {
+     "name": "#%% md\n"
+    }
    },
    "source": [
     "[![Github](https://img.shields.io/github/stars/labmlai/annotated_deep_learning_paper_implementations?style=social)](https://github.com/labmlai/annotated_deep_learning_paper_implementations)\n",
@@ -34,7 +37,10 @@
   {
    "cell_type": "markdown",
    "metadata": {
-    "id": "AahG_i2y5tY9"
+    "id": "AahG_i2y5tY9",
+    "pycharm": {
+     "name": "#%% md\n"
+    }
    },
    "source": [
     "Install the packages"
@@ -47,7 +53,10 @@
     "colab": {
      "base_uri": "https://localhost:8080/"
     },
-    "outputId": "cf107fb2-4d50-4c67-af34-367624553421"
+    "outputId": "cf107fb2-4d50-4c67-af34-367624553421",
+    "pycharm": {
+     "name": "#%%\n"
+    }
    },
    "source": [
     "!pip install labml-nn comet_ml"
@@ -58,7 +67,10 @@
   {
    "cell_type": "markdown",
    "metadata": {
-    "id": "SE2VUQ6L5zxI"
+    "id": "SE2VUQ6L5zxI",
+    "pycharm": {
+     "name": "#%% md\n"
+    }
    },
    "source": [
     "Imports"
@@ -67,7 +79,10 @@
   {
    "cell_type": "code",
    "metadata": {
-    "id": "0hJXx_g0wS2C"
+    "id": "0hJXx_g0wS2C",
+    "pycharm": {
+     "name": "#%%\n"
+    }
    },
    "source": [
     "import torch\n",
@@ -112,7 +127,10 @@
   {
    "cell_type": "markdown",
    "metadata": {
-    "id": "Lpggo0wM6qb-"
+    "id": "Lpggo0wM6qb-",
+    "pycharm": {
+     "name": "#%% md\n"
+    }
    },
    "source": [
     "Create an experiment"
@@ -121,7 +139,10 @@
   {
    "cell_type": "code",
    "metadata": {
-    "id": "bFcr9k-l4cAg"
+    "id": "bFcr9k-l4cAg",
+    "pycharm": {
+     "name": "#%%\n"
+    }
    },
    "source": [
     "experiment.create(name=\"transformer\", writers={'screen', 'web_api', 'comet'})"
@@ -132,7 +153,10 @@
   {
    "cell_type": "markdown",
    "metadata": {
-    "id": "-OnHLi626tJt"
+    "id": "-OnHLi626tJt",
+    "pycharm": {
+     "name": "#%% md\n"
+    }
    },
    "source": [
     "Initialize configurations"
@@ -141,7 +165,10 @@
   {
    "cell_type": "code",
    "metadata": {
-    "id": "Piz0c5f44hRo"
+    "id": "Piz0c5f44hRo",
+    "pycharm": {
+     "name": "#%%\n"
+    }
    },
    "source": [
     "conf = Configs()"
@@ -152,7 +179,10 @@
   {
    "cell_type": "markdown",
    "metadata": {
-    "id": "wwMzCqpD6vkL"
+    "id": "wwMzCqpD6vkL",
+    "pycharm": {
+     "name": "#%% md\n"
+    }
    },
    "source": [
     "Set experiment configurations and assign a configurations dictionary to override configurations"
@@ -166,7 +196,10 @@
      "height": 17
     },
     "id": "e6hmQhTw4nks",
-    "outputId": "29634715-42f4-4405-fb11-fc9522608627"
+    "outputId": "29634715-42f4-4405-fb11-fc9522608627",
+    "pycharm": {
+     "name": "#%%\n"
+    }
    },
    "source": [
     "experiment.configs(conf, {\n",
@@ -205,7 +238,10 @@
   {
    "cell_type": "markdown",
    "metadata": {
-    "id": "EvI7MtgJ61w5"
+    "id": "EvI7MtgJ61w5",
+    "pycharm": {
+     "name": "#%% md\n"
+    }
    },
    "source": [
     "Set PyTorch models for loading and saving"
@@ -219,7 +255,10 @@
      "height": 255
     },
     "id": "GDlt7dp-5ALt",
-    "outputId": "e7548e8f-c541-4618-dc5a-1597cae42003"
+    "outputId": "e7548e8f-c541-4618-dc5a-1597cae42003",
+    "pycharm": {
+     "name": "#%%\n"
+    }
    },
    "source": [
     "experiment.add_pytorch_models({'model': conf.model})"
@@ -230,7 +269,10 @@
   {
    "cell_type": "markdown",
    "metadata": {
-    "id": "KJZRf8527GxL"
+    "id": "KJZRf8527GxL",
+    "pycharm": {
+     "name": "#%% md\n"
+    }
    },
    "source": [
     "Start the experiment and run the training loop."
@@ -244,7 +286,10 @@
      "height": 1000
     },
     "id": "aIAWo7Fw5DR8",
-    "outputId": "db979785-bfe3-4eda-d3eb-8ccbe61053e5"
+    "outputId": "db979785-bfe3-4eda-d3eb-8ccbe61053e5",
+    "pycharm": {
+     "name": "#%%\n"
+    }
    },
    "source": [
     "# Start the experiment\n",
@@ -257,11 +302,12 @@
   {
    "cell_type": "code",
    "metadata": {
-    "id": "oBXXlP2b7XZO"
+    "id": "oBXXlP2b7XZO",
+    "pycharm": {
+     "name": "#%%\n"
+    }
    },
-   "source": [
-    ""
-   ],
+   "source": [],
    "execution_count": null,
    "outputs": []
   }