transformer xl links

2025-12-16 06:08:33 +08:00 · 2021-02-07 16:17:50 +05:30
parent ab01567b52
commit bbd442d4a9
9 changed files with 100 additions and 60 deletions
--- a/docs/index.html
+++ b/docs/index.html
@@ -84,7 +84,10 @@ implementations.</p>
 <ul>
 <li><a href="transformers/mha.html">Multi-headed attention</a></li>
 <li><a href="transformers/models.html">Transformer building blocks</a></li>
-<li><a href="transformers/xl/relative_mha.html">Relative multi-headed attention</a>.</li>
+<li><a href="transformers/xl/index.html">Transformer XL</a><ul>
+<li><a href="transformers/xl/relative_mha.html">Relative multi-headed attention</a></li>
+</ul>
+</li>
 <li><a href="transformers/gpt/index.html">GPT Architecture</a></li>
 <li><a href="transformers/glu_variants/simple.html">GLU Variants</a></li>
 <li><a href="transformers/knn/index.html">kNN-LM: Generalization through Memorization</a></li>
--- a/docs/sitemap.xml
+++ b/docs/sitemap.xml
@@ -426,6 +426,13 @@
    </url>
    

+    <url>
+      <loc>https://nn.labml.ai/transformers/xl/experiment.html</loc>
+      <lastmod>2021-02-07T16:30:00+00:00</lastmod>
+      <priority>1.00</priority>
+    </url>
+    
+
    <url>
      <loc>https://nn.labml.ai/transformers/xl/index.html</loc>
      <lastmod>2021-02-07T16:30:00+00:00</lastmod>
--- a/docs/transformers/index.html
+++ b/docs/transformers/index.html
@@ -78,10 +78,12 @@ from paper <a href="https://arxiv.org/abs/1706.03762">Attention Is All You Need<
 and derivatives and enhancements of it.</p>
 <ul>
 <li><a href="mha.html">Multi-head attention</a></li>
-<li><a href="xl/relative_mha.html">Relative multi-head attention</a></li>
 <li><a href="models.html">Transformer Encoder and Decoder Models</a></li>
 <li><a href="positional_encoding.html">Fixed positional encoding</a></li>
 </ul>
+<h2><a href="xl/index.html">Transformer XL</a></h2>
+<p>This implements Transformer XL model using
+<a href="xl/relative_mha.html">relative multi-head attention</a></p>
 <h2><a href="gpt">GPT Architecture</a></h2>
 <p>This is an implementation of GPT-2 architecture.</p>
 <h2><a href="glu_variants/simple.html">GLU Variants</a></h2>
@@ -100,10 +102,10 @@ Our implementation only has a few million parameters and doesn&rsquo;t do model
 It does single GPU training but we implement the concept of switching as described in the paper.</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">49</span><span></span><span class="kn">from</span> <span class="nn">.configs</span> <span class="kn">import</span> <span class="n">TransformerConfigs</span>
-<span class="lineno">50</span><span class="kn">from</span> <span class="nn">.models</span> <span class="kn">import</span> <span class="n">TransformerLayer</span><span class="p">,</span> <span class="n">Encoder</span><span class="p">,</span> <span class="n">Decoder</span><span class="p">,</span> <span class="n">Generator</span><span class="p">,</span> <span class="n">EncoderDecoder</span>
-<span class="lineno">51</span><span class="kn">from</span> <span class="nn">.mha</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
-<span class="lineno">52</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.xl.relative_mha</span> <span class="kn">import</span> <span class="n">RelativeMultiHeadAttention</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">52</span><span></span><span class="kn">from</span> <span class="nn">.configs</span> <span class="kn">import</span> <span class="n">TransformerConfigs</span>
+<span class="lineno">53</span><span class="kn">from</span> <span class="nn">.models</span> <span class="kn">import</span> <span class="n">TransformerLayer</span><span class="p">,</span> <span class="n">Encoder</span><span class="p">,</span> <span class="n">Decoder</span><span class="p">,</span> <span class="n">Generator</span><span class="p">,</span> <span class="n">EncoderDecoder</span>
+<span class="lineno">54</span><span class="kn">from</span> <span class="nn">.mha</span> <span class="kn">import</span> <span class="n">MultiHeadAttention</span>
+<span class="lineno">55</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.xl.relative_mha</span> <span class="kn">import</span> <span class="n">RelativeMultiHeadAttention</span></pre></div>
            </div>
        </div>
    </div>
--- a/docs/transformers/xl/index.html
+++ b/docs/transformers/xl/index.html
@@ -93,15 +93,15 @@ are introduced at the attention calculation.</p>
 <a href="https://web.lab-ml.com/run?uuid=d3b6760c692e11ebb6a70242ac1c0002"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">37</span><span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
-<span class="lineno">38</span>
-<span class="lineno">39</span><span class="kn">import</span> <span class="nn">torch</span>
-<span class="lineno">40</span><span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
-<span class="lineno">41</span>
-<span class="lineno">42</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
-<span class="lineno">43</span><span class="kn">from</span> <span class="nn">labml_nn.utils</span> <span class="kn">import</span> <span class="n">clone_module_list</span>
-<span class="lineno">44</span><span class="kn">from</span> <span class="nn">.relative_mha</span> <span class="kn">import</span> <span class="n">RelativeMultiHeadAttention</span>
-<span class="lineno">45</span><span class="kn">from</span> <span class="nn">..feed_forward</span> <span class="kn">import</span> <span class="n">FeedForward</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">36</span><span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span>
+<span class="lineno">37</span>
+<span class="lineno">38</span><span class="kn">import</span> <span class="nn">torch</span>
+<span class="lineno">39</span><span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="lineno">40</span>
+<span class="lineno">41</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
+<span class="lineno">42</span><span class="kn">from</span> <span class="nn">labml_nn.utils</span> <span class="kn">import</span> <span class="n">clone_module_list</span>
+<span class="lineno">43</span><span class="kn">from</span> <span class="nn">.relative_mha</span> <span class="kn">import</span> <span class="n">RelativeMultiHeadAttention</span>
+<span class="lineno">44</span><span class="kn">from</span> <span class="nn">..feed_forward</span> <span class="kn">import</span> <span class="n">FeedForward</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-1'>
@@ -113,7 +113,7 @@ are introduced at the attention calculation.</p>
 <p>The transformer XL model comprises of a number of these layers.</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">48</span><span class="k">class</span> <span class="nc">TransformerXLLayer</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">47</span><span class="k">class</span> <span class="nc">TransformerXLLayer</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-2'>
@@ -129,11 +129,11 @@ are introduced at the attention calculation.</p>
 </ul>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">54</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span>
-<span class="lineno">55</span>                 <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
-<span class="lineno">56</span>                 <span class="n">self_attn</span><span class="p">:</span> <span class="n">RelativeMultiHeadAttention</span><span class="p">,</span>
-<span class="lineno">57</span>                 <span class="n">feed_forward</span><span class="p">:</span> <span class="n">FeedForward</span><span class="p">,</span>
-<span class="lineno">58</span>                 <span class="n">dropout_prob</span><span class="p">:</span> <span class="nb">float</span><span class="p">):</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">53</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span>
+<span class="lineno">54</span>                 <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
+<span class="lineno">55</span>                 <span class="n">self_attn</span><span class="p">:</span> <span class="n">RelativeMultiHeadAttention</span><span class="p">,</span>
+<span class="lineno">56</span>                 <span class="n">feed_forward</span><span class="p">:</span> <span class="n">FeedForward</span><span class="p">,</span>
+<span class="lineno">57</span>                 <span class="n">dropout_prob</span><span class="p">:</span> <span class="nb">float</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-3'>
@@ -144,13 +144,13 @@ are introduced at the attention calculation.</p>
                
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">65</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-<span class="lineno">66</span>        <span class="bp">self</span><span class="o">.</span><span class="n">size</span> <span class="o">=</span> <span class="n">d_model</span>
-<span class="lineno">67</span>        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">self_attn</span>
-<span class="lineno">68</span>        <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span> <span class="o">=</span> <span class="n">feed_forward</span>
-<span class="lineno">69</span>        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">dropout_prob</span><span class="p">)</span>
-<span class="lineno">70</span>        <span class="bp">self</span><span class="o">.</span><span class="n">norm_self_attn</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">([</span><span class="n">d_model</span><span class="p">])</span>
-<span class="lineno">71</span>        <span class="bp">self</span><span class="o">.</span><span class="n">norm_ff</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">([</span><span class="n">d_model</span><span class="p">])</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">64</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+<span class="lineno">65</span>        <span class="bp">self</span><span class="o">.</span><span class="n">size</span> <span class="o">=</span> <span class="n">d_model</span>
+<span class="lineno">66</span>        <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span> <span class="o">=</span> <span class="n">self_attn</span>
+<span class="lineno">67</span>        <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span> <span class="o">=</span> <span class="n">feed_forward</span>
+<span class="lineno">68</span>        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">dropout_prob</span><span class="p">)</span>
+<span class="lineno">69</span>        <span class="bp">self</span><span class="o">.</span><span class="n">norm_self_attn</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">([</span><span class="n">d_model</span><span class="p">])</span>
+<span class="lineno">70</span>        <span class="bp">self</span><span class="o">.</span><span class="n">norm_ff</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">([</span><span class="n">d_model</span><span class="p">])</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-4'>
@@ -166,10 +166,10 @@ are introduced at the attention calculation.</p>
 </ul>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">73</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span>
-<span class="lineno">74</span>                <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
-<span class="lineno">75</span>                <span class="n">mem</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">],</span>
-<span class="lineno">76</span>                <span class="n">mask</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">72</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span>
+<span class="lineno">73</span>                <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
+<span class="lineno">74</span>                <span class="n">mem</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">],</span>
+<span class="lineno">75</span>                <span class="n">mask</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-5'>
@@ -180,7 +180,7 @@ are introduced at the attention calculation.</p>
                <p>Normalize the vectors before doing self attention</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">84</span>        <span class="n">z</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_self_attn</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">83</span>        <span class="n">z</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_self_attn</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-6'>
@@ -191,7 +191,7 @@ are introduced at the attention calculation.</p>
                <p>If there is memory</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">86</span>        <span class="k">if</span> <span class="n">mem</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">85</span>        <span class="k">if</span> <span class="n">mem</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-7'>
@@ -202,7 +202,7 @@ are introduced at the attention calculation.</p>
                <p>Normalize it</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">88</span>            <span class="n">mem</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_self_attn</span><span class="p">(</span><span class="n">mem</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">87</span>            <span class="n">mem</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_self_attn</span><span class="p">(</span><span class="n">mem</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-8'>
@@ -213,7 +213,7 @@ are introduced at the attention calculation.</p>
                <p>Concatenate with <code>z</code></p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">90</span>            <span class="n">m_z</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">((</span><span class="n">mem</span><span class="p">,</span> <span class="n">z</span><span class="p">),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">89</span>            <span class="n">m_z</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">((</span><span class="n">mem</span><span class="p">,</span> <span class="n">z</span><span class="p">),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-9'>
@@ -224,8 +224,8 @@ are introduced at the attention calculation.</p>
                <p>Ignore if there is no memory</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">92</span>        <span class="k">else</span><span class="p">:</span>
-<span class="lineno">93</span>            <span class="n">m_z</span> <span class="o">=</span> <span class="n">z</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">91</span>        <span class="k">else</span><span class="p">:</span>
+<span class="lineno">92</span>            <span class="n">m_z</span> <span class="o">=</span> <span class="n">z</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-10'>
@@ -236,7 +236,7 @@ are introduced at the attention calculation.</p>
                <p>Attention</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">95</span>        <span class="n">self_attn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">z</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">m_z</span><span class="p">,</span> <span class="n">value</span><span class="o">=</span><span class="n">m_z</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="n">mask</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">94</span>        <span class="n">self_attn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">self_attn</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">z</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">m_z</span><span class="p">,</span> <span class="n">value</span><span class="o">=</span><span class="n">m_z</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="n">mask</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-11'>
@@ -247,7 +247,7 @@ are introduced at the attention calculation.</p>
                <p>Add the attention results</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">97</span>        <span class="n">x</span> <span class="o">=</span> <span class="n">x</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">self_attn</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">96</span>        <span class="n">x</span> <span class="o">=</span> <span class="n">x</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">self_attn</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-12'>
@@ -258,7 +258,7 @@ are introduced at the attention calculation.</p>
                <p>Normalize for feed-forward</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">100</span>        <span class="n">z</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_ff</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">99</span>        <span class="n">z</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_ff</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-13'>
@@ -269,7 +269,7 @@ are introduced at the attention calculation.</p>
                <p>Pass through the feed-forward network</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">102</span>        <span class="n">ff</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span><span class="p">(</span><span class="n">z</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">101</span>        <span class="n">ff</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span><span class="p">(</span><span class="n">z</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-14'>
@@ -280,7 +280,7 @@ are introduced at the attention calculation.</p>
                <p>Add the feed-forward results back</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">104</span>        <span class="n">x</span> <span class="o">=</span> <span class="n">x</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">ff</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">103</span>        <span class="n">x</span> <span class="o">=</span> <span class="n">x</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">ff</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-15'>
@@ -291,7 +291,7 @@ are introduced at the attention calculation.</p>
                
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">107</span>        <span class="k">return</span> <span class="n">x</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">106</span>        <span class="k">return</span> <span class="n">x</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-16'>
@@ -303,7 +303,7 @@ are introduced at the attention calculation.</p>
 <p>This consists of multiple transformer XL layers</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">110</span><span class="k">class</span> <span class="nc">TransformerXL</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">109</span><span class="k">class</span> <span class="nc">TransformerXL</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-17'>
@@ -314,8 +314,8 @@ are introduced at the attention calculation.</p>
                
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">117</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">layer</span><span class="p">:</span> <span class="n">TransformerXLLayer</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">:</span> <span class="nb">int</span><span class="p">):</span>
-<span class="lineno">118</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">116</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">layer</span><span class="p">:</span> <span class="n">TransformerXLLayer</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">:</span> <span class="nb">int</span><span class="p">):</span>
+<span class="lineno">117</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-18'>
@@ -326,7 +326,7 @@ are introduced at the attention calculation.</p>
                <p>Make copies of the transformer layer</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">120</span>        <span class="bp">self</span><span class="o">.</span><span class="n">layers</span> <span class="o">=</span> <span class="n">clone_module_list</span><span class="p">(</span><span class="n">layer</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">119</span>        <span class="bp">self</span><span class="o">.</span><span class="n">layers</span> <span class="o">=</span> <span class="n">clone_module_list</span><span class="p">(</span><span class="n">layer</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-19'>
@@ -337,7 +337,7 @@ are introduced at the attention calculation.</p>
                <p>Final normalization layer</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">122</span>        <span class="bp">self</span><span class="o">.</span><span class="n">norm</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">([</span><span class="n">layer</span><span class="o">.</span><span class="n">size</span><span class="p">])</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">121</span>        <span class="bp">self</span><span class="o">.</span><span class="n">norm</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">([</span><span class="n">layer</span><span class="o">.</span><span class="n">size</span><span class="p">])</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-20'>
@@ -352,7 +352,7 @@ are introduced at the attention calculation.</p>
 </ul>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">124</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">mem</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">],</span> <span class="n">mask</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">123</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">mem</span><span class="p">:</span> <span class="n">List</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">],</span> <span class="n">mask</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-21'>
@@ -364,7 +364,7 @@ are introduced at the attention calculation.</p>
 which will be the memories for the next sequential batch.</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">132</span>        <span class="n">new_mem</span> <span class="o">=</span> <span class="p">[]</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">131</span>        <span class="n">new_mem</span> <span class="o">=</span> <span class="p">[]</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-22'>
@@ -375,7 +375,7 @@ which will be the memories for the next sequential batch.</p>
                <p>Run through each transformer layer</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">134</span>        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">layer</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">):</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">133</span>        <span class="k">for</span> <span class="n">i</span><span class="p">,</span> <span class="n">layer</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-23'>
@@ -386,7 +386,7 @@ which will be the memories for the next sequential batch.</p>
                <p>Add to the list of feature vectors</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">136</span>            <span class="n">new_mem</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">detach</span><span class="p">())</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">135</span>            <span class="n">new_mem</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">detach</span><span class="p">())</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-24'>
@@ -397,7 +397,7 @@ which will be the memories for the next sequential batch.</p>
                <p>Memory</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">138</span>            <span class="n">m</span> <span class="o">=</span> <span class="n">mem</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="k">if</span> <span class="n">mem</span> <span class="k">else</span> <span class="kc">None</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">137</span>            <span class="n">m</span> <span class="o">=</span> <span class="n">mem</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="k">if</span> <span class="n">mem</span> <span class="k">else</span> <span class="kc">None</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-25'>
@@ -408,7 +408,7 @@ which will be the memories for the next sequential batch.</p>
                <p>Run through the transformer XL layer</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">140</span>            <span class="n">x</span> <span class="o">=</span> <span class="n">layer</span><span class="p">(</span><span class="n">x</span><span class="o">=</span><span class="n">x</span><span class="p">,</span> <span class="n">mem</span><span class="o">=</span><span class="n">m</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="n">mask</span><span class="p">)</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">139</span>            <span class="n">x</span> <span class="o">=</span> <span class="n">layer</span><span class="p">(</span><span class="n">x</span><span class="o">=</span><span class="n">x</span><span class="p">,</span> <span class="n">mem</span><span class="o">=</span><span class="n">m</span><span class="p">,</span> <span class="n">mask</span><span class="o">=</span><span class="n">mask</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-26'>
@@ -419,7 +419,7 @@ which will be the memories for the next sequential batch.</p>
                <p>Finally, normalize the vectors</p>
            </div>
            <div class='code'>
-                <div class="highlight"><pre><span class="lineno">142</span>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">x</span><span class="p">),</span> <span class="n">new_mem</span></pre></div>
+                <div class="highlight"><pre><span class="lineno">141</span>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">x</span><span class="p">),</span> <span class="n">new_mem</span></pre></div>
            </div>
        </div>
    </div>
--- a/labml_nn/init.py
+++ b/labml_nn/init.py
@@ -17,7 +17,8 @@ implementations.

 * [Multi-headed attention](transformers/mha.html)
 * [Transformer building blocks](transformers/models.html)
-* [Relative multi-headed attention](transformers/xl/relative_mha.html).
+* [Transformer XL](transformers/xl/index.html)
+    * [Relative multi-headed attention](transformers/xl/relative_mha.html)
 * [GPT Architecture](transformers/gpt/index.html)
 * [GLU Variants](transformers/glu_variants/simple.html)
 * [kNN-LM: Generalization through Memorization](transformers/knn/index.html)
--- a/labml_nn/transformers/init.py
+++ b/labml_nn/transformers/init.py
@@ -14,10 +14,13 @@ from paper [Attention Is All You Need](https://arxiv.org/abs/1706.03762),
 and derivatives and enhancements of it.

 * [Multi-head attention](mha.html)
-* [Relative multi-head attention](xl/relative_mha.html)
 * [Transformer Encoder and Decoder Models](models.html)
 * [Fixed positional encoding](positional_encoding.html)

+## [Transformer XL](xl/index.html)
+This implements Transformer XL model using
+[relative multi-head attention](xl/relative_mha.html)
+
 ## [GPT Architecture](gpt)

 This is an implementation of GPT-2 architecture.
--- a/labml_nn/transformers/xl/init.py
+++ b/labml_nn/transformers/xl/init.py
@@ -30,7 +30,6 @@ Here's [the training code](experiment.html) and a notebook for training a transf

 [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/lab-ml/nn/blob/master/labml_nn/transformers/xl/experiment.ipynb)
 [![View Run](https://img.shields.io/badge/labml-experiment-brightgreen)](https://web.lab-ml.com/run?uuid=d3b6760c692e11ebb6a70242ac1c0002)
-
 """


--- a/labml_nn/transformers/xl/readme.md
+++ b/labml_nn/transformers/xl/readme.md
@@ -0,0 +1,24 @@
+# Transformer XL
+
+This is an implementation of
+[Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context](https://arxiv.org/abs/1901.02860)
+in [PyTorch](https://pytorch.org).
+
+Transformer has a limited attention span,
+equal to the length of the sequence trained in parallel.
+All these positions have a fixed positional encoding.
+Transformer XL increases this attention span by letting
+each of the positions pay attention to precalculated past embeddings.
+For instance if the context length is $l$ it will keep the embeddings of
+all layers for previous batch of length $l$ and feed them to current step.
+If we use fixed-positional encodings these pre-calculated embeddings will have
+the same positions as the current context.
+They introduce relative positional encoding, where the positional encodings
+are introduced at the attention calculation.
+
+Annotated implementation of relative multi-headed attention is in [`relative_mha.py`](relative_mha.html).
+
+Here's [the training code](experiment.html) and a notebook for training a transformer XL model on Tiny Shakespeare dataset.
+
+[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/lab-ml/nn/blob/master/labml_nn/transformers/xl/experiment.ipynb)
+[![View Run](https://img.shields.io/badge/labml-experiment-brightgreen)](https://web.lab-ml.com/run?uuid=d3b6760c692e11ebb6a70242ac1c0002)
--- a/readme.md
+++ b/readme.md
@@ -23,7 +23,8 @@ implementations almost weekly.

 * [Multi-headed attention](https://nn.labml.ai/transformers/mha.html)
 * [Transformer building blocks](https://nn.labml.ai/transformers/models.html) 
-* [Relative multi-headed attention](https://nn.labml.ai/transformers/xl/relative_mha.html).
+* [Transformer XL](https://nn.labml.ai/transformers/xl/index.html)
+    * [Relative multi-headed attention](https://nn.labml.ai/transformers/xl/relative_mha.html)
 * [GPT Architecture](https://nn.labml.ai/transformers/gpt/index.html)
 * [GLU Variants](https://nn.labml.ai/transformers/glu_variants/simple.html)
 * [kNN-LM: Generalization through Memorization](https://nn.labml.ai/transformers/knn)