annotated_deep_learning_pap…/docs/transformers/feedback/index.html

<!DOCTYPE html>
<html>
<head>
    <meta http-equiv="content-type" content="text/html;charset=utf-8"/>
    <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
    <meta name="description" content="This is an annotated implementation/tutorial the Feedback Transformer in PyTorch."/>

    <meta name="twitter:card" content="summary"/>
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="Feedback Transformer"/>
    <meta name="twitter:description" content="This is an annotated implementation/tutorial the Feedback Transformer in PyTorch."/>
    <meta name="twitter:site" content="@labmlai"/>
    <meta name="twitter:creator" content="@labmlai"/>

    <meta property="og:url" content="https://nn.labml.ai/transformers/feedback/index.html"/>
    <meta property="og:title" content="Feedback Transformer"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="LabML Neural Networks"/>
    <meta property="og:type" content="object"/>
    <meta property="og:title" content="Feedback Transformer"/>
    <meta property="og:description" content="This is an annotated implementation/tutorial the Feedback Transformer in PyTorch."/>

    <title>Feedback Transformer</title>
    <link rel="stylesheet" href="../../pylit.css">
    <link rel="canonical" href="https://nn.labml.ai/transformers/feedback/index.html"/>
    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>
        window.dataLayer = window.dataLayer || [];

        function gtag() {
            dataLayer.push(arguments);
        }

        gtag('js', new Date());

        gtag('config', 'G-4V3HC8HBLH');
    </script>
</head>
<body>
<div id='container'>
    <div id="background"></div>
    <div class='section'>
        <div class='docs'>
            <p>
                <a class="parent" href="/">home</a>
                <a class="parent" href="../index.html">transformers</a>
                <a class="parent" href="index.html">feedback</a>
            </p>
            <p>

                <a href="https://github.com/lab-ml/labml_nn/tree/master/labml_nn/transformers/feedback/__init__.py">
                    <img alt="Github"
                         src="https://img.shields.io/github/stars/lab-ml/nn?style=social"
                         style="max-width:100%;"/></a>
                <a href="https://join.slack.com/t/labforml/shared_invite/zt-egj9zvq9-Dl3hhZqobexgT7aVKnD14g/"
                   rel="nofollow">
                    <img alt="Join Slact"
                         src="https://img.shields.io/badge/slack-chat-green.svg?logo=slack"
                         style="max-width:100%;"/></a>
                <a href="https://twitter.com/labmlai"
                   rel="nofollow">
                    <img alt="Twitter"
                         src="https://img.shields.io/twitter/follow/labmlai?style=social"
                         style="max-width:100%;"/></a>
            </p>
        </div>
    </div>
    <div class='section' id='section-0'>
        <div class='docs doc-strings'>
                <div class='section-link'>
                    <a href='#section-0'>#</a>
                </div>
                <h1>Feedback Transformer</h1>
<p>This is an implementation of the paper
<a href="https://arxiv.org/abs/2002.09402">Accessing Higher-level Representations in Sequential Transformers with Feedback Memory</a>.</p>
<p>Normal transformers process tokens in parallel and each transformer layer pays attention
to the outputs of the previous layer.
Feedback transformer pays attention to the output of all layers in previous steps.
So this adds recurrence and we need to process token-by-token.
This slows down the training significantly (about 5X - 10X depending on the sequence length).
However when predicting Feedback Transformer is faster because you can predict the next token
if you cache the memory vectors.</p>
<p>In order to speed up the training the paper discusses starting with a short sequence length and
gradually increasing it.
They also discuss using a pretrained parallel transformer as the starting point.</p>
<p>The feedback transformer doesn&rsquo;t keep the outputs of all layers.
Instead it keeps weighted sum of the output of all layers.
This reduces the memory used for caching during prediction.</p>
<p>Here&rsquo;s a notebook for training a feedback transformer on Tiny Shakespeare dataset.</p>
<p><a href="https://colab.research.google.com/github/lab-ml/nn/blob/master/labml_nn/transformers/feedback/experiment.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg" /></a>
<a href="https://web.lab-ml.com/run?uuid=d8eb9416530a11eb8fb50242ac1c0002"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen" /></a></p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">35</span><span></span><span class="kn">import</span> <span class="nn">math</span>
<span class="lineno">36</span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Optional</span>
<span class="lineno">37</span>
<span class="lineno">38</span><span class="kn">import</span> <span class="nn">torch</span>
<span class="lineno">39</span><span class="kn">from</span> <span class="nn">torch</span> <span class="kn">import</span> <span class="n">nn</span>
<span class="lineno">40</span>
<span class="lineno">41</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
<span class="lineno">42</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.mha</span> <span class="kn">import</span> <span class="n">PrepareForMultiHeadAttention</span>
<span class="lineno">43</span><span class="kn">from</span> <span class="nn">labml_nn.transformers.feed_forward</span> <span class="kn">import</span> <span class="n">FeedForward</span>
<span class="lineno">44</span><span class="kn">from</span> <span class="nn">labml_nn.utils</span> <span class="kn">import</span> <span class="n">clone_module_list</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-1'>
        <div class='docs doc-strings'>
                <div class='section-link'>
                    <a href='#section-1'>#</a>
                </div>
                <h2>Feedback Attention</h2>
<p>This module computes recurrent attention similar to attention from original transformers
paper.</p>
<p>
<script type="math/tex; mode=display">\mathop{Attention}(Q, K, V) = \underset{seq}{\mathop{softmax}}\Bigg(\frac{Q^\top K}{\sqrt{d_k}}\Bigg)V</script>
</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">47</span><span class="k">class</span> <span class="nc">FeedbackAttention</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-2'>
        <div class='docs doc-strings'>
                <div class='section-link'>
                    <a href='#section-2'>#</a>
                </div>
                <ul>
<li>&lsquo;heads&rsquo; is the number of attention heads</li>
<li><code>d_model</code> is the number of features in the transformer</li>
<li><code>dropout_prob</code> is the attention dropout probability</li>
</ul>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">58</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">heads</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span> <span class="n">dropout_prob</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">0.1</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-3'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-3'>#</a>
                </div>

            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">65</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-4'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-4'>#</a>
                </div>
                <p>Number of features per head</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">68</span>        <span class="bp">self</span><span class="o">.</span><span class="n">d_k</span> <span class="o">=</span> <span class="n">d_model</span> <span class="o">//</span> <span class="n">heads</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-5'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-5'>#</a>
                </div>

            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">70</span>        <span class="bp">self</span><span class="o">.</span><span class="n">heads</span> <span class="o">=</span> <span class="n">heads</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-6'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-6'>#</a>
                </div>
                <p>These transform the <code>query</code>, <code>key</code> and <code>value</code> vectors for multi-headed attention.</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">73</span>        <span class="bp">self</span><span class="o">.</span><span class="n">query</span> <span class="o">=</span> <span class="n">PrepareForMultiHeadAttention</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">d_k</span><span class="p">,</span>  <span class="n">bias</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
<span class="lineno">74</span>        <span class="bp">self</span><span class="o">.</span><span class="n">key</span> <span class="o">=</span> <span class="n">PrepareForMultiHeadAttention</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">d_k</span><span class="p">,</span>  <span class="n">bias</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
<span class="lineno">75</span>        <span class="bp">self</span><span class="o">.</span><span class="n">value</span> <span class="o">=</span> <span class="n">PrepareForMultiHeadAttention</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">d_k</span><span class="p">,</span>  <span class="n">bias</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-7'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-7'>#</a>
                </div>
                <p>Output layer</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">78</span>        <span class="bp">self</span><span class="o">.</span><span class="n">output</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="n">d_model</span><span class="p">,</span> <span class="n">d_model</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-8'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-8'>#</a>
                </div>
                <p>Dropout</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">80</span>        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">dropout_prob</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-9'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-9'>#</a>
                </div>
                <p>Scaling factor before the softmax</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">82</span>        <span class="bp">self</span><span class="o">.</span><span class="n">scale</span> <span class="o">=</span> <span class="mi">1</span> <span class="o">/</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">d_k</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-10'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-10'>#</a>
                </div>
                <p>Softmax for attention along the time dimension of <code>key</code></p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">85</span>        <span class="bp">self</span><span class="o">.</span><span class="n">softmax</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Softmax</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-11'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-11'>#</a>
                </div>
                <p>Number of relative positions</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">88</span>        <span class="bp">self</span><span class="o">.</span><span class="n">P</span> <span class="o">=</span> <span class="mi">2</span> <span class="o">**</span> <span class="mi">12</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-12'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-12'>#</a>
                </div>
                <p>Relative positional embeddings for key relative to the query.</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">91</span>        <span class="bp">self</span><span class="o">.</span><span class="n">key_pos_embeddings</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="bp">self</span><span class="o">.</span><span class="n">P</span><span class="p">,</span> <span class="n">heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">d_k</span><span class="p">)),</span> <span class="n">requires_grad</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-13'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-13'>#</a>
                </div>
                <p>Positional embeddings for the query is independent of the position of the query</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">93</span>        <span class="bp">self</span><span class="o">.</span><span class="n">query_pos_bias</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">zeros</span><span class="p">((</span><span class="n">heads</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">d_k</span><span class="p">)),</span> <span class="n">requires_grad</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-14'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-14'>#</a>
                </div>
                <p>We store attentions so that it can used for logging, or other computations if needed</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">96</span>        <span class="bp">self</span><span class="o">.</span><span class="n">attn</span> <span class="o">=</span> <span class="kc">None</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-15'>
        <div class='docs doc-strings'>
                <div class='section-link'>
                    <a href='#section-15'>#</a>
                </div>
                <h3>Get attention scores</h3>
<p>
<script type="math/tex; mode=display">\begin{align}
A_{j} &= Q^\top K_j \\
    &= lin_q(X^q + P_q)^\top lin_k(X^k_j + P_j) \\
    &= (Q + U^Q)^\top(K_j + U^K_j)
\end{align}</script>
</p>
<p>where $Q, K_j$, are linear transformations of
 original embeddings $X^q, X^k_j$
 and $U^Q, U^K_j$ are linear transformations of
 absolute positional encodings $P_q, P_j$.</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">98</span>    <span class="k">def</span> <span class="nf">get_scores</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">query</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">key</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-16'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-16'>#</a>
                </div>
                <p>$U^K_j$</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">115</span>        <span class="n">key_pos_emb</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">key_pos_embeddings</span><span class="p">[</span><span class="o">-</span><span class="n">key</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]:]</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-17'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-17'>#</a>
                </div>
                <p>$U^Q$</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">117</span>        <span class="n">query_pos_bias</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">query_pos_bias</span><span class="p">[</span><span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:]</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-18'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-18'>#</a>
                </div>
                <p>$(Q + U^Q)^\top(K_j + U^K_j)$</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">120</span>        <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">einsum</span><span class="p">(</span><span class="s1">&#39;bhd,jbhd-&gt;jbh&#39;</span><span class="p">,</span> <span class="n">query</span> <span class="o">+</span> <span class="n">query_pos_bias</span><span class="p">,</span> <span class="n">key</span> <span class="o">+</span> <span class="n">key_pos_emb</span><span class="p">[:,</span> <span class="kc">None</span><span class="p">,</span> <span class="p">:,</span> <span class="p">:])</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-19'>
        <div class='docs doc-strings'>
                <div class='section-link'>
                    <a href='#section-19'>#</a>
                </div>
                <ul>
<li><code>query</code> has shape <code>[batch_size, d_model]</code></li>
<li><code>key</code> and <code>value</code> has shape <code>[seq_len, batch_size, d_model]</code></li>
</ul>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">122</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span>
<span class="lineno">123</span>                 <span class="n">query</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
<span class="lineno">124</span>                 <span class="n">key</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
<span class="lineno">125</span>                 <span class="n">value</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-20'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-20'>#</a>
                </div>
                <p>Prepare <code>query</code>, <code>key</code> and <code>value</code> for attention computation
<code>key</code> and <code>value</code>  will then have shape <code>[seq_len, batch_size, heads, d_k]</code>
and <code>query</code> will have shape <code>[batch_size, heads, d_k]</code></p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">134</span>        <span class="n">query</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">query</span><span class="p">(</span><span class="n">query</span><span class="p">)</span>
<span class="lineno">135</span>        <span class="n">key</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">key</span><span class="p">(</span><span class="n">key</span><span class="p">)</span>
<span class="lineno">136</span>        <span class="n">value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">value</span><span class="p">(</span><span class="n">value</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-21'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-21'>#</a>
                </div>
                <p>Compute attention scores
Results in a tensor of shape <code>[seq_len, batch_size, heads]</code></p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">140</span>        <span class="n">scores</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">get_scores</span><span class="p">(</span><span class="n">query</span><span class="p">,</span> <span class="n">key</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-22'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-22'>#</a>
                </div>
                <p>Scale scores $\frac{1}{\sqrt{d_k}}$</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">143</span>        <span class="n">scores</span> <span class="o">*=</span> <span class="bp">self</span><span class="o">.</span><span class="n">scale</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-23'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-23'>#</a>
                </div>
                <p>Softmax</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">146</span>        <span class="n">attn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="n">scores</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-24'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-24'>#</a>
                </div>
                <p>Apply dropout</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">149</span>        <span class="n">attn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">attn</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-25'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-25'>#</a>
                </div>
                <p>Multiply by the values</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">152</span>        <span class="n">x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">einsum</span><span class="p">(</span><span class="s2">&quot;jbh,jbhd-&gt;bhd&quot;</span><span class="p">,</span> <span class="n">attn</span><span class="p">,</span> <span class="n">value</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-26'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-26'>#</a>
                </div>
                <p>Concatenate multiple heads</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">155</span>        <span class="n">x</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-27'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-27'>#</a>
                </div>
                <p>Output layer</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">158</span>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">output</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-28'>
        <div class='docs doc-strings'>
                <div class='section-link'>
                    <a href='#section-28'>#</a>
                </div>
                <h2>Feedback Transformer Layer</h2>
<p>This implements a single transformer layer in the feedback transformer.</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">161</span><span class="k">class</span> <span class="nc">FeedbackTransformerLayer</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-29'>
        <div class='docs doc-strings'>
                <div class='section-link'>
                    <a href='#section-29'>#</a>
                </div>
                <ul>
<li><code>d_model</code> is the number of features in the transformer</li>
<li><code>attn</code> is the feedback attention module</li>
<li><code>feed_forward</code> is the position-wise feed forward layer</li>
<li><code>dropout_prob</code> is the dropout probability for dropout layers after attention and feed-forward</li>
</ul>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">168</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span>
<span class="lineno">169</span>                 <span class="n">d_model</span><span class="p">:</span> <span class="nb">int</span><span class="p">,</span>
<span class="lineno">170</span>                 <span class="n">attn</span><span class="p">:</span> <span class="n">FeedbackAttention</span><span class="p">,</span>
<span class="lineno">171</span>                 <span class="n">feed_forward</span><span class="p">:</span> <span class="n">FeedForward</span><span class="p">,</span>
<span class="lineno">172</span>                 <span class="n">dropout_prob</span><span class="p">:</span> <span class="nb">float</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-30'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-30'>#</a>
                </div>

            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">179</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-31'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-31'>#</a>
                </div>
                <p>Transformer size $d_{model}$</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">181</span>        <span class="bp">self</span><span class="o">.</span><span class="n">size</span> <span class="o">=</span> <span class="n">d_model</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-32'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-32'>#</a>
                </div>

            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">183</span>        <span class="bp">self</span><span class="o">.</span><span class="n">attn</span> <span class="o">=</span> <span class="n">attn</span>
<span class="lineno">184</span>        <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span> <span class="o">=</span> <span class="n">feed_forward</span>
<span class="lineno">185</span>        <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Dropout</span><span class="p">(</span><span class="n">dropout_prob</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-33'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-33'>#</a>
                </div>
                <p>Normalization layers</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">188</span>        <span class="bp">self</span><span class="o">.</span><span class="n">norm_self_attn</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">([</span><span class="n">d_model</span><span class="p">])</span>
<span class="lineno">189</span>        <span class="bp">self</span><span class="o">.</span><span class="n">norm_ff</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">([</span><span class="n">d_model</span><span class="p">])</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-34'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-34'>#</a>
                </div>

            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">191</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="o">*</span><span class="p">,</span>
<span class="lineno">192</span>                 <span class="n">x</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span>
<span class="lineno">193</span>                 <span class="n">mem</span><span class="p">:</span> <span class="n">Optional</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-35'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-35'>#</a>
                </div>
                <p>If there is memory</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">195</span>        <span class="k">if</span> <span class="n">mem</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-36'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-36'>#</a>
                </div>
                <p>Normalize the vectors before doing self attention</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">197</span>            <span class="n">z</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_self_attn</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-37'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-37'>#</a>
                </div>
                <p>Run through self attention, i.e. keys and values are from self</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">199</span>            <span class="n">self_attn</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn</span><span class="p">(</span><span class="n">query</span><span class="o">=</span><span class="n">z</span><span class="p">,</span> <span class="n">key</span><span class="o">=</span><span class="n">mem</span><span class="p">,</span> <span class="n">value</span><span class="o">=</span><span class="n">mem</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-38'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-38'>#</a>
                </div>
                <p>Add the self attention results</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">201</span>            <span class="n">x</span> <span class="o">=</span> <span class="n">x</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">self_attn</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-39'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-39'>#</a>
                </div>
                <p>Normalize for feed-forward</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">204</span>        <span class="n">z</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_ff</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-40'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-40'>#</a>
                </div>
                <p>Pass through the feed-forward network</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">206</span>        <span class="n">ff</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">feed_forward</span><span class="p">(</span><span class="n">z</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-41'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-41'>#</a>
                </div>
                <p>Add the feed-forward results back</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">208</span>        <span class="n">x</span> <span class="o">=</span> <span class="n">x</span> <span class="o">+</span> <span class="bp">self</span><span class="o">.</span><span class="n">dropout</span><span class="p">(</span><span class="n">ff</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-42'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-42'>#</a>
                </div>

            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">211</span>        <span class="k">return</span> <span class="n">x</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-43'>
        <div class='docs doc-strings'>
                <div class='section-link'>
                    <a href='#section-43'>#</a>
                </div>
                <h2>Feedback Transformer Module</h2>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">214</span><span class="k">class</span> <span class="nc">FeedbackTransformer</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-44'>
        <div class='docs doc-strings'>
                <div class='section-link'>
                    <a href='#section-44'>#</a>
                </div>
                <ul>
<li><code>layer</code> is the feedback transformer layer, which we clone for each layer</li>
<li><code>n_layers</code> is the number of layers in the transformer</li>
</ul>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">219</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">layer</span><span class="p">:</span> <span class="n">FeedbackTransformerLayer</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">:</span> <span class="nb">int</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-45'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-45'>#</a>
                </div>

            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">225</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-46'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-46'>#</a>
                </div>
                <p>Make copies of the transformer layer</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">227</span>        <span class="bp">self</span><span class="o">.</span><span class="n">layers</span> <span class="o">=</span> <span class="n">clone_module_list</span><span class="p">(</span><span class="n">layer</span><span class="p">,</span> <span class="n">n_layers</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-47'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-47'>#</a>
                </div>
                <p>Final normalization layer</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">229</span>        <span class="bp">self</span><span class="o">.</span><span class="n">norm</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">LayerNorm</span><span class="p">([</span><span class="n">layer</span><span class="o">.</span><span class="n">size</span><span class="p">])</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-48'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-48'>#</a>
                </div>
                <p>Memory vectors are computed as a weighted sum of representations of each layer.
This is the weights parameter for that.</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">232</span>        <span class="bp">self</span><span class="o">.</span><span class="n">weights</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Parameter</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">ones</span><span class="p">(</span><span class="n">n_layers</span> <span class="o">+</span> <span class="mi">1</span><span class="p">),</span> <span class="n">requires_grad</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-49'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-49'>#</a>
                </div>
                <p>Softmax for weights before taking the weighted sum</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">234</span>        <span class="bp">self</span><span class="o">.</span><span class="n">softmax</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Softmax</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-50'>
        <div class='docs doc-strings'>
                <div class='section-link'>
                    <a href='#section-50'>#</a>
                </div>
                <ul>
<li><code>x_seq</code> is the input with shape <code>[seq_len, batch_size, d_model]</code></li>
</ul>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">236</span>    <span class="k">def</span> <span class="fm">__call__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x_seq</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-51'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-51'>#</a>
                </div>
                <p>Split the input to a list along the sequence axis</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">242</span>        <span class="n">x_seq</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">unbind</span><span class="p">(</span><span class="n">x_seq</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-52'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-52'>#</a>
                </div>
                <p>List to store the outputs</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">244</span>        <span class="n">res</span> <span class="o">=</span> <span class="p">[]</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-53'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-53'>#</a>
                </div>
                <p>List to store the memory vectors</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">246</span>        <span class="n">mem</span> <span class="o">=</span> <span class="p">[]</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-54'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-54'>#</a>
                </div>
                <p>For each input step</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">248</span>        <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">x_seq</span><span class="p">:</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-55'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-55'>#</a>
                </div>
                <p>List to store layer outputs</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">250</span>            <span class="n">layer_outputs</span> <span class="o">=</span> <span class="p">[</span><span class="n">x</span><span class="p">]</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-56'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-56'>#</a>
                </div>
                <p>If there is memory, stack them into a vector</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">253</span>            <span class="n">mem_tensor</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">mem</span><span class="p">)</span> <span class="k">if</span> <span class="n">mem</span> <span class="k">else</span> <span class="kc">None</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-57'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-57'>#</a>
                </div>
                <p>Run through each layer</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">256</span>            <span class="k">for</span> <span class="n">layer</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">:</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-58'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-58'>#</a>
                </div>
                <p>Get layer output</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">258</span>                <span class="n">x</span> <span class="o">=</span> <span class="n">layer</span><span class="p">(</span><span class="n">x</span><span class="o">=</span><span class="n">x</span><span class="p">,</span> <span class="n">mem</span><span class="o">=</span><span class="n">mem_tensor</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-59'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-59'>#</a>
                </div>
                <p>Append them to the list of layer outputs</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">260</span>                <span class="n">layer_outputs</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-60'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-60'>#</a>
                </div>
                <p>Stack the layer outputs to a tensor</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">263</span>            <span class="n">layer_outputs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">layer_outputs</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-61'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-61'>#</a>
                </div>
                <p>Calculate the memory vector as a weighted sum of layer outputs</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">265</span>            <span class="n">mem</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">einsum</span><span class="p">(</span><span class="s1">&#39;lbd,l-&gt;bd&#39;</span><span class="p">,</span> <span class="n">layer_outputs</span><span class="p">,</span> <span class="bp">self</span><span class="o">.</span><span class="n">softmax</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">weights</span><span class="p">)))</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-62'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-62'>#</a>
                </div>
                <p>Append the output to results</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">267</span>            <span class="n">res</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-63'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-63'>#</a>
                </div>
                <p>Stack the output tensors</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">270</span>        <span class="n">res</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">res</span><span class="p">)</span></pre></div>
            </div>
        </div>
    <div class='section' id='section-64'>
            <div class='docs'>
                <div class='section-link'>
                    <a href='#section-64'>#</a>
                </div>
                <p>Normalize the output</p>
            </div>
            <div class='code'>
                <div class="highlight"><pre><span class="lineno">272</span>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm</span><span class="p">(</span><span class="n">res</span><span class="p">)</span></pre></div>
            </div>
        </div>
    </div>
</div>
<script src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.4/MathJax.js?config=TeX-AMS_HTML">
</script>
<!-- MathJax configuration -->
<script type="text/x-mathjax-config">
    MathJax.Hub.Config({
        tex2jax: {
            inlineMath: [ ['$','$'] ],
            displayMath: [ ['$$','$$'] ],
            processEscapes: true,
            processEnvironments: true
        },
        // Center justify equations in code and markdown cells. Elsewhere
        // we use CSS to left justify single line equations in code cells.
        displayAlign: 'center',
        "HTML-CSS": { fonts: ["TeX"] }
    });


</script>
</body>
</html>