diff --git a/docs/transformers/retro/model.html b/docs/transformers/retro/model.html
index f4c3486d..a22b4a53 100644
--- a/docs/transformers/retro/model.html
+++ b/docs/transformers/retro/model.html
@@ -1809,11 +1809,12 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
             <div class='section-link'>
                 <a href='#section-129'>#</a>
             </div>
-            <p>Embeddings of the retrieved neighbors <span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:1.071664em;vertical-align:-0.247em;"></span><span class="mord"><span class="mord coloredeq eqbm" style=""><span class="mord mathnormal" style="margin-right:0.05764em">E</span></span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.824664em;"><span style="top:-2.4530000000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight">u</span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight" style="margin-right:0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="mord text"><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord sizing reset-size6 size5"><span class="mord">MB</span></span></span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord text mtight"><span class="mord mtight">enc</span></span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">(</span></span><span class="mord text"><span class="mord">R</span><span class="mord sizing reset-size6 size5"><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord">T</span></span></span><span class="mopen">(</span><span class="mord"><span class="mord mathnormal" style="margin-right:0.07153em;">C</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.07153em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight">u</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose"><span class="mclose">)</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.824664em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight" style="margin-right:0.05724em;">j</span></span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</span></span></span></span></span>. We use same embeddings for both input and neighbors </p>
+            <p>Embeddings of the retrieved neighbors <span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:1.071664em;vertical-align:-0.247em;"></span><span class="mord"><span class="mord coloredeq eqbm" style=""><span class="mord mathnormal" style="margin-right:0.05764em">E</span></span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.824664em;"><span style="top:-2.4530000000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight">u</span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight" style="margin-right:0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.247em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.20001em;vertical-align:-0.35001em;"></span><span class="mord"><span class="mord text"><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord sizing reset-size6 size5"><span class="mord">MB</span></span></span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord text mtight"><span class="mord mtight">enc</span></span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">(</span></span><span class="mord text"><span class="mord">R</span><span class="mord sizing reset-size6 size5"><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord">T</span></span></span><span class="mopen">(</span><span class="mord"><span class="mord mathnormal" style="margin-right:0.07153em;">C</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.07153em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight">u</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose"><span class="mclose">)</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.824664em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight" style="margin-right:0.05724em;">j</span></span></span></span></span></span></span></span><span class="mord"><span class="delimsizing size1">)</span></span></span></span></span>.</p>
+<p>We use same embeddings for both input and neighbors </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">557</span>        <span class="n">ret_emb</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">emb</span><span class="p">(</span><span class="n">ret</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">558</span>        <span class="n">ret_emb</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">emb</span><span class="p">(</span><span class="n">ret</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-130'>
@@ -1825,7 +1826,7 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">560</span>        <span class="n">p_ca</span> <span class="o">=</span> <span class="mi">0</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">561</span>        <span class="n">p_ca</span> <span class="o">=</span> <span class="mi">0</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-131'>
@@ -1837,7 +1838,7 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">562</span>        <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">attn</span><span class="p">)):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">563</span>        <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">attn</span><span class="p">)):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-132'>
@@ -1849,7 +1850,7 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">564</span>            <span class="n">h</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn</span><span class="p">[</span><span class="n">p</span><span class="p">](</span><span class="n">h</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">565</span>            <span class="n">h</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">attn</span><span class="p">[</span><span class="n">p</span><span class="p">](</span><span class="n">h</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-133'>
@@ -1861,7 +1862,7 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">568</span>            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ca_layers</span> <span class="ow">and</span> <span class="n">p</span> <span class="o">==</span> <span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ca_layers</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">569</span>            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">ca_layers</span> <span class="ow">and</span> <span class="n">p</span> <span class="o">==</span> <span class="nb">min</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">ca_layers</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-134'>
@@ -1869,11 +1870,12 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
             <div class='section-link'>
                 <a href='#section-134'>#</a>
             </div>
-            <p><span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord coloredeq eqbm" style=""><span class="mord mathnormal" style="margin-right:0.05764em">E</span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord coloredeq eqh" style=""><span class="mord text" style=""><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord sizing reset-size6 size5" style=""><span class="mord" style="">NCOD</span><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord" style="">R</span></span></span><span class="mopen" style="">(</span><span class="mord coloredeq eqm" style=""><span class="mord text" style=""><span class="mord" style="">R</span><span class="mord sizing reset-size6 size5" style=""><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord" style="">T</span></span></span><span class="mopen" style="">(</span><span class="mord" style=""><span class="mord mathnormal" style="margin-right:0.07153em">C</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.07153em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mathnormal mtight" style="">u</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose" style=""><span class="mclose" style="">)</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.3361079999999999em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mtight" style=""><span class="mord mtight" style="">1</span><span class="mrel mtight" style="">≤</span><span class="mord mathnormal mtight" style="">u</span><span class="mrel mtight" style="">≤</span><span class="mord mathnormal mtight" style="margin-right:0.01968em">l</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.24517899999999998em;"><span></span></span></span></span></span></span></span><span class="mpunct" style="">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord coloredeq eqbn" style=""><span class="mord mathnormal" style="margin-right:0.08125em">H</span></span><span class="mclose" style="">)</span></span></span></span></span> We passed the embeddings of <span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord coloredeq eqm" style=""><span class="mord text" style=""><span class="mord" style="">R</span><span class="mord sizing reset-size6 size5" style=""><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord" style="">T</span></span></span><span class="mopen" style="">(</span><span class="mord" style=""><span class="mord mathnormal" style="margin-right:0.07153em">C</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.07153em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mathnormal mtight" style="">u</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose" style=""><span class="mclose" style="">)</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.3361079999999999em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mtight" style=""><span class="mord mtight" style="">1</span><span class="mrel mtight" style="">≤</span><span class="mord mathnormal mtight" style="">u</span><span class="mrel mtight" style="">≤</span><span class="mord mathnormal mtight" style="margin-right:0.01968em">l</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.24517899999999998em;"><span></span></span></span></span></span></span></span></span></span></span> to encoder. </p>
+            <p><span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:0.68333em;vertical-align:0em;"></span><span class="mord coloredeq eqbm" style=""><span class="mord mathnormal" style="margin-right:0.05764em">E</span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord coloredeq eqh" style=""><span class="mord text" style=""><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord sizing reset-size6 size5" style=""><span class="mord" style="">NCOD</span><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord" style="">R</span></span></span><span class="mopen" style="">(</span><span class="mord coloredeq eqm" style=""><span class="mord text" style=""><span class="mord" style="">R</span><span class="mord sizing reset-size6 size5" style=""><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord" style="">T</span></span></span><span class="mopen" style="">(</span><span class="mord" style=""><span class="mord mathnormal" style="margin-right:0.07153em">C</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.07153em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mathnormal mtight" style="">u</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose" style=""><span class="mclose" style="">)</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.3361079999999999em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mtight" style=""><span class="mord mtight" style="">1</span><span class="mrel mtight" style="">≤</span><span class="mord mathnormal mtight" style="">u</span><span class="mrel mtight" style="">≤</span><span class="mord mathnormal mtight" style="margin-right:0.01968em">l</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.24517899999999998em;"><span></span></span></span></span></span></span></span><span class="mpunct" style="">,</span><span class="mspace" style="margin-right:0.16666666666666666em;"></span><span class="mord coloredeq eqbn" style=""><span class="mord mathnormal" style="margin-right:0.08125em">H</span></span><span class="mclose" style="">)</span></span></span></span></span></p>
+<p>We passed the embeddings of <span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord coloredeq eqm" style=""><span class="mord text" style=""><span class="mord" style="">R</span><span class="mord sizing reset-size6 size5" style=""><span class="mord coloredeq eqbm" style=""><span class="mord" style="">E</span></span><span class="mord" style="">T</span></span></span><span class="mopen" style="">(</span><span class="mord" style=""><span class="mord mathnormal" style="margin-right:0.07153em">C</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.151392em;"><span style="top:-2.5500000000000003em;margin-left:-0.07153em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mathnormal mtight" style="">u</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.15em;"><span></span></span></span></span></span></span><span class="mclose" style=""><span class="mclose" style="">)</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.3361079999999999em;"><span style="top:-2.5500000000000003em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mtight" style=""><span class="mord mtight" style="">1</span><span class="mrel mtight" style="">≤</span><span class="mord mathnormal mtight" style="">u</span><span class="mrel mtight" style="">≤</span><span class="mord mathnormal mtight" style="margin-right:0.01968em">l</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.24517899999999998em;"><span></span></span></span></span></span></span></span></span></span></span> to encoder. </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">571</span>                <span class="n">e</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">encoder</span><span class="p">(</span><span class="n">ret_emb</span><span class="p">,</span> <span class="n">h</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">573</span>                <span class="n">e</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">encoder</span><span class="p">(</span><span class="n">ret_emb</span><span class="p">,</span> <span class="n">h</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-135'>
@@ -1885,7 +1887,7 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">573</span>                <span class="n">e</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_e</span><span class="p">(</span><span class="n">e</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">575</span>                <span class="n">e</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">norm_e</span><span class="p">(</span><span class="n">e</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-136'>
@@ -1897,7 +1899,7 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">576</span>            <span class="k">if</span> <span class="n">p</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">ca_layers</span><span class="p">:</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">578</span>            <span class="k">if</span> <span class="n">p</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">ca_layers</span><span class="p">:</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-137'>
@@ -1909,7 +1911,7 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">578</span>                <span class="n">h</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cca</span><span class="p">[</span><span class="n">p_ca</span><span class="p">](</span><span class="n">h</span><span class="p">,</span> <span class="n">e</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">580</span>                <span class="n">h</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">cca</span><span class="p">[</span><span class="n">p_ca</span><span class="p">](</span><span class="n">h</span><span class="p">,</span> <span class="n">e</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-138'>
@@ -1921,7 +1923,7 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">580</span>                <span class="n">p_ca</span> <span class="o">+=</span> <span class="mi">1</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">582</span>                <span class="n">p_ca</span> <span class="o">+=</span> <span class="mi">1</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-139'>
@@ -1933,7 +1935,7 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">583</span>            <span class="n">h</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ffw</span><span class="p">[</span><span class="n">p</span><span class="p">](</span><span class="n">h</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">585</span>            <span class="n">h</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">ffw</span><span class="p">[</span><span class="n">p</span><span class="p">](</span><span class="n">h</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-140'>
@@ -1945,7 +1947,7 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">586</span>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">read</span><span class="p">(</span><span class="n">h</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">588</span>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">read</span><span class="p">(</span><span class="n">h</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-141'>
@@ -1957,7 +1959,7 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">589</span><span class="k">def</span> <span class="nf">_test</span><span class="p">():</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">591</span><span class="k">def</span> <span class="nf">_test</span><span class="p">():</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-142'>
@@ -1968,26 +1970,26 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">593</span>    <span class="n">chunk_len</span> <span class="o">=</span> <span class="mi">4</span>
-<span class="lineno">594</span>    <span class="n">d_model</span> <span class="o">=</span> <span class="mi">8</span>
-<span class="lineno">595</span>    <span class="n">d_ff</span> <span class="o">=</span> <span class="mi">32</span>
-<span class="lineno">596</span>    <span class="n">n_heads</span> <span class="o">=</span> <span class="mi">2</span>
-<span class="lineno">597</span>    <span class="n">d_k</span> <span class="o">=</span> <span class="mi">4</span>
-<span class="lineno">598</span>
-<span class="lineno">599</span>    <span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s1">&#39;cuda:0&#39;</span><span class="p">)</span>
+            <div class="highlight"><pre><span class="lineno">595</span>    <span class="n">chunk_len</span> <span class="o">=</span> <span class="mi">4</span>
+<span class="lineno">596</span>    <span class="n">d_model</span> <span class="o">=</span> <span class="mi">8</span>
+<span class="lineno">597</span>    <span class="n">d_ff</span> <span class="o">=</span> <span class="mi">32</span>
+<span class="lineno">598</span>    <span class="n">n_heads</span> <span class="o">=</span> <span class="mi">2</span>
+<span class="lineno">599</span>    <span class="n">d_k</span> <span class="o">=</span> <span class="mi">4</span>
 <span class="lineno">600</span>
-<span class="lineno">601</span>    <span class="n">m</span> <span class="o">=</span> <span class="n">RetroModel</span><span class="p">(</span><span class="mi">5</span><span class="p">,</span> <span class="n">d_model</span><span class="p">,</span> <span class="mi">6</span><span class="p">,</span> <span class="p">{</span><span class="mi">2</span><span class="p">,</span> <span class="mi">5</span><span class="p">},</span> <span class="n">chunk_len</span><span class="p">,</span> <span class="n">n_heads</span><span class="p">,</span> <span class="n">d_k</span><span class="p">,</span> <span class="n">d_ff</span><span class="p">,</span>
-<span class="lineno">602</span>                   <span class="n">encoder</span><span class="o">=</span><span class="n">NearestNeighborEncoder</span><span class="p">(</span><span class="n">chunk_len</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="p">{</span><span class="mi">1</span><span class="p">},</span> <span class="n">d_model</span><span class="p">,</span> <span class="n">n_heads</span><span class="p">,</span> <span class="n">d_k</span><span class="p">,</span> <span class="n">d_ff</span><span class="p">))</span>
-<span class="lineno">603</span>
-<span class="lineno">604</span>    <span class="n">m</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
-<span class="lineno">605</span>    <span class="n">x</span> <span class="o">=</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">3</span><span class="p">]</span>
-<span class="lineno">606</span>    <span class="n">ret</span> <span class="o">=</span> <span class="p">[</span>
-<span class="lineno">607</span>        <span class="p">[[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">],</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">]],</span>
-<span class="lineno">608</span>        <span class="p">[[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">],</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">]],</span>
-<span class="lineno">609</span>    <span class="p">]</span>
-<span class="lineno">610</span>    <span class="n">res</span> <span class="o">=</span> <span class="n">m</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="n">x</span><span class="p">]</span> <span class="o">*</span> <span class="mi">10</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="n">ret</span><span class="p">]</span> <span class="o">*</span> <span class="mi">10</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">))</span>
-<span class="lineno">611</span>
-<span class="lineno">612</span>    <span class="n">inspect</span><span class="p">(</span><span class="n">res</span><span class="p">)</span></pre></div>
+<span class="lineno">601</span>    <span class="n">device</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">device</span><span class="p">(</span><span class="s1">&#39;cuda:0&#39;</span><span class="p">)</span>
+<span class="lineno">602</span>
+<span class="lineno">603</span>    <span class="n">m</span> <span class="o">=</span> <span class="n">RetroModel</span><span class="p">(</span><span class="mi">5</span><span class="p">,</span> <span class="n">d_model</span><span class="p">,</span> <span class="mi">6</span><span class="p">,</span> <span class="p">{</span><span class="mi">2</span><span class="p">,</span> <span class="mi">5</span><span class="p">},</span> <span class="n">chunk_len</span><span class="p">,</span> <span class="n">n_heads</span><span class="p">,</span> <span class="n">d_k</span><span class="p">,</span> <span class="n">d_ff</span><span class="p">,</span>
+<span class="lineno">604</span>                   <span class="n">encoder</span><span class="o">=</span><span class="n">NearestNeighborEncoder</span><span class="p">(</span><span class="n">chunk_len</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="p">{</span><span class="mi">1</span><span class="p">},</span> <span class="n">d_model</span><span class="p">,</span> <span class="n">n_heads</span><span class="p">,</span> <span class="n">d_k</span><span class="p">,</span> <span class="n">d_ff</span><span class="p">))</span>
+<span class="lineno">605</span>
+<span class="lineno">606</span>    <span class="n">m</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">)</span>
+<span class="lineno">607</span>    <span class="n">x</span> <span class="o">=</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">2</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">,</span> <span class="mi">3</span><span class="p">]</span>
+<span class="lineno">608</span>    <span class="n">ret</span> <span class="o">=</span> <span class="p">[</span>
+<span class="lineno">609</span>        <span class="p">[[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">],</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">]],</span>
+<span class="lineno">610</span>        <span class="p">[[</span><span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">,</span> <span class="mi">0</span><span class="p">],</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">]],</span>
+<span class="lineno">611</span>    <span class="p">]</span>
+<span class="lineno">612</span>    <span class="n">res</span> <span class="o">=</span> <span class="n">m</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="n">x</span><span class="p">]</span> <span class="o">*</span> <span class="mi">10</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">),</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">([</span><span class="n">ret</span><span class="p">]</span> <span class="o">*</span> <span class="mi">10</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">device</span><span class="p">))</span>
+<span class="lineno">613</span>
+<span class="lineno">614</span>    <span class="n">inspect</span><span class="p">(</span><span class="n">res</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-143'>
@@ -1999,8 +2001,8 @@ M834 80h400000v40h-400000z"></path></svg></span></span></span><span class="vlist
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">616</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
-<span class="lineno">617</span>    <span class="n">_test</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">618</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
+<span class="lineno">619</span>    <span class="n">_test</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='footer'>
diff --git a/labml_nn/transformers/retro/model.py b/labml_nn/transformers/retro/model.py
index 296f8d5d..eb839904 100644
--- a/labml_nn/transformers/retro/model.py
+++ b/labml_nn/transformers/retro/model.py
@@ -553,6 +553,7 @@ class RetroModel(nn.Module):
 
         # Embeddings of the retrieved neighbors
         # $E^j_u = \text{E\small{MB}}_{\text{enc}}\big(\text{R\small{ET}}(C_u)^j\big)$.
+        #
         # We use same embeddings for both input and neighbors
         ret_emb = self.emb(ret)
 
@@ -567,6 +568,7 @@ class RetroModel(nn.Module):
             # when $p = \min(P)$
             if self.ca_layers and p == min(self.ca_layers):
                 # $E = \text{E\small{NCODER}}(\text{R\small{ET}}(C_u)_{1 \le u \le l}, H)$
+                #
                 # We passed the embeddings of $\text{R\small{ET}}(C_u)_{1 \le u \le l}$ to encoder.
                 e = self.encoder(ret_emb, h)
                 # Normalize encoder embeddings