annotated_deep_learning_paper_implementations

learning/annotated_deep_learning_paper_implementations
mirror of https://github.com/labmlai/annotated_deep_learning_paper_implementations.git synced 2025-10-30 02:08:50 +08:00
Files
History
Varuna Jayasiri 8d1b6ba010 translations
2022-08-30 16:28:56 +05:30
experiment.html
translations
2022-08-30 16:28:56 +05:30
index.html
translations
2022-08-30 16:28:56 +05:30
readme.html
translations
2022-08-30 16:28:56 +05:30
readme.html

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
<!DOCTYPE html>
<html lang="zh">
<head>
    <meta http-equiv="content-type" content="text/html;charset=utf-8"/>
    <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
    <meta name="description" content=""/>

    <meta name="twitter:card" content="summary"/>
    <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta name="twitter:title" content="反馈变压器"/>
    <meta name="twitter:description" content=""/>
    <meta name="twitter:site" content="@labmlai"/>
    <meta name="twitter:creator" content="@labmlai"/>

    <meta property="og:url" content="https://nn.labml.ai/transformers/feedback/readme.html"/>
    <meta property="og:title" content="反馈变压器"/>
    <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&amp;v=4"/>
    <meta property="og:site_name" content="反馈变压器"/>
    <meta property="og:type" content="object"/>
    <meta property="og:title" content="反馈变压器"/>
    <meta property="og:description" content=""/>

    <title>反馈变压器</title>
    <link rel="shortcut icon" href="/icon.png"/>
    <link rel="stylesheet" href="../../pylit.css?v=1">
    <link rel="canonical" href="https://nn.labml.ai/transformers/feedback/readme.html"/>
    <link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/katex@0.13.18/dist/katex.min.css" integrity="sha384-zTROYFVGOfTw7JV7KUu8udsvW2fx4lWOsCEDqhBreBwlHI4ioVRtmIvEThzJHGET" crossorigin="anonymous">

    <!-- Global site tag (gtag.js) - Google Analytics -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script>
    <script>
        window.dataLayer = window.dataLayer || [];

        function gtag() {
            dataLayer.push(arguments);
        }

        gtag('js', new Date());

        gtag('config', 'G-4V3HC8HBLH');
    </script>
</head>
<body>
<div id='container'>
    <div id="background"></div>
    <div class='section'>
        <div class='docs'>
            <p>
                <a class="parent" href="/">home</a>
                <a class="parent" href="../index.html">transformers</a>
                <a class="parent" href="index.html">feedback</a>
            </p>
            <p>
                <a href="https://github.com/sponsors/labmlai" target="_blank">
                    <img alt="Sponsor"
                         src="https://img.shields.io/static/v1?label=Sponsor&message=%E2%9D%A4&logo=GitHub&color=%23fe8e86"
                         style="max-width:100%;"/></a>
                <a href="https://github.com/labmlai/annotated_deep_learning_paper_implementations" target="_blank">
                    <img alt="Github"
                         src="https://img.shields.io/github/stars/labmlai/annotated_deep_learning_paper_implementations?style=social"
                         style="max-width:100%;"/></a>
                <a href="https://twitter.com/labmlai" rel="nofollow" target="_blank">
                    <img alt="Twitter"
                         src="https://img.shields.io/twitter/follow/labmlai?style=social"
                         style="max-width:100%;"/></a>
            </p>
            <p>
                <a href="https://github.com/labmlai/annotated_deep_learning_paper_implementations/tree/master/labml_nn/transformers/feedback/readme.md" target="_blank">
                    View code on Github</a>
            </p>
        </div>
    </div>
    <div class='section' id='section-0'>
        <div class='docs'>
            <div class='section-link'>
                <a href='#section-0'>#</a>
            </div>
            <h1><a href="https://nn.labml.ai/transformers/feedback/index.html">反馈变压器</a></h1>
<p>这是一篇论文《使用<a href="https://papers.labml.ai/paper/2002.09402">反馈存储器访问顺序变压器中的更高层次表示</a>》的 <a href="https://pytorch.org">PyTorch</a> 实现。</p>
<p>普通变压器并行处理令牌。每个变压器层都关注前一层的输出。反馈变压器注意前面步骤中所有层的输出。所以这增加了重复性，我们需要逐个令牌处理。这会大大减慢训练速度（根据序列长度约为5倍至10倍）。但是，预测反馈转换器时速度更快，因为如果缓存内存向量，则可以预测下一个标记。</p>
<p>为了加快训练速度，本文讨论了从短序列长度开始，然后逐渐增加序列长度。他们还讨论了使用预先训练的并联变压器作为起点。</p>
<p>原来的反馈变压器不会保留所有层的输出。相反，它保留所有图层输出的加权总和。这会减少预测期间用于缓存的内存。这个文件的前半部分实现了这个。</p>
<p>更新后的反馈转换器共享用于计算层间键和值的权重。然后，我们只计算每个步骤的键和值一次，并将其保持缓存。这个文件的后<a href="#shared_kv">半</a>部分实现了这个。我们实现了一个自定义 PyTorch 函数来提高性能。</p>
<p>这里是<a href="experiment.html">训练代码</a>和一本笔记本，用于在 Tiny Shakespeare 数据集中训练反馈转换器。</p>
<p><a href="https://colab.research.google.com/github/labmlai/annotated_deep_learning_paper_implementations/blob/master/labml_nn/transformers/feedback/experiment.ipynb">Colab 笔记本</a></p>
<p><a href="https://colab.research.google.com/github/labmlai/annotated_deep_learning_paper_implementations/blob/master/labml_nn/transformers/feedback/experiment.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg"></a><a href="https://app.labml.ai/run/d8eb9416530a11eb8fb50242ac1c0002"><img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen"></a></p>

        </div>
        <div class='code'>
            
        </div>
    </div>
    <div class='footer'>
        <a href="https://papers.labml.ai">Trending Research Papers</a>
        <a href="https://labml.ai">labml.ai</a>
    </div>
</div>
<script src=../../interactive.js?v=1"></script>
<script>
    function handleImages() {
        var images = document.querySelectorAll('p>img')

        for (var i = 0; i < images.length; ++i) {
            handleImage(images[i])
        }
    }

    function handleImage(img) {
        img.parentElement.style.textAlign = 'center'

        var modal = document.createElement('div')
        modal.id = 'modal'

        var modalContent = document.createElement('div')
        modal.appendChild(modalContent)

        var modalImage = document.createElement('img')
        modalContent.appendChild(modalImage)

        var span = document.createElement('span')
        span.classList.add('close')
        span.textContent = 'x'
        modal.appendChild(span)

        img.onclick = function () {
            console.log('clicked')
            document.body.appendChild(modal)
            modalImage.src = img.src
        }

        span.onclick = function () {
            document.body.removeChild(modal)
        }
    }

    handleImages()
</script>
</body>
</html>
readme.html Unescape Escape

readme.html