mirror of
https://github.com/labmlai/annotated_deep_learning_paper_implementations.git
synced 2025-08-18 03:41:07 +08:00
<!DOCTYPE html> <html lang="si"> <head> <meta http-equiv="content-type" content="text/html;charset=utf-8"/> <meta name="viewport" content="width=device-width, initial-scale=1.0"/> <meta name="description" content=""/> <meta name="twitter:card" content="summary"/> <meta name="twitter:image:src" content="https://avatars1.githubusercontent.com/u/64068543?s=400&v=4"/> <meta name="twitter:title" content="ට්රාන්ස්ෆෝමර් ස්විචය"/> <meta name="twitter:description" content=""/> <meta name="twitter:site" content="@labmlai"/> <meta name="twitter:creator" content="@labmlai"/> <meta property="og:url" content="https://nn.labml.ai/transformers/switch/readme.html"/> <meta property="og:title" content="ට්රාන්ස්ෆෝමර් ස්විචය"/> <meta property="og:image" content="https://avatars1.githubusercontent.com/u/64068543?s=400&v=4"/> <meta property="og:site_name" content="ට්රාන්ස්ෆෝමර් ස්විචය"/> <meta property="og:type" content="object"/> <meta property="og:title" content="ට්රාන්ස්ෆෝමර් ස්විචය"/> <meta property="og:description" content=""/> <title>ට්රාන්ස්ෆෝමර් ස්විචය</title> <link rel="shortcut icon" href="/icon.png"/> <link rel="stylesheet" href="../../pylit.css?v=1"> <link rel="canonical" href="https://nn.labml.ai/transformers/switch/readme.html"/> <link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/katex@0.13.18/dist/katex.min.css" integrity="sha384-zTROYFVGOfTw7JV7KUu8udsvW2fx4lWOsCEDqhBreBwlHI4ioVRtmIvEThzJHGET" crossorigin="anonymous"> <!-- Global site tag (gtag.js) - Google Analytics --> <script async src="https://www.googletagmanager.com/gtag/js?id=G-4V3HC8HBLH"></script> <script> window.dataLayer = window.dataLayer || []; function gtag() { dataLayer.push(arguments); } gtag('js', new Date()); gtag('config', 'G-4V3HC8HBLH'); </script> </head> <body> <div id='container'> <div id="background"></div> <div class='section'> <div class='docs'> <p> <a class="parent" href="/">home</a> <a class="parent" href="../index.html">transformers</a> <a class="parent" href="index.html">switch</a> </p> <p> <a href="https://github.com/labmlai/annotated_deep_learning_paper_implementations" target="_blank"> <img alt="Github" src="https://img.shields.io/github/stars/labmlai/annotated_deep_learning_paper_implementations?style=social" style="max-width:100%;"/></a> <a href="https://twitter.com/labmlai" rel="nofollow" target="_blank"> <img alt="Twitter" src="https://img.shields.io/twitter/follow/labmlai?style=social" style="max-width:100%;"/></a> </p> <p> <a href="https://github.com/labmlai/annotated_deep_learning_paper_implementations/tree/master/labml_nn/transformers/switch/readme.md" target="_blank"> View code on Github</a> </p> </div> </div> <div class='section' id='section-0'> <div class='docs'> <div class='section-link'> <a href='#section-0'>#</a> </div> <h1><a href="https://nn.labml.ai/transformers/switch/index.html">ට්රාන්ස්ෆෝමර් ස්විචය</a></h1> <p>මෙයකඩදාසි <a href="https://papers.labml.ai/paper/2101.03961">ස්විච් ට්රාන්ස්ෆෝමර්වල කුඩා <a href="https://pytorch.org">පයිටෝච්</a> ක්රියාත්මක කිරීමකි: සරල හා කාර්යක්ෂම ස්පාර්ටිටි සහිත ට්රිලියන පරාමිති ආකෘති වලට පරිමාණය</a> කිරීම. අපගේ ක්රියාත්මක කිරීම සඳහා ඇත්තේ පරාමිතීන් මිලියන කිහිපයක් පමණක් වන අතර සමාන්තරව බෙදා හරින ලද පුහුණුව ආදර්ශයට නොගනී. එය තනි GPU පුහුණුව කරන්නේ, නමුත් අපි කඩදාසි විස්තර කර ඇති පරිදි මාරුවීමේ සංකල්පය ක්රියාත්මක කරමු. </p> <p>ස්විච්ට්රාන්ස්ෆෝමරය ටෝකනය මත පදනම්ව පරාමිතීන් අතර මාරුවීමෙන් එක් එක් ටෝකනය සඳහා විවිධ පරාමිතීන් භාවිතා කරයි. එබැවින්, එක් එක් ටෝකනය සඳහා තෝරා ගනු ලබන්නේ පරාමිතීන්ගෙන් කොටසක් පමණි. එබැවින් ඔබට වැඩි පරාමිතීන් තිබිය හැකි නමුත් අඩු පරිගණකමය පිරිවැයක් ඇත. </p> <p>මාරුවීමසිදුවන්නේ එක් එක් ට්රාන්ස්ෆෝමර් බ්ලොක් එකේ ස්ථාන-නැණවත් Feedforward ජාලයේ (FFN) ය. ස්ථාන-නැණවත් පෝෂක ජාලය අනුක්රමිකව පූර්ණ සම්බන්ධිත ස්ථර දෙකකින් සමන්විත වේ. ස්විච් ට්රාන්ස්ෆෝමරයේ අපට FFNs (බහු විශේෂ experts යින්) කිහිපයක් ඇති අතර, රවුටරයක් මත පදනම්ව භාවිතා කළ යුත්තේ කුමන එකද යන්න අපි තෝරා ගත්තෙමු. ප්රතිදානය යනු එෆ්එෆ්එන් තෝරා ගැනීම සඳහා වන සම්භාවිතාවන් සමූහයක් වන අතර, අපි ඉහළම සම්භාවිතාව ඇති එකක් තෝරාගෙන එය ඇගයීමට ලක් කරමු. එබැවින් අත්යවශ්යයෙන්ම පරිගණකමය පිරිවැය තනි එෆ්එෆ්එන් එකක් තිබීම හා සමාන වේ. අපගේ ක්රියාත්මක කිරීමේදී මෙය ඔබට බොහෝ හෝ විශාල එෆ්එෆ්එන්එස් ඇති විට සමාන්තරගත නොවේ. බෙදා හරින ලද සැකසුමක ඔබට එක් එක් FFN (සෑම ඉතා විශාල) වෙනත් උපාංගයක ඇත. </p> <p>විශේෂexperts යන් (එෆ්එෆ්එන්එස්) අතර බර සමතුලිත කිරීම සඳහා කඩදාසි තවත් පාඩු යෙදුමක් හඳුන්වා දෙන අතර රවුටින් සමතුලිත නොවන විට ටෝකන අතහැර දැමීම සාකච්ඡා කරයි. </p> <p>කුඩාෂේක්ස්පියර් දත්ත කට්ටුවේ ස්විච් ට්රාන්ස්ෆෝමරයක් පුහුණු කිරීම සඳහා පුහුණු <a href="experiment.html">කේතය</a> සහ සටහන් පොතක් මෙන්න. </p> <p><a href="https://colab.research.google.com/github/labmlai/annotated_deep_learning_paper_implementations/blob/master/labml_nn/transformers/switch/experiment.ipynb"><img alt="Open In Colab" src="https://colab.research.google.com/assets/colab-badge.svg"></a> <a href="https://app.labml.ai/run/353770ce177c11ecaa5fb74452424f46"> <img alt="View Run" src="https://img.shields.io/badge/labml-experiment-brightgreen"></a> </p> </div> <div class='code'> </div> </div> <div class='footer'> <a href="https://papers.labml.ai">Trending Research Papers</a> <a href="https://labml.ai">labml.ai</a> </div> </div> <script src=../../interactive.js?v=1"></script> <script> function handleImages() { var images = document.querySelectorAll('p>img') for (var i = 0; i < images.length; ++i) { handleImage(images[i]) } } function handleImage(img) { img.parentElement.style.textAlign = 'center' var modal = document.createElement('div') modal.id = 'modal' var modalContent = document.createElement('div') modal.appendChild(modalContent) var modalImage = document.createElement('img') modalContent.appendChild(modalImage) var span = document.createElement('span') span.classList.add('close') span.textContent = 'x' modal.appendChild(span) img.onclick = function () { console.log('clicked') document.body.appendChild(modal) modalImage.src = img.src } span.onclick = function () { document.body.removeChild(modal) } } handleImages() </script> </body> </html>