必要なのはパッチだけ?

これは紙のパッチをPyTorchで実装したものです。必要なのはパッチだけですか

ConvMixerはMLPミキサーに似ています。

MLP-Mixerは、空間次元全体にMLPを適用し、次にチャネル次元全体にMLPを適用することで、空間次元とチャネル次元の混合を分離します(空間MLPはvITのアテンションに代わり、チャネルMLPはVITのFFNです)。

ConvMixerは、チャンネルミキシングに1x1のコンボリューションを使用し、空間ミキシングに奥行きコンボリューションを使用します。スペース全体でフルMLPではなく畳み込みなので、VITやMLPミキサーとは対照的に、近くのバッチのみをミキシングします。また、MLPミキサーはミキシングごとに2層のMLPを使用し、ConvMixerはミキシングごとに1層のMLPを使用します

この論文では、チャネルミキシング全体の残留接続を削除し(点単位の畳み込み)、空間ミキシングでは残留接続のみにする(深さ方向の畳み込み)ことを推奨しています。また、

レイヤー正規化の代わりにバッチ正規化を使用します

これは、CIFAR-10 で ConvMixer をトレーニングする実験です