#

グラフ・アテンション・ネットワークス v2 (GATv2)

これは、「グラフアテンションネットワークはどの程度注意深いのか？」という論文のGATv2演算子をPyTorchで実装したものです。

。

GATv2は、GATと同様にグラフデータを処理します。グラフは、ノードとノードを接続するエッジで構成されます。たとえば、Coraデータセットでは、ノードは研究論文で、端は論文をつなぐ引用です

。

GATv2 オペレータは、標準 GAT のスタティックアテンションの問題を解決します。スタティックアテンションとは、どのクエリノードでもキーノードへのアテンションのランク（順序）が同じであることです。GAT は、 $i$ $j$ クエリノードからキーノードへのアテンションを次のように計算します

。

e_{i j} = Le a k yReLU (a^{⊤} [W h_{i} ∥ W h_{j}]) = Le a k yReLU (a_{1}^{⊤} W h_{i} + a_{2}^{⊤} W h_{j})

どのクエリノードでも $i$ 、キーのアテンションランク ( $a r g sor t$ ) は以下にのみ依存することに注意してください $a_{2}^{⊤} W h_{j}$ 。したがって、キーのアテンションランクはすべてのクエリで同じ（静的）ままです。

GATv2はアテンションメカニズムを変更することで動的なアテンションを可能にします。

e_{i j} = a^{⊤} Le a k yReLU (W [h_{i} ∥ h_{j}]) = a^{⊤} Le a k yReLU (W_{l} h_{i} + W_{r} h_{j})

この論文は、GATの静的注意メカニズムが、合成辞書検索データセットのグラフ問題の一部で失敗することを示しています。これは完全に接続された二部グラフで、一方のノード（クエリノード）にはキーが関連付けられ、もう一方のノードセットにはキーと値の両方が関連付けられています。目標は、クエリノードの値を予測することです。GAT は静的処理が制限されているため、このタスクは失敗します。

これは、Coraデータセットで2層GATv2をトレーニングするためのトレーニングコードです。

57import torch
58from torch import nn
59
60from labml_helpers.module import Module

#

グラフアテンション v2 レイヤー

これはシングルグラフアテンションv2レイヤーです。GATv2は、このような複数のレイヤーで構成されています。 $h_{i} \in R^{F}$ 入力として $h = {h_{1}, h_{2}, \dots, h_{N}}$ 、where を、出力として $h^{'} = {h_{1}^{'}, h_{2}^{'}, \dots, h_{N}^{'}}$ 、where $h_{i}^{'} \in R^{F^{'}}$ を取ります。

63class GraphAttentionV2Layer(Module):

#

in_features $F$ 、はノードあたりの入力フィーチャの数です
out_features $F^{'}$ 、はノードごとの出力フィーチャの数です
n_heads $K$ 、はアテンション・ヘッドの数
is_concat マルチヘッドの結果を連結すべきか平均化すべきか
dropout は脱落確率です
leaky_relu_negative_slope リークのあるリレーアクティベーションの負の傾きです
share_weights に設定するとTrue 、すべてのエッジのソースノードとターゲットノードに同じマトリックスが適用されます

76    def __init__(self, in_features: int, out_features: int, n_heads: int,
77                 is_concat: bool = True,
78                 dropout: float = 0.6,
79                 leaky_relu_negative_slope: float = 0.2,
80                 share_weights: bool = False):

#

90        super().__init__()
91
92        self.is_concat = is_concat
93        self.n_heads = n_heads
94        self.share_weights = share_weights

#

頭あたりの寸法数の計算

97        if is_concat:
98            assert out_features % n_heads == 0

#

複数のヘッドを連結する場合

100            self.n_hidden = out_features // n_heads
101        else:

#

複数のヘッドを平均化する場合

103            self.n_hidden = out_features

#

初期ソース変換用の線形レイヤー。つまり、自己処理の前にソースノードの埋め込みを変換する

107        self.linear_l = nn.Linear(in_features, self.n_hidden * n_heads, bias=False)

#

share_weights True ターゲットノードに同じリニアレイヤーが使用されている場合

109        if share_weights:
110            self.linear_r = self.linear_l
111        else:
112            self.linear_r = nn.Linear(in_features, self.n_hidden * n_heads, bias=False)

#

アテンションスコアを計算する線形レイヤー $e_{i j}$

114        self.attn = nn.Linear(self.n_hidden, 1, bias=False)

#

アテンションスコアのアクティベーション $e_{i j}$

116        self.activation = nn.LeakyReLU(negative_slope=leaky_relu_negative_slope)

#

注意力を計算するソフトマックス $α_{i j}$

118        self.softmax = nn.Softmax(dim=1)

#

注目すべきドロップアウト層

120        self.dropout = nn.Dropout(dropout)

#

h 、 $h$ はシェイプの入力ノード埋め込みです。[n_nodes, in_features]
adj_mat [n_nodes, n_nodes, n_heads] は形状の隣接行列です。[n_nodes, n_nodes, 1] 各ヘッドの隣接関係が同じなので、形状を使用します。隣接マトリックスは、ノード間のエッジ (または接続) を表します。adj_mat[i][j] True i ノード間でエッジがある場合ですj 。

122    def forward(self, h: torch.Tensor, adj_mat: torch.Tensor):

#

ノード数

132        n_nodes = h.shape[0]

#

各ヘッドの初期変換 $g_{l}_{i}^{k} = W_{l}^{k} h_{i}$ $g_{r}_{i}^{k} = W_{r}^{k} h_{i}$ 。線形変換を 2 回行い、それを各ヘッドに分割します

。

138        g_l = self.linear_l(h).view(n_nodes, self.n_heads, self.n_hidden)
139        g_r = self.linear_r(h).view(n_nodes, self.n_heads, self.n_hidden)

#

アテンションスコアの計算

$k$ これらは頭ごとに計算します。 $\cdot^{k}$ わかりやすくするために省略しました。

$e_{i j} = a (W_{l} h_{i}, W_{r} h_{j}) = a (g_{l}_{i}, g_{r}_{j})$

$e_{i j}$ $j$ ノードごとのアテンションスコア（重要度） $i$ です。これを頭ごとに計算します。

$a$ アテンションスコアを計算するアテンションメカニズムです。紙は合計し $g_{l}_{i}$ 、 $g_{r}_{j}$ $Le a k yReLU$ その後にAとが続き、重みベクトルを使用して線形変換を行います $a \in R^{F^{'}}$

$e_{i j} = a^{⊤} Le a k yReLU ([g_{l}_{i} + g_{r}_{j}])$ 注:この論文では、 $e_{i j}$ $e_{i j} = a^{⊤} Le a k yReLU (W [h_{i} ∥ h_{j}])$ どちらがここで使用している定義と同等であるかが説明されています。

#

まず $[g_{l}_{i} + g_{r}_{j}]$ 、すべてのペアを計算します $i, j$ .

g_l_repeat ${g_{l}_{1}, g_{l}_{2}, \dots, g_{l}_{N}, g_{l}_{1}, g_{l}_{2}, \dots, g_{l}_{N}, ...}$ n_nodes 各ノードの埋め込みが何度も繰り返される場所を取得します。

177        g_l_repeat = g_l.repeat(n_nodes, 1, 1)

#

g_r_repeat_interleave ${g_{r}_{1}, g_{r}_{1}, \dots, g_{r}_{1}, g_{r}_{2}, g_{r}_{2}, \dots, g_{r}_{2}, ...}$ n_nodes 各ノードの埋め込みが何度も繰り返される場所を取得します。

182        g_r_repeat_interleave = g_r.repeat_interleave(n_nodes, dim=0)

#

次に、2 つのテンソルを追加して ${g_{l}_{1} + g_{r}_{1}, g_{l}_{1} + g_{r}_{2}, \dots, g_{l}_{1} + g_{r}_{N}, g_{l}_{2} + g_{r}_{1}, g_{l}_{2} + g_{r}_{2}, \dots, g_{l}_{2} + g_{r}_{N}, ...}$

190        g_sum = g_l_repeat + g_r_repeat_interleave

#

g_sum[i, j] そのように形を変えてください $g_{l}_{i} + g_{r}_{j}$

192        g_sum = g_sum.view(n_nodes, n_nodes, self.n_heads, self.n_hidden)

#

$e_{i j} = a^{⊤} Le a k yReLU ([g_{l}_{i} + g_{r}_{j}])$ e 形状の計算 [n_nodes, n_nodes, n_heads, 1]

200        e = self.attn(self.activation(g_sum))

#

サイズの最後のディメンションを削除 1

202        e = e.squeeze(-1)

#

隣接マトリックスは、[n_nodes, n_nodes, n_heads] またはの形状でなければなりません [n_nodes, n_nodes, 1]

206        assert adj_mat.shape[0] == 1 or adj_mat.shape[0] == n_nodes
207        assert adj_mat.shape[1] == 1 or adj_mat.shape[1] == n_nodes
208        assert adj_mat.shape[2] == 1 or adj_mat.shape[2] == self.n_heads

#

$e_{i j}$ 隣接マトリックスに基づくマスク。 $e_{i j}$ $- \infty$ $i$ からまでのエッジがない場合は、に設定されます $j$ 。

211        e = e.masked_fill(adj_mat == 0, float('-inf'))

#

次に、アテンションスコア (または係数) を正規化します $α_{i j} = softm a x_{j} (e_{i j}) = \frac{exp ( e _{i j} )}{\sum _{j^{'} \in N_{i}} exp ( e _{i j^{'}} )}$

$N_{i}$ は接続先のノードセットがどこにあるか $i$ 。

そのためには、「未接続」を「未接続」に設定することで $e_{i j}$ 、 $- \infty$ ペアが接続されていない状態になります $exp (e_{i j}) \sim 0$ 。

221        a = self.softmax(e)

#

ドロップアウト正則化を適用

224        a = self.dropout(a)

#

各ヘッドの最終出力を計算 $h_{i}^{' k} = j \in N_{i} \sum α_{i j}^{k} g_{r}_{j, k}$

228        attn_res = torch.einsum('ijh,jhf->ihf', a, g_r)

#

ヘッドを連結してください

231        if self.is_concat:

#

$h_{i}^{'} = ∥ ∥_{k = 1}^{K} h_{i}^{' k}$

233            return attn_res.reshape(n_nodes, self.n_heads * self.n_hidden)

#

頭の中を平均して

235        else:

#

$h_{i}^{'} = \frac{1}{K} k = 1 \sum K h_{i}^{' k}$

237            return attn_res.mean(dim=1)