#

වර්ගීකරණඅවිනිශ්චිතතාව ප්රමාණ කිරීම සඳහා ගැඹුරු ඉගෙනීම

මෙය වර්ගීකරණ අවිනිශ්චිතතාව ප්රමාණ කිරීම සඳහා පැහැදිලි ගැඹුරු ඉගෙනුම් කඩදාසි ක්රියාත්මක කිරීම PyTorch ක්රියාත්මක කිරීමයි.

Dampster-Shafer Theory of Evidence of Dampster-Shafer Theory of Dampster-Shafer Theory of Evidence සියලු උප කුලවල ස්කන්ධයන්ගේ එකතුව වේ $1$ . තනි පුද්ගල පන්ති සම්භාවිතාවන් (plausibilities) මෙම ස්කන්ධයන්ගෙන් ලබා ගත හැකිය.

සියලුමපංතිවල කට්ටලයට ස්කන්ධයක් පැවරීම යන්නෙන් අදහස් කරන්නේ එය ඕනෑම පන්තියක් විය හැකි බවයි; එනම් “මම නොදනිමි” යැයි පැවසීම.

$K$ පංති තිබේ නම්, අපි එක් එක් $b_{k} \geq 0$ පංතිවලට ස්කන්ධයන් සහ සියලු පංතිවලට සමස්ත අවිනිශ්චිත ස්කන්ධයක් $u \geq 0$ පවරමු.

$u + k = 1 \sum K b_{k} = 1$

විශ්වාසජනතාව $b_{k}$ සහ සාක්ෂි වලින් ගණනය $u$ කළ හැකිය $e_{k} \geq 0$ , ලෙස $b_{k} = \frac{e _{k}}{S}$ සහ $u = \frac{K}{S}$ කොතැනද $S = \sum_{k = 1}^{K} (e_{k} + 1)$ . යම් පන්තියකට වර්ගීකරණය කිරීම සඳහා නියැදියකට පක්ෂව දත්ත වලින් එකතු කරන ලද ආධාරක ප්රමාණය මැනීමක් ලෙස කඩදාසි කාලීන සාක්ෂි භාවිතා කරයි.

මෙයපරාමිතීන් සහිත ඩයිරිච්ලට් ව්යාප්තියට අනුරූප $α_{k} = e_{k} + 1$ වන අතර $α_{0} = S = \sum_{k = 1}^{K} α_{k}$ එය ඩයිරිච්ලට් ශක්තිය ලෙස හැඳින්වේ. ඩයිරිච්ලට් බෙදා හැරීම $D (p ∣ α)$ යනු වර්ගීකරණ බෙදාහැරීමකට වඩා බෙදා හැරීමකි; i.e. ඔබට ඩයිරිච්ලට් බෙදාහැරීමෙන් පන්ති සම්භාවිතාව සාම්පල ලබා ගත හැකිය. පන්තිය සඳහා අපේක්ෂිත සම්භාවිතාව $k$ වේ $\overset{p}{^}_{k} = \frac{α _{k}}{S}$ .

දීඇති ආදානයක් $e = α - 1 = f (x ∣Θ)$ සඳහා සාක්ෂි ප්රතිදානය කිරීමේ ආකෘතිය අපට $x$ ලැබේ. ලබා ගැනීම සඳහා අපි අවසාන ස්ථරයේ RelU හෝ සොෆ්ට්ප්ලස් වැනි ශ්රිතයක් භාවිතා කරමු $f (x ∣Θ) \geq 0$ .

අපිපහත ක්රියාත්මක කර ඇති ආකෘතිය පුහුණු කිරීම සඳහා පාඩු කාර්යයන් කිහිපයක් පත්රිකාව යෝජනා කරයි.

MNISTදත්ත කට්ටලයේ ආකෘතියක් පුහුණු experiment.py කිරීම සඳහා පුහුණු කේතය මෙන්න.

54import torch
55
56from labml import tracker
57from labml_helpers.module import Module

#

IIවර්ගය උපරිම සම්භාවිතාව අඞු කිරීමට

බෙදාහැරීම සම්භාවිතාව මත පෙර $D (p ∣ α)$ වන අතර $M u lt i (y ∣ p)$ , සෘණ ලඝු-සටහන ආන්තික සම්භාවිතාව පන්ති සම්භාවිතාව කට ඒකාබද්ධ විසින් ගණනය කරනු ලැබේ $p$ .

ඉලක්කසම්භාවිතාවන් (එක්-උණුසුම් ඉලක්ක) දී ඇති නියැදියක් $y_{k}$ සඳහා නම් අලාභය නම්,

L (Θ) = - lo g (\int k = 1 \prod K p_{k}^{y_{k}} \frac{1}{B ( α )} k = 1 \prod K p_{k}^{α_{k} - 1} d p) = k = 1 \sum K y_{k} (lo g S - lo g α_{k})

60class MaximumLikelihoodLoss(Module):

#

evidence හැඩය $e \geq 0$ සමඟ ඇත [batch_size, n_classes]
target හැඩය $y$ සමඟ ඇත [batch_size, n_classes]

85    def forward(self, evidence: torch.Tensor, target: torch.Tensor):

#

$α_{k} = e_{k} + 1$

91        alpha = evidence + 1.

#

$S = \sum_{k = 1}^{K} α_{k}$

93        strength = alpha.sum(dim=-1)

#

පාඩු $L (Θ) = \sum_{k = 1}^{K} y_{k} (lo g S - lo g α_{k})$

96        loss = (target * (strength.log()[:, None] - alpha.log())).sum(dim=-1)

#

කණ්ඩායමටවඩා මධ්යන්ය අලාභය

99        return loss.mean()

#

කුරුසඑන්ට්රොපි අඞු කිරීමට සමග අවදානම් Bayes

බේස්අවදානම යනු වැරදි ඇස්තමේන්තු සකස් කිරීමේ සමස්ත උපරිම පිරිවැයයි. වැරදි තක්සේරුවක් කිරීමේ පිරිවැය පිරිවැය ලබා දෙන පිරිවැය ශ්රිතයක් ගන්නා අතර සම්භාවිතා ව්යාප්තිය මත පදනම්ව හැකි සෑම ප්රති come ලයකටම වඩා එය සාරාංශ කරයි.

මෙන්නපිරිවැය ශ්රිතය හරස් එන්ට්රොපි අලාභයයි, එක්-උණුසුම් කේතනය කර ඇත $y$ $k = 1 \sum K - y_{k} l o g p_{k}$

අපිමෙම පිරිවැය සියල්ලටම වඩා ඒකාබද්ධ කරමු $p$

L (Θ) = - lo g (\int [k = 1 \sum K - y_{k} l o g p_{k}] \frac{1}{B ( α )} k = 1 \prod K p_{k}^{α_{k} - 1} d p) = k = 1 \sum K y_{k} (ψ (S) - ψ (α_{k}))

$ψ (\cdot)$ $d i g amma$ ශ්රිතය කොහේද?

102class CrossEntropyBayesRisk(Module):

#

evidence හැඩය $e \geq 0$ සමඟ ඇත [batch_size, n_classes]
target හැඩය $y$ සමඟ ඇත [batch_size, n_classes]

132    def forward(self, evidence: torch.Tensor, target: torch.Tensor):

#

$α_{k} = e_{k} + 1$

138        alpha = evidence + 1.

#

$S = \sum_{k = 1}^{K} α_{k}$

140        strength = alpha.sum(dim=-1)

#

පාඩු $L (Θ) = \sum_{k = 1}^{K} y_{k} (ψ (S) - ψ (α_{k}))$

143        loss = (target * (torch.digamma(strength)[:, None] - torch.digamma(alpha))).sum(dim=-1)

#

කණ්ඩායමටවඩා මධ්යන්ය අලාභය

146        return loss.mean()

#

චතුරස්රාකාරදෝෂ නැතිවීම සමඟ බේස් අවදානම

මෙහිපිරිවැය ශ්රිතය කොටු දෝෂයකි, $k = 1 \sum K (y_{k} - p_{k})^{2} = ∥ y - p ∥_{2}^{2}$

අපිමෙම පිරිවැය සියල්ලටම වඩා ඒකාබද්ධ කරමු $p$

L (Θ) = - lo g (\int [k = 1 \sum K (y_{k} - p_{k})^{2}] \frac{1}{B ( α )} k = 1 \prod K p_{k}^{α_{k} - 1} d p) = k = 1 \sum K E [y_{k}^{2} - 2 y_{k} p_{k} + p_{k}^{2}] = k = 1 \sum K (y_{k}^{2} - 2 y_{k} E [p_{k}] + E [p_{k}^{2}])

ඩයිරිච්ලට්ව්යාප්තියෙන් නියැදි කළ විට අපේක්ෂිත සම්භාවිතාව $E [p_{k}^{2}] = E [p_{k}]^{2} + Var (p_{k})$ කොතැනද සහ $Var (p_{k}) = \frac{α _{k} ( S - α _{k} )}{S ^{2} ( S + 1 )} = \frac{p ^ _{k} ( 1 - p ^ _{k} )}{S + 1}$ විචලතාව කොහේද? $E [p_{k}] = \overset{p}{^}_{k} = \frac{α _{k}}{S}$

මෙයලබා දෙයි,

L (Θ) = k = 1 \sum K (y_{k}^{2} - 2 y_{k} E [p_{k}] + E [p_{k}^{2}]) = k = 1 \sum K (y_{k}^{2} - 2 y_{k} E [p_{k}] + E [p_{k}]^{2} + Var (p_{k})) = k = 1 \sum K ((y_{k} - E [p_{k}])^{2} + Var (p_{k})) = k = 1 \sum K ((y_{k} - \overset{p}{^}_{k})^{2} + \frac{p ^ _{k} ( 1 - p ^ _{k} )}{S + 1})

සමීකරණයේමෙම පළමු කොටස දෝෂ පදය $(y_{k} - E [p_{k}])^{2}$ වන අතර දෙවන කොටස විචලනය වේ.

149class SquaredErrorBayesRisk(Module):

#

evidence හැඩය $e \geq 0$ සමඟ ඇත [batch_size, n_classes]
target හැඩය $y$ සමඟ ඇත [batch_size, n_classes]

195    def forward(self, evidence: torch.Tensor, target: torch.Tensor):

#

$α_{k} = e_{k} + 1$

201        alpha = evidence + 1.

#

$S = \sum_{k = 1}^{K} α_{k}$

203        strength = alpha.sum(dim=-1)

#

$\overset{p}{^}_{k} = \frac{α _{k}}{S}$

205        p = alpha / strength[:, None]

#

දෝෂයකි $(y_{k} - \overset{p}{^}_{k})^{2}$

208        err = (target - p) ** 2

#

විචලතාව $Var (p_{k}) = \frac{p ^ _{k} ( 1 - p ^ _{k} )}{S + 1}$

210        var = p * (1 - p) / (strength[:, None] + 1)

#

ඒවායේඑකතුව

213        loss = (err + var).sum(dim=-1)

#

කණ්ඩායමටවඩා මධ්යන්ය අලාභය

216        return loss.mean()

#

KLඅපසරනය නියාමනය කිරීමේ අලාභය

නියැදියනිවැරදිව වර්ගීකරණය කළ නොහැකි නම් සම්පූර්ණ සාක්ෂි ශුන්යයට හැකිලීමට මෙය උත්සාහ කරයි.

පළමුවඅපි නිවැරදි සාක්ෂි ඉවත් කිරීමෙන් පසු ඩයිරිච්ලට් පරාමිතීන් ගණනය $\tilde{α}_{k} = y_{k} + (1 - y_{k}) α_{k}$ කරමු.

K L [D (p ∣ \tilde{α}) ∥ ∥ D (p ∣ < 1, \dots, 1 >] = lo g (\frac{Γ ( \sum _{k = 1}^{K} α ~ _{k} )}{Γ ( K ) \prod _{k = 1}^{K} Γ ( α ~ _{k} )}) + k = 1 \sum K (\tilde{α}_{k} - 1) [ψ (\tilde{α}_{k}) - ψ (\tilde{S})]

ගැමා $Γ (\cdot)$ ශ්රිතය කොහෙද, $ψ (\cdot)$ $d i g amma$ ශ්රිතය සහ $\tilde{S} = \sum_{k = 1}^{K} \tilde{α}_{k}$

219class KLDivergenceLoss(Module):

#

evidence හැඩය $e \geq 0$ සමඟ ඇත [batch_size, n_classes]
target හැඩය $y$ සමඟ ඇත [batch_size, n_classes]

243    def forward(self, evidence: torch.Tensor, target: torch.Tensor):

#

$α_{k} = e_{k} + 1$

249        alpha = evidence + 1.

#

පන්තිගණන

251        n_classes = evidence.shape[-1]

#

නොමඟයවන සාක්ෂි ඉවත් කරන්න $\tilde{α}_{k} = y_{k} + (1 - y_{k}) α_{k}$

254        alpha_tilde = target + (1 - target) * alpha

#

$\tilde{S} = \sum_{k = 1}^{K} \tilde{α}_{k}$

256        strength_tilde = alpha_tilde.sum(dim=-1)

#

පළමුපදය

lo g (\frac{Γ ( \sum _{k = 1}^{K} α ~ _{k} )}{Γ ( K ) \prod _{k = 1}^{K} Γ ( α ~ _{k} )}) = lo g Γ (k = 1 \sum K \tilde{α}_{k}) - lo g Γ (K) - k = 1 \sum K lo g Γ (\tilde{α}_{k})

267        first = (torch.lgamma(alpha_tilde.sum(dim=-1))
268                 - torch.lgamma(alpha_tilde.new_tensor(float(n_classes)))
269                 - (torch.lgamma(alpha_tilde)).sum(dim=-1))

#

දෙවනවාරය $k = 1 \sum K (\tilde{α}_{k} - 1) [ψ (\tilde{α}_{k}) - ψ (\tilde{S})]$

274        second = (
275                (alpha_tilde - 1) *
276                (torch.digamma(alpha_tilde) - torch.digamma(strength_tilde)[:, None])
277        ).sum(dim=-1)

#

කොන්දේසිඑකතුව

280        loss = first + second

#

කණ්ඩායමටවඩා මධ්යන්ය අලාභය

283        return loss.mean()

#

සංඛ්යාලේඛනනිරීක්ෂණය කරන්න

මෙමමොඩියුලය සංඛ්යාලේඛන ගණනය කර ඒවා ලැබ්මිලිසමඟ නිරීක්ෂණය කරයි tracker .

286class TrackStatistics(Module):

#

294    def forward(self, evidence: torch.Tensor, target: torch.Tensor):

#

පන්තිගණන

296        n_classes = evidence.shape[-1]

#

ඉලක්කයසමඟ නිවැරදිව ගැලපෙන අනාවැකි (වැඩිම සම්භාවිතාව මත පදනම්ව කෑදර නියැදීම්)

298        match = evidence.argmax(dim=-1).eq(target.argmax(dim=-1))

#

ලුහුබැඳීමේනිරවද්යතාවය

300        tracker.add('accuracy.', match.sum() / match.shape[0])

#

$α_{k} = e_{k} + 1$

303        alpha = evidence + 1.

#

$S = \sum_{k = 1}^{K} α_{k}$

305        strength = alpha.sum(dim=-1)

#

$\overset{p}{^}_{k} = \frac{α _{k}}{S}$

308        expected_probability = alpha / strength[:, None]

#

තෝරාගත්(කෑදර හයිසෙට් සම්භාවිතාව) පන්තියේ අපේක්ෂිත සම්භාවිතාව

310        expected_probability, _ = expected_probability.max(dim=-1)

#

අවිනිශ්චිතතාස්කන්ධය $u = \frac{K}{S}$

313        uncertainty_mass = n_classes / strength

#

නිවැරදිවඅනාවැකි $u$ සඳහා ලුහුබඳින්න

316        tracker.add('u.succ.', uncertainty_mass.masked_select(match))

#

වැරදිඅනාවැකි $u$ සඳහා ලුහුබඳින්න

318        tracker.add('u.fail.', uncertainty_mass.masked_select(~match))

#

නිවැරදිවඅනාවැකි $\overset{p}{^}_{k}$ සඳහා ලුහුබඳින්න

320        tracker.add('prob.succ.', expected_probability.masked_select(match))

#

වැරදිඅනාවැකි $\overset{p}{^}_{k}$ සඳහා ලුහුබඳින්න

322        tracker.add('prob.fail.', expected_probability.masked_select(~match))