#

用于量化分类不确定性的证据性深度学习

Dampster-Shafer 证据理论为信仰群众分配了一组类别（与将概率分配给单个类别不同）。所有子集的质量之和为 $1$ 。单个类别的概率（合理性）可以从这些质量中得出。

将@@

质量分配给所有类的集合意味着它可以是任何一个类；即说 “我不知道”。

如果有 $K$ 类，我们会 $b_{k} \geq 0$ 为每个类分配质量，为所有类分配总体不确定性质量 $u \geq 0$ 。

$u + k = 1 \sum K b_{k} = 1$

信仰群众 $b_{k}$ $u$ 可以根据证据计算 $e_{k} \geq 0$ ，随 $u = \frac{K}{S}$ 处 $b_{k} = \frac{e _{k}}{S}$ 可见 $S = \sum_{k = 1}^{K} (e_{k} + 1)$ 。Paper 使用术语证据来衡量从数据中收集的支持量，以支持将样本分为特定类别。

这与带有参数的狄利克雷分布相对应 $α_{k} = e_{k} + 1$ ， $α_{0} = S = \sum_{k = 1}^{K} α_{k}$ 称为狄利克雷强度。狄利克雷分布 $D (p ∣ α)$ 是分类分布之上的分布；也就是说，你可以从狄利克雷分布中对类概率进行采样。上课的预期概率 $k$ 为 $\overset{p}{^}_{k} = \frac{α _{k}}{S}$ 。

我们得到模型来输出给定输入 $e = α - 1 = f (x ∣Θ)$ 的证据 $x$ 。我们在最后一层使用诸如 RelU 或 Softplus 之类的函数来获取 $f (x ∣Θ) \geq 0$ 。

本文提出了一些损失函数来训练模型，我们在下面实现了这些函数。

以下是在 MNIST 数据集上训练模型的训练代码experiment.py 。

54import torch
55
56from labml import tracker
57from labml_helpers.module import Module

#

类型 II 最大似然损失

分布 $D (p ∣ α)$ 是似然的先验 $M u lt i (y ∣ p)$ ，负对数边际似然是通过积分类概率来计算的 $p$ 。

如果目标概率（一热目标）是 $y_{k}$ 针对给定样本的，则损失为，

L (Θ) = - lo g (\int k = 1 \prod K p_{k}^{y_{k}} \frac{1}{B ( α )} k = 1 \prod K p_{k}^{α_{k} - 1} d p) = k = 1 \sum K y_{k} (lo g S - lo g α_{k})

60class MaximumLikelihoodLoss(Module):

#

evidence 是 $e \geq 0$ 有形状的[batch_size, n_classes]

target 是

y

有形状的[batch_size, n_classes]

85    def forward(self, evidence: torch.Tensor, target: torch.Tensor):

#

$α_{k} = e_{k} + 1$

91        alpha = evidence + 1.

#

$S = \sum_{k = 1}^{K} α_{k}$

93        strength = alpha.sum(dim=-1)

#

亏损 $L (Θ) = \sum_{k = 1}^{K} y_{k} (lo g S - lo g α_{k})$

96        loss = (target * (strength.log()[:, None] - alpha.log())).sum(dim=-1)

#

整个批次的平均损失

99        return loss.mean()

#

交叉熵损失的贝叶斯风险

贝叶斯风险是做出错误估算的总体最大成本。它采用一个成本函数，该函数给出了做出错误估计的成本，并根据概率分布将其与所有可能的结果相加。

这里的代价函数是交叉熵损失，用于一次热编码 $y$ $k = 1 \sum K - y_{k} l o g p_{k}$

我们整合了这个成本 $p$

L (Θ) = - lo g (\int [k = 1 \sum K - y_{k} l o g p_{k}] \frac{1}{B ( α )} k = 1 \prod K p_{k}^{α_{k} - 1} d p) = k = 1 \sum K y_{k} (ψ (S) - ψ (α_{k}))

$d i g amma$ 函数在 $ψ (\cdot)$ 哪里。

102class CrossEntropyBayesRisk(Module):

#

evidence 是 $e \geq 0$ 有形状的[batch_size, n_classes]

target 是

y

有形状的[batch_size, n_classes]

132    def forward(self, evidence: torch.Tensor, target: torch.Tensor):

#

$α_{k} = e_{k} + 1$

138        alpha = evidence + 1.

#

$S = \sum_{k = 1}^{K} α_{k}$

140        strength = alpha.sum(dim=-1)

#

亏损 $L (Θ) = \sum_{k = 1}^{K} y_{k} (ψ (S) - ψ (α_{k}))$

143        loss = (target * (torch.digamma(strength)[:, None] - torch.digamma(alpha))).sum(dim=-1)

#

整个批次的平均损失

146        return loss.mean()

#

误差损失平方时的贝叶斯风险

这里的成本函数是平方误差， $k = 1 \sum K (y_{k} - p_{k})^{2} = ∥ y - p ∥_{2}^{2}$

我们整合了这个成本 $p$

L (Θ) = - lo g (\int [k = 1 \sum K (y_{k} - p_{k})^{2}] \frac{1}{B ( α )} k = 1 \prod K p_{k}^{α_{k} - 1} d p) = k = 1 \sum K E [y_{k}^{2} - 2 y_{k} p_{k} + p_{k}^{2}] = k = 1 \sum K (y_{k}^{2} - 2 y_{k} E [p_{k}] + E [p_{k}^{2}])

从狄 $E [p_{k}] = \overset{p}{^}_{k} = \frac{α _{k}}{S}$ 利克雷分布采样时的预期概率在哪里，方差 $E [p_{k}^{2}] = E [p_{k}]^{2} + Var (p_{k})$ 在 $Var (p_{k}) = \frac{α _{k} ( S - α _{k} )}{S ^{2} ( S + 1 )} = \frac{p ^ _{k} ( 1 - p ^ _{k} )}{S + 1}$ 哪里。

这给了，

L (Θ) = k = 1 \sum K (y_{k}^{2} - 2 y_{k} E [p_{k}] + E [p_{k}^{2}]) = k = 1 \sum K (y_{k}^{2} - 2 y_{k} E [p_{k}] + E [p_{k}]^{2} + Var (p_{k})) = k = 1 \sum K ((y_{k} - E [p_{k}])^{2} + Var (p_{k})) = k = 1 \sum K ((y_{k} - \overset{p}{^}_{k})^{2} + \frac{p ^ _{k} ( 1 - p ^ _{k} )}{S + 1})

方程的第一部分 $(y_{k} - E [p_{k}])^{2}$ 是误差项，第二部分是方差。

149class SquaredErrorBayesRisk(Module):

#

evidence 是 $e \geq 0$ 有形状的[batch_size, n_classes]

target 是

y

有形状的[batch_size, n_classes]

195    def forward(self, evidence: torch.Tensor, target: torch.Tensor):

#

$α_{k} = e_{k} + 1$

201        alpha = evidence + 1.

#

$S = \sum_{k = 1}^{K} α_{k}$

203        strength = alpha.sum(dim=-1)

#

$\overset{p}{^}_{k} = \frac{α _{k}}{S}$

205        p = alpha / strength[:, None]

#

错误 $(y_{k} - \overset{p}{^}_{k})^{2}$

208        err = (target - p) ** 2

#

方差 $Var (p_{k}) = \frac{p ^ _{k} ( 1 - p ^ _{k} )}{S + 1}$

210        var = p * (1 - p) / (strength[:, None] + 1)

#

它们的总和

213        loss = (err + var).sum(dim=-1)

#

整个批次的平均损失

216        return loss.mean()

#

KL 背离正则化损失

如果样本无法正确分类，这会试图将总证据缩小为零。

首先 $\tilde{α}_{k} = y_{k} + (1 - y_{k}) α_{k}$ ，我们在移除正确的证据后计算狄利克雷参数。

K L [D (p ∣ \tilde{α}) ∥ ∥ D (p ∣ < 1, \dots, 1 >] = lo g (\frac{Γ ( \sum _{k = 1}^{K} α ~ _{k} )}{Γ ( K ) \prod _{k = 1}^{K} Γ ( α ~ _{k} )}) + k = 1 \sum K (\tilde{α}_{k} - 1) [ψ (\tilde{α}_{k}) - ψ (\tilde{S})]

其中 $Γ (\cdot)$ 是 gamma 函数， $ψ (\cdot)$ 是 $d i g amma$ 函数和 $\tilde{S} = \sum_{k = 1}^{K} \tilde{α}_{k}$

219class KLDivergenceLoss(Module):

#

evidence 是 $e \geq 0$ 有形状的[batch_size, n_classes]

target 是

y

有形状的[batch_size, n_classes]

243    def forward(self, evidence: torch.Tensor, target: torch.Tensor):

#

$α_{k} = e_{k} + 1$

249        alpha = evidence + 1.

#

班级数

251        n_classes = evidence.shape[-1]

#

移除非误导性证据 $\tilde{α}_{k} = y_{k} + (1 - y_{k}) α_{k}$

254        alpha_tilde = target + (1 - target) * alpha

#

$\tilde{S} = \sum_{k = 1}^{K} \tilde{α}_{k}$

256        strength_tilde = alpha_tilde.sum(dim=-1)

#

第一学期

lo g (\frac{Γ ( \sum _{k = 1}^{K} α ~ _{k} )}{Γ ( K ) \prod _{k = 1}^{K} Γ ( α ~ _{k} )}) = lo g Γ (k = 1 \sum K \tilde{α}_{k}) - lo g Γ (K) - k = 1 \sum K lo g Γ (\tilde{α}_{k})

267        first = (torch.lgamma(alpha_tilde.sum(dim=-1))
268                 - torch.lgamma(alpha_tilde.new_tensor(float(n_classes)))
269                 - (torch.lgamma(alpha_tilde)).sum(dim=-1))

#

第二学期 $k = 1 \sum K (\tilde{α}_{k} - 1) [ψ (\tilde{α}_{k}) - ψ (\tilde{S})]$

274        second = (
275                (alpha_tilde - 1) *
276                (torch.digamma(alpha_tilde) - torch.digamma(strength_tilde)[:, None])
277        ).sum(dim=-1)

#

条款总和

280        loss = first + second

#

整个批次的平均损失

283        return loss.mean()

#

追踪统计数据

该模块计算统计数据并使用 labml 对其进行跟踪tracker 。

286class TrackStatistics(Module):

#

294    def forward(self, evidence: torch.Tensor, target: torch.Tensor):

#

班级数

296        n_classes = evidence.shape[-1]

#

与目标正确匹配的预测（基于最高概率的贪婪抽样）

298        match = evidence.argmax(dim=-1).eq(target.argmax(dim=-1))

#

轨道精度

300        tracker.add('accuracy.', match.sum() / match.shape[0])

#

$α_{k} = e_{k} + 1$

303        alpha = evidence + 1.

#

$S = \sum_{k = 1}^{K} α_{k}$

305        strength = alpha.sum(dim=-1)

#

$\overset{p}{^}_{k} = \frac{α _{k}}{S}$

308        expected_probability = alpha / strength[:, None]

#

所选（贪婪的最高概率）类别的预期概率

310        expected_probability, _ = expected_probability.max(dim=-1)

#

不确定性质量 $u = \frac{K}{S}$

313        uncertainty_mass = n_classes / strength

#

追踪 $u$ 正确的预测

316        tracker.add('u.succ.', uncertainty_mass.masked_select(match))

#

追踪错误 $u$ 的预测

318        tracker.add('u.fail.', uncertainty_mass.masked_select(~match))

#

追踪 $\overset{p}{^}_{k}$ 正确的预测

320        tracker.add('prob.succ.', expected_probability.masked_select(match))

#

追踪错误 $\overset{p}{^}_{k}$ 的预测

322        tracker.add('prob.fail.', expected_probability.masked_select(~match))