#

විසරණ සම්භාවිතා ආකෘති නිරූපණය කිරීම (DDPM)

මෙය PyTorch ක්රියාත්මක කිරීම/නිබන්ධනයකි කඩදාසි Denoising Diffusion Probilistic ආකෘති.

සරළව කිවහොත්, අපි දත්ත වලින් රූපයක් ලබාගෙන පියවරෙන් පියවර ශබ්දය එක් කරමු. ඉන්පසු අපි සෑම පියවරකදීම එම ශබ්දය පුරෝකථනය කිරීමට ආකෘතියක් පුහුණු කර රූප ජනනය කිරීමට ආකෘතිය භාවිතා කරමු.

පහත දැක්වෙන අර්ථ දැක්වීම් සහ ව්යුත්පන්නයන් මෙය ක්රියාත්මක වන ආකාරය පෙන්වයි. විස්තර සඳහා කරුණාකර කඩදාසි වෙත යොමු වන්න.

ඉදිරි ක්රියාවලිය

ඉදිරි ක්රියාවලිය $T$ කාලසටහන සඳහා දත්ත $x_{0} \sim q (x_{0})$ වලට ශබ්දය එක් කරයි.

q (x_{t} ∣ x_{t - 1}) = N (x_{t}; 1 - β_{t} x_{t - 1}, β_{t} I) q (x_{1 : T} ∣ x_{0}) = t = 1 \prod T q (x_{t} ∣ x_{t - 1})

විචලනය කාලසටහන $β_{1}, \dots, β_{T}$ කොහේද?

අපට ඕනෑම $x_{t}$ වේලාවක $t$ නියැදිය හැකිය,

q (x_{t} ∣ x_{0}) = N (x_{t}; \overset{α_{t}}{ˉ} x_{0}, (1 - \overset{α_{t}}{ˉ}) I)

$α_{t} = 1 - β_{t}$ කොහේද සහ $\overset{α_{t}}{ˉ} = \prod_{s = 1}^{t} α_{s}$

ප්රතිලෝම ක්රියාවලිය

ප්රතිලෝම ක්රියාවලිය මඟින් $T$ කාල පියවර $p (x_{T}) = N (x_{T}; 0, I)$ සඳහා ආරම්භ වන ශබ්දය ඉවත් කරයි.

p_{θ} (x_{t - 1} ∣ x_{t}) p_{θ} (x_{0 : T}) p_{θ} (x_{0}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), Σ_{θ} (x_{t}, t)) = p_{θ} (x_{T}) t = 1 \prod T p_{θ} (x_{t - 1} ∣ x_{t}) = \int p_{θ} (x_{0 : T}) d x_{1 : T}

$θ$ අපි පුහුණු පරාමිතීන් වේ.

පාඩුව

ELBO (ජෙන්සන්ගේ අසමානතාවයෙන්) සෘණ ලොග් සම්භාවිතාව මත අපි ප්රශස්තිකරණය කරමු.

E [- lo g p_{θ} (x_{0})] \leq E_{q} [- lo g \frac{p _{θ} ( x _{0 : T} )}{q ( x _{1 : T} ∣ x _{0} )}] = L

අලාභය පහත පරිදි නැවත ලිවිය හැකිය.

L = E_{q} [- lo g \frac{p _{θ} ( x _{0 : T} )}{q ( x _{1 : T} ∣ x _{0} )}] = E_{q} [- lo g p (x_{T}) - t = 1 \sum T lo g \frac{p _{θ} ( x _{t - 1} ∣ x _{t} )}{q ( x _{t} ∣ x _{t - 1} )}] = E_{q} [- lo g \frac{p ( x _{T} )}{q ( x _{T} ∣ x _{0} )} - t = 2 \sum T lo g \frac{p _{θ} ( x _{t - 1} ∣ x _{t} )}{q ( x _{t - 1} ∣ x _{t} , x _{0} )} - l o g p_{θ} (x_{0} ∣ x_{1})] = E_{q} [D_{K L} (q (x_{T} ∣ x_{0}) ∥ p (x_{T})) + t = 2 \sum T D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t})) - l o g p_{θ} (x_{0} ∣ x_{1})]

$D_{K L} (q (x_{T} ∣ x_{0}) ∥ p (x_{T}))$ අපි නියතව සිටින බැවින් $β_{1}, \dots, β_{T}$ නියත වේ.

පරිගණකකරණය $L_{t - 1} = D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t}))$

ඉදිරි ක්රියාවලිය posterior විසින් සමනය $x_{0}$ වේ,

q (x_{t - 1} ∣ x_{t}, x_{0}) \tilde{μ}_{t} (x_{t}, x_{0}) \tilde{β_{t}} = N (x_{t - 1}; \tilde{μ}_{t} (x_{t}, x_{0}), \tilde{β_{t}} I) = \frac{α ˉ _{t - 1} β _{t}}{1 - α _{t} ˉ} x_{0} + \frac{α _{t} ( 1 - α ˉ _{t - 1} )}{1 - α _{t} ˉ} x_{t} = \frac{1 - α ˉ _{t - 1}}{1 - α _{t} ˉ} β_{t}

කඩදාසි නියතයන්ට සකසා $σ_{t}^{2}$ ඇති $Σ_{θ} (x_{t}, t) = σ_{t}^{2} I$ තැන සකසයි $β_{t}$ හෝ $\tilde{β_{t}}$ .

එවිට, $p_{θ} (x_{t - 1} ∣ x_{t}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), σ_{t}^{2} I)$

ලබා දී ඇති ශබ්දය $ϵ \sim N (0, I)$ සඳහා $q (x_{t} ∣ x_{0})$

x_{t} (x_{0}, ϵ) x_{0} = \overset{α_{t}}{ˉ} x_{0} + 1 - \overset{α_{t}}{ˉ} ϵ = \frac{1}{α _{t} ˉ} (x_{t} (x_{0}, ϵ) - 1 - \overset{α_{t}}{ˉ} ϵ)

මෙය ලබා දෙයි,

L_{t - 1} = D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t})) = E_{q} [\frac{1}{2 σ _{t}^{2}} ∥ ∥ \tilde{μ} (x_{t}, x_{0}) - μ_{θ} (x_{t}, t) ∥ ∥^{2}] = E_{x_{0}, ϵ} [\frac{1}{2 σ _{t}^{2}} ∥ ∥ \frac{1}{α _{t}} (x_{t} (x_{0}, ϵ) - \frac{β _{t}}{1 - α _{t} ˉ} ϵ) - μ_{θ} (x_{t} (x_{0}, ϵ), t) ∥ ∥^{2}]

ශබ්දය පුරෝකථනය කිරීම සඳහා ආකෘතියක් සමඟ නැවත පරාමිතිකරණය කිරීම

μ_{θ} (x_{t}, t) = \tilde{μ} (x_{t}, \frac{1}{α _{t} ˉ} (x_{t} - 1 - \overset{α_{t}}{ˉ} ϵ_{θ} (x_{t}, t))) = \frac{1}{α _{t}} (x_{t} - \frac{β _{t}}{1 - α _{t} ˉ} ϵ_{θ} (x_{t}, t))

$ϵ$ ලබා දී $ϵ_{θ}$ ඇති අනාවැකි පළ කරන උගත් ශ්රිතයක් $(x_{t}, t)$ කොහේද?

මෙය ලබා දෙයි,

L_{t - 1} = E_{x_{0}, ϵ} [\frac{β _{t} ^{2}}{2 σ _{t}^{2} α _{t} ( 1 - α _{t} ˉ )} ∥ ∥ ϵ - ϵ_{θ} (\overset{α_{t}}{ˉ} x_{0} + 1 - \overset{α_{t}}{ˉ} ϵ, t) ∥ ∥^{2}]

එනම්, අපි ශබ්දය පුරෝකථනය කිරීමට පුහුණු වෙමු.

සරල කළ අලාභය

$L_{simple} (θ) = E_{t, x_{0}, ϵ} [∥ ∥ ϵ - ϵ_{θ} (\overset{α_{t}}{ˉ} x_{0} + 1 - \overset{α_{t}}{ˉ} ϵ, t) ∥ ∥^{2}]$

බර කිරන $- l o g p_{θ} (x_{0} ∣ x_{1})$ විට $t = 1$ සහ $t > 1$ ඉවතලීම $L_{t - 1}$ සඳහා මෙය අවම කරයි $L_{t - 1}$ . බර $\frac{β _{t} ^{2}}{2 σ _{t}^{2} α _{t} ( 1 - α _{t} ˉ )}$ ඉවතලීම ඉහළ $t$ (ඉහළ ශබ්ද මට්ටම් ඇති) ලබා දෙන බර වැඩි කරයි, එබැවින් නියැදියේ ගුණාත්මකභාවය වැඩි කරයි.

මෙම ගොනුව මඟින් පාඩු ගණනය කිරීම සහ පුහුණුව අතරතුර රූප ජනනය කිරීම සඳහා අප භාවිතා කරන මූලික නියැදි ක්රමයක් ක්රියාත්මක කරයි.

කේතය ලබා දෙන $ϵ_{θ} (x_{t}, t)$ සහ පුහුණු කරන UNET ආකෘතිය මෙන්න. මෙම ගොනුවට පුහුණු ආකෘතියකින් සාම්පල සහ අන්තර්නිවේශනයන් ජනනය කළ හැකිය.

162from typing import Tuple, Optional
163
164import torch
165import torch.nn.functional as F
166import torch.utils.data
167from torch import nn
168
169from labml_nn.diffusion.ddpm.utils import gather

#

ඩෙනොයිස්විසරණය

172class DenoiseDiffusion:

#

eps_model $ϵ_{θ} (x_{t}, t)$ ආකෘතිය වේ
n_steps වේ $t$

device නියතයන් මත තැබීමට උපාංගය වේ

177    def __init__(self, eps_model: nn.Module, n_steps: int, device: torch.device):

#

183        super().__init__()
184        self.eps_model = eps_model

#

$β_{1}, \dots, β_{T}$ රේඛීයව වැඩිවන විචල්යතා කාලසටහනක් සාදන්න

187        self.beta = torch.linspace(0.0001, 0.02, n_steps).to(device)

#

$α_{t} = 1 - β_{t}$

190        self.alpha = 1. - self.beta

#

$\overset{α_{t}}{ˉ} = \prod_{s = 1}^{t} α_{s}$

192        self.alpha_bar = torch.cumprod(self.alpha, dim=0)

#

$T$

194        self.n_steps = n_steps

#

$σ^{2} = β$

196        self.sigma2 = self.beta

#

$q (x_{t} ∣ x_{0})$ බෙදා හැරීම ලබා ගන්න

q (x_{t} ∣ x_{0}) = N (x_{t}; \overset{α_{t}}{ˉ} x_{0}, (1 - \overset{α_{t}}{ˉ}) I)

198    def q_xt_x0(self, x0: torch.Tensor, t: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:

#

රැස් $α_{t}$ කර ගණනය කරන්න $\overset{α_{t}}{ˉ} x_{0}$

208        mean = gather(self.alpha_bar, t) ** 0.5 * x0

#

$(1 - \overset{α_{t}}{ˉ}) I$

210        var = 1 - gather(self.alpha_bar, t)

#

212        return mean, var

#

වෙතින්නියැදිය $q (x_{t} ∣ x_{0})$

q (x_{t} ∣ x_{0}) = N (x_{t}; \overset{α_{t}}{ˉ} x_{0}, (1 - \overset{α_{t}}{ˉ}) I)

214    def q_sample(self, x0: torch.Tensor, t: torch.Tensor, eps: Optional[torch.Tensor] = None):

#

$ϵ \sim N (0, I)$

224        if eps is None:
225            eps = torch.randn_like(x0)

#

ලබාගන්න $q (x_{t} ∣ x_{0})$

228        mean, var = self.q_xt_x0(x0, t)

#

වෙතින්නියැදිය $q (x_{t} ∣ x_{0})$

230        return mean + (var ** 0.5) * eps

#

වෙතින්නියැදිය $p_{θ} (x_{t - 1} ∣ x_{t})$

p_{θ} (x_{t - 1} ∣ x_{t}) μ_{θ} (x_{t}, t) = N (x_{t - 1}; μ_{θ} (x_{t}, t), σ_{t}^{2} I) = \frac{1}{α _{t}} (x_{t} - \frac{β _{t}}{1 - α _{t} ˉ} ϵ_{θ} (x_{t}, t))

232    def p_sample(self, xt: torch.Tensor, t: torch.Tensor):

#

$ϵ_{θ} (x_{t}, t)$

246        eps_theta = self.eps_model(xt, t)

#

රැස් කරන්න $\overset{α_{t}}{ˉ}$

248        alpha_bar = gather(self.alpha_bar, t)

#

$α_{t}$

250        alpha = gather(self.alpha, t)

#

$\frac{β}{1 - α _{t} ˉ}$

252        eps_coef = (1 - alpha) / (1 - alpha_bar) ** .5

#

$\frac{1}{α _{t}} (x_{t} - \frac{β _{t}}{1 - α _{t} ˉ} ϵ_{θ} (x_{t}, t))$

255        mean = 1 / (alpha ** 0.5) * (xt - eps_coef * eps_theta)

#

$σ^{2}$

257        var = gather(self.sigma2, t)

#

$ϵ \sim N (0, I)$

260        eps = torch.randn(xt.shape, device=xt.device)

#

නියැදිය

262        return mean + (var ** .5) * eps

#

සරලඅඞු කිරීමට

$L_{simple} (θ) = E_{t, x_{0}, ϵ} [∥ ∥ ϵ - ϵ_{θ} (\overset{α_{t}}{ˉ} x_{0} + 1 - \overset{α_{t}}{ˉ} ϵ, t) ∥ ∥^{2}]$

264    def loss(self, x0: torch.Tensor, noise: Optional[torch.Tensor] = None):

#

කණ්ඩායම්ප්රමාණය ලබා ගන්න

273        batch_size = x0.shape[0]

#

කණ්ඩායමේඑක් එක් නියැදිය $t$ සඳහා අහඹු ලෙස ලබා ගන්න

275        t = torch.randint(0, self.n_steps, (batch_size,), device=x0.device, dtype=torch.long)

#

$ϵ \sim N (0, I)$

278        if noise is None:
279            noise = torch.randn_like(x0)

#

$x_{t}$ සඳහා නියැදිය $q (x_{t} ∣ x_{0})$

282        xt = self.q_sample(x0, t, eps=noise)

#

ලබාගන්න $ϵ_{θ} (\overset{α_{t}}{ˉ} x_{0} + 1 - \overset{α_{t}}{ˉ} ϵ, t)$

284        eps_theta = self.eps_model(xt, t)

#

MSEඅලාභය

287        return F.mse_loss(noise, eps_theta)

විසරණ සම්භාවිතා ආකෘති නිරූපණය කිරීම (DDPM)

ඉදිරි ක්රියාවලිය

ප්රතිලෝම ක්රියාවලිය

පාඩුව

පරිගණකකරණයLt−1​=DKL​(q(xt−1​∣xt​,x0​)∥pθ​(xt−1​∣xt​))

සරල කළ අලාභය

ඩෙනොයිස්විසරණය

q(xt​∣x0​) බෙදා හැරීම ලබා ගන්න

වෙතින්නියැදිය q(xt​∣x0​)

වෙතින්නියැදිය pθ​(xt−1​∣xt​)

සරලඅඞු කිරීමට

පරිගණකකරණය $L_{t - 1} = D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t}))$

$q (x_{t} ∣ x_{0})$ බෙදා හැරීම ලබා ගන්න

වෙතින්නියැදිය $q (x_{t} ∣ x_{0})$

වෙතින්නියැදිය $p_{θ} (x_{t - 1} ∣ x_{t})$