#

විසරණසම්භාවිතාව ආකෘති නිරූපණය කිරීම (DDPM)

මෙය PyTorch ක්රියාත්මක කිරීම/නිබන්ධනයකි කඩදාසි Denoising Diffusion සම්භාවිතාව ආකෘති .

සරළවකිවහොත්, අපි දත්ත වලින් රූපයක් ලබාගෙන පියවරෙන් පියවර ශබ්දය එක් කරමු. ඉන්පසු අපි සෑම පියවරකදීම එම ශබ්දය පුරෝකථනය කිරීමට ආකෘතියක් පුහුණු කර රූප ජනනය කිරීමට ආකෘතිය භාවිතා කරමු.

පහතදැක්වෙන අර්ථ දැක්වීම් සහ ව්යුත්පන්නයන් මෙය ක්රියාත්මක වන ආකාරය පෙන්වයි. විස්තර සඳහා කරුණාකර කඩදාසි වෙතයොමු වන්න.

ඉදිරික්රියාවලිය

ඉදිරික්රියාවලිය $T$ කාලසටහන සඳහා දත්ත $x_{0} \sim q (x_{0})$ වලට ශබ්දය එක් කරයි.

q (x_{t} ∣ x_{t - 1}) = N (x_{t}; 1 - β_{t} x_{t - 1}, β_{t} I) q (x_{1 : T} ∣ x_{0}) = t = 1 \prod T q (x_{t} ∣ x_{t - 1})

විචලනයකාලසටහන $β_{1}, \dots, β_{T}$ කොහේද?

අපටඕනෑම $x_{t}$ වේලාවක $t$ නියැදිය හැකිය,

q (x_{t} ∣ x_{0}) = N (x_{t}; \overset{α_{t}}{ˉ} x_{0}, (1 - \overset{α_{t}}{ˉ}) I)

$α_{t} = 1 - β_{t}$ කොහේද සහ $\overset{α_{t}}{ˉ} = \prod_{s = 1}^{t} α_{s}$

ප්රතිලෝමක්රියාවලිය

ප්රතිලෝමක්රියාවලිය මඟින් $T$ කාල පියවර $p (x_{T}) = N (x_{T}; 0, I)$ සඳහා ආරම්භ වන ශබ්දය ඉවත් කරයි.

p_{θ} (x_{t - 1} ∣ x_{t}) p_{θ} (x_{0 : T}) p_{θ} (x_{0}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), Σ_{θ} (x_{t}, t)) = p_{θ} (x_{T}) t = 1 \prod T p_{θ} (x_{t - 1} ∣ x_{t}) = \int p_{θ} (x_{0 : T}) d x_{1 : T}

$θ$ අපි පුහුණු පරාමිතීන් වේ.

පාඩුව

අපිELBO (ජෙන්සන්ගේ අසමානතාවයෙන්) සෘණ ලොග් සම්භාවිතාව මත ප්රශස්තිකරණය කරමු.

E [- lo g p_{θ} (x_{0})] \leq E_{q} [- lo g \frac{p _{θ} ( x _{0 : T} )}{q ( x _{1 : T} ∣ x _{0} )}] = L

අලාභයපහත පරිදි නැවත ලිවිය හැකිය.

L = E_{q} [- lo g \frac{p _{θ} ( x _{0 : T} )}{q ( x _{1 : T} ∣ x _{0} )}] = E_{q} [- lo g p (x_{T}) - t = 1 \sum T lo g \frac{p _{θ} ( x _{t - 1} ∣ x _{t} )}{q ( x _{t} ∣ x _{t - 1} )}] = E_{q} [- lo g \frac{p ( x _{T} )}{q ( x _{T} ∣ x _{0} )} - t = 2 \sum T lo g \frac{p _{θ} ( x _{t - 1} ∣ x _{t} )}{q ( x _{t - 1} ∣ x _{t} , x _{0} )} - l o g p_{θ} (x_{0} ∣ x_{1})] = E_{q} [D_{K L} (q (x_{T} ∣ x_{0}) ∥ p (x_{T})) + t = 2 \sum T D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t})) - l o g p_{θ} (x_{0} ∣ x_{1})]

$D_{K L} (q (x_{T} ∣ x_{0}) ∥ p (x_{T}))$ අපි නියතව සිටින බැවින් $β_{1}, \dots, β_{T}$ නියත වේ.

පරිගණක $L_{t - 1} = D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t}))$

ඉදිරික්රියාවලිය posterior විසින් සමනය $x_{0}$ වේ,

q (x_{t - 1} ∣ x_{t}, x_{0}) \tilde{μ}_{t} (x_{t}, x_{0}) \tilde{β_{t}} = N (x_{t - 1}; \tilde{μ}_{t} (x_{t}, x_{0}), \tilde{β_{t}} I) = \frac{α ˉ _{t - 1} β _{t}}{1 - α _{t} ˉ} x_{0} + \frac{α _{t} ( 1 - α ˉ _{t - 1} )}{1 - α _{t} ˉ} x_{t} = \frac{1 - α ˉ _{t - 1}}{a}

කඩදාසිනියම කර $σ_{t}^{2}$ ඇති $Σ_{θ} (x_{t}, t) = σ_{t}^{2} I$ තැන සකසයි $β_{t}$ හෝ $\tilde{β_{t}}$ .

එවිට, $p_{θ} (x_{t - 1} ∣ x_{t}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), σ_{t}^{2} I)$

ලබාදී ඇති ශබ්දය $ϵ \sim N (0, I)$ සඳහා $q (x_{t} ∣ x_{0})$

x_{t} (x_{0}, ϵ) x_{0} = \overset{α_{t}}{ˉ} x_{0} + 1 - \overset{α_{t}}{ˉ} ϵ = \frac{1}{α _{t} ˉ} (x_{t} (x_{0}, ϵ) - 1 - \overset{α_{t}}{ˉ} ϵ)

මෙයලබා දෙයි,

L_{t - 1} = D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t})) = E_{q} [\frac{1}{2 σ _{t}^{2}} ∥ ∥ \tilde{μ} (x_{t}, x_{0}) - μ_{θ} (x_{t}, t) ∥ ∥^{2}] = E_{x_{0}, ϵ} [\frac{1}{2 σ _{t}^{2}} ∥ ∥ \frac{1}{α _{t}} (x_{t} (x_{0}, ϵ) - \frac{β _{t}}{1 - α _{t} ˉ} ϵ) - μ_{θ} (x_{t} (x_{0}, ϵ), t) ∥ ∥^{2}]

ශබ්දයපුරෝකථනය කිරීම සඳහා ආකෘතියක් සමඟ නැවත පරාමිතිකරණය කිරීම

μ_{θ} (x_{t}, t) = \tilde{μ} (x_{t}, \frac{1}{α _{t} ˉ} (x_{t} - 1 - \overset{α_{t}}{ˉ} ϵ_{θ} (x_{t}, t))) = \frac{1}{α _{t}} (x_{t} - \frac{β _{t}}{1 - α _{t} ˉ} ϵ_{θ} (x_{t}, t))

$ϵ$ ලබා දී $ϵ_{θ}$ ඇති අනාවැකි පළ කරන උගත් ශ්රිතයක් $(x_{t}, t)$ කොහේද?

මෙයලබා දෙයි,

L_{t - 1} = E_{x_{0}, ϵ} [\frac{β _{t} ^{2}}{2 σ _{t}^{2} α _{t} ( 1 - α _{t} ˉ )} ∥ ∥ ϵ - ϵ_{θ} (\overset{α_{t}}{ˉ} x_{0} + 1 - \overset{α_{t}}{ˉ} ϵ, t) ∥ ∥^{2}]

එනම්, ශබ්දය පුරෝකථනය කිරීමට අපි පුහුණු වෙමු.

සරලඅලාභය

$L_{s} im pl e (θ) = E_{t, x_{0}, ϵ} [∥ ∥ ϵ - ϵ_{θ} (\overset{α_{t}}{ˉ} x_{0} + 1 - \overset{α_{t}}{ˉ} ϵ, t) ∥ ∥^{2}]$

බරඅඩු $- l o g p_{θ} (x_{0} ∣ x_{1})$ කිරීමේදී $t = 1$ සහ $t > 1$ ඉවතලීම $L_{t - 1}$ සඳහා මෙය අවම කරයි $L_{t - 1}$ . බර $\frac{β _{t} ^{2}}{2 σ _{t}^{2} α _{t} ( 1 - α _{t} ˉ )}$ ඉවතලීම ඉහළ $t$ (ඉහළ ශබ්ද මට්ටම් ඇති) දක්වා ඇති බර වැඩි කරයි, එබැවින් නියැදි ගුණාත්මකභාවය වැඩි කරයි.

පුහුණුවඅතරතුර රූප ජනනය කිරීම සඳහා අප භාවිතා කරන පාඩු ගණනය කිරීම සහ මූලික නියැදි ක්රමයක් මෙම ගොනුව ක්රියාත්මක කරයි.

කේතය ලබා දෙන $ϵ_{θ} (x_{t}, t)$ සහ පුහුණු කරන UNET ආකෘතිය මෙන්න. මෙම ගොනුවට පුහුණු ආකෘතියකින් සාම්පල සහ අන්තර්නිවේශනයන් ජනනය කළ හැකිය.

163from typing import Tuple, Optional
164
165import torch
166import torch.nn.functional as F
167import torch.utils.data
168from torch import nn
169
170from labml_nn.diffusion.ddpm.utils import gather

#

ඩෙනොයිස්විසරණය

173class DenoiseDiffusion:

#

eps_model $ϵ_{θ} (x_{t}, t)$ ආකෘතිය වේ
n_steps වේ $t$

device නියතයන් මත තැබීමට උපාංගය වේ

178    def __init__(self, eps_model: nn.Module, n_steps: int, device: torch.device):

#

184        super().__init__()
185        self.eps_model = eps_model

#

$β_{1}, \dots, β_{T}$ රේඛීයව වැඩිවන විචල්යතා කාලසටහනක් සාදන්න

188        self.beta = torch.linspace(0.0001, 0.02, n_steps).to(device)

#

$α_{t} = 1 - β_{t}$

191        self.alpha = 1. - self.beta

#

$\overset{α_{t}}{ˉ} = \prod_{s = 1}^{t} α_{s}$

193        self.alpha_bar = torch.cumprod(self.alpha, dim=0)

#

$T$

195        self.n_steps = n_steps

#

$σ^{2} = β$

197        self.sigma2 = self.beta

#

$q (x_{t} ∣ x_{0})$ බෙදා හැරීම ලබා ගන්න

q (x_{t} ∣ x_{0}) = N (x_{t}; \overset{α_{t}}{ˉ} x_{0}, (1 - \overset{α_{t}}{ˉ}) I)

199    def q_xt_x0(self, x0: torch.Tensor, t: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:

#

රැස් $α_{t}$ කර ගණනය කරන්න $\overset{α_{t}}{ˉ} x_{0}$

209        mean = gather(self.alpha_bar, t) ** 0.5 * x0

#

$(1 - \overset{α_{t}}{ˉ}) I$

211        var = 1 - gather(self.alpha_bar, t)

#

213        return mean, var

#

වෙතින්නියැදිය $q (x_{t} ∣ x_{0})$

q (x_{t} ∣ x_{0}) = N (x_{t}; \overset{α_{t}}{ˉ} x_{0}, (1 - \overset{α_{t}}{ˉ}) I)

215    def q_sample(self, x0: torch.Tensor, t: torch.Tensor, eps: Optional[torch.Tensor] = None):

#

$ϵ \sim N (0, I)$

225        if eps is None:
226            eps = torch.randn_like(x0)

#

ලබාගන්න $q (x_{t} ∣ x_{0})$

229        mean, var = self.q_xt_x0(x0, t)

#

වෙතින්නියැදිය $q (x_{t} ∣ x_{0})$

231        return mean + (var ** 0.5) * eps

#

වෙතින්නියැදිය $p_{θ} (x_{t - 1} ∣ x_{t})$

p_{θ} (x_{t - 1} ∣ x_{t}) μ_{θ} (x_{t}, t) = N (x_{t - 1}; μ_{θ} (x_{t}, t), σ_{t}^{2} I) = \frac{1}{α _{t}} (x_{t} - \frac{β _{t}}{1 - α _{t} ˉ} ϵ_{θ} (x_{t}, t))

233    def p_sample(self, xt: torch.Tensor, t: torch.Tensor):

#

$ϵ_{θ} (x_{t}, t)$

247        eps_theta = self.eps_model(xt, t)

#

රැස් කරන්න $\overset{α_{t}}{ˉ}$

249        alpha_bar = gather(self.alpha_bar, t)

#

$α_{t}$

251        alpha = gather(self.alpha, t)

#

$\frac{β}{1 - α _{t} ˉ}$

253        eps_coef = (1 - alpha) / (1 - alpha_bar) ** .5

#

$\frac{1}{α _{t}} (x_{t} - \frac{β _{t}}{1 - α _{t} ˉ} ϵ_{θ} (x_{t}, t))$

256        mean = 1 / (alpha ** 0.5) * (xt - eps_coef * eps_theta)

#

$σ^{2}$

258        var = gather(self.sigma2, t)

#

$ϵ \sim N (0, I)$

261        eps = torch.randn(xt.shape, device=xt.device)

#

නියැදිය

263        return mean + (var ** .5) * eps

#

සරලඅඞු කිරීමට

$L_{s} im pl e (θ) = E_{t, x_{0}, ϵ} [∥ ∥ ϵ - ϵ_{θ} (\overset{α_{t}}{ˉ} x_{0} + 1 - \overset{α_{t}}{ˉ} ϵ, t) ∥ ∥^{2}]$

265    def loss(self, x0: torch.Tensor, noise: Optional[torch.Tensor] = None):

#

කණ්ඩායම්ප්රමාණය ලබා ගන්න

274        batch_size = x0.shape[0]

#

කණ්ඩායමේඑක් එක් නියැදිය $t$ සඳහා අහඹු ලෙස ලබා ගන්න

276        t = torch.randint(0, self.n_steps, (batch_size,), device=x0.device, dtype=torch.long)

#

$ϵ \sim N (0, I)$

279        if noise is None:
280            noise = torch.randn_like(x0)

#

$x_{t}$ සඳහා නියැදිය $q (x_{t} ∣ x_{0})$

283        xt = self.q_sample(x0, t, eps=noise)

#

ලබාගන්න $ϵ_{θ} (\overset{α_{t}}{ˉ} x_{0} + 1 - \overset{α_{t}}{ˉ} ϵ, t)$

285        eps_theta = self.eps_model(xt, t)

#

MSEඅලාභය

288        return F.mse_loss(noise, eps_theta)

විසරණසම්භාවිතාව ආකෘති නිරූපණය කිරීම (DDPM)

ඉදිරික්රියාවලිය

ප්රතිලෝමක්රියාවලිය

පාඩුව

පරිගණක Lt−1​=DKL​(q(xt−1​∣xt​,x0​)∥pθ​(xt−1​∣xt​))

සරලඅලාභය

ඩෙනොයිස්විසරණය

q(xt​∣x0​) බෙදා හැරීම ලබා ගන්න

වෙතින්නියැදිය q(xt​∣x0​)

වෙතින්නියැදිය pθ​(xt−1​∣xt​)

සරලඅඞු කිරීමට

පරිගණක $L_{t - 1} = D_{K L} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t}))$

$q (x_{t} ∣ x_{0})$ බෙදා හැරීම ලබා ගන්න

වෙතින්නියැදිය $q (x_{t} ∣ x_{0})$

වෙතින්නියැදිය $p_{θ} (x_{t - 1} ∣ x_{t})$