확산모델

확산 모델(diffusion model)은 기계 학습에서 확산 확률 모델 또는 점수 기반 생성 모델이라고도 합니다.확산 모델의 목표는 주어진 데이터 세트의 확률 분포를 생성하는 확산 과정을 학습하는 것입니다.이는 주로 순방향 공정, 역방향 공정, 샘플링 공정의 세 가지 주요 구성요소로 구성됩니다.^[1]컴퓨터 비전에 사용되는 일반 확산 모델링 프레임워크의 세 가지 예는 노이즈 확산 확률적 모델, 노이즈 조건부 점수 네트워크 및 확률적 미분 방정식입니다.^[2]

확산 모델은 이미지 노이즈 제거, 인페인팅, 초해상도, 이미지 생성 등 다양한 작업에 적용할 수 있습니다.예를 들어, 이미지 생성에서 신경망은 노이즈 제거 학습을 통해 가우스 노이즈가 추가된 이미지를 노이즈화하도록 훈련됩니다.^[3]^[4]교육이 완료되면 랜덤 노이즈 이미지로 시작하여 노이즈를 제거하여 이미지 생성에 사용할 수 있습니다.

확산 모델은 다양한 종류의 실세계 데이터를 생성하는 데 적용되었으며, 그 중 가장 유명한 것은 DALL-E와 Stable Diffusion과 같은 텍스트 조건 이미지 생성기입니다.더 많은 예는 기사의 뒷부분에 나와 있습니다.

노이즈 제거 확산 모델

비평형 열역학

확산 모델은 매우 복잡한 확률 분포로부터 표본을 추출할 수 있는 모델을 학습하기 위한 방법으로 2015년에 도입되었습니다.그들은 비평형 열역학, 특히 확산의 기술을 사용했습니다.^[5]

예를 들어, 자연적으로 생성된 모든 사진의 분포를 모델링하는 방법을 생각해 보십시오.각 이미지는 모든 이미지의 공간에서 한 점이며, 자연적으로 발생하는 사진의 분포는 공간의 "클라우드"이며, 이는 반복적으로 이미지에 노이즈를 추가함으로써 클라우드가 가우스 분포 $N(0,I)$ $N(0,I)$ $N(0, I)$ 과 거의 구별되지 않을 때까지 이미지 공간의 나머지 부분으로 확산됩니다 $N(0,I)$ 그런 다음 확산을 근사적으로 실행 취소할 수 있는 모형을 사용하여 원래 분포에서 표본을 추출할 수 있습니다.이것은 "비평형" 열역학에서 연구되는데, 시작 분포가 최종 분포와 달리 평형에 있지 않기 때문입니다.

평형 $N(0,I)$ 는 pdf ρ $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ e - $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ 1 $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ ‖ $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ ‖ 2 $N(0,I)$ {\displaystyle N(0,I)}이고, $N(0,I)$ pdf $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ ∝ $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ - 1 2 ‖ x ‖ $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ ${\displaystyle$ n $(x)\rho(x$ )\ $propto e^{-{\frac {1}{2}}\$ x\^{ $2}}$ 입니다 $\rho (x)\propto e^{-{\frac {1}{2}}\|x\|^{2}}$ 이것은 온도 1에서 $V(x)={\frac {1}{2}}\|x\|^{2}$ 웰 V $V(x)={\frac {1}{2}}\|x\|^{2}$ = $V(x)={\frac {1}{2}}\|x\|^{2}$ $V(x)={\frac {1}{2}}\|x\|^{2}$ ‖ $V(x)={\frac {1}{2}}\|x\|^{2}$ ‖ 2 ${\displaystyle V(x$ )= {\ $frac {1}}\ x\^{2}}$ 입니다.초기 분포는 평형에서 매우 벗어나 평형 분포 쪽으로 확산되어 순수 무작위성(브라운 워커와 같은)과 전위 우물 아래로 기울기 하강의 합인 편향된 무작위 단계를 만듭니다.무작위성은 필요합니다. 만약 입자들이 기울기 하강만 거치면, 입자들은 모두 원점으로 떨어져 분포가 붕괴될 것입니다.

DDPM(DDPM

2020년 논문은 변동 추론에 의해 이전 방법을 개선하는 DDPM(Denoising Diffusion Probistic Model)을 제안했습니다.^[6]

전방확산

모델을 발표하기 위해서는 약간의 표기법이 있습니다.

$\beta _{1},...,\beta _{T}\in (0,1)$ $\beta _{1},...,\beta _{T}\in (0,1)$ , $\beta _{1},...,\beta _{T}\in (0,1)$ $\beta _{1},...,\beta _{T}\in (0,1)$ $\beta _{1},...,\beta _{T}\in (0,1)$ (0 $\beta _{1},...,\beta _{T}\in (0,1)$ $\beta _{1},...,\beta _{T}\in (0,1)$ ${\displaystyle$ \ $beta$ _ ${1}, ...,\beta$ _{ $T}\$ in ( $0,1)}은($ 는) 고정 상수입니다.
$\alpha_{t}:=1-\beta_{t$
${\bar {\alpha}}_{t}:=\alpha_{1}\cdots \alpha_{t$
${\tilde {\beta }}_{t}:={\frac {1-{\bar {\alpha}}_{t-1}}{1-{\bar {\alpha}}_{t}}\beta_{t$
${\mu}}_{t}(x_{t},x_{0}):={\frac {{\sqrt {\alpha _{t}}}(1-{\bar {\alpha}}_{t-1})x_{t}+{\sqrt{\bar {\alpha}}_{t-1}}}(1-\alpha _{t})x_{0}{1-{\bar {\alpha}}_{{t}}$
$N(\mu ,\Sigma )$ , $N(\mu ,\Sigma )$ $\Sigma$ $N(\mu ,\Sigma )$ $N(\mu,\Sigma)$ 은 평균 $\mu$ μ {\ $displaystyle \mu$ } 및 $N(\mu ,\Sigma )$ 분산 $\mu$ $N(x|\mu ,\Sigma )$ $\Sigma$ 인 정규 분포이고 $\Sigma$ N $N(x|\mu ,\Sigma )$ $N(\mu ,\Sigma )$ $N(x|\mu ,\Sigma )$ , $N(x|\mu ,\Sigma )$ σ $N(x|\mu ,\Sigma )$ $N(x \mu,\Sigma)$ 은 x $x$ 에서의 확률 밀도입니다 $x$
세로 막대는 컨디셔닝을 나타냅니다.

순방향 확산 프로세스는 시작점 $x_{0}\sim q$ $x_{0}\sim q$ ~ $x_{0}\sim q$ $x_{0}\sim q$ 에서 시작되며 $x_{0}\sim q$ 여기서 $q$ $q$ 은 $q$ (는) 학습할 확률 분포입니다. 그런 다음 반복적으로 잡음을 추가합니다.

x_{t}={\sqrt {1-\beta_{t}}x_{t-1}+{\sqrt {\beta_{t}}z_{t}

여기서

z_{1},...,z_{T}

z_{1},...,z_{T}

z_{1},...,z_{T}

z_{1},...,z_{T}

{\

는

z_{1},...,z_{T}

N(0,I)

I

N(0,I)

N(0,I)

의 IID 샘플입니다

N(0,I)

그러면 전체 확산 과정은

q(x_{0:T})=q(x_{0})q(x_{1} x_{0})\cdots q(x_{T} x_{T-1})=q(x_{0})N(x_{1} {\sqrt {\alpha_{1}}x_{0},\beta_{1}I)\cdots N(x_{T} {\sqrt {\alpha_{T}}x_{T-1},\beta_{T}I)

아니면

\ln q(x_{0:T})=\ln q(x_{0})-\sum _{t=1}^{T}{\frac {1}{2\beta _{t}}\ x_{t}-{\sqrt {1-\beta _{t}}x_{t-1}\ ^{2}+C

여기서

C

C

는

C

정규화 상수이므로 종종 생략됩니다.특히 x

x_{1:T}|x_{0}

:

x_{1:T}|x_{0}

x

x_{1:T}|x_{0}

{\

:

T} x_{0}}

는

x_{1:T}|x_{0}

가우시안 프로세스로, 매개변수화에서 상당한 자유를 제공합니다.예를 들어 가우시안 프로세스로 표준 조작을 함으로써

x_{t} x_{0}\sim N\left({\sqrt {\bar {\alpha}}_{t}}x_{0},(1-{\bar {\alpha}}_{t})I\right)

x_{t-1} x_{t},x_{0}\sim N({\tilde {\mu}}_{t}(x_{t},x_{0}),{\tilde {\beta}}_{t}I)

특히 큰

t

t

의 경우

t

변수 x

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

~

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

¯ t

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

-

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

α ¯ t

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

)

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

)

{\displaystyle x_{t} x_{0}\sim N\left({\sqrt {\bar {\alpha}}_{t}x_{0},

(

1-{\bar {\alpha}}_{t})

I\right)}

은(는)

N(0,I)

I

N(0,I)

N(0,I)

으로 수렴합니다

x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)

N(0,I)

즉, 충분히 긴 확산 과정 후에, 우리는

x_{T}

x T

{\

N(0,I)

x_{0}\sim q

0 ~

N(0,I)

x_{0}\sim q

x_{0}\simq

의 모든 흔적이 사라진

x_{0}\sim q

N(0,I)

N

(0,I)

에 매우 가까운

x_{T}

T

}

입니다

x_{0}\sim q

예를 들어, 그 이후로

x_{t} x_{0}\sim N\left({\sqrt {\bar {\alpha}}_{t}}x_{0},(1-{\bar {\alpha}}_{t})I\right)

모든

x_{1},x_{2},...,x_{t-1}

x_{1},x_{2},...,x_{t-1}

x_{t}|x_{0}

1

,

x 2, ..., x t

- 1 {\displaystyle x_

{2},

x_{1},x_{2},...,x_{t-1}

x

x_{1},x_{2},...,x_{t-1}

-

x_{1},x_{2},...,x_{t-1}

{\

},

..., x_{t-1}}

를 직접 "한 단계에

x_{t}|x_{0}

" 샘플링할 수 있습니다

x_{1},x_{2},...,x_{t-1}

역확산

DDPM의 핵심 아이디어는 θ $\theta$ 로 매개 변수화된 신경망을 사용하는 것입니다 $\theta$ 네트워크는 두 $x_{t},t$ 의 $x_{t},t$ x t, $x_{t},t$ {\ $displaystyle x_{t},$ t $}$ 를 $x_{t},t$ 입력하고 벡터 μ $\mu _{\theta }(x_{t},t)$ θ ( $\mu _{\theta }(x_{t},t)$ t $\mu _{\theta }(x_{t},t)$ t $)$ {\ $displaystyle$ \ $mu$ _{\ $theta}(x_{t}, t)$ 및 행렬 θ $\Sigma _{\theta }(x_{t},t)$ σ ( $\Sigma _{\theta }(x_{t},t)$ t $\Sigma _{\theta }(x_{t},t)$ t $)$ {\ $displaystyle$ \ $Sigma$ _{\ $theta}(x_{t$ }, $t)$ 를 출력하여 $\Sigma _{\theta }(x_{t},t)$ 각 단계를 정방향 dif로 진행합니다.융합 프로세스는 $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ - $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ ~ $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ N $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ ( $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ θ $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ ( $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ t $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ t $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ ), $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ σ θ $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ ( $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ ) ${\displaystyle x_{t-1}\sim N(\mu$ _ ${\theta})(x_{t},t),\Sigma _{\theta}(x_{t},t)}$ 만큼 실행 취소할 수 있습니다 $x_{t-1}\sim N(\mu _{\theta }(x_{t},t),\Sigma _{\theta }(x_{t},t))$ 그러면 다음과 같이 정의된 역확산 과정 $p_{\theta }$ θ $p_{\theta}$ 을(를) 얻을 수 있습니다.

p_{\theta}(x_{T})=N(x_{)T} 0,I)

p_{\theta}(x_{t-1} x_{t})=N(x_{t-1} \mu _{\theta}(x_{t},t),\Sigma _{\theta}(x_{t},t)

이제

p_{\theta }(x_{0})

는 p θ

p_{\theta }(x_{0})

0

)

{\

displaystyle

p_{\

theta}(x_

{0

})}

이(가)

q(x_{0})

0

q(x_{0})

q(x_{0})

에 최대한 가깝도록 매개 변수를 학습하는 것입니다.이를 위해 변동 추론을 사용한 최대 우도 추정을 사용합니다.

변분추론

ELBO 부등식은 $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ⁡ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ θ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ( $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ) $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ≥ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ : $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ T ~ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ⋅ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ) $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ [ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ⁡ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ θ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ( $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ : $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ) - $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ⁡ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ( $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ : $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ) $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ ] ${\displaystyle \ln p_{\theta }(x_{0})\geq E_{x_{1$ : $T}\sim q(\cdot x_{0})}[\ln p_{\theta }(x_{0:$ $T})-\ln q(x_{1:$ $T} x_{0}}]$ 그리고 $\ln p_{\theta }(x_{0})\geq E_{x_{1:T}\sim q(\cdot |x_{0})}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T}|x_{0})]$ 한 가지 더 예상하면 다음을 얻을 수 있는 것은

E_{x_{0}\sim q}[\ln p_{\theta}(x_{0})]\geq E_{x_{0:T}\sim q}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T} x_{0}]

오른쪽에서 수량을 최대화하면 관측된 데이터의 가능성에 대한 하한을 얻을 수 있음을 알 수 있습니다.이를 통해 변형 추론을 수행할 수 있습니다.

손실함수를 정의

L(\theta ):=-E_{x_{0:T}\sim q}[\ln p_{\theta }(x_{0:T})-\ln q(x_{1:T} x_{0}]

이제 목표는 확률적 경사 하강에 의한 손실을 최소화하는 것입니다.표현은 다음과^[7] 같이 단순화할 수 있습니다.

L(\theta )=\sum _{t=1}^{T}E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1} x_{t})]+E_{x_{0}\sim q}[D_{KL}(q(x_{T} x_{0})\p_{\theta}(x_{T})]+C

여기서

C

C

은(는) 매개 변수에 종속되지 않으므로

C

무시할 수 있습니다.

p_{\theta }(x_{T})=N(x_{T}|0,I)

θ

p_{\theta }(x_{T})=N(x_{T}|0,I)

(

p_{\theta }(x_{T})=N(x_{T}|0,I)

T )

p_{\theta }(x_{T})=N(x_{T}|0,I)

= N

p_{\theta }(x_{T})=N(x_{T}|0,I)

p_{\theta }(x_{T})=N(x_{T}|0,I)

p_{\theta }(x_{T})=N(x_{T}|0,I)

p_{\theta }(x_{T})=N(x_{T}|0,I)

)

{\displaystyle p_{\theta}(x_{T

}) =

N(x_{

T} 0,I)}

또한 매개 변수에 종속되지 않습니다. 용어 E

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

~

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

L (

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

(

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

0

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

)

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

‖

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

θ

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

( x

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

)

E_{x_{0}\sim q}[D_{KL}(q(x_{T}|x_{0})\|p_{\theta }(x_{T}))]

]

E_{x_{0}\sim q}[D_{KL}(q(x_{T} x_{0})\ p_{\theta }(x_{T})]

도 무시할 수 있습니다.그러면

L(\theta )=\sum _{t=1}^{T}L_{t}

θ

L(\theta )=\sum _{t=1}^{T}L_{t}

)

L(\theta )=\sum _{t=1}^{T}L_{t}

=

L(\theta )=\sum _{t=1}^{T}L_{t}

∑

L(\theta )=\sum _{t=1}^{T}L_{t}

=

L(\theta )=\sum _{t=1}^{T}L_{t}

L(\theta )=\sum _{t=1}^{T}L_{t}

L(\theta )=\sum _{t=1}^{T}L_{t}

T

L(\theta )=\sum _{t=1}^{T}L_{t}

{\

displaystyle

L

(\theta

)=\

sum

_{t=

1}^{T}L_{t}

만(는) 최소화됩니다. L

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

=

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

-

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

~

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

[ -

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

⁡

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

θ

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

- 1

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

)

L_{t}=E_{x_{t-1},x_{t}\sim q}[-\ln p_{\theta }(x_{t-1}|x_{t})]

]

{\displaystyle L_{t

}=

E_{x_{t-1}, x_{t}\sim q}[-\ln p_{\theta }(x_{t-1} x_{t})}

만(는) 최소화됩니다.

소음예측망

$x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ - $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ x $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ ~ N $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ ( $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ ~ t ( $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ x $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ 0 $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ ), $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ ~ $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ $x_{t-1}|x_{t},x_{0}\sim N({\tilde {\mu }}_{t}(x_{t},x_{0}),{\tilde {\beta }}_{t}I)$ ) ${\displaystyle x_{t-1} x_{t}, x_{0}\sim N({\tilde {\mu }}_{t}(x_{t}, x_{0$ }), ${\tilde {\$ beta $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}(x_{t},x_{0})$ $_{t}I$ μ θ $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}(x_{t},x_{0})$ ( $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}(x_{t},x_{0})$ t $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}(x_{t},x_{0})$ $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}(x_{t},x_{0})$ $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}(x_{t},x_{0})$ {\ $displaystyle \mu$ _ ${\theta}(x_{t},$ t $)$ = ${\tilde {\mu$ }} $_{t$ }( $x_{t$ }, $x_{0})}$ 를 사용해야 하지만 네트워크에 액세스할 수 없습니다 $\mu _{\theta }(x_{t},t)={\tilde {\mu }}_{t}(x_{t},x_{0})$ x $x_{0}$ ${\$ 로 $x_{0}$ 대신 추정해야 합니다.이제 x $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ ~ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ N $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ ( $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ ¯ t $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ - $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ α ¯ t $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ ) I $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ ) ${\displaystyle x_{t} x_{0}\sim N\left({\sqrt {\bar {\alpha}}_{t}}x_{0},(1-{\bar {\alpha}}_{t})$ $I\right$ x $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z$ $=$ α $¯$ $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z$ x $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z$ + $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z$ - $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z$ $¯$ t $x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z$ ${\displaystyle x_{t$ } $=$ {\ $sqrt {\bar {\alpha}}_{t}}x_{0}+{\sqrt {1-{\bar {\alpha}}_{t}z$ 여기서 $z$ $z$ 는 알 수 없는 가우스 노이즈입니다.이제 x $x_{0}$ ${\$ 을 추정하는 것은 $x_{0}$ $z$ $z$ 을 추정하는 것과 같습니다 $z$

따라서 네트워크에서 노이즈 벡터 ϵ θ $\epsilon _{\theta }(x_{t},t)$ $\epsilon _{\theta }(x_{t},t)$ t $\epsilon _{\theta }(x_{t},t)$ ${\displaystyle \epsilon _{\theta}(x_{t},$ t $)}$ 를 출력하고 예측하게 합니다 $\epsilon _{\theta }(x_{t},t)$

\mu _{\theta }(x_{t}}={\tilde {\mu }}_{t}\left(x_{t},{\frac {x_{t}}-{\sqrt {1-{\bar {\alpha }}_{t}}\epsilon _{\theta }(x_{t}){\sqrt {\bar {\alpha }}}_{t}}\right)={\frac {x_{t}-{\theta }(x_{t},t)\beta _{t}/{\sqrt {1-{\bar {\alpha }}_{t}}}{\sqrt {\alpha _{t}}}}{\sqrt {\alpha _{t}}}

σ θ (x

\Sigma _{\theta }(x_{t},t)

,

\Sigma _{\theta }(x_{t},t)

{\displaystyle

\

Sigma

_

{\theta }(

x_{

t},t)}.

DDPM 논문은 이를 배우지 않고 ("unstable

\Sigma _{\theta }(x_{t},t)=\sigma _{t}^{2}I

과 샘플 품질 저하"를 초래했기 때문에) 일부 값으로 고정할 것을 제안했습니다. σ θ (x

\Sigma _{\theta }(x_{t},t)=\sigma _{t}^{2}I

,

\Sigma _{\theta }(x_{t},t)=\sigma _{t}^{2}I

)

\Sigma _{\theta }(x_{t},t)=\sigma _{t}^{2}I

=

\Sigma _{\theta }(x_{t},t)=\sigma _{t}^{2}I

σ t 2

\Sigma _{\theta }(x_{t},t)=\sigma _{t}^{2}I

{\displaystyle

\

Sigma

_

{\theta }(

x_{

t},t

) =\sigma _{

t}^{2

}

σ

t2

=

\sigma _{t}^{2}=\beta _{t}{\text{ or }}{\tilde {\beta }}_{t}

t

\sigma _{t}^{2}=\beta _{t}{\text{ or }}{\tilde {\beta }}_{t}

\sigma _{t}^{2}=\beta _{t}{\text{ or }}{\tilde {\beta }}_{t}

~

\sigma _{t}^{2}=\beta _{t}{\text{ or }}{\tilde {\beta }}_{t}

{\displaystyle \

sigma

_

{t}^{2

}

=

\

beta

_

{t}{\text{ 또는 }}{\tilde {\t

}}

_{t}}

의 성능이 유사합니다.

이를 통해 손실은 다음과 같이 단순화됩니다.

L_{t}={\frac {\beta _{t}^{2}}{2\alpha _{t}}{2}}\sigma _{t}}E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\epsilon _{\theta }(x_{t},t)-z\right\^{2}\right]+C

확률적 구배 강하에 의해 최소화될 수 있습니다.그 논문은 더 단순한 손실 함수가 경험적으로 주목했습니다.

L_{simple,t}=E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\ \epsilon _{\theta}(x_{t},t)-z\right\^{2}\right]

더 나은 모델을 만들어냈습니다.

점수 기반 생성 모델

점수 기반 생성 모델은 확산 모델링의 또 다른 형태입니다.이들은 노이즈 조건부 점수 네트워크(NCSN) 또는 Langevin 역학(SMLD)을 이용한 점수 매칭이라고도 합니다.^[8]^[3]

점수매칭

점수함수의 개념은

이미지 생성의 문제를 생각해 봅니다. $x$ $x$ 가 이미지를 $x$ $q(x)$ $q(x)$ ( x ) $q(x))$ 가 가능한 모든 이미지에 $q(x)$ 대한 확률 분포라고 합니다.만약 우리가 $q(x)$ ( x $)$ {\ $displaystyle$ )} 그 자체를 $q(x)$ 가지고 있다면, 우리는 특정 이미지의 가능성을 확실히 말할 수 있습니다.그러나 이것은 일반적으로 다루기 어렵습니다.

대부분의 경우, 우리는 특정 이미지의 절대적인 확률을 아는 것에 관심이 없습니다. 만약 그렇다면, 우리는 모든 가능한 이미지의 공간에 이미지가 얼마나 있을 가능성에 관심이 있습니까?대신에, 우리는 보통 어떤 이미지가 그것의 바로 옆 이웃과 비교될 가능성이 얼마나 되는지 아는 데에만 관심이 있습니다 - 고양이의 어떤 작은 변형들과 비교할 때, 이 이미지가 얼마나 더 가능성이 있을까요?이미지에 수염이 두 개 포함되어 있는지, 아니면 세 개 포함되어 있는지, 아니면 가우스 노이즈가 추가되어 있는지 중 어느 것이 더 가능성이 높습니까?

따라서 실제로는 $q(x)$ ( $q(x)$ ${\displaystyle q(x))$ 그 자체에 관심이 없으며, 오히려 $\nabla _{x}\ln q(x)$ ∇ $\nabla _{x}\ln q(x)$ $\nabla _{x}\ln q(x)$ ⁡ $\nabla _{x}\ln q(x)$ $\nabla _{x}\ln q(x)$ $)$ ${\displaystyle$ \ $nabla _{x}\ln$ q $(x)}$ 두 가지 효과가 있습니다 $\nabla _{x}\ln q(x)$

첫째, 더 이상 ${\tilde {q}}(x)=Cq(x)$ $q(x)$ ( x $q(x)$ ) $q(x))$ 를 정규화할 필요가 없지만 q $q(x)$ ${\tilde {q}}(x)=Cq(x)$ ( ${\tilde {q}}(x)=Cq(x)$ ) ${\tilde {q}}(x)=Cq(x)$ = ${\tilde {q}}(x)=Cq(x)$ ${\tilde {q}}(x)=Cq(x)$ ( ${\tilde {q}}(x)=Cq(x)$ x ) ${\tilde {q$ (x) = $Cq (x)}$ 를 사용할 수 있습니다 ${\tilde {q}}(x)=Cq(x)$ 여기서 $C=\int {\tilde {q}}(x)dx>0$ = ∫ $C=\int {\tilde {q}}(x)dx>0$ ~ $C=\int {\tilde {q}}(x)dx>0$ ( $C=\int {\tilde {q}}(x)dx>0$ ) $C=\int {\tilde {q}}(x)dx>0$ $C=\int {\tilde {q}}(x)dx>0$ > $C=\int {\tilde {q}}(x)dx>0$ ${\displaystyle$ C =\ $int {\tilde {q}$ ( $x)$ dx $C=\int {\tilde {q}}(x)dx>0$ > $0}$ 은(는) 상관없는 알 수 없는 상수입니다.
둘째, $q(x)$ ( ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ $q(x)$ ) $q(x))$ 이웃 $q(x+dx)$ ( x $q(x+dx)$ + $q(x+dx)$ $q(x+dx)$ ) ${\displaystyle q(x$ + $q(x+dx)$ dx $)}$ 를 $q(x+dx)$ ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ ( ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ + ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ x ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ ) ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ = ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ - ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ ⟨ ∇ x ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ ⁡ ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ ${\frac {q(x)}{q(x+dx)}}=e^{-\langle \nabla _{x}\ln p,dx\rangle }$ ⟩ ${\displaystyle {\frac {q(x)}{q(x$ + dx $)}$ 로 비교합니다. $=e^{-\lang \nabla _{x}\lnp, dx\rangle}}$

점수 $s(x):=\nabla _{x}\ln q(x)$ 를 ( $s(x):=\nabla _{x}\ln q(x)$ ) : = ∇ $s(x):=\nabla _{x}\ln q(x)$ $s(x):=\nabla _{x}\ln q(x)$ ⁡ $s(x):=\nabla _{x}\ln q(x)$ ( $s(x):=\nabla _{x}\ln q(x)$ ) ${\displaystyle s(x)$ : $=\nabla _{x}\ln$ q $(x$ s $($ {\ $displaystyle$ s $(x)}$ 로 $s(x)$ 할 수 있는 작업을 고려하십시오.

밝혀진 바에 따르면, $s(x)$ ( $s(x)$ $s(x)$ 는 열역학을 사용하여 $q(x)$ $q(x)$ ( $q(x)$ $q(x)$ 로부터 표본을 추출할 수 있습니다 $s(x)$ .구체적으로, 퍼텐셜 에너지 $U(x)=-\ln q(x)$ U $U(x)=-\ln q(x)$ ( $U(x)=-\ln q(x)$ ) $U(x)=-\ln q(x)$ = $U(x)=-\ln q(x)$ - $U(x)=-\ln q(x)$ ⁡ $U(x)=-\ln q(x)$ ( x ) ${\displaystyle U(x$ ) = -\ $ln q(x)}$ 를 가지고 $U(x)=-\ln q(x)$ 퍼텐셜 우물에 많은 입자가 있다면, 열역학적 평형에서의 분포는 볼츠만 분포 $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ ( $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ ) $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ ∝ $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ - $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ ( $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ ) $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ / k $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ = $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ ( x $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ ) $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ / $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ $q_{U}(x)\propto e^{-U(x)/k_{B}T}=q(x)^{1/k_{B}T}$ ${\displaystyle q_{U}(x)\propto$ e $^{-U(x)/k_{B}T$ } = $q(x)^{1/k_$ ${B}T$ 온도 $k_{B}T=1$ $=$ $k_{B}T=1$ $k_{B$ 에서 $T=1$ 볼츠만 분포는 정확히 $q(x)$ $q(x)$ 입니다 $q(x)$

따라서 $q(x)$ ( $q(x)$ $q(x))$ 을 모형화하기 위해 $q(x)$ 임의의 편리한 분포(표준 가우스 분포 등)에서 입자를 샘플링한 후 랑주뱅 방정식에 따라 입자의 전진 운동을 모의 실험할 수 있습니다.

dx_{t}=\nabla _{x_{t}}q(x_{t})dt+dW_{t}

그리고 볼츠만 분포는 포커-플랑크 방정식에 의해 고유한 열역학적 평형입니다.따라서 x

x_{0}

x_{0}

의 분포에 상관없이 x

x_{t}

x_{t

의 분포는

t\to \infty

→ ∞

{\displaystyle t\to

\infty

}

로서 q

q

로 분포가 수렴됩니다

t\to \infty

점수 함수 학습하기

밀도 $q$ $q$ 이 주어지면 $q$ ⁡ $f_{\theta }\approx \nabla \ln q$ $f_{\theta }\대략 \nabla \ln q$ 의 점수 함수 $f_{\theta }\approx \nabla \ln q$ 를 학습하고자 합니다 $f_{\theta }\approx \nabla \ln q$ 이것은 점수 일치입니다.일반적으로, 스코어 매칭은 피셔 발산 $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ ‖ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ θ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ ( $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ ) - ∇ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ ⁡ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ ) ‖ $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ ] $E_{q}[\|f_{\theta }(x)-\nabla \ln q(x)\|^{2}]$ {\ $displaystyle E_{q}[\f_{\theta$ }(x $)$ -\ $nabla \ln$ q $(x))\^{2$ 적분을 확장하고 부분별 적분을 수행함으로써,

E_{q}[\f_{\theta}(x)-\nabla \ln q(x)\^{2}]=E_{q}[\f_{\theta}}\^{2}+2\nabla \cdot f_{\theta}]+C

확률적 경사 하강으로 최소화할 수 있는 손실 함수를 제공합니다.

점수 함수 어닐링

영상의 분포를 모델링해야 하고, x $x_{0}\sim N(0,I)$ ~ $x_{0}\sim N(0,I)$ ( $x_{0}\sim N(0,I)$ $x_{0}\sim N(0,I)$ ${\displaystyle x_{0}\sim N(0,I)},$ 백색 잡음 영상을 원한다고 가정합니다.이제, 대부분의 백색 잡음 이미지는 실제 이미지처럼 보이지 않으므로, x $x_{0}\sim N(0,I)$ ~ $x_{0}\sim N(0,I)$ N ( $x_{0}\sim N(0,I)$ $x_{0}\sim N(0,I)$ {\ $displaystyle x_{$ 0}\ $sim$ N ( $0,I)}$ 의 큰 스와트의 경우 $q(x_{0})\approx 0$ $q(x_{0})\approx 0$ 0 ) $q(x_{0})\approx 0$ ≈ $q(x_{0})\approx 0$ ${\displaystyle$ q $(x_{0})\approx 0}$ 입니다 $x_{0}\sim N(0,I)$ 이것은 특정 지점 주변에 샘플이 없으면 그 지점에서 점수 함수를 학습할 수 없기 때문에 점수 함수를 학습하는 데 문제가 있습니다.만약 우리가 $\nabla _{x_{t}}q(x_{t})$ 그 $\nabla _{x_{t}}q(x_{t})$ 의 $\nabla _{x_{t}}q(x_{t})$ $\nabla _{x_{t}}q(x_{t})$ ∇ $\nabla _{x_{t}}q(x_{t})$ $\nabla _{x_{t}}q(x_{t})$ q $($ x t ) {\ $displaystyle \nabla$ _ ${x_{t}}q($ x_ ${t$ })}를 모른다면, 우리는 입자에 시간-진화 방정식을 부과할 수 없습니다:

dx_{t}=\nabla _{x_{t}}q(x_{t})dt+dW_{t}

이 문제를 해결하기 위해 어닐링을 수행합니다.

q

{\displaystyle

q}이

(

가

q

) 백색 잡음 분포와 너무 다를 경우, 잡음이 하나와 구별될 수 없을 때까지 계속해서 추가합니다.즉, 순방향 확산을 수행한 다음 점수 함수를 학습한 다음 점수 함수를 사용하여 역방향 확산을 수행합니다.

연속확산과정

전방확산과정

순방향 확산 과정을 다시 생각해 보되, 이번에는 연속적인 시간 안에:

x_{t}={\sqrt {1-\beta_{t}}x_{t-1}+{\sqrt {\beta_{t}}z_{t}

β

\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}

→

\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}

(t

\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}

\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}

,

\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}

t

\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}

\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}

→ d

\beta _{t}\to \beta (t)dt,{\sqrt {dt}}z_{t}\to dW_{t}

{\displaystyle

\beta

_{t}\to \displaystyle

\beta (t

)dt

,

{\sqrt {dt

}z_

{t}\

to

dW_{t}

한계를 취함으로써 확률적 미분 방정식의 형태로 연속 확산 과정을 얻습니다.

dx_{t}=-{\frac {1}{2}}\beta(t)x_{t}dt+{\sqrt {\beta(t)}dW_{t

여기서

W_{t}

{\

는

W_{t}

위너 과정(다차원 브라운 운동)입니다.

자, 이 방정식은 정확히 과잉감쇠된 랑게뱅 방정식의 특별한 경우입니다.

dx_{t}=-{\frac {D}{k_{B}T}}(\nabla _{x}U)dt+{\sqrt {2D}}dW_{t

여기서

D

D

는

D

확산 텐서,

T

T

는

T

온도,

U

U

는 전위

U

에너지장입니다.

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

=

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

t

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

k

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

=

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

= 12 ‖

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

‖ 2

{\displaystyle

D={\

frac {1}{2}}\

beta

(t)I,k_{B}T

=

1,U

={\

frac {1}{2}}\ x\^{2}}

로 대입하면 위 식을 회복합니다

D={\frac {1}{2}}\beta (t)I,k_{B}T=1,U={\frac {1}{2}}\|x\|^{2}

이것은 "랑주빈 역학"이라는 문구가 확산 모델에서 때때로 사용되는 이유를 설명합니다.

이제 위의 식은 단일 입자의 확률 운동에 대한 것입니다.시간 $t=0$ = $t=0$ ${\displaystyle$ t= $0}$ 에서 $q$ $q$ 에 따라 입자 구름이 분포되어 있다고 가정하면 $t=0$ 오랜 시간이 지나면 입자 구름은 $N(0,I)$ ( $N(0,I)$ I $N(0,I)$ ${\displaystyle N(0,$ I $)}$ 의 안정적인 분포로 정착할 것입니다 $N(0,I)$ ρ t $\rho _{t}$ {\ $displaystyle$ \ $rho$ _{ $t}$ 를 시간 $t$ {\ $displaystyle t$ }에서 입자 구름의 밀도라고 하자. $}$ 그럼 우리는

\rho _{0}=q;\quad \rho _{T}\대략 N(0,I)

그리고 목표는 어떻게든 그 과정을 다시 보는 것입니다. 그래서 우리는 끝에서 시작해서 다시 처음으로 확산될 수 있습니다.

Fokker-Planck 방정식에 의해, 클라우드의 밀도는 다음과 같이 진화합니다.

\partial _{t}\ln \rho _{t}={\frac {1}{2}}\beta(t)\left(n+(x+\nabla \ln \rho _{t})\cdot \nabla \ln \rho _{t}+\Delta \ln \rho _{t}\right)

여기서

n

n

은 공간 차원이고 δ

\Delta

은(는) 라플라스 연산자입니다.

역확산과정

시간 $t\in [0,T]$ ∈ $t\in [0,T]$ [ $t\in [0,T]$ $t\in [0,T]$ ${\displaystyle t$ $\in$ [ $0,$ $T]}$ 에 대한 ρ t ${\displaystyle$ t $\in$ [0, $T]}$ 를 풀었다면 클라우드의 진화를 정확히 뒤집을 수 있습니다 $t\in [0,T]$ 밀도가 ν $\nu _{0}=\rho _{T}$ = ρ T ${\displaystyle \nu$ _ ${0$ }=\ $rho$ _ ${T}}$ 인 다른 입자 구름에서 시작하여 구름의 입자들이 다음과 같이 진화하게 한다고 가정합니다 $\nu _{0}=\rho _{T}$

dy_{t}={\frac {1}{2}}\beta(T-t)y_{t}dt+\beta(T-t)\언더브레이스 {\nabla _{y_{t}}\ln \rho _{T-t}\left(y_{t}\right)}_{\text{score function}}dt+{\sqrt{\t(T-t)}}dW_{t}

그런 다음 Fokker-Planck 방정식을 연결하면 ρ t ν

\partial _{t}\rho _{T-t}=\partial _{t}\nu _{t}

T - t

\partial _{t}\rho _{T-t}=\partial _{t}\nu _{t}

= ∂ t partial

\partial _{t}\rho _{T-t}=\partial _{t}\nu _{t}

t {\

displaystyle \

∂ _

t

}\

rho

_{

T-t

}=\

partial _{

t}\

nu _

{t

}}.

따라서 이 점 구름은 원래의 클라우드로, 거꾸로 진화하고 있습니다.^[10]

소음조건부 점수망(NCSN)

연속적인 한계에서,

{\bar {\alpha}}_{t}=(1-\beta _{1})\cdots(1-\beta _{t})=e^{\sum _{i}\ln(1-\beta _{i})}\toe^{-\int_{0}^{t}\beta(t)dt}

이러저러한

x_{t} x_{0}\sim N\left(e^{-{\frac {1}{2}}\int_{0}^{t}\beta(t)dt}x_{0},\left(1-e^{-\int_{0}^{t}\beta(t)dt}\right)I\right)

특히 x

x_{0}\sim q,z\sim N(0,I)

~

x_{0}\sim q,z\sim N(0,I)

z

x_{0}\sim q,z\sim N(0,I)

~

x_{0}\sim q,z\sim N(0,I)

x_{0}\sim q,z\sim N(0,I)

I

x_{0}\sim q,z\sim N(0,I)

{\displaystyle x_{0}\sim q,z\sim

N

(0,I)}

를 먼저 샘플링한 후

x_{0}\sim q,z\sim N(0,I)

x

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

= e -

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

∫

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

(

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

)

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

+

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

( 1 -

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

-

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

∫

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

( t

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

) d

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

)

x_{t}=e^{-{\frac {1}{2}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int _{0}^{t}\beta (t)dt}\right)z

{\displaystyle x_{t

}= e

^{-{\frac {1}{2

}

}}\int _{0}^{t}\beta (t)dt}x_{0}+\left(1-e^{-\int

_

{0}^{t}\beta (t)dt}\right)z

즉,

t\geq 0

의 t

≥

t\geq 0

{\

displaystyle x_{t}\sim \rho

_

{t}

에 대해 x

x_{t}\sim \rho _{t}

~

ρ

t

.

x_{t}\sim \rho _{t}

{\

displaystyle

t

\geq 0

이제 $[0,\infty )$ [ $[0,\infty )$ , $[0,\infty )$ ∞ $[0,\infty )$ ${\displaystyle$ \ $gamma$ $}$ 에 대한 특정 확률 분포 γ ${\displaystyle$ \ $gamma$ }를 정의한 $[0,\infty )$ 다음 점수 일치 손실 함수를 예상 피셔 발산으로 정의합니다.

L(\theta )=E_{t\sim \gamma,x_{t}\sim \rho _{t}}[\ f_{\theta }(x_{t},t)\^{2}+2\nabla \cdot f_{\theta}(x_{t},t)]

교육 후

f_{\theta }(x_{t},t)\approx \nabla \ln \rho _{t}

θ

f_{\theta }(x_{t},t)\approx \nabla \ln \rho _{t}

(

f_{\theta }(x_{t},t)\approx \nabla \ln \rho _{t}

f_{\theta }(x_{t},t)\approx \nabla \ln \rho _{t}

f_{\theta }(x_{t},t)\approx \nabla \ln \rho _{t}

⁡ ρ

f_{\theta }(x_{t},t)\approx \nabla \ln \rho _{t}

f_{\theta }(x_{t}, t)\approx \nabla \ln \rho _{t}

를 ≈ ∇하므로

f_{\theta }(x_{t},t)\approx \nabla \ln \rho _{t}

먼저

x_{T}\sim N(0,I)

x_{T}\sim N(0,I)

~

x_{T}\sim N(0,I)

(

x_{T}\sim N(0,I)

x_{T}\sim N(0,I)

{\displaystyle x_{

T}\sim N(0,I)}

다음 SDE를

x_{T}\sim N(0,I)

t=T

=

T

{\displaystyle t

=

T}

에서

t=0

=

t=0

{\displaystyle

t

=

0}

으로 통합합니다

t=0

x_{t-dt}=x_{t}+{\frac {1}{2}}\beta(t)x_{t}dt+\beta(t)f_{\theta}(x_{t},t)dt+{\sqrt{\beta(t)}dW_{t}

이것은 오일러-마루야마 방법과 같은 모든 SDE 적분 방법에 의해 수행될 수 있습니다.

"소음 조건부 점수 네트워크"라는 이름은 다음과 같이 설명됩니다.

" $",$ f θ {\ $displaystyle f_$ {\theta $}}$ 는 신경망으로 구현되기 때문입니다.
"score", 네트워크의 $출력$ 이 {\displaystyle \ $n \rho$ $\nabla \ln \rho _{t}$ { $t}}$ ∇의 점수 함수 ⁡ ρ에 근접한 것으로 해석되기 때문입니다 $\nabla \ln \rho _{t}$
" $\rho _{t}$ 조건": $\rho _{t}$ ρ는 $\rho _{0}$ $\rho _{0}$ 시간에 따라 증가하는 가우스 노이즈에 의해 흐리게 되므로 추가 노이즈의 양에 따라 점수 함수가 달라집니다.

그들의 동등성

DDPM과 점수 기반 생성 모델은 동등합니다.^[11]이는 DDPM을 사용하여 훈련된 네트워크를 NCSN으로 사용할 수 있음을 의미하며, 그 반대의 경우도 마찬가지입니다.

$x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ ~ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ N $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ ¯ t $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ - $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ ¯ $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ ) $x_{t}|x_{0}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}x_{0},(1-{\bar {\alpha }}_{t})I\right)$ ${\displaystyle x_{t} x_{0}\sim N\left({\sqrt {\bar {\alpha}}_{t}}x_{0},(1-{\bar {\alpha}}_{t})$ $I\right)}$ 그래서 트위디의 공식에 의하면

\nabla _{x_{t}}\ln q(x_{t})={\frac {1}{1-{\bar {\alpha}}_{t}}(-x_{t}+{\sqrt {\alpha}}E_{q}[x_{0}x_{t}})

앞서 설명한 바와 같이, DDPM 손실 함수는 ∑

\sum _{t}L_{simple,t}

\sum _{t}L_{simple,t}

\sum _{t}L_{simple,t}

의

L_{simple,t}=E_{x_{0}\sim q;z\sim N(0,I)}\left[\left\ \epsilon _{\theta}(x_{t},t)-z\right\^{2}\right]

여기서

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z

=

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z

¯ t

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z

+

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z

-

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z

¯

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z

x_{t}={\sqrt {{\bar {\alpha }}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha }}_{t}}}z

{\displaystyle x_{t

}={\

sqrt {\bar {\alpha}}_{t}}}x_{0}+{\sqrt {1-{\bar {\alpha}}_{t}z

변수의 변화에 의해,

L_{simple,t}=E_{x_{0},x_{t}\sim q}\left[\left\\\epsilon _{\theta}(x_{t},t)-{\frac {x_{t}-{\sqrt {\alpha}}}x_{0}}{\sqrt {1-{\bar {\alpha}}_{t}}}\right\^{2}\right]=E_{x_{t}\sim q,x_{0}\sim q(\cdot x_{t})}\left[\left\\\epsilon _{\theta}(x_{t},t)-{\frac {x_{t}-{\sqrt{x_{t}}}{x_{0}}{\sqrt {1-{\bar {\alpha}}_{t}}}\right\^{2}\right]

그리고 내부의 항이 최소 제곱 회귀가 되므로, 네트워크가 실제로 손실의 전역 최소치에 도달하면 ϵ θ

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

t )

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

= x

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

-

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

α ¯ t

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

[

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

]

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

- α ¯

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

= -

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

-

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

¯

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

∇

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

t

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

⁡

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

(

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

\epsilon _{\theta }(x_{t},t)={\frac {x_{t}-{\sqrt {{\bar {\alpha }}_{t}}}E_{q}[x_{0}|x_{t}]}{\sqrt {1-{\bar {\alpha }}_{t}}}}=-{\sqrt {1-{\bar {\alpha }}_{t}}}\nabla _{x_{t}}\ln q(x_{t})

)

{\displaystyle \epsilon _{\theta }(x_{t},

t) = {\

frac {x_{t}-{\sqrt {\alpha }}_{{t}}E_{q}[x_0}x_{t}}{\sqrt {1-{\

bar

{\alf

}}

파 }}_{t

}}}

=

-{\

sqrt {1-{\bar {\alpha}}_{t}}\nabla _{x_{t}}\ln q

이제, 역방향 방정식의 연속한계 $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ - $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ = x $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ - $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ = x $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ - d t $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ ( $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ ) d $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ t = $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ $x_{t-1}=x_{t-dt},\beta _{t}=\beta (t)dt,z_{t}{\sqrt {dt}}=dW_{t}$ ${\displaystyle x_{t-1$ }= $x_{t-dt},\$ beta _ ${t$ }=\beta $(t)dt,z_{t}{\sqrt {dt$ }}= $dW_{t}$

x_{t-1}={\frac {x_{t}}{\sqrt {\alpha _{t}}}-{\frac {\beta _{t}}{\sqrt {\alpha _{t}}}}\epsilon _{\theta}(x_{t},t)+{\sqrt {\beta_{t}z_{t};\quad z_{t}\sim N(0,I)

점수 기반 확산과 정확히 동일한 방정식을 제공합니다.

x_{t-dt}=x_{t}(1+\beta(t)dt/2)+\beta(t)\nabla _{x_{t}}\ln q(x_{t})dt+{\sqrt {\beta(t)}dW_{t

주요 변형

잡음 제거 확산 암시적 모델(DDPM)

이미지를 생성하는 원래의 DDPM 방법은 느린데, 정방향 확산 프로세스는 $T\sim 1000$ 으로 T $T\sim 1000$ $T\sim 1000$ ${\displaystyle T\sim$ 1000 $}$ 을(를) 사용하여 $T\sim 1000$ $x_{T}$ $x_{T}$ ${\$ x_ ${$ 의 분포를 만듭니다. $T}}:$ 가우스에 가깝게 나타납니다 $x_{T}$ .그러나 이는 후방 확산 과정도 1000단계를 밟는다는 것을 의미합니다. $x_{t}|x_{0}$ $x_{t}|x_{0}$ $x_{t}|x_{0}$ $x_{t}|x_{0}$ $x_{t} x_{0$ 이(가) 모든 $t\geq 1$ ≥ $t\geq 1$ 1 {\ $displaystyle t\geq 1}$ 에 대해 가우스이므로 단계를 건너뛸 수 있는 정방향 확산 프로세스와 달리 역방향 확산 프로세스에서는 단계를 건너뛸 수 없습니다 $t\geq 1$ 예를 들어 $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ t - $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ - $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ ~ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ θ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ ( $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ - $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ - $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ ), $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ σ θ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ ( $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ t $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ - $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ - 1 $x_{t-2}|x_{t-1}\sim N(\mu _{\theta }(x_{t-1},t-1),\Sigma _{\theta }(x_{t-1},t-1))$ ) $x_{t-1}\sim N(\mu _{\theta}(x_{t-1}, t-1),\Sigma _{\theta}(x_{t-1}, t-1)$ 을(를) 샘플링하려면 모델이 첫 번째 샘플 $x_{t-1}$ $x_{t-1}$ - $x_{t-1}$ $x_{t-1$ 을(를) 샘플링해야 합니다 $x_{t-1}$ x $x_{t-2}|x_{t}$ - $x_{t-2}|x_{t}$ $x_{t-2}|x_{t}$ t $x_{t-2} x_{t}$ 을(를) 직접 샘플링하려면 모델이 필요합니다.일반적으로 다루기 힘든 $x_{t-1}$ x $x_{t-1}$ - $x_{t-1}$ ${\$ 을(를) 주변화합니다.

DDIM은^[12] DDPM 손실에 대해 훈련된 모든 모델을 사용하여 일부 단계를 건너뛰고 샘플링하는 방법으로, 조정 가능한 양의 품질을 희생합니다.원래의 DDPM은 DDIM의 특별한 경우입니다.

잠재확산모델(Latent diffusion model, LDM)

확산 모델은 확률 분포를 모델링하는 일반적인 방법이기 때문에, 영상에 대한 분포를 모델링하려는 경우, 먼저 인코더에 의해 영상을 저차원 공간으로 인코딩한 후, 확산 모델을 사용하여 인코딩된 영상에 대한 분포를 모델링할 수 있습니다.그런 다음 이미지를 생성하기 위해 확산 모델에서 샘플링한 다음 디코더를 사용하여 이미지로 디코딩할 수 있습니다.^[13]

인코더-디코더 쌍은 VAE(variational autoencoder)인 경우가 많습니다.

분류기안내

전체 이미지 분포에서 표본을 추출하는 것이 아니라 이미지 설명에 따라 조건부 표본을 추출하고자 한다고 가정합니다.우리는 일반적인 이미지를 샘플링하는 것이 아니라 "붉은 눈을 가진 검은 고양이"라는 설명에 맞는 이미지를 샘플링하고 싶습니다.일반적으로 분포 $p(x|y)$ $p(xy)$ 에서 표본을 추출하고 싶습니다 $p(x|y)$ $x$ 서 x{\ $displaystyle x$ } 범위는 $x$ 이미지 클래스에 $걸쳐$ y $y$ 범위입니다 $y$ ("붉은 눈을 가진 검은 고양이"라는 설명은 매우 상세한 클래스일 뿐이며 "cat" 클래스는 매우 모호한 설명에 불과합니다).

잡음 채널 모델의 관점에서 우리는 다음과 같이 과정을 이해할 수 있습니다. $y$ $y$ 에 따라 $x$ 이미지 $x$ $x$ 을(를) 생성하기 $y$ 위해 요청자가 실제로 $이미지$ x{\ $displaystyle x}$ 을 $y$ 를) 염두에 두었다고 가정하지만 이미지는 잡음이 많은 채널을 $y$ 하여 $y$ {\displaystyle $y}$ 과(와) 다르게 표시됩니다.이미지 생성은 요청자가 $x$ 어떤 $x$ $x$ 을(를) 염두에 두었는지 추론하는 것에 불과합니다.

즉, 조건부 이미지 생성은 단순히 "텍스트 언어에서 그림 언어로 변환"하는 것입니다.그러면 잡음 채널 모델에서와 같이 베이즈 정리를 사용하여 다음을 구합니다.

p(xy)\proptop(yx)p(x)

다시 말해서, 우리가 모든 이미지의 공간에 대한 좋은 모델과 좋은 이미지-클래스 번역기를 가지고 있다면, 우리는 "무료"로 클래스-투-이미지 번역기를 얻을 수 있습니다.역확산 방정식에서 ⁡

\nabla \ln p(x)

\nln p(x)

의 점수 ∇은 다음과 같이 대체할 수 있습니다.

\nabla _{x}\ln p(xy)=\nabla _{x}\ln p(y x)+\nabla _{x}\ln p(x)

여기서 ∇

\nabla _{x}\ln p(x)

\nabla _{x}\ln p(x)

⁡

\nabla _{x}\ln p(x)

(

\nabla _{x}\ln p(x)

x

\nabla _{x}\ln p(x)

)

\nabla _{x}\ln p(x))

는 앞서 설명한 대로 훈련된 점수 함수이며, ∇

\nabla _{x}\ln p(y|x)

\nabla _{x}\ln p(y|x)

⁡ p (

\nabla _{x}\ln p(y|x)

\nabla _{x}\ln p(y|x)

)

{\displaystyle \nabla _{x}\ln p(y

)}

는 미분 가능한 이미지 분류기를 사용하여 찾습니다.

온도와 함께

분류기 유도 확산 모델은 $p(x|y)$ 사후 추정 $\arg \max _{x}p(x|y)$ ⁡ $\arg \max _{x}p(x|y)$ $\arg \max _{x}p(x|y)$ p $\arg \max _{x}p(x|y)$ ( $p(x|y)$ x $\arg \max _{x}p(x|y)$ ) ${\displaystyle$ p ( x $y )}$ ${\displaystyle$ p ( x y $)}$ 에서 샘플을 추출합니다 $\arg \max _{x}p(x|y)$ 만약 모델이 최대 우도 추정 $\arg \max _{x}p(y|x)$ $\arg \max _{x}p(x|y)$ ⁡ $\arg \max _{x}p(y|x)$ x $\arg \max _{x}p(y|x)$ ( $\arg \max _{x}p(y|x)$ $\arg \max _{x}p(y|x)$ ) ${\displaystyle$ arg $\max _{x}p$ ( y x $)}$ 로 이동하도록 강요하고 싶다면 $\arg \max _{x}p(y|x)$ 사용할수 있습니다

p_{\beta }(xy)\proptop(y x)^{\beta }p(x)

여기서

\beta >0

> 0

{\displaystyle \

beta

>0}

은 역온도로 해석할 수 있습니다.확산 모델의 맥락에서, 그것은 보통 안내 척도라고 불립니다.

\beta

{\displaystyle

\

beta

\arg \max _{x}p(y|x)

가 높으면

\beta

\arg \max _{x}p(y|x)

⁡

\arg \max _{x}p(y|x)

x

\arg \max _{x}p(y|x)

(

\arg \max _{x}p(y|x)

)

{\displaystyle

\arg

\max

_{

x}p(y x)}

주위에 집중된 분포에서 표본을 추출해야 합니다.이렇게 하면 생성된 이미지의 품질이 향상되는 경우가 많습니다.^[14]

이것은 SGLD로 간단히 할 수 있습니다.

\nabla _{x}\ln p_{\beta }(xy)=\beta \nabla _{x}\ln p(y x)+\nabla _{x}\ln p(x)

무분류 안내(CFG)

분류기 $p(y|x)$ $)$ {\ $displaystyle p($ y x $)}$ 가 없는 경우에도 이미지 모델 자체에서 하나를 추출할 수 있습니다 $p(y|x)$ ^[15]

\nabla _{x}\ln p_{\beta }(xy)=(1-\beta)\nabla _{x}\ln p(x)+\beta \nabla _{x}\ln p(xy)

이러한 모델은 일반적으로

(x,y)

y

(x,y)

(x,y)

및

(x,None)

{\

displaystyle

(

\nabla _{x}\ln p(x|y)

,None)}

과

(x,None)

함께 제공하여

\nabla _{x}\ln p(x|y)

되며

,

이

를 통해

\nabla _{x}\ln p(x|y)

⁡

\nabla _{x}\ln p(x|y)

\nabla _{x}\ln p(x|y)

⁡ p(xy

)

{\

\nabla _{x}\ln p(x)

\nabla _{x

}\

\nabla _{x}\ln p(x)

p(

\nabla _{x}\ln p(x)

)}

및 ∇ x ln ∇ p(x)

{\displaystyle

\

nabla _{x}\ln p(x)}

를 모두 모델링할 수 있습니다

\nabla _{x}\ln p(x)

샘플러

확산 모델이 주어지면 연속적인 프로세스로 간주하고 SDE를 통합하여 샘플을 생성하거나 이산 프로세스로 간주하고 이산 단계를 반복하여 샘플을 생성할 수 있습니다. ${\$ _ ${t$ }}에서 "노이즈 $스케줄"$ 를 선택하는 것도 샘플의 품질에 $\beta _{t}$ 영향을 줄 수 있습니다.DDPM의 관점에서는 DDPM 자체를 사용할 수도 있고(소음이 있는), 또는 DDPM을 사용할 수도 있습니다(소음의 양을 조절할 수 있는).소음을 더하는 경우를 조상 표본 추출이라고 부르기도 합니다.^[16]소음과 소음 사이를 보간할 수 있습니다.노이즈의 양은 DDPM 용지에서 η ${\displaystyle \eta}("$ eta 값")으로 표시되며, $\eta =0$ 가 없음을 나타내는 η = 0 ${\displaystyle \eta$ = $0},$ 전체 노이즈를 나타내는 η = $\eta =1$ ${\displaystyle \eta$ = $1}($ DDPM)로 표시됩니다.

SDE의 관점에서 오일러-마루야마 방법, 헌 방법, 선형 다단계 방법 등과 같은 수치 적분 방법을 사용할 수 있습니다.이산형의 경우와 마찬가지로 통합 중에 조절 가능한 양의 노이즈를 추가할 수 있습니다.

이미지 생성의 맥락에서 샘플러에 대한 조사 및 비교가 있습니다.^[17]

건축물의 선택

확산모델

DDPM에서 이미지를 생성하기 위해서는 시간 $t$ $t$ 와 잡음 이미지 $x_{t}$ $x_{t}$ $x_{t}$ 를 소요하고 $x_{t}$ 이로부터 잡음 ϵ θ $\epsilon _{\theta }(x_{t},t)$ $\epsilon _{\theta }(x_{t},t)$ t $\epsilon _{\theta }(x_{t},t)$ ${\displaystyle _{\theta }(x_{t},$ t $)$ 를 예측하는 신경망이 필요합니다.노이즈를 예측하는 것은 노이즈가 제거된 이미지를 예측하는 것과 동일하기 때문에 $x_{t}$ t {\ $displaystyle x_{$ t}}에서 노이즈를 뺀 구조가 잘 작동하는 경향이 있습니다 $x_{t}$ 예를 들어 가장 일반적인 아키텍처는 이미지 노이즈 제거에도 능한 U-Net입니다.^[18]

이미지가 아닌 데이터의 경우 다른 아키텍처를 사용할 수 있습니다.예를 들어, DDPM으로 사람의 운동 궤적을 모델링합니다.각 인간의 동작 궤적은 관절 회전 또는 위치로 표현되는 일련의 포즈입니다.이것은 트랜스포머 네트워크를 사용하여 소음이 적은 궤적을 생성합니다.

컨디셔닝

기본 확산 모델은 전체 분포에서만 무조건 생성할 수 있습니다.예를 들어, ImageNet에서 학습된 확산 모델은 ImageNet에서 임의의 이미지처럼 보이는 이미지를 생성할 것입니다.단 하나의 카테고리에서 이미지를 생성하려면 조건을 적용해야 합니다.어떤 조건을 부과하고 싶은지 간에, 먼저 조건을 부동 소수점 벡터로 변환한 다음 기본 확산 모델 신경망에 입력해야 합니다.그러나 조건을 벡터로 변환하는 방법을 선택할 수 있는 자유가 있습니다.

예를 들어 안정 확산(Stable Diffusion)은 교차 주의 메커니즘(cross-attention mechanism)의 형태로 컨디셔닝을 부과합니다. 여기서 쿼리는 U-Net에서 이미지의 중간 표현이며 키와 값 모두 컨디셔닝 벡터입니다.^[20]컨디셔닝은 영상의 일부에만 선택적으로 적용할 수 있으며, ControlNet에서 사용하는 것처럼 기본 모델에서 새로운 종류의 컨디셔닝을 미세 조정할 수 있습니다.^[21]

특히 단순한 예로 이미지 인페인팅을 생각해 볼 수 있습니다.조건은 참조 이미지인 ${\tilde {x}}$ ~ ${\$ 인페인팅 마스크인 $m$ m $m$ 입니다.역방향 확산 과정의 각 단계에서 먼저 ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ ~ t ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ ( ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ ¯ ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ ~ , ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ ( ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ - ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ α ¯ t ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ ) I ${\tilde {x}}_{t}\sim N\left({\sqrt {{\bar {\alpha }}_{t}}}{\tilde {x}},(1-{\bar {\alpha }}_{t})I\right)$ ) ${\displaystyle {\tilde {x}}_{t}\sim N\left ({\sqrt {\bar {\alpha}}_{t}{\tilde {x}},$ ( $1-{\bar {\alpha$ }} $_{t})$ $I\right)},$ ${\tilde {x}}$ ~ ${\tilde {x}$ 의 노이즈 버전인 다음 ${\tilde {x}}$ $x_{t}$ t $x_{t$ 를 ( $(1-m)\odot x_{t}+m\odot {\tilde {x}}_{t}$ - $(1-m)\odot x_{t}+m\odot {\tilde {x}}_{t}$ $⊙$ x $(1-m)\odot x_{t}+m\odot {\tilde {x}}_{t}$ + m $⊙$ $(1-m)\odot x_{t}+m\odot {\tilde {x}}_{t}$ ~ $(1-m)\odot x_{t}+m\odot {\tilde {x}}_{t}$ ${\displaystyle (1$ - m $)\odot x_{t}$ + $m\odot {\tilde {x}_{t}$ 로 대체합니다 $(1-m)\odot x_{t}+m\odot {\tilde {x}}_{t}$ 여기서 $⊙$ $\odot$ 은 요소별 곱셈을 의미합니다.

컨디셔닝은 특정 카테고리에서 이미지를 생성하거나 텍스트 대 이미지에서와 같이 특정 캡션에 따라 생성하는 것에 국한되지 않습니다.예를 들어, 사람이 걷는 것의 오디오 클립(사운드 트랙에 동기화하는 것을 허용하는 것) 또는 사람이 달리는 것의 비디오 또는 사람의 움직임에 대한 텍스트 설명에 따라 사람의 움직임을 생성하는 것이 입증되었습니다.

업스케일링

이미지를 생성하는 데 시간이 오래 걸리기 때문에 기본 확산 모델로 작은 이미지를 생성한 후 다른 모델로 확장할 수 있습니다.업스케일링은 GAN^[23], Transformer^[24] 또는 Lanczos 리샘플링과 같은 신호 처리 방법에 의해 수행될 수 있습니다.

확산 모델 자체는 업스케일링을 수행하는 데 사용될 수 있습니다.캐스캐이딩 확산 모델은 프로그레시브 GAN 스타일로 여러 확산 모델을 차례로 스택합니다.가장 낮은 레벨은 32x32 이미지를 생성하는 표준 확산 모델입니다. 그런 다음 업스케일링을 위해 특별히 훈련된 확산 모델에 의해 이미지가 업스케일링되고 이 과정이 반복됩니다.^[18]

예

이 절에서는 몇 가지 주목할 만한 확산 모델을 수집하고, 해당 모델의 아키텍처에 대해 간략하게 설명합니다.

오픈AI

DALL-E 시리즈 바이 오픈AI는 이미지의 텍스트 조건부 확산 모델입니다.

DALL-E의 첫 번째 버전(2021)은 실제로 확산 모델이 아닙니다.대신 토큰 시퀀스를 생성하는 트랜스포머 아키텍처를 사용하며, 이산 VAE의 디코더에 의해 이미지로 변환됩니다.DALL-E와 함께 공개된 CLIP 분류기는 DALL-E가 이미지가 텍스트에 얼마나 가까운지에 따라 생성된 이미지의 순위를 매기는 데 사용되었습니다.

GLIDE(2022-03)^[25]는 35억 확산 모델로 소형 버전이 공개되었습니다^[26].곧이어 DALL-E 2가 출시되었습니다.^[27]DALL-E 2는 35억 개의 계단식 확산 모델로, 이들이 "unCLIP"이라고 명명한 기술인 "CLIP 이미지 인코더를 반전"함으로써 텍스트로부터 이미지를 생성합니다.

안정성AI

Stability AI가 발표한 Stable Diffusion(2022-08)은 잠재 확산 모델(8억 6천만 개의 파라미터), VAE 및 텍스트 인코더로 구성됩니다.확산 모델은 조건부 이미지 생성을 허용하기 위해 교차 주의 블록이 있는 U-Net입니다.^[28]^[13]

다른이들

Google Imagen과^[29] Imagen Video는^[30] 이미지와 동영상을 생성하기 위한 계단식 확산 모델입니다.^[31]텍스트 조건 생성을 위해 텍스트를 인코딩하기 위해 트랜스포머 기반 언어 모델인 T5-XXL을 사용합니다.

메타 AI에^[32] 의한 Make-a-video는 텍스트로부터 비디오를 생성합니다.

DreamFusion은^[33]^[34] 텍스트로부터 3D 모델을 생성합니다.

참고 항목

추가열람

지침: 확산 모델을 위한 치트 코드.분류기 안내 및 분류기 없는 안내 개요, 수학적 세부 사항 조명
기사에서 누락된 수학적인 세부사항
- "Power of Diffusion Models". AstraBlog. 2022-09-25. Retrieved 2023-09-25.
- Weng, Lilian (2021-07-11). "What are Diffusion Models?". lilianweng.github.io. Retrieved 2023-09-25.

참고문헌

^ Chang, Ziyi; Koulieris, George Alex; Shum, Hubert P. H. (2023). "On the Design Fundamentals of Diffusion Models: A Survey". arXiv:2306.04542 [cs.LG].
^ Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak (2023). "Diffusion Models in Vision: A Survey". IEEE Transactions on Pattern Analysis and Machine Intelligence. 45 (9): 10850–10869. arXiv:2209.04747. doi:10.1109/TPAMI.2023.3261988. PMID 37030794. S2CID 252199918.
^ ^a ^b Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben (2021-02-10). "Score-Based Generative Modeling through Stochastic Differential Equations". arXiv:2011.13456 [cs.LG].
^ Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining (2021). "Vector Quantized Diffusion Model for Text-to-Image Synthesis". arXiv:2111.14822 [cs.CV].
^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (2015-06-01). "Deep Unsupervised Learning using Nonequilibrium Thermodynamics" (PDF). Proceedings of the 32nd International Conference on Machine Learning. PMLR. 37: 2256–2265.
^ Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (2020). "Denoising Diffusion Probabilistic Models". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 6840–6851.
^ Weng, Lilian (2021-07-11). "What are Diffusion Models?". lilianweng.github.io. Retrieved 2023-09-24.
^ "Generative Modeling by Estimating Gradients of the Data Distribution Yang Song". yang-song.net. Retrieved 2023-09-24.
^ "Sliced Score Matching: A Scalable Approach to Density and Score Estimation Yang Song". yang-song.net. Retrieved 2023-09-24.
^ Anderson, Brian D.O. (May 1982). "Reverse-time diffusion equation models". Stochastic Processes and Their Applications. 12 (3): 313–326. doi:10.1016/0304-4149(82)90051-5. ISSN 0304-4149.
^ Luo, Calvin (2022). "Understanding Diffusion Models: A Unified Perspective". arXiv:2208.11970. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ Song, Jiaming; Meng, Chenlin; Ermon, Stefano (2020). "Denoising Diffusion Implicit Models". arXiv:2010.02502. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ ^a ^b Rombach, Robin; Blattmann, Andreas; Lorenz, Dominik; Esser, Patrick; Ommer, Björn (2022). "High-Resolution Image Synthesis With Latent Diffusion Models": 10684–10695. arXiv:2112.10752. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ Dhariwal, Prafulla; Nichol, Alex (2021-06-01). "Diffusion Models Beat GANs on Image Synthesis". arXiv:2105.05233 [cs.LG].
^ Ho, Jonathan; Salimans, Tim (2022-07-25). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG].
^ Yang, Ling; Zhang, Zhilong; Song, Yang; Hong, Shenda; Xu, Runsheng; Zhao, Yue; Zhang, Wentao; Cui, Bin; Yang, Ming-Hsuan (2022). "Diffusion Models: A Comprehensive Survey of Methods and Applications". arXiv:2209.00796. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ Karras, Tero; Aittala, Miika; Aila, Timo; Laine, Samuli (2022). "Elucidating the Design Space of Diffusion-Based Generative Models". arXiv:2206.00364. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ ^a ^b Ho, Jonathan; Saharia, Chitwan; Chan, William; Fleet, David J.; Norouzi, Mohammad; Salimans, Tim (2022-01-01). "Cascaded diffusion models for high fidelity image generation". The Journal of Machine Learning Research. 23 (1): 47:2249–47:2281. arXiv:2106.15282. ISSN 1532-4435.
^ ^a ^b Tevet, Guy; Raab, Sigal; Gordon, Brian; Shafir, Yonatan; Cohen-Or, Daniel; Bermano, Amit H. (2022). "Human Motion Diffusion Model". arXiv:2209.14916. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ Zhang, Lvmin; Rao, Anyi; Agrawala, Maneesh (2023). "Adding Conditional Control to Text-to-Image Diffusion Models". arXiv:2302.05543. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ Zhang, Lvmin; Rao, Anyi; Agrawala, Maneesh (2023). "Adding Conditional Control to Text-to-Image Diffusion Models". arXiv:2302.05543. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ Lugmayr, Andreas; Danelljan, Martin; Romero, Andres; Yu, Fisher; Timofte, Radu; Van Gool, Luc (2022). "RePaint: Inpainting Using Denoising Diffusion Probabilistic Models": 11461–11471. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ Wang, Xintao; Xie, Liangbin; Dong, Chao; Shan, Ying (2021). "Real-ESRGAN: Training Real-World Blind Super-Resolution With Pure Synthetic Data": 1905–1914. arXiv:2107.10833. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ Liang, Jingyun; Cao, Jiezhang; Sun, Guolei; Zhang, Kai; Van Gool, Luc; Timofte, Radu (2021). "SwinIR: Image Restoration Using Swin Transformer": 1833–1844. arXiv:2108.10257. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark (2022-03-08). "GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models". arXiv:2112.10741 [cs.CV].
^ GLIDE, OpenAI, 2023-09-22, retrieved 2023-09-24
^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022-04-12). "Hierarchical Text-Conditional Image Generation with CLIP Latents". arXiv:2204.06125 [cs.CV].
^ Alammar, Jay. "The Illustrated Stable Diffusion". jalammar.github.io. Retrieved 2022-10-31.
^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim; Ho, Jonathan; Fleet, David J.; Norouzi, Mohammad (2022-05-23). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs.CV].
^ Ho, Jonathan; Chan, William; Saharia, Chitwan; Whang, Jay; Gao, Ruiqi; Gritsenko, Alexey; Kingma, Diederik P.; Poole, Ben; Norouzi, Mohammad; Fleet, David J.; Salimans, Tim (2022). "Imagen Video: High Definition Video Generation with Diffusion Models". arXiv:2210.02303. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ "Imagen: Text-to-Image Diffusion Models". imagen.research.google. Retrieved 2023-09-24.
^ Singer, Uriel; Polyak, Adam; Hayes, Thomas; Yin, Xi; An, Jie; Zhang, Songyang; Hu, Qiyuan; Yang, Harry; Ashual, Oron; Gafni, Oran; Parikh, Devi; Gupta, Sonal; Taigman, Yaniv (2022). "Make-A-Video: Text-to-Video Generation without Text-Video Data". arXiv:2209.14792. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ Poole, Ben; Jain, Ajay; Barron, Jonathan T.; Mildenhall, Ben (2022). "DreamFusion: Text-to-3D using 2D Diffusion". arXiv:2209.14988. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
^ Poole, Ben; Jain, Ajay; Barron, Jonathan T.; Mildenhall, Ben (2022), DreamFusion: Text-to-3D using 2D Diffusion, arXiv:2209.14988, retrieved 2023-09-24

[chang23design-1] Chang, Ziyi; Koulieris, George Alex; Shum, Hubert P. H. (2023). "On the Design Fundamentals of Diffusion Models: A Survey". arXiv:2306.04542 [cs.LG].

[2] Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak (2023). "Diffusion Models in Vision: A Survey". IEEE Transactions on Pattern Analysis and Machine Intelligence. 45 (9): 10850–10869. arXiv:2209.04747. doi:10.1109/TPAMI.2023.3261988. PMID 37030794. S2CID 252199918.

[:1-3] Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben (2021-02-10). "Score-Based Generative Modeling through Stochastic Differential Equations". arXiv:2011.13456 [cs.LG].

[4] Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining (2021). "Vector Quantized Diffusion Model for Text-to-Image Synthesis". arXiv:2111.14822 [cs.CV].

[5] Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (2015-06-01). "Deep Unsupervised Learning using Nonequilibrium Thermodynamics" (PDF). Proceedings of the 32nd International Conference on Machine Learning. PMLR. 37: 2256–2265.

[6] Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (2020). "Denoising Diffusion Probabilistic Models". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 6840–6851.

[7] Weng, Lilian (2021-07-11). "What are Diffusion Models?". lilianweng.github.io. Retrieved 2023-09-24.

[8] "Generative Modeling by Estimating Gradients of the Data Distribution Yang Song". yang-song.net. Retrieved 2023-09-24.

[9] "Sliced Score Matching: A Scalable Approach to Density and Score Estimation Yang Song". yang-song.net. Retrieved 2023-09-24.

[10] Anderson, Brian D.O. (May 1982). "Reverse-time diffusion equation models". Stochastic Processes and Their Applications. 12 (3): 313–326. doi:10.1016/0304-4149(82)90051-5. ISSN 0304-4149.

[11] Luo, Calvin (2022). "Understanding Diffusion Models: A Unified Perspective". arXiv:2208.11970. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[12] Song, Jiaming; Meng, Chenlin; Ermon, Stefano (2020). "Denoising Diffusion Implicit Models". arXiv:2010.02502. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[:2-13] Rombach, Robin; Blattmann, Andreas; Lorenz, Dominik; Esser, Patrick; Ommer, Björn (2022). "High-Resolution Image Synthesis With Latent Diffusion Models": 10684–10695. arXiv:2112.10752. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[14] Dhariwal, Prafulla; Nichol, Alex (2021-06-01). "Diffusion Models Beat GANs on Image Synthesis". arXiv:2105.05233 [cs.LG].

[15] Ho, Jonathan; Salimans, Tim (2022-07-25). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG].

[16] Yang, Ling; Zhang, Zhilong; Song, Yang; Hong, Shenda; Xu, Runsheng; Zhao, Yue; Zhang, Wentao; Cui, Bin; Yang, Ming-Hsuan (2022). "Diffusion Models: A Comprehensive Survey of Methods and Applications". arXiv:2209.00796. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[17] Karras, Tero; Aittala, Miika; Aila, Timo; Laine, Samuli (2022). "Elucidating the Design Space of Diffusion-Based Generative Models". arXiv:2206.00364. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[:3-18] Ho, Jonathan; Saharia, Chitwan; Chan, William; Fleet, David J.; Norouzi, Mohammad; Salimans, Tim (2022-01-01). "Cascaded diffusion models for high fidelity image generation". The Journal of Machine Learning Research. 23 (1): 47:2249–47:2281. arXiv:2106.15282. ISSN 1532-4435.

[:4-19] Tevet, Guy; Raab, Sigal; Gordon, Brian; Shafir, Yonatan; Cohen-Or, Daniel; Bermano, Amit H. (2022). "Human Motion Diffusion Model". arXiv:2209.14916. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[20] Zhang, Lvmin; Rao, Anyi; Agrawala, Maneesh (2023). "Adding Conditional Control to Text-to-Image Diffusion Models". arXiv:2302.05543. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[21] Zhang, Lvmin; Rao, Anyi; Agrawala, Maneesh (2023). "Adding Conditional Control to Text-to-Image Diffusion Models". arXiv:2302.05543. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[22] Lugmayr, Andreas; Danelljan, Martin; Romero, Andres; Yu, Fisher; Timofte, Radu; Van Gool, Luc (2022). "RePaint: Inpainting Using Denoising Diffusion Probabilistic Models": 11461–11471. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[23] Wang, Xintao; Xie, Liangbin; Dong, Chao; Shan, Ying (2021). "Real-ESRGAN: Training Real-World Blind Super-Resolution With Pure Synthetic Data": 1905–1914. arXiv:2107.10833. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[24] Liang, Jingyun; Cao, Jiezhang; Sun, Guolei; Zhang, Kai; Van Gool, Luc; Timofte, Radu (2021). "SwinIR: Image Restoration Using Swin Transformer": 1833–1844. arXiv:2108.10257. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[25] Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark (2022-03-08). "GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models". arXiv:2112.10741 [cs.CV].

[26] GLIDE, OpenAI, 2023-09-22, retrieved 2023-09-24

[27] Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022-04-12). "Hierarchical Text-Conditional Image Generation with CLIP Latents". arXiv:2204.06125 [cs.CV].

[:02-28] Alammar, Jay. "The Illustrated Stable Diffusion". jalammar.github.io. Retrieved 2022-10-31.

[29] Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim; Ho, Jonathan; Fleet, David J.; Norouzi, Mohammad (2022-05-23). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs.CV].

[30] Ho, Jonathan; Chan, William; Saharia, Chitwan; Whang, Jay; Gao, Ruiqi; Gritsenko, Alexey; Kingma, Diederik P.; Poole, Ben; Norouzi, Mohammad; Fleet, David J.; Salimans, Tim (2022). "Imagen Video: High Definition Video Generation with Diffusion Models". arXiv:2210.02303. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[31] "Imagen: Text-to-Image Diffusion Models". imagen.research.google. Retrieved 2023-09-24.

[32] Singer, Uriel; Polyak, Adam; Hayes, Thomas; Yin, Xi; An, Jie; Zhang, Songyang; Hu, Qiyuan; Yang, Harry; Ashual, Oron; Gafni, Oran; Parikh, Devi; Gupta, Sonal; Taigman, Yaniv (2022). "Make-A-Video: Text-to-Video Generation without Text-Video Data". arXiv:2209.14792. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[33] Poole, Ben; Jain, Ajay; Barron, Jonathan T.; Mildenhall, Ben (2022). "DreamFusion: Text-to-3D using 2D Diffusion". arXiv:2209.14988. {{cite journal}}:저널 요구사항 인용 journal=(도움말)

[34] Poole, Ben; Jain, Ajay; Barron, Jonathan T.; Mildenhall, Ben (2022), DreamFusion: Text-to-3D using 2D Diffusion, arXiv:2209.14988, retrieved 2023-09-24

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[20]

[21]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

Search

확산모델

네임스페이스

더

목차

노이즈 제거 확산 모델

비평형 열역학

DDPM(DDPM

전방확산

역확산

변분추론

소음예측망

점수 기반 생성 모델

점수매칭

점수함수의 개념은

점수 함수 학습하기

점수 함수 어닐링

연속확산과정

전방확산과정

역확산과정

소음조건부 점수망(NCSN)

그들의 동등성

주요 변형

잡음 제거 확산 암시적 모델(DDPM)

잠재확산모델(Latent diffusion model, LDM)

분류기안내

온도와 함께

무분류 안내(CFG)

샘플러

건축물의 선택

확산모델

컨디셔닝

업스케일링

예

오픈AI

안정성AI

다른이들

참고 항목

추가열람

참고문헌