확산모델
Diffusion model| 시리즈의 일부(on) |
| 머신 러닝 데이터 마이닝(data mining) |
|---|
확산 모델(diffusion model)은 기계 학습에서 확산 확률 모델 또는 점수 기반 생성 모델이라고도 합니다.확산 모델의 목표는 주어진 데이터 세트의 확률 분포를 생성하는 확산 과정을 학습하는 것입니다.이는 주로 순방향 공정, 역방향 공정, 샘플링 공정의 세 가지 주요 구성요소로 구성됩니다.[1]컴퓨터 비전에 사용되는 일반 확산 모델링 프레임워크의 세 가지 예는 노이즈 확산 확률적 모델, 노이즈 조건부 점수 네트워크 및 확률적 미분 방정식입니다.[2]
확산 모델은 이미지 노이즈 제거, 인페인팅, 초해상도, 이미지 생성 등 다양한 작업에 적용할 수 있습니다.예를 들어, 이미지 생성에서 신경망은 노이즈 제거 학습을 통해 가우스 노이즈가 추가된 이미지를 노이즈화하도록 훈련됩니다.[3][4]교육이 완료되면 랜덤 노이즈 이미지로 시작하여 노이즈를 제거하여 이미지 생성에 사용할 수 있습니다.
확산 모델은 다양한 종류의 실세계 데이터를 생성하는 데 적용되었으며, 그 중 가장 유명한 것은 DALL-E와 Stable Diffusion과 같은 텍스트 조건 이미지 생성기입니다.더 많은 예는 기사의 뒷부분에 나와 있습니다.
노이즈 제거 확산 모델
비평형 열역학
확산 모델은 매우 복잡한 확률 분포로부터 표본을 추출할 수 있는 모델을 학습하기 위한 방법으로 2015년에 도입되었습니다.그들은 비평형 열역학, 특히 확산의 기술을 사용했습니다.[5]
예를 들어, 자연적으로 생성된 모든 사진의 분포를 모델링하는 방법을 생각해 보십시오.각 이미지는 모든 이미지의 공간에서 한 점이며, 자연적으로 발생하는 사진의 분포는 공간의 "클라우드"이며, 이는 반복적으로 이미지에 노이즈를 추가함으로써 클라우드가 가우스 분포 과 거의 구별되지 않을 때까지 이미지 공간의 나머지 부분으로 확산됩니다그런 다음 확산을 근사적으로 실행 취소할 수 있는 모형을 사용하여 원래 분포에서 표본을 추출할 수 있습니다.이것은 "비평형" 열역학에서 연구되는데, 시작 분포가 최종 분포와 달리 평형에 있지 않기 때문입니다.
평형 는 pdf ρe -1 ‖ ‖ 2 {\displaystyle N(0,I)}이고,pdf∝ - 1 2 ‖ x ‖ n)\ x\^{입니다 이것은 온도 1에서 웰 V = ‖ ‖ 2 )= {\입니다.초기 분포는 평형에서 매우 벗어나 평형 분포 쪽으로 확산되어 순수 무작위성(브라운 워커와 같은)과 전위 우물 아래로 기울기 하강의 합인 편향된 무작위 단계를 만듭니다.무작위성은 필요합니다. 만약 입자들이 기울기 하강만 거치면, 입자들은 모두 원점으로 떨어져 분포가 붕괴될 것입니다.
DDPM(DDPM
2020년 논문은 변동 추론에 의해 이전 방법을 개선하는 DDPM(Denoising Diffusion Probistic Model)을 제안했습니다.[6]
전방확산
모델을 발표하기 위해서는 약간의 표기법이 있습니다.
- , (0 \ _ _{in (는) 고정 상수입니다.
- , 은 평균μ {\} 및분산 인 정규 분포이고 N,σ 은 x 에서의 확률 밀도입니다
- 세로 막대는 컨디셔닝을 나타냅니다.
순방향 확산 프로세스는 시작점 ~ 에서 시작되며 여기서 은(는) 학습할 확률 분포입니다. 그런 다음 반복적으로 잡음을 추가합니다.
그러면 전체 확산 과정은
예를 들어, 그 이후로
역확산
DDPM의 핵심 아이디어는 θ 로 매개 변수화된 신경망을 사용하는 것입니다 네트워크는 두 의 x t, {\t를입력하고 벡터 μθ (t t {\ \_{\ 및 행렬 θσ (t t {\ \_{\}, 를 출력하여각 단계를 정방향 dif로 진행합니다.융합 프로세스는 - ~N( θ( t t),σ θ( ) _만큼 실행 취소할 수 있습니다그러면 다음과 같이 정의된 역확산 과정 θ 을(를) 얻을 수 있습니다.
변분추론
ELBO 부등식은 θ( )≥ :T ~ ⋅ )[ θ( : ) - ( : )] : 그리고한 가지 더 예상하면 다음을 얻을 수 있는 것은
손실함수를 정의
소음예측망
- x ~ N( ~ t (x 0),~ ) }), beta μ θ( t {\ _t=}}}(}, 를 사용해야 하지만 네트워크에 액세스할 수 없습니다x 로 대신 추정해야 합니다.이제 x ~N( ¯ t -α ¯ t) I) x α x + - t }{\ 여기서 는 알 수 없는 가우스 노이즈입니다.이제 x 을 추정하는 것은 을 추정하는 것과 같습니다
따라서 네트워크에서 노이즈 벡터 ϵ θ t t를 출력하고 예측하게 합니다
이를 통해 손실은 다음과 같이 단순화됩니다.
점수 기반 생성 모델
점수 기반 생성 모델은 확산 모델링의 또 다른 형태입니다.이들은 노이즈 조건부 점수 네트워크(NCSN) 또는 Langevin 역학(SMLD)을 이용한 점수 매칭이라고도 합니다.[8][3]
점수매칭
점수함수의 개념은
이미지 생성의 문제를 생각해 봅니다. 가 이미지를 ( x ) 가 가능한 모든 이미지에 대한 확률 분포라고 합니다.만약 우리가 ( x {\)} 그 자체를 가지고 있다면, 우리는 특정 이미지의 가능성을 확실히 말할 수 있습니다.그러나 이것은 일반적으로 다루기 어렵습니다.
대부분의 경우, 우리는 특정 이미지의 절대적인 확률을 아는 것에 관심이 없습니다. 만약 그렇다면, 우리는 모든 가능한 이미지의 공간에 이미지가 얼마나 있을 가능성에 관심이 있습니까?대신에, 우리는 보통 어떤 이미지가 그것의 바로 옆 이웃과 비교될 가능성이 얼마나 되는지 아는 데에만 관심이 있습니다 - 고양이의 어떤 작은 변형들과 비교할 때, 이 이미지가 얼마나 더 가능성이 있을까요?이미지에 수염이 두 개 포함되어 있는지, 아니면 세 개 포함되어 있는지, 아니면 가우스 노이즈가 추가되어 있는지 중 어느 것이 더 가능성이 높습니까?
따라서 실제로는 ( 그 자체에 관심이 없으며, 오히려∇ \ q 두 가지 효과가 있습니다
- 첫째, 더 이상 ( x) 를 정규화할 필요가 없지만 q ( )= (x ) (x) = 를 사용할 수 있습니다 여기서 = ∫ ~( ) > C =\ (dx> 은(는) 상관없는 알 수 없는 상수입니다.
- 둘째, ( ) 이웃 ( x+ ) +dx를(+ x)= -⟨ ∇ x ⟩ + dx로 비교합니다.
점수 를 () : = ∇ ( ) : q s {\ s로할 수 있는 작업을 고려하십시오.
밝혀진 바에 따르면, ( 는 열역학을 사용하여 ( 로부터 표본을 추출할 수 있습니다.구체적으로, 퍼텐셜 에너지 U( )=- ( x ) ) = -\를 가지고퍼텐셜 우물에 많은 입자가 있다면, 열역학적 평형에서의 분포는 볼츠만 분포 ( )∝ - ()/ k = ( x) / e} = 온도 에서 볼츠만 분포는 정확히 입니다
따라서 ( 을 모형화하기 위해임의의 편리한 분포(표준 가우스 분포 등)에서 입자를 샘플링한 후 랑주뱅 방정식에 따라 입자의 전진 운동을 모의 실험할 수 있습니다.
점수 함수 학습하기
밀도 이 주어지면 의 점수 함수 를 학습하고자 합니다 이것은 점수 일치입니다.일반적으로, 스코어 매칭은 피셔 발산 ‖ θ( ) - ∇ ) ‖ ]{\}(x -\ q 적분을 확장하고 부분별 적분을 수행함으로써,
점수 함수 어닐링
영상의 분포를 모델링해야 하고, x ~ ( 백색 잡음 영상을 원한다고 가정합니다.이제, 대부분의 백색 잡음 이미지는 실제 이미지처럼 보이지 않으므로, x ~N ( {\0}\ N (의 큰 스와트의 경우 0 )≈ q입니다 이것은 특정 지점 주변에 샘플이 없으면 그 지점에서 점수 함수를 학습할 수 없기 때문에 점수 함수를 학습하는 데 문제가 있습니다.만약 우리가그 의 ∇ q x t ) {\ _x_})}를 모른다면, 우리는 입자에 시간-진화 방정식을 부과할 수 없습니다:
연속확산과정
전방확산과정
순방향 확산 과정을 다시 생각해 보되, 이번에는 연속적인 시간 안에:
자, 이 방정식은 정확히 과잉감쇠된 랑게뱅 방정식의 특별한 경우입니다.
이제 위의 식은 단일 입자의 확률 운동에 대한 것입니다.시간 = t=에서 에 따라 입자 구름이 분포되어 있다고 가정하면 오랜 시간이 지나면 입자 구름은 ( I I의 안정적인 분포로 정착할 것입니다 ρ t{\ \_{를 시간 {\}에서 입자 구름의 밀도라고 하자. 그럼 우리는
Fokker-Planck 방정식에 의해, 클라우드의 밀도는 다음과 같이 진화합니다.
역확산과정
시간 ∈[ [에 대한 ρ t t [0,를 풀었다면 클라우드의 진화를 정확히 뒤집을 수 있습니다밀도가 ν = ρ T _}=\ _인 다른 입자 구름에서 시작하여 구름의 입자들이 다음과 같이 진화하게 한다고 가정합니다
소음조건부 점수망(NCSN)
연속적인 한계에서,
이제[,∞ \ 에 대한 특정 확률 분포 γ \ }를 정의한다음 점수 일치 손실 함수를 예상 피셔 발산으로 정의합니다.
"소음 조건부 점수 네트워크"라는 이름은 다음과 같이 설명됩니다.
- " f θ {\{\theta는 신경망으로 구현되기 때문입니다.
- "score", 네트워크의 이 {\displaystyle \ {∇의 점수 함수 ρ에 근접한 것으로 해석되기 때문입니다
- " 조건": ρ는 시간에 따라 증가하는 가우스 노이즈에 의해 흐리게 되므로 추가 노이즈의 양에 따라 점수 함수가 달라집니다.
그들의 동등성
DDPM과 점수 기반 생성 모델은 동등합니다.[11]이는 DDPM을 사용하여 훈련된 네트워크를 NCSN으로 사용할 수 있음을 의미하며, 그 반대의 경우도 마찬가지입니다.
~N ¯ t - ¯ ) 그래서 트위디의 공식에 의하면
이제, 역방향 방정식의 연속한계 - = x - = x - d t () d t = }= beta _}=\beta }}=
주요 변형
잡음 제거 확산 암시적 모델(DDPM)
이미지를 생성하는 원래의 DDPM 방법은 느린데, 정방향 확산 프로세스는 으로 T 1000을(를) 사용하여 x_의 분포를 만듭니다. 가우스에 가깝게 나타납니다.그러나 이는 후방 확산 과정도 1000단계를 밟는다는 것을 의미합니다. 이(가) 모든 ≥1 {\에 대해 가우스이므로 단계를 건너뛸 수 있는 정방향 확산 프로세스와 달리 역방향 확산 프로세스에서는 단계를 건너뛸 수 없습니다예를 들어 t - - ~ θ( - - ),σ θ( t- - 1)을(를) 샘플링하려면 모델이 첫 번째 샘플 - 을(를) 샘플링해야 합니다 x - t 을(를) 직접 샘플링하려면 모델이 필요합니다.일반적으로 다루기 힘든x - 을(를) 주변화합니다.
DDIM은[12] DDPM 손실에 대해 훈련된 모든 모델을 사용하여 일부 단계를 건너뛰고 샘플링하는 방법으로, 조정 가능한 양의 품질을 희생합니다.원래의 DDPM은 DDIM의 특별한 경우입니다.
잠재확산모델(Latent diffusion model, LDM)
확산 모델은 확률 분포를 모델링하는 일반적인 방법이기 때문에, 영상에 대한 분포를 모델링하려는 경우, 먼저 인코더에 의해 영상을 저차원 공간으로 인코딩한 후, 확산 모델을 사용하여 인코딩된 영상에 대한 분포를 모델링할 수 있습니다.그런 다음 이미지를 생성하기 위해 확산 모델에서 샘플링한 다음 디코더를 사용하여 이미지로 디코딩할 수 있습니다.[13]
인코더-디코더 쌍은 VAE(variational autoencoder)인 경우가 많습니다.
분류기안내
전체 이미지 분포에서 표본을 추출하는 것이 아니라 이미지 설명에 따라 조건부 표본을 추출하고자 한다고 가정합니다.우리는 일반적인 이미지를 샘플링하는 것이 아니라 "붉은 눈을 가진 검은 고양이"라는 설명에 맞는 이미지를 샘플링하고 싶습니다.일반적으로 분포 에서 표본을 추출하고 싶습니다 서 x{\} 범위는 이미지 클래스에 y 범위입니다("붉은 눈을 가진 검은 고양이"라는 설명은 매우 상세한 클래스일 뿐이며 "cat" 클래스는 매우 모호한 설명에 불과합니다).
잡음 채널 모델의 관점에서 우리는 다음과 같이 과정을 이해할 수 있습니다. 에 따라 이미지 을(를) 생성하기위해 요청자가 실제로 x{\을를) 염두에 두었다고 가정하지만 이미지는 잡음이 많은 채널을 하여 {\displaystyle 과(와) 다르게 표시됩니다.이미지 생성은 요청자가 어떤 을(를) 염두에 두었는지 추론하는 것에 불과합니다.
즉, 조건부 이미지 생성은 단순히 "텍스트 언어에서 그림 언어로 변환"하는 것입니다.그러면 잡음 채널 모델에서와 같이 베이즈 정리를 사용하여 다음을 구합니다.
온도와 함께
분류기 유도 확산 모델은 사후 추정 p(x ) p ( x p ( x y 에서 샘플을 추출합니다 만약 모델이 최대 우도 추정 x ( ) arg ( y x 로 이동하도록 강요하고 싶다면사용할수 있습니다
이것은 SGLD로 간단히 할 수 있습니다.
무분류 안내(CFG)
분류기 {\y x가 없는 경우에도 이미지 모델 자체에서 하나를 추출할 수 있습니다[15]
샘플러
확산 모델이 주어지면 연속적인 프로세스로 간주하고 SDE를 통합하여 샘플을 생성하거나 이산 프로세스로 간주하고 이산 단계를 반복하여 샘플을 생성할 수 있습니다. _}}에서 "노이즈 를 선택하는 것도 샘플의 품질에 영향을 줄 수 있습니다.DDPM의 관점에서는 DDPM 자체를 사용할 수도 있고(소음이 있는), 또는 DDPM을 사용할 수도 있습니다(소음의 양을 조절할 수 있는).소음을 더하는 경우를 조상 표본 추출이라고 부르기도 합니다.[16]소음과 소음 사이를 보간할 수 있습니다.노이즈의 양은 DDPM 용지에서 η eta 값")으로 표시되며, 가 없음을 나타내는 η = 0 = 전체 노이즈를 나타내는 η = =DDPM)로 표시됩니다.
SDE의 관점에서 오일러-마루야마 방법, 헌 방법, 선형 다단계 방법 등과 같은 수치 적분 방법을 사용할 수 있습니다.이산형의 경우와 마찬가지로 통합 중에 조절 가능한 양의 노이즈를 추가할 수 있습니다.
이미지 생성의 맥락에서 샘플러에 대한 조사 및 비교가 있습니다.[17]
건축물의 선택



확산모델
DDPM에서 이미지를 생성하기 위해서는 시간 와 잡음 이미지 를 소요하고 이로부터 잡음 ϵ θ t t를 예측하는 신경망이 필요합니다.노이즈를 예측하는 것은 노이즈가 제거된 이미지를 예측하는 것과 동일하기 때문에 t {\t}}에서 노이즈를 뺀 구조가 잘 작동하는 경향이 있습니다예를 들어 가장 일반적인 아키텍처는 이미지 노이즈 제거에도 능한 U-Net입니다.[18]
이미지가 아닌 데이터의 경우 다른 아키텍처를 사용할 수 있습니다.예를 들어, DDPM으로 사람의 운동 궤적을 모델링합니다.각 인간의 동작 궤적은 관절 회전 또는 위치로 표현되는 일련의 포즈입니다.이것은 트랜스포머 네트워크를 사용하여 소음이 적은 궤적을 생성합니다.
컨디셔닝
기본 확산 모델은 전체 분포에서만 무조건 생성할 수 있습니다.예를 들어, ImageNet에서 학습된 확산 모델은 ImageNet에서 임의의 이미지처럼 보이는 이미지를 생성할 것입니다.단 하나의 카테고리에서 이미지를 생성하려면 조건을 적용해야 합니다.어떤 조건을 부과하고 싶은지 간에, 먼저 조건을 부동 소수점 벡터로 변환한 다음 기본 확산 모델 신경망에 입력해야 합니다.그러나 조건을 벡터로 변환하는 방법을 선택할 수 있는 자유가 있습니다.
예를 들어 안정 확산(Stable Diffusion)은 교차 주의 메커니즘(cross-attention mechanism)의 형태로 컨디셔닝을 부과합니다. 여기서 쿼리는 U-Net에서 이미지의 중간 표현이며 키와 값 모두 컨디셔닝 벡터입니다.[20]컨디셔닝은 영상의 일부에만 선택적으로 적용할 수 있으며, ControlNet에서 사용하는 것처럼 기본 모델에서 새로운 종류의 컨디셔닝을 미세 조정할 수 있습니다.[21]
특히 단순한 예로 이미지 인페인팅을 생각해 볼 수 있습니다.조건은 참조 이미지인 ~ 인페인팅 마스크인m 입니다.역방향 확산 과정의 각 단계에서 먼저 ~ t( ¯ ~ ,( -α ¯ t) I) (}}~ 의 노이즈 버전인 다음 t 를 ( - x + m ~ - m + 로 대체합니다 여기서 은 요소별 곱셈을 의미합니다.
컨디셔닝은 특정 카테고리에서 이미지를 생성하거나 텍스트 대 이미지에서와 같이 특정 캡션에 따라 생성하는 것에 국한되지 않습니다.예를 들어, 사람이 걷는 것의 오디오 클립(사운드 트랙에 동기화하는 것을 허용하는 것) 또는 사람이 달리는 것의 비디오 또는 사람의 움직임에 대한 텍스트 설명에 따라 사람의 움직임을 생성하는 것이 입증되었습니다.
업스케일링
이미지를 생성하는 데 시간이 오래 걸리기 때문에 기본 확산 모델로 작은 이미지를 생성한 후 다른 모델로 확장할 수 있습니다.업스케일링은 GAN[23], Transformer[24] 또는 Lanczos 리샘플링과 같은 신호 처리 방법에 의해 수행될 수 있습니다.
확산 모델 자체는 업스케일링을 수행하는 데 사용될 수 있습니다.캐스캐이딩 확산 모델은 프로그레시브 GAN 스타일로 여러 확산 모델을 차례로 스택합니다.가장 낮은 레벨은 32x32 이미지를 생성하는 표준 확산 모델입니다. 그런 다음 업스케일링을 위해 특별히 훈련된 확산 모델에 의해 이미지가 업스케일링되고 이 과정이 반복됩니다.[18]
예
이 절에서는 몇 가지 주목할 만한 확산 모델을 수집하고, 해당 모델의 아키텍처에 대해 간략하게 설명합니다.
오픈AI
DALL-E 시리즈 바이 오픈AI는 이미지의 텍스트 조건부 확산 모델입니다.
DALL-E의 첫 번째 버전(2021)은 실제로 확산 모델이 아닙니다.대신 토큰 시퀀스를 생성하는 트랜스포머 아키텍처를 사용하며, 이산 VAE의 디코더에 의해 이미지로 변환됩니다.DALL-E와 함께 공개된 CLIP 분류기는 DALL-E가 이미지가 텍스트에 얼마나 가까운지에 따라 생성된 이미지의 순위를 매기는 데 사용되었습니다.
GLIDE(2022-03)[25]는 35억 확산 모델로 소형 버전이 공개되었습니다[26].곧이어 DALL-E 2가 출시되었습니다.[27]DALL-E 2는 35억 개의 계단식 확산 모델로, 이들이 "unCLIP"이라고 명명한 기술인 "CLIP 이미지 인코더를 반전"함으로써 텍스트로부터 이미지를 생성합니다.
안정성AI
Stability AI가 발표한 Stable Diffusion(2022-08)은 잠재 확산 모델(8억 6천만 개의 파라미터), VAE 및 텍스트 인코더로 구성됩니다.확산 모델은 조건부 이미지 생성을 허용하기 위해 교차 주의 블록이 있는 U-Net입니다.[28][13]
다른이들
Google Imagen과[29] Imagen Video는[30] 이미지와 동영상을 생성하기 위한 계단식 확산 모델입니다.[31]텍스트 조건 생성을 위해 텍스트를 인코딩하기 위해 트랜스포머 기반 언어 모델인 T5-XXL을 사용합니다.
메타 AI에[32] 의한 Make-a-video는 텍스트로부터 비디오를 생성합니다.
DreamFusion은[33][34] 텍스트로부터 3D 모델을 생성합니다.
참고 항목
추가열람
- 지침: 확산 모델을 위한 치트 코드.분류기 안내 및 분류기 없는 안내 개요, 수학적 세부 사항 조명
- 기사에서 누락된 수학적인 세부사항
- "Power of Diffusion Models". AstraBlog. 2022-09-25. Retrieved 2023-09-25.
- Weng, Lilian (2021-07-11). "What are Diffusion Models?". lilianweng.github.io. Retrieved 2023-09-25.
참고문헌
- ^ Chang, Ziyi; Koulieris, George Alex; Shum, Hubert P. H. (2023). "On the Design Fundamentals of Diffusion Models: A Survey". arXiv:2306.04542 [cs.LG].
- ^ Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak (2023). "Diffusion Models in Vision: A Survey". IEEE Transactions on Pattern Analysis and Machine Intelligence. 45 (9): 10850–10869. arXiv:2209.04747. doi:10.1109/TPAMI.2023.3261988. PMID 37030794. S2CID 252199918.
- ^ a b Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben (2021-02-10). "Score-Based Generative Modeling through Stochastic Differential Equations". arXiv:2011.13456 [cs.LG].
- ^ Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining (2021). "Vector Quantized Diffusion Model for Text-to-Image Synthesis". arXiv:2111.14822 [cs.CV].
- ^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (2015-06-01). "Deep Unsupervised Learning using Nonequilibrium Thermodynamics" (PDF). Proceedings of the 32nd International Conference on Machine Learning. PMLR. 37: 2256–2265.
- ^ Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (2020). "Denoising Diffusion Probabilistic Models". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 6840–6851.
- ^ Weng, Lilian (2021-07-11). "What are Diffusion Models?". lilianweng.github.io. Retrieved 2023-09-24.
- ^ "Generative Modeling by Estimating Gradients of the Data Distribution Yang Song". yang-song.net. Retrieved 2023-09-24.
- ^ "Sliced Score Matching: A Scalable Approach to Density and Score Estimation Yang Song". yang-song.net. Retrieved 2023-09-24.
- ^ Anderson, Brian D.O. (May 1982). "Reverse-time diffusion equation models". Stochastic Processes and Their Applications. 12 (3): 313–326. doi:10.1016/0304-4149(82)90051-5. ISSN 0304-4149.
- ^ Luo, Calvin (2022). "Understanding Diffusion Models: A Unified Perspective". arXiv:2208.11970.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ Song, Jiaming; Meng, Chenlin; Ermon, Stefano (2020). "Denoising Diffusion Implicit Models". arXiv:2010.02502.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ a b Rombach, Robin; Blattmann, Andreas; Lorenz, Dominik; Esser, Patrick; Ommer, Björn (2022). "High-Resolution Image Synthesis With Latent Diffusion Models": 10684–10695. arXiv:2112.10752.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ Dhariwal, Prafulla; Nichol, Alex (2021-06-01). "Diffusion Models Beat GANs on Image Synthesis". arXiv:2105.05233 [cs.LG].
- ^ Ho, Jonathan; Salimans, Tim (2022-07-25). "Classifier-Free Diffusion Guidance". arXiv:2207.12598 [cs.LG].
- ^ Yang, Ling; Zhang, Zhilong; Song, Yang; Hong, Shenda; Xu, Runsheng; Zhao, Yue; Zhang, Wentao; Cui, Bin; Yang, Ming-Hsuan (2022). "Diffusion Models: A Comprehensive Survey of Methods and Applications". arXiv:2209.00796.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ Karras, Tero; Aittala, Miika; Aila, Timo; Laine, Samuli (2022). "Elucidating the Design Space of Diffusion-Based Generative Models". arXiv:2206.00364.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ a b Ho, Jonathan; Saharia, Chitwan; Chan, William; Fleet, David J.; Norouzi, Mohammad; Salimans, Tim (2022-01-01). "Cascaded diffusion models for high fidelity image generation". The Journal of Machine Learning Research. 23 (1): 47:2249–47:2281. arXiv:2106.15282. ISSN 1532-4435.
- ^ a b Tevet, Guy; Raab, Sigal; Gordon, Brian; Shafir, Yonatan; Cohen-Or, Daniel; Bermano, Amit H. (2022). "Human Motion Diffusion Model". arXiv:2209.14916.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ Zhang, Lvmin; Rao, Anyi; Agrawala, Maneesh (2023). "Adding Conditional Control to Text-to-Image Diffusion Models". arXiv:2302.05543.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ Zhang, Lvmin; Rao, Anyi; Agrawala, Maneesh (2023). "Adding Conditional Control to Text-to-Image Diffusion Models". arXiv:2302.05543.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ Lugmayr, Andreas; Danelljan, Martin; Romero, Andres; Yu, Fisher; Timofte, Radu; Van Gool, Luc (2022). "RePaint: Inpainting Using Denoising Diffusion Probabilistic Models": 11461–11471.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ Wang, Xintao; Xie, Liangbin; Dong, Chao; Shan, Ying (2021). "Real-ESRGAN: Training Real-World Blind Super-Resolution With Pure Synthetic Data": 1905–1914. arXiv:2107.10833.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ Liang, Jingyun; Cao, Jiezhang; Sun, Guolei; Zhang, Kai; Van Gool, Luc; Timofte, Radu (2021). "SwinIR: Image Restoration Using Swin Transformer": 1833–1844. arXiv:2108.10257.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark (2022-03-08). "GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models". arXiv:2112.10741 [cs.CV].
- ^ GLIDE, OpenAI, 2023-09-22, retrieved 2023-09-24
- ^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022-04-12). "Hierarchical Text-Conditional Image Generation with CLIP Latents". arXiv:2204.06125 [cs.CV].
- ^ Alammar, Jay. "The Illustrated Stable Diffusion". jalammar.github.io. Retrieved 2022-10-31.
- ^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim; Ho, Jonathan; Fleet, David J.; Norouzi, Mohammad (2022-05-23). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs.CV].
- ^ Ho, Jonathan; Chan, William; Saharia, Chitwan; Whang, Jay; Gao, Ruiqi; Gritsenko, Alexey; Kingma, Diederik P.; Poole, Ben; Norouzi, Mohammad; Fleet, David J.; Salimans, Tim (2022). "Imagen Video: High Definition Video Generation with Diffusion Models". arXiv:2210.02303.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ "Imagen: Text-to-Image Diffusion Models". imagen.research.google. Retrieved 2023-09-24.
- ^ Singer, Uriel; Polyak, Adam; Hayes, Thomas; Yin, Xi; An, Jie; Zhang, Songyang; Hu, Qiyuan; Yang, Harry; Ashual, Oron; Gafni, Oran; Parikh, Devi; Gupta, Sonal; Taigman, Yaniv (2022). "Make-A-Video: Text-to-Video Generation without Text-Video Data". arXiv:2209.14792.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ Poole, Ben; Jain, Ajay; Barron, Jonathan T.; Mildenhall, Ben (2022). "DreamFusion: Text-to-3D using 2D Diffusion". arXiv:2209.14988.
{{cite journal}}:저널 요구사항 인용journal=(도움말) - ^ Poole, Ben; Jain, Ajay; Barron, Jonathan T.; Mildenhall, Ben (2022), DreamFusion: Text-to-3D using 2D Diffusion, arXiv:2209.14988, retrieved 2023-09-24