에너지 기반 모델
Energy based model![]() | 이 글은 주제를 잘 모르는 사람들에게 불충분한 맥락을 제공한다.. (2020년 2월) (이 및 더 하여 할 수 |
에너지 기반 모델(EBM)은 통계 물리학에서 학습으로 직접 수입하는 생성 모델(GM)의 한 형태다. GM은 샘플 데이터 집합을 분석함으로써 기초적인 데이터 분포를 학습한다. 일단 훈련을 받으면, GM은 데이터 배포와 일치하는 다른 데이터셋을 생산할 수 있다.[1] EBM은 특히 그래픽 및 기타 구조화 모델을 교육하기 위해 그러한 학습에 대한 많은 확률론적 및 비확률론적 접근방식을 위한 통일된 프레임워크를 제공한다.[2]
EBM은 대상 데이터 집합의 특성을 학습하여 유사하지만 더 큰 데이터 집합을 생성한다. EBM은 데이터 집합의 잠재적 변수를 감지하고 유사한 분포를 가진 새로운 데이터 집합을 생성한다.[2]
대상 애플리케이션에는 자연어 처리, 로봇공학, 컴퓨터 비전 등이 포함된다.[2]
역사
EBMs에 대한 초기 연구에서는 에너지를 잠재적 변수와 관측 가능한 변수의 구성으로 나타내는 모델을 제안하였다. EBM은 2003년에 모습을 드러냈다.[3]
접근하다
EBM은 관측 변수와 잠재적 변수의 조합의 각 구성에 비정규화된 확률 스칼라(에너지)를 연관시켜 의존성을 포착한다. 추론은 관측된 변수들의 집합(값)에 주어진 에너지를 최소화하는 잠재적 변수를 찾는(값)으로 구성된다. 마찬가지로 모델은 낮은 에너지를 잠재 변수의 정확한 값에 연결하고 높은 에너지를 잘못된 값에 연결하는 함수를 학습한다.[2]
기존의 EBM은 일반적으로 고차원 데이터 집합에 적용하기 어려운 확률적 그라데이션-디센트(SGD) 최적화 방법에 의존한다. 2019년, 오픈대신 랜지빈 역학(LD)을 활용한 변종을 공개했고, LD는 객관적 기능 학습의 일환으로 추정기에 노이즈를 도입하는 반복 최적화 알고리즘이다. 후분포에서 표본을 생성해 베이시안 학습 시나리오에 활용할 수 있다.[2]
EBM은 에너지를 확률로 정규화할 필요가 없다. 즉, 에너지는 1을 합할 필요가 없다. 확률론적 모델처럼 정규화 상수를 추정할 필요가 없기 때문에 특정 형태의 추론과 EBM을 통한 학습은 더 다루기 쉽고 유연하다.[2]
샘플은 마르코프 체인 몬테카를로 접근법을 통해 암묵적으로 생성된다.[4] 과거 영상의 재생 버퍼를 LD와 함께 사용하여 최적화 모듈을 초기화한다.[2]
특성.
EBM은 유용한 속성을 보여 준다.[2]
- 단순성과 안정성-EBM은 설계와 훈련이 필요한 유일한 물체다. 균형을 보장하기 위해 별도의 네트워크를 훈련할 필요는 없다.
- 적응형 계산 시간 – EBM은 날카롭고 다양한 샘플 또는 거칠고 덜 다양한 샘플을 생성할 수 있다. 무한정 시간이 주어지면, 이 절차는 실제 샘플을 생산한다.[1]
- 유연성–변동형 오토엔코더(VAE) 및 흐름 기반 모델에서 제너레이터는 연속적인 공간에서 서로 다른 데이터 모드를 포함하는 (아마도) 불연속적인 공간으로 지도를 학습한다. EBM은 분리 영역(복수 모드)에 낮은 에너지를 할당하는 방법을 배울 수 있다.
- 적응세대-EBM 발전기는 확률 분포에 의해 암묵적으로 정의되며, 분포의 변화에 따라 자동으로 조정되며(훈련 없이), EBM이 발전기 훈련이 비실용적인 영역을 다루도록 허용하고, 또한 모드 붕괴를 최소화하고 분배 외 샘플로부터 모의 모드를 피할 수 있다.[4]
- 구성성-개별 모형은 비정규화된 확률 분포로, 전문가 제품이나 다른 계층적 기법을 통해 모형이 결합될 수 있다.
실험결과
CIFAR-10 및 ImageNet 32x32와 같은 이미지 데이터셋에서 EBM 모델은 고화질 이미지를 비교적 빠르게 생성했다. 그것은 다른 유형의 이미지를 생성하기 위해 한 유형의 이미지에서 학습한 특징을 결합하는 것을 지원했다. 분산되지 않은 데이터셋을 사용하여 일반화할 수 있었고, 흐름 기반 및 자기 회귀 모델을 능가했다. EBM은 상대적 동요에 상대적으로 저항성이 강했으며, 분류 훈련을 통해 그들에게 명시적으로 훈련된 모델보다 더 잘 행동했다.[2]
대안
EBM은 VAE(Variative Autoencoder) 또는 GAN(Generation Attorical Neural Networks)과 같은 기술로 경쟁한다.[2]
참조
- ^ a b "Implicit Generation and Generalization Methods for Energy-Based Models". OpenAI. 2019-03-21. Retrieved 2019-12-27.
- ^ a b c d e f g h i j Rodriguez, Jesus (2019-04-01). "Generating Training Datasets Using Energy Based Models that Actually Scale". Medium. Retrieved 2019-12-27.
- ^ LeCun, Yann (September 2003). "CBLL, Research Projects, Computational and Biological Learning Lab, Courant Institute, NYU". cs.nyu.edu. Retrieved 2019-12-27.
- ^ a b Du, Yilun; Mordatch, Igor (2019-03-20). "Implicit Generation and Generalization in Energy-Based Models". arXiv:1903.08689 [cs.LG].
외부 링크
- "CIAR NCAP Summer School". www.cs.toronto.edu. Retrieved 2019-12-27.
- Dayan, Peter; Hinton, Geoffrey; Neal, Radford; Zemel, Richard S. (1999), "Helmholtz Machine", Unsupervised Learning, The MIT Press, doi:10.7551/mitpress/7011.003.0017, ISBN 978-0-262-28803-3
- Hinton, Geoffrey E. (August 2002). "Training Products of Experts by Minimizing Contrastive Divergence". Neural Computation. 14 (8): 1771–1800. doi:10.1162/089976602760128018. ISSN 0899-7667. PMID 12180402. S2CID 207596505.
- Salakhutdinov, Ruslan; Hinton, Geoffrey (2009-04-15). "Deep Boltzmann Machines". Artificial Intelligence and Statistics: 448–455.