제한 볼츠만 기계
Restricted Boltzmann machine| 시리즈의 일부 |
| 기계 학습 및 데이터 마이닝 |
|---|
제한된 볼츠만 기계(RBM)는 일련의 입력에 대한 확률 분포를 학습할 수 있는 생성 확률적 인공 신경 네트워크이다.
RBM은 1986년 [1]Paul Smolensky에 의해 Harmonium이라는 이름으로 처음 발명되었으며, 2000년 중반 Geoffrey Hinton과 공동 연구자들이 고속 학습 알고리즘을 발명하면서 두각을 나타냈습니다.RBM은 차원 축소,[2] 분류,[3] 협업 필터링,[4] 기능 학습,[5] 주제[6] 모델링, 심지어 많은 신체 양자 [7][8]역학에서 응용 분야를 찾아냈다.직무에 따라 감독 또는 비감독 방식으로 훈련할 수 있습니다.
이름에서 알 수 있듯이, RBM은 볼츠만 기계의 변형체이며, 그들의 뉴런은 초당 그래프를 형성해야 한다는 제약이 있다. 즉, 두 단위 그룹 각각(보통 "보이는" 단위와 "숨겨진" 단위)의 한 쌍의 노드는 그들 사이에 대칭적인 연결을 가질 수 있다. 그리고 노드 사이에 연결은 없다.그룹을 지배하다반면, "제한되지 않은" 볼츠만 기계는 숨겨진 장치 간에 연결이 있을 수 있습니다.이 제한은 볼츠만 기계의 일반 클래스, 특히 구배 기반 대비 발산 [9]알고리즘에서 사용할 수 있는 것보다 더 효율적인 훈련 알고리즘을 가능하게 한다.
제한된 볼츠만 기계는 딥 러닝 네트워크에서도 사용할 수 있습니다.특히, RBM을 "스택"하고 그 결과 발생하는 딥 네트워크를 경사 하강 및 [10]역 전파로 미세 조정함으로써 깊은 신뢰 네트워크를 형성할 수 있습니다.
구조.
RBM의 표준 유형에는 숨겨진 2진수 값(부울)의 단위(Boolean)이 있으며 × m n 크기의 WW 매트릭스로 구성됩니다. 매트릭스의 각 가중치 는 가시 단위( 사이의 연결과 관련지어집니다.}) 및 숨겨진 jj 또한(\에대한 바이어스 가중치(오프셋)와h(\j에 대한b})가 있습니다. 에너지 콘의 가중치 및 바이어스, 즉 에너지 콘의 가중치 및 바이어스입니다.그림(부울 벡터의 복수)(v,h)은 다음과 같이 정의됩니다.
또는 매트릭스 표기법에서는
이 에너지 함수는 홉필드 네트워크와 유사합니다.일반적인 볼츠만 기계와 마찬가지로 가시 벡터와 은닉 벡터의 결합 확률 분포는 에너지 함수의 관점에서 다음과 [11]같이 정의된다.
서Z(\ Z는 가능한 모든 구성에 대한e - ,)의 (\)})로 정의된 파티션 함수이며, 이는 확률이 1이 되도록 정규화 상수로 해석할 수 있습니다.가시 벡터의 한계 확률은 가능한 모든 숨겨진 레이어 [11]구성에 대한P ( ,) \ P ( , )의 합계입니다.
- ( ) Z { } - ( ,) ( { P ( v ) = { } \ _ { \ { h \ } { - ( v , )} 、
그리고 역도 성립.RBM의 기본 그래프 구조는 초당적이기 때문에(레이어 내 접속이 없음을 의미), 숨겨진 유닛의 액티베이션은 가시적인 유닛 액티베이션에 의해 서로 독립적입니다.반대로, 숨겨진 장치 [9]활성화가 주어지면 가시 장치 활성화는 서로 독립적입니다.즉, m개의 가시 단위와 n개의 숨김 단위의 경우, 숨김 단위의 구성이 주어진 경우 가시 단위 v의 조건부 확률은 다음과 같다.
- ( h ) i P ( i P ( v h )=\} h
반대로, 주어진 v에 대한 h의 조건부 확률은
- ( v ) j P ( v) { P ( h v ) = \ P ( h v ) = { }^{n}P ( h_ { j })
개별 활성화 확률은 다음과 같습니다.
- ( j ) ( j + i w , v )( \ ( h _ { j } + \ _ { 1 ) = \( b { } + \ _ { i }^{ } w _ { i } w _ { i } \ } ) .
서 { \ 는 로지스틱 Sigmoid를 나타냅니다.
숨겨진 단위는 베르누이이지만 [clarification needed]제한된 볼츠만 기계의 가시 단위는 다항식이 될 수 있습니다.이 경우 표시 단위에 대한 로지스틱 함수는 softmax 함수로 대체됩니다.
여기서 K는 가시값이 갖는 이산값의 수입니다.토픽 모델링 [6]및 추천 [4]시스템에 적용됩니다.
다른 모델과의 관계
제한된 볼츠만 기계는 볼츠만 기계와 마르코프 랜덤 [12][13]필드의 특별한 경우입니다.그래픽 모형은 인자 [14]분석 모형과 일치합니다.
트레이닝 알고리즘
제한된 Boltzmann 기계는 일부 교육 V 행이 가시 v v\displaystyle v에 할당된 확률의 곱을 최대화하도록 교육됩니다.
또는 이와 동등하게V {\ V[12][13]에서 무작위로 선택한 교육 v {\ v}의 예상 로그 확률을 최대화합니다.
RBM 트레이닝에 가장 많이 사용되는 알고리즘(무게 매트릭스(\ W 은 원래 PoE(전문가 제품) [15][16]모델을 트레이닝하기 위해 개발된 Hinton에 의한 대조적 발산(CD) 알고리즘입니다.이 알고리즘은 Gibbs 샘플링을 수행하고 체중 업데이트를 계산하기 위해 경사 강하 절차(피드포워드 신경망을 훈련할 때 그러한 절차 내에서 역전파가 사용되는 방식과 유사함) 내에서 사용된다.
단일 샘플에 대한 기본적인 단일 단계 대조적 발산(CD-1) 절차는 다음과 같이 요약할 수 있습니다.
- 교육 표본 v를 추출하여 숨겨진 단위의 확률을 계산하고 이 확률 분포에서 숨겨진 활성화 벡터 h를 추출합니다.
- v와 h의 바깥쪽 곱을 계산하고 이것을 양의 구배라고 합니다.
- h에서 가시 단위의 재구성 v'를 샘플링한 다음, 여기에서 숨겨진 활성화 h'를 다시 샘플링한다(Gibbs 샘플링 단계).
- v'와 h'의 바깥쪽 곱을 계산하고 이것을 음의 구배라고 합니다.
- 매트릭스W({W})에 대한 업데이트를 양의 구배에서 음의 구배를 뺀 값으로 하고, 일부 학습률을 곱한다: W - T { \ W \ ( vh ^{\ {T- } }
- a와 b를 하게 업데이트합니다.{ a ( - }、 b ( - 。{ \ b = \ ( h - ' )。
힌튼이 쓴 RBM 훈련 실기 가이드는 그의 [11]홈페이지에서 볼 수 있다.
적층 제한 볼츠만 기계
- Stacked Boltzmann과 RBM의 차이점은 RBM이 레이어 내에서 횡방향으로 연결되어 있어 분석을 쉽게 할 수 없다는 것입니다.한편, 스택형 볼츠만은 대칭 가중치를 가진 감독되지 않은 3층 네트워크와 3개의 클래스를 인식하기 위한 감독된 미세 조정된 최상층의 조합으로 구성됩니다.
- Stacked Boltzmann의 용도는 자연 언어를 이해하고 문서를 검색하며 이미지를 생성하고 분류하는 것입니다.이러한 기능은 감독되지 않은 사전 교육 및/또는 감독된 미세 조정을 통해 훈련됩니다.무방향 대칭 상층과는 달리 RBM 접속용 양방향 비대칭 층이 있습니다.제한된 볼츠만의 접속은 비대칭 웨이트를 가진 3층이며, 2개의 네트워크가 하나로 결합되어 있습니다.
- 적층 볼츠만은 RBM과 유사성을 공유하며, 적층 볼츠만의 뉴런은 제한된 볼츠만 기계와 같은 확률적 이진 홉필드 뉴런이다.제한된 볼츠만과 RBM의 에너지는 모두 Gibb의 확률 측도에 의해 . E - i , s j+ i i i i s i i s= - { \ E= - { \ } { } \ , j . { , }Restricted Boltzmann의 교육 과정은 RBM과 유사합니다.제한된 볼츠만은 한 번에 한 층씩 훈련하며, 역전파를 수행하지 않고 3-세그먼트 패스를 사용하여 대략적인 평형 상태를 유지합니다.Restricted Boltzmann은 분류 및 인식을 위한 사전 훈련을 위해 다른 RBM에서 감독 및 비감독을 모두 사용한다.훈련은 Gibbs 샘플링과 대조적인 차이를 사용한다: δwij = e*(pij - p')ij
- 제한된 Boltzmann의 강점은 비선형 변환을 수행하므로 확장이 용이하고 기능의 계층적 레이어를 제공할 수 있다는 것입니다.단점은 정수와 실제 값 뉴런의 계산이 복잡하다는 것이다.어떤 함수의 구배를 따르지 않기 때문에 최대 우도에 대한 대조적 확산의 근사치가 즉석에서 개선됩니다.[11]
문학.
- Fischer, Asja; Igel, Christian (2012), "An Introduction to Restricted Boltzmann Machines", Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, Lecture Notes in Computer Science, Berlin, Heidelberg: Springer Berlin Heidelberg, vol. 7441, pp. 14–36, doi:10.1007/978-3-642-33275-3_2, ISBN 978-3-642-33274-6, retrieved 2021-09-19
「 」를 참조해 주세요.
레퍼런스
- ^ Smolensky, Paul (1986). "Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory" (PDF). In Rumelhart, David E.; McLelland, James L. (eds.). Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations. MIT Press. pp. 194–281. ISBN 0-262-68053-X.
- ^ Hinton, G. E.; Salakhutdinov, R. R. (2006). "Reducing the Dimensionality of Data with Neural Networks" (PDF). Science. 313 (5786): 504–507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773.
- ^ Larochelle, H.; Bengio, Y. (2008). Classification using discriminative restricted Boltzmann machines (PDF). Proceedings of the 25th international conference on Machine learning - ICML '08. p. 536. doi:10.1145/1390156.1390224. ISBN 9781605582054.
- ^ a b Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Restricted Boltzmann machines for collaborative filtering. Proceedings of the 24th international conference on Machine learning - ICML '07. p. 791. doi:10.1145/1273496.1273596. ISBN 9781595937933.
- ^ Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). An analysis of single-layer networks in unsupervised feature learning (PDF). International Conference on Artificial Intelligence and Statistics (AISTATS).
- ^ a b 루슬란 살라후트디노프와 제프리 힌튼(2010).복제된 softmax: 무방향 토픽 모델.신경 정보 처리 시스템 23.
- ^ Carleo, Giuseppe; Troyer, Matthias (2017-02-10). "Solving the quantum many-body problem with artificial neural networks". Science. 355 (6325): 602–606. arXiv:1606.02318. Bibcode:2017Sci...355..602C. doi:10.1126/science.aag2302. ISSN 0036-8075. PMID 28183973. S2CID 206651104.
- ^ Melko, Roger G.; Carleo, Giuseppe; Carrasquilla, Juan; Cirac, J. Ignacio (September 2019). "Restricted Boltzmann machines in quantum physics". Nature Physics. 15 (9): 887–892. Bibcode:2019NatPh..15..887M. doi:10.1038/s41567-019-0545-1. ISSN 1745-2481.
- ^ a b 미겔 A.Carreira-Perpiánn과 Geoffrey Hinton(2005).대조적인 발산 학습에 대해서.인공지능과 통계.
- ^ Hinton, G. (2009). "Deep belief networks". Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.
- ^ a b c d 제프리 힌튼(2010).제한된 Boltzmann 기계를 교육하기 위한 실무 가이드.UTML TR 2010-003, 토론토 대학교.
- ^ a b Sutskever, Ilya; Tieleman, Tijmen (2010). "On the convergence properties of contrastive divergence" (PDF). Proc. 13th Int'l Conf. On AI and Statistics (AISTATS). Archived from the original (PDF) on 2015-06-10.
- ^ a b 아샤 피셔와 크리스티안 이겔입니다훈련 제한 Boltzmann 기계: 소개 2015-06-10 Wayback Machine에 보관된 자료입니다.패턴 인식 47, 페이지 25-39, 2014
- ^ María Angélica Cueto; Jason Morton; Bernd Sturmfels (2010). "Geometry of the restricted Boltzmann machine". Algebraic Methods in Statistics and Probability. American Mathematical Society. 516. arXiv:0908.4425. Bibcode:2009arXiv0908.4425A.
- ^ 제프리 힌튼(1999년).엑스퍼트의 제품.ICANN 1999.
- ^ Hinton, G. E. (2002). "Training Products of Experts by Minimizing Contrastive Divergence" (PDF). Neural Computation. 14 (8): 1771–1800. doi:10.1162/089976602760128018. PMID 12180402. S2CID 207596505.
외부 링크
- 제한된 Boltzmann 기계 소개Edwin Chen 블로그, 2011년 7월 18일
- "A Beginner's Guide to Restricted Boltzmann Machines". Archived from the original on February 11, 2017. Retrieved November 15, 2018.
{{cite web}}: CS1 maint: bot: 원래 URL 상태를 알 수 없습니다(링크).Deeplearning 4j 문서 - "Understanding RBMs". Archived from the original on September 20, 2016. Retrieved December 29, 2014.. Deeplearning 4j 문서
- Python의 Bernouli RBM 구현 및 튜토리얼
- SimpleRBM은 매우 작은 RBM 코드(24kB)로, RBM의 학습과 동작을 학습하는데 도움이 됩니다.
- Julia의 제한된 Boltzmann 머신 구현: https://github.com/cossio/RestrictedBoltzmannMachines.jl