뉴럴 네트워크 가우스 프로세스

Neural network Gaussian process
왼쪽: 2개의 숨겨진 레이어가 있는 베이지안 뉴럴 네트워크. 3차원 입력(아래)을 2차원 출력1, )으로 변환합니다 displaystyle{1{2).오른쪽: 출력 확률 밀도 p ( 1, ){ p } 。비디오: 네트워크의 폭이 커짐에 따라 출력 분포가 간소화되어 최종적으로 무한폭 제한의 다변량 정규값으로 수렴됩니다.

베이지안 네트워크는 사건에 확률을 할당하여 모델 예측의 불확실성을 특징짓기 위한 모델링 도구이다. 러닝과 인공 신경망은 기계 학습에서 훈련 예에서 배우는 계산 모델을 구축하기 위해 사용되는 접근법이다.베이지안 신경망은 이러한 필드를 병합합니다.매개 변수와 예측이 모두 [1][2]확률적인 인공 신경망의 일종이다.표준 인공 신경망은 종종 잘못된 [3]예측에도 높은 신뢰도를 할당하지만, 베이지안 신경망은 예측이 얼마나 정확할지를 더 정확하게 평가할 수 있다.

NNGP(Neural Network Gausian Processes)는 특정 [4][5][6][7][8][9][10][11][12]제한에서 베이지안 신경 네트워크와 동등하며 베이지안 신경 네트워크를 평가하기 위한 폐쇄형 방식을 제공합니다.그것들은 대응하는 베이지안 신경망에 의해 만들어진 예측에 대한 분포를 설명하는 가우스 공정 확률 분포입니다.인공 신경망의 연산은 보통 인공 뉴런의 순차적 층으로 구성된다.층에 있는 뉴런의 수는 층폭이라고 불립니다.NNGP와 베이지안 뉴럴 네트워크 사이의 등가는 베이지안 뉴럴 네트워크의 레이어가 무한히 넓어졌을 때 발생합니다(그림 참조).이 넓은 폭의 제한은 실용적으로 중요합니다.이는 일반적으로 유한 폭의 뉴럴 네트워크가 레이어 [13][14][8][15]폭의 증가에 따라 엄격하게 더 나은 성능을 발휘하기 때문입니다.

NNGP는 또한 몇 가지 다른 맥락에서 나타난다. NNGP는 매개변수의 무작위 초기화 후, 그러나 훈련 전에 광범위한 비베이지안 인공 신경 네트워크에 의해 만들어진 예측에 대한 분포를 설명한다. NNGP는 신경 접선 커널 예측 방정식의 용어로 나타난다. NNGP를 특징짓기 위해 심층 정보 전파에 사용된다.그녀의 하이퍼 파라미터와 아키텍처는 훈련할 [16]수 있을 것이다.이는 신경망의 다른 큰 폭 제한과 관련이 있다.

만화 일러스트

무한폭 네트워크의 p로부터 반복 샘플링 했을 경우, 네트워크 출력상의 분포는 가우스 프로세스에 의해서 기술됩니다.

뉴럴 네트워크의 파라미터(\ 모든 설정은 뉴럴 네트워크에서 계산한 특정 함수에 해당합니다.따라서 뉴럴 네트워크 파라미터에 대한 이전 p p 네트워크에 의해 계산된 함수에 대한 이전 분포에 대응합니다.신경망이 무한히 넓어짐에 따라, 함수에 대한 이러한 분포는 많은 아키텍처에서 가우스 프로세스로 수렴됩니다.

오른쪽 그림은 neural network의 2개의 x x{\ x 대한 1차원 z L (; ; ) ( \ z^ L ( \ ; \ theta ;) )을 서로 비교한 그림입니다.검은색 점은 p( ) \ p)에서의 파라미터 랜덤 드로잉에 대해 이들 입력의 뉴럴 네트워크에 의해 계산된 함수를 나타냅니다.빨간색 선은 L( ; z^ { ; \) } L( ; }( \ z^ { * } ( x ^ { * } ; \ 에 의해 유도되는 Iso-probility 등고선입니다.이는 파라미터 공간의 p p 대응하는 함수 공간의 분포이며, 검은색 점은 이 분포에서 얻은 샘플입니다.무한히 넓은 신경망의 경우, 신경망에 의해 계산된 함수에 대한 분포는 가우스 프로세스이므로 네트워크 출력에 대한 공동 분포는 유한한 네트워크 입력 집합에 대한 다변량 가우스이다.

이 항에서 사용하는 표기법은 NNGP와 완전히 연결된 네트워크 간의 대응관계를 도출하기 위해 사용하는 표기법과 동일합니다.자세한 내용은 이 항에서 확인할 수 있습니다.

NNGP에 대응하는 아키텍처

무한히 넓은 베이 시안로는 신경 네트워크와 NNGPs 사이의 등가 단 하나의 숨겨진 layer[4]:을 층마다 장치의 숫자가 무한대에 실려 간다게 완전히 연결된 네트워크 deep[6][7]를 열기로, 채널의 숫자로 나선형의. 신경 네트워크가 무한대에 실려 간다;다는 것을 보였다 att의 숫자로[8][9][10]변압기 네트워크.주목 머리는 taken to infinite.[17] 유닛 수가 [12]무한대로 되면 네트워크가 반복됩니다.실제로 이 NNGP 대응은 거의 모든 아키텍처에 적용됩니다.일반적으로 아키텍처가 행렬 곱셈과 좌표적 비선형성(텐서 프로그램)을 통해서만 표현될 수 있다면, 무한 폭 [12]GP를 가진다.특히 여기에는 다층 퍼셉트론, 반복신경망(예를 들어 LSTM, GRU), (nD 또는 그래프) 컨볼루션, 풀링, 건너뛰기 연결, 주의, 배치 정규화 및/또는 층 정규화로 구성된 모든 피드포워드 또는 반복신경망이 포함된다.

무한히 넓은 완전 접속 네트워크와 가우스 프로세스 간의 대응

이 섹션에서는 완전히 연결된 아키텍처의 특정 사례에 대해 무한히 넓은 뉴럴 네트워크와 가우스 프로세스 간의 대응 관계를 확장합니다.이 문서에서는 대응이 유지되고 있는 이유를 나타내는 증명 스케치를 제공하고 완전히 연결된 네트워크에 대한 NNGP의 특정 기능 형식을 소개합니다.입증 스케치는 2018년 [8]Novak 의 접근방식을 따른다.

네트워크 아키텍처 사양

NNGP는 이 완전히 연결된 아키텍처를 가진 베이지안 뉴럴 네트워크와 동등한 것으로 도출된다.

네트워크 내의 각 대한 W l W b lb 구성된 입력(\x(\displaystyle \를 가진 완전히 연결된 인공 신경망을 고려합니다.(\z^{ 액티베이션(비선형성 ) y (\y 포인트별 ( )및 레이어 n (\ n간단히 하기 위해 N + 1n^{l+1)(는) 1로 간주됩니다.이 네트워크의 모수에는 사전 p p가 있습니다.이 분포는 각 무게와 바이어스에 대해 등방성 가우스이며 레이어 폭에 반비례하여 스케일링된 무게의 분산입니다.이 네트워크는 오른쪽 그림에 나타나 있으며 다음 방정식 세트로 설명되어 있습니다.

y \ z y 가우스 프로세스입니다.

먼저 사전 l{\l}은(는) 앞의 {\에 따라 조정된 가우스 프로세스에 의해 설명된다는 것을 알 수 있습니다.이 결과는 한정된 폭에서도 유지됩니다.각 사전 l {\ l { l{\에 해당하는 가우스 랜덤 변수의 가중치 합이다. 여기서 각 가우스 변수의 계수는 선행 이다. l{\j}^ (\l})는 0-평균 가우시안입니다( 에 따라 다름).l{\ z {\ y 에 대해 공통으로 가우스이므로 이전 y {\ y에 따라 가우스 프로세스에 의해 기술됩니다.이 가우스 프로세스의 공분산 또는 커널은 무게 및 바이어스 분산 w \w}^} 2 {\ \ _{및 이전 번째 모멘트 K {\K 따라 달라집니다

무게 척도 w{\ \ _ 효과는 모든 입력에 대해 편중이 공유되는 동안 K{\ K에서 공분산 행렬에 대한 기여도를 재조정하는 것입니다. 따라서 {\ _l2}}^{l}}^{l}}}}}}^2}^2}^2}^2}^2}}}}}는 차이를 나타낸다.nt 데이터 점이 더 비슷하고 공분산 행렬이 상수 행렬과 더 비슷합니다.

l \ z 가우스 프로세스입니다.

사전 l{\l}은(는) 모멘트 행렬 K l {\ K에서 y에만 합니다. 따라서 z { z 조건이 아닌 l{\에 따른 가우스 라고 할 수 있습니다.ned {\

n l { ^ { l } \ \ infty -1 { ^ { } \ ^ { - 1 }이 결정론이 됩니다.

l \ K^ { }은 \ y { l}의 두 번째 모멘트 행렬이며, l \ y { l }은 { \ \ phi를 적용한 후의 활성화 이므로 ( l -) \ \ { 로 대체할 수 있습니다. l -1(\^{L> 0(\ l K 수정된 방정식이 생성됩니다.

l - l - ({ z 이미 가우스 프로세스라고 판단했습니다., Kl을 하는 합계({ K 1 K 함수인 가우스 프로세스에서 얻은 ({ n 에 대해 평균입니다.

레이어 {\ n 무한대로 진행됨에 따라 가우스 프로세스의 n개 이 평균은 가우스 프로세스의 적분으로 대체될 수 있습니다.

따라서 무한폭 제한에서는 x(\ x x x 쌍에 대한 두 번째 모멘트 K { K () style 곱에 대한 적분으로 표현할 수 있습니다 ( ) { ( \ ) }가 ReLU,[18] ELU,[19] GELU 또는[5] 오류 함수의 비선형성인 경우 등 분석적으로 해결된 여러 상황이 있습니다.해석적으로 해결할 수 없는 경우에도 2D 적분이기 때문에 일반적으로 [6]수치적으로 효율적으로 계산할 수 있습니다. 적분은 이므로 K -({ K 결정론적이다.

줄여서 함수(\ F를 정의합니다.이것은 모든 입력 쌍에 이 2d 적분을 계산하고 -(\ K^{l-1})을K l(\ Kl.

L {\ z x NNGP입니다.

l l -1 { K^ {l } \ mid {} 이 n l { ^ {l } \ \infty K { KL} 이 결정론적 함수로 재귀적으로 기술할 수 .

서 F L{\ F 기능를 순차적으로 {\ L 적용하는 것을 나타냅니다.이 식을 입력층 제2모멘트 K θ) 0 i i { 0 , x , x ' ) = { 1 } { { 0 } { n } { n } { n } { n _ _ { } _ x _{ i } { i } } } } { i is { } is is is ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ z 가우스 프로세스이며, 뉴럴 네트워크의 출력은 입력 측면에서 가우스 프로세스로 표현될 수 있습니다.

소프트웨어 라이브러리

Neural Tangents는 다양한 공통 ANN 아키텍처에 대응하는 NNGP 및 Neural Tangent [20]커널로 계산 및 추론을 위해 사용되는 자유 오픈 소스 Python 라이브러리입니다.

레퍼런스

  1. ^ MacKay, David J. C. (1992). "A Practical Bayesian Framework for Backpropagation Networks". Neural Computation. 4 (3): 448–472. doi:10.1162/neco.1992.4.3.448. ISSN 0899-7667. S2CID 16543854.
  2. ^ Neal, Radford M. (2012). Bayesian Learning for Neural Networks. Springer Science and Business Media.
  3. ^ Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (2017). "On calibration of modern neural networks". Proceedings of the 34th International Conference on Machine Learning-Volume 70. arXiv:1706.04599.
  4. ^ a b Neal, Radford M. (1996), "Priors for Infinite Networks", Bayesian Learning for Neural Networks, Lecture Notes in Statistics, vol. 118, Springer New York, pp. 29–53, doi:10.1007/978-1-4612-0745-0_2, ISBN 978-0-387-94724-2
  5. ^ a b Williams, Christopher K. I. (1997). "Computing with infinite networks". Neural Information Processing Systems.
  6. ^ a b c Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2017). "Deep Neural Networks as Gaussian Processes". International Conference on Learning Representations. arXiv:1711.00165. Bibcode:2017arXiv171100165L.
  7. ^ a b G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E.; Ghahramani, Zoubin (2017). "Gaussian Process Behaviour in Wide Deep Neural Networks". International Conference on Learning Representations. arXiv:1804.11271. Bibcode:2018arXiv180411271M.
  8. ^ a b c d Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). "Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes". International Conference on Learning Representations. arXiv:1810.05148. Bibcode:2018arXiv181005148N.
  9. ^ a b Garriga-Alonso, Adrià; Aitchison, Laurence; Rasmussen, Carl Edward (2018). "Deep Convolutional Networks as shallow Gaussian Processes". International Conference on Learning Representations. arXiv:1808.05587. Bibcode:2018arXiv180805587G.
  10. ^ a b Borovykh, Anastasia (2018). "A Gaussian Process perspective on Convolutional Neural Networks". arXiv:1810.10798 [stat.ML].
  11. ^ Tsuchida, Russell; Pearce, Tim; van der Heide, Christopher; Roosta, Fred; Gallagher, Marcus (2020). "Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks". arXiv:2002.08517 [cs.LG].
  12. ^ a b c Yang, Greg (2019). "Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes" (PDF). Advances in Neural Information Processing Systems. arXiv:1910.12478. Bibcode:2019arXiv191012478Y.
  13. ^ Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). "Sensitivity and Generalization in Neural Networks: an Empirical Study". International Conference on Learning Representations. arXiv:1802.08760. Bibcode:2018arXiv180208760N.
  14. ^ Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (2016-11-04). "An Analysis of Deep Neural Network Models for Practical Applications". arXiv:1605.07678. Bibcode:2016arXiv160507678C. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  15. ^ Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). "Towards understanding the role of over-parametrization in generalization of neural networks". International Conference on Learning Representations. arXiv:1805.12076. Bibcode:2018arXiv180512076N.
  16. ^ Schoenholz, Samuel S.; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha (2016). "Deep information propagation". International Conference on Learning Representations. arXiv:1611.01232.
  17. ^ Hron, Jiri; Bahri, Yasaman; Sohl-Dickstein, Jascha; Novak, Roman (2020-06-18). "Infinite attention: NNGP and NTK for deep attention networks". International Conference on Machine Learning. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.
  18. ^ Cho, Youngmin; Saul, Lawrence K. (2009). "Kernel Methods for Deep Learning". Neural Information Processing Systems. 22: 342–350.
  19. ^ Tsuchida, Russell; Pearce, Tim; van der Heide, Christopher; Roosta, Fred; Gallagher, Marcus (2020). "Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks". arXiv:2002.08517 [cs.LG].
  20. ^ Novak, Roman; Xiao, Lechao; Hron, Jiri; Lee, Jaehoon; Alemi, Alexander A.; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019-12-05), "Neural Tangents: Fast and Easy Infinite Neural Networks in Python", International Conference on Learning Representations (ICLR), vol. 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N