학습규칙

인공신경망의 학습 규칙 또는 학습 과정은 네트워크의 성능 및/또는 훈련 시간을 향상시키는 방법, 수학 논리 또는 알고리즘이다.보통 이 규칙은 네트워크를 통해 반복적으로 적용된다.특정 데이터 환경에서 네트워크를 시뮬레이션할 때 네트워크의 가중치와 치우침 수준을 업데이트함으로써 수행된다.^[1]학습 규칙은 네트워크의 기존 조건(가중치 및 편향)을 수용할 수 있으며 네트워크의 예상 결과와 실제 결과를 비교하여 가중치와 편향에 대한 새롭고 개선된 값을 제공한다.^[2]시뮬레이션되는 실제 모델의 복잡성에 따라, 네트워크의 학습 규칙은 XOR 게이트나 평균 제곱 오차처럼 단순하거나 미분 방정식의 시스템의 결과처럼 복잡할 수 있다.

학습 규칙은 인공 네트워크를 얼마나 빨리 또는 얼마나 정확하게 개발할 수 있는지를 결정하는 요소 중 하나이다.네트워크 개발 과정에 따라 기계학습의 3가지 주요 모델이 있다.

배경

머신러닝에 있어서 많은 학습방법이 서로 유사하고, 서로에 기반을 두고 있기 때문에 명확한 범주로 분류하기가 어렵다.그러나 이러한 범주는 명확한 경계가 없고 여러 범주의 학습 방법에^[3] 속하는 경향이 있지만, 4가지 범주의 학습 방법에서 광범위하게 이해될 수 있다.

헤비안 - 네오코그니트론, 뇌-상태-인-아-박스^[4]
경사로 강하 - ADALINE, Hopfield Network, Recurrent Neural Network(신경사망)
경쟁력 - 학습 벡터 수량화, 자체 구성 특성 맵, 적응 공진 이론
스토카스틱 - 볼츠만 머신, 카우치 머신

유의할 점은 이러한 학습 규칙이 유사한 생각에 기초하는 것처럼 보일 수 있지만, 이전 규칙에 대한 일반화 또는 적용이기 때문에 미묘한 차이를 가지고 있으며, 따라서 그 기원과 취지에 따라 별도로 연구하는 것이 타당하다는 것이다.

헤비안 러닝

1949년 도널드 헵에 의해 생물학적 뉴런 발화를 묘사하기 위해 개발되었다.1950년대 중반에는 신경망의 컴퓨터 시뮬레이션에도 적용되었다.

$\Delta w_{i}=\eta x_{i}y$

여기서 { { $\displaystyle \eta}$ 은 학습률을 나타내고, x i $\eta$ ${\$ 는 뉴런 i의 입력을 나타내며 $x_{i}$ , y는 뉴런의 출력이다.헵의 기본형태가 불안정한 것으로 나타났다.오자의 법칙, BCM 이론은 생물학적 뉴런의 연구에서 헵의 법칙의 위나 옆에 세워진 다른 학습 규칙이다.

PLR(Perceptron Learning Rule)

수용체 학습 규칙은 헤비안 가정으로부터 유래하며, 프랭크 로젠블라트가 1958년 그의 수용체론에서 사용하였다.네트는 활성화(전송) 함수에 전달되고 함수의 출력은 가중치를 조정하는 데 사용된다.학습신호는 원하는 반응과 뉴런의 실제 반응의 차이점이다.스텝 기능은 활성화 기능으로 자주 사용되며, 출력은 일반적으로 -1, 0 또는 1로 제한된다.

가중치는 다음과 같이 업데이트된다.

$w_{\text{new}}=w_{\text{old}}+\eta (t-o)x_{i}$ $w_{\text{new}}=w_{\text{old}}+\eta (t-o)x_{i}$ = $w_{\text{new}}=w_{\text{old}}+\eta (t-o)x_{i}$ $w_{\text{new}}=w_{\text{old}}+\eta (t-o)x_{i}$ + $w_{\text{new}}=w_{\text{old}}+\eta (t-o)x_{i}$ - $w_{\text{new}}=w_{\text{old}}+\eta (t-o)x_{i}$ ) x $w_{\text{new}}=w_{\text{old}}+\eta (t-o)x_{i}$ ${\$ 여기서 $w_{\text{new}}=w_{\text{old}}+\eta (t-o)x_{i}$ "t"는 perceptron의 출력이고, $\eta$ {\ $displaystyled }$ 은 학습률이라고 한다 $\eta$ .

알고리즘은 다음과 같은 경우 올바른 분류로 수렴된다.

교육 데이터는 선형적으로 분리 가능*
$\eta$ $\eta$ 􏱼 $\eta$ 은 충분히 작지만(일반적으로 $\eta$ $\eta$ $\eta$ 은(는) 학습 시간이 더 길고 시대가 더 길다는 것을 의미함)

*또한 이 학습 규칙을 가진 단일 계층 개념은 선형적으로 분리할 수 없는 입력에 대한 작업이 불가능하므로 XOR 문제는 이 규칙만으로^[6] 해결할 수 없다는 점에 유의해야 한다.

백프로파게이션

1970년 세포 린네마아는 백프로파그 알고리즘을^[7] 개발했다고 하지만 이 알고리즘의 기원은 1960년대로 거슬러 올라간다.이것은 선형 퍼셉트론과 델타 학습 규칙에서 최소 평균 제곱 알고리즘의 일반화다.

그것은 가능한 네트워크 가중치를 통해 목표값과 네트워크 출력 사이의 오차를 반복적으로 감소시킴으로써 구배 강하 검색을 구현한다.

위드로-호프 학습(델타 학습 규칙)

개념론 학습 규칙과 유사하지만 기원은 다르다.주로 훈련 측면에서 Perceptron과는 다른 ADALAINE 네트워크에 사용하기 위해 개발되었다.가중치는 입력값(순)의 가중치 합계에 따라 조정되지만, 과대평가에서는 임계값이 0, -1 또는 +1로 설정되었기 때문에 가중치 합계의 기호가 출력을 결정하는 데 유용했다.이것은 그것을 일반 수용체와는 다르게 만든다.

델타 규칙(DR)은 PLR(Perceptron Learning Rule)과 유사하며, 일부 차이는 다음과 같다.

DR의 오차(Δ)는 (PLR과 같이) 값이 0, 1 또는 -1인 것으로 제한되지 않지만 값이 있을 수 있다.
DR은 다른 모든 출력/활성화 함수 f에 대해 파생될 수 있는 반면, PLR에서는 임계값 출력 함수에만 작동한다.

간혹 위드로-호프를 바이너리 대상에 구체적으로 적용할 때만 델타 룰(Delta Rule)이라고 부르기도 하지만, 그 용어는 서로 교환하여 사용하는 경우가 많은 것 같다.델타 규칙은 백프로포즈 알고리즘의 특별한 경우에 고려된다.

델타 법칙은 또한 파블로비안 조건화가 일어나는 레스콜라-와그너 모델과 매우 흡사하다.^[8]

경쟁력 있는 학습

경쟁 학습은 헤비안 학습의 변형으로 여겨지지만, 따로 논할 만큼 특별하다.경쟁 학습은 네트워크의 각 노드의 전문화를 증가시킴으로써 효과가 있다.데이터 내의 클러스터를 찾는데 적합하다.

경쟁학습의 원리에 기초한 모델과 알고리즘에는 벡터 정량화와 자기조직화 지도(코오넨 지도)가 있다.

참고 항목

참조

^ Simon Haykin (16 July 1998). "Chapter 2: Learning Processes". Neural Networks: A comprehensive foundation (2nd ed.). Prentice Hall. pp. 50–104. ISBN 978-8178083001. Retrieved 2 May 2012.
^ S Russell, P Norvig (1995). "Chapter 18: Learning from Examples". Artificial Intelligence: A Modern Approach (3rd ed.). Prentice Hall. pp. 693–859. ISBN 0-13-103805-2. Retrieved 20 Nov 2013.
^ Rajasekaran, Sundaramoorthy. (2003). Neural networks, fuzzy logic, and genetic algorithms : synthesis and applications. Pai, G. A. Vijayalakshmi. (Eastern economy ed.). New Delhi: Prentice-Hall of India. ISBN 81-203-2186-3. OCLC 56960832.
^ Golden, Richard M. (1986-03-01). "The "Brain-State-in-a-Box" neural model is a gradient descent algorithm". Journal of Mathematical Psychology. 30 (1): 73–80. doi:10.1016/0022-2496(86)90043-X. ISSN 0022-2496.
^ Sivanandam, S. N. (2007). Principles of soft computing. Deepa, S. N. (1st ed.). New Delhi: Wiley India. ISBN 978-81-265-1075-7. OCLC 760996382.
^ Minsky, Marvin, 1927-2016. (1969). Perceptrons; an introduction to computational geometry. Papert, Seymour. Cambridge, Mass.: MIT Press. ISBN 0-262-13043-2. OCLC 5034.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)
^ Schmidhuber, Juergen (January 2015). "Deep Learning in Neural Networks: An Overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
^ Rescorla, Robert (2008-03-31). "Rescorla-Wagner model". Scholarpedia. 3 (3): 2237. Bibcode:2008SchpJ...3.2237R. doi:10.4249/scholarpedia.2237. ISSN 1941-6016.

[Simon_Haykin-1] Simon Haykin (16 July 1998). "Chapter 2: Learning Processes". Neural Networks: A comprehensive foundation (2nd ed.). Prentice Hall. pp. 50–104. ISBN 978-8178083001. Retrieved 2 May 2012.

[S_Russell,_P_Norvig-2] S Russell, P Norvig (1995). "Chapter 18: Learning from Examples". Artificial Intelligence: A Modern Approach (3rd ed.). Prentice Hall. pp. 693–859. ISBN 0-13-103805-2. Retrieved 20 Nov 2013.

[3] Rajasekaran, Sundaramoorthy. (2003). Neural networks, fuzzy logic, and genetic algorithms : synthesis and applications. Pai, G. A. Vijayalakshmi. (Eastern economy ed.). New Delhi: Prentice-Hall of India. ISBN 81-203-2186-3. OCLC 56960832.

[4] Golden, Richard M. (1986-03-01). "The "Brain-State-in-a-Box" neural model is a gradient descent algorithm". Journal of Mathematical Psychology. 30 (1): 73–80. doi:10.1016/0022-2496(86)90043-X. ISSN 0022-2496.

[5] Sivanandam, S. N. (2007). Principles of soft computing. Deepa, S. N. (1st ed.). New Delhi: Wiley India. ISBN 978-81-265-1075-7. OCLC 760996382.

[6] Minsky, Marvin, 1927-2016. (1969). Perceptrons; an introduction to computational geometry. Papert, Seymour. Cambridge, Mass.: MIT Press. ISBN 0-262-13043-2. OCLC 5034.{{cite book}}: CS1 maint : 복수이름 : 작성자 목록(링크)

[7] Schmidhuber, Juergen (January 2015). "Deep Learning in Neural Networks: An Overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.

[8] Rescorla, Robert (2008-03-31). "Rescorla-Wagner model". Scholarpedia. 3 (3): 2237. Bibcode:2008SchpJ...3.2237R. doi:10.4249/scholarpedia.2237. ISSN 1941-6016.

[1]

[2]

[3]

[4]

[6]

[7]

[8]

Search