LogSumExp

LogSumExp

LSE(LogSumExp)(RealSoftMax[1] 또는 다변량 소프트플러스라고도 함) 기능최대 기능에 대한 부드러운 최대값 - 주로 기계 학습 알고리즘에 의해 사용된다.[2]이 값은 다음과 같은 인수의 지수 합계의 로그로 정의된다.

특성.

LogSumExp 함수 도메인실제 좌표 공간 n {\displaystyle 이며, 코드메인은 실제 선인{\ \이다. 에 대한 근사값이며, 범위는 다음과 같다.

= 이 아닌 한 첫 번째 불평등은 엄격하다두 번째 불평등은 모든 주장이 동일하지 않는 한 엄격하다. (증거:Let = x 그런 다음 () i = (x ) () 불평등에 로그인을 적용하면 결과가 나온다.)

게다가, 우리는 한계를 더 촘촘하게 만들기 위해 기능을 확장할 수 있다. S ( ){\{\{1을(를 고려하십시오.그러면

(proof: 위의 불평등에서 일부 > 대해 각 교체하여 다음을 하십시오.

, > 0 t 이후부터

마지막으로 로 나누면 결과가 나온다.

또한 대신 음수로 곱하면 당연히 함수와 비교할 수 있다.

LogSumExp 기능은 볼록하며, 그 영역의 모든[3] 곳에서 엄격히 증가하고 있다(그러나 모든 곳에서[4] 볼록하지 않다).

=( x ,, n ), 부분파생상품 다음과 같다.

즉, LogSumExp의 구배소프트맥스 기능이다.

LogSumExp의 볼록 결합음의 엔트로피다.

로그 도메인 계산을 위한 로그섬 확장 트릭

LSE 함수는 로그 확률에서와 같이 로그 척도로 일반적인 산술 연산이 수행될 때 자주 접하게 된다.[5]

선형 스케일의 곱셈 연산이 로그 스케일의 단순한 추가가 되는 것과 마찬가지로, 선형 스케일의 추가 연산은 로그 스케일의 LSE가 된다.

로그 영역 계산을 사용하는 일반적인 목적은 매우 작거나 매우 큰 숫자가 한정된 정밀 부동 소수점 번호를 사용하여 직접 표시될 때(즉, 선형 도메인에서) 정확도를 높이고 과소 흐름 및 오버플로 문제를 방지하는 것이다.[6]

불행하게도, 이 경우에 직접 LSE를 사용하는 것은 다시 오버플로/과잉 문제를 일으킬 수 있다.따라서 (특히 위의 'max' 근사치의 정확도가 충분하지 않은 경우) 대신 다음과 같은 동등한 것을 사용해야 한다.따라서 IT++와 같은 많은 수학 라이브러리는 LSE의 기본 루틴을 제공하며 이 공식을 내부적으로 사용한다.

여기서 = { 1,, x {\cH00

엄격히 볼록한 로그섬 확장형 함수

LSE는 볼록하지만 엄격히 볼록하지는 않다.0으로 설정된 추가 인수를 추가하여 엄격히 볼록한 로그섬 확장형 함수를[7] 정의할 수 있다.

이 기능은 적절한 Bregman 발생기(강력하게 볼록하고 차별화됨)이다.예를 들어 다항식/이항식 계열의 적혈구로서 기계학습에서 접하게 된다.

열대 분석에서, 이것은 로그의 의미에 있는 합이다.

참고 항목

참조

  1. ^ Zhang, Aston; Lipton, Zack; Li, Mu; Smola, Alex. "Dive into Deep Learning, Chapter 3 Exercises". www.d2l.ai. Retrieved 27 June 2020.
  2. ^ Nielsen, Frank; Sun, Ke (2016). "Guaranteed bounds on the Kullback-Leibler divergence of univariate mixtures using piecewise log-sum-exp inequalities". Entropy. 18: 442. arXiv:1606.05850. Bibcode:2016Entrp..18..442N. doi:10.3390/e18120442. S2CID 17259055.
  3. ^ El Ghaoui, Laurent (2017). Optimization Models and Applications.
  4. ^ "convex analysis - About the strictly convexity of log-sum-exp function - Mathematics Stack Exchange". stackexchange.com.
  5. ^ McElreath, Richard. Statistical Rethinking. OCLC 1107423386.
  6. ^ "Practical issues: Numeric stability". CS231n Convolutional Neural Networks for Visual Recognition.{{cite web}}: CS1 maint : url-status (링크)
  7. ^ Nielsen, Frank; Hadjeres, Gaetan (2018). "Monte Carlo Information Geometry: The dually flat case". arXiv:1803.07225. Bibcode:2018arXiv180307225N. {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)