브레그만 발산

Bregman divergence

수학, 특히 통계학정보 기하학에서, Bregman difference 또는 Bregman distance는 두 점 사이의 차이를 측정하는 척도로, 엄격히 볼록한 함수의 관점에서 정의된다. 그것들은 분기의 중요한 부류를 형성한다.점이 확률 분포(특히 모수 모형의 모수 값 또는 관측된 값의 데이터 집합)로 해석되는 경우, 결과 거리는 통계적 거리가 된다.가장 기본적인 브레그먼의 차이는 유클리드 거리 제곱이다.null

브레그만 분수는 측정 기준과 유사하지만 삼각 불평등(언제나)과 대칭(일반적으로)을 모두 만족시키지 못한다.그러나 그들은 피타고라스 정리의 일반화를 만족시키고, 정보 기하학에서 해당 통계 다지관은 (다지) 평판 다지관으로 해석된다.이를 통해 최소 제곱의 일반화로서 기하학적으로 Bregman 다이버전스에 최적화 이론의 많은 기법이 일반화될 수 있다.null

브레그만 다이버전스는 1967년 이 개념을 도입한 레프 M. 브레그만의 이름을 따서 명명되었다.null

정의

:→ R }은(는) 닫힌 볼록 세트 에 정의된 연속적으로 구별 가능하고 엄격히 볼록한 함수

포인트 , 에 대한 F와 관련된 Bregman 거리는 포인트 p에서의 F 값과 포인트 p:에서 평가한 포인트 q 주변의 F의 1차 확장 Taylor의 값 사이의 차이다.

특성.

  • 비부정성: p, q에 대해 D ,) {\이것은 F의 대류도의 결과물이다.
  • 볼록함: ( ,) 은(는) 첫 번째 인수에서는 볼록하지만 두 번째 인수에서는 반드시 볼록하지 않다( 참조).
  • 선형성:Bregman 거리를 함수 F의 연산자로 생각하면 음이 아닌 계수에 대해 선형이다. 에 대해서는 2 }} 엄격히 볼록하고 구별이 가능하며, 0
  • 이중성:F함수는 볼록결합 Fhas F에 대해 된 Bregman 거리는 F ,) 와 흥미로운 관계를 갖는다.
여기서 = ( p) = F ( p와 q에 해당하는 이중점이다.
  • 미니마이저로서의 평균: Bregman 분리에 대한 주요 결과는 랜덤 벡터가 주어진 경우, 평균 벡터는 무작위 벡터로부터 예상되는 Bregman 분산을 최소화하는 것이다.이 결과는 집합의 평균이 집합의 원소에 대한 총 제곱 오차를 최소화하는 교과서 결과를 일반화한다.이 결과는 (Banerjee et al. 2005)에 의해 벡터 케이스에 대해 입증되었고 (Frigyik et al. 2008)에 의해 기능/분산의 케이스로 확장되었다.이 결과는 특히 베이지안 추정에서 랜덤 집합의 대표로서 평균을 사용하는 것을 더욱 정당화하기 때문에 중요하다.
  • 코사인 법칙:[2]

p , , {\에 대해

  • 일반화된 피타고라스 정리:[3]

Consider the "Bregman projection" of onto a convex set : . The Bregman divergence is an obtuse triangle in the sense

  • Squared Euclidean distance is the canonical example of a Bregman distance, generated by the convex function
  • The squared Mahalanobis distance, which is generated by the convex function 이것은 위 제곱 유클리드 거리의 일반화라고 생각할 수 있다.
  • 일반화된 Kullback-Leibler의 차이
음의 엔트로피 함수에 의해 생성됨
볼록함수에 의해 생성된다.

투영 이중성 일반화

컴퓨터 기하학의 핵심 도구는 투영적 이중성의 개념으로, 발생률과 신뢰도 이상의 관계를 유지하면서 하이퍼플레인과 그 반대의 경우를 가리킨다.There are numerous analytical forms of the projective dual: one common form maps the point to the hyperplane .This mapping can be interpreted (identifying the hyperplane with its normal) as the convex conjugate mapping that takes the point p to its dual point , where F defines the d-dimensional paraboloid .

이제 임의 볼록함수로 파라볼로이드를 대체하면 표준 투영 이중의 발생률과 상층 특성을 유지하는 다른 이중 매핑을 얻는다.이는 보로노이 다이어그램델라오나이 삼각측량 같은 계산 기하학에서 자연적인 이중 개념들이 임의의 브레그만 분리에 의해 정의된 거리 공간에서 그 의미를 간직하고 있음을 암시한다.따라서 "정상" 기하학의 알고리즘은 이러한 공간에 직접 확장된다(Boissonnat, Nielsen 및 Nock, 2010).

브레그만 다이버전스 일반화

브레그먼 다이버전스는 옌센 다이버전스의 제한된 사례로 해석할 수 있다(닐슨과 볼츠, 2011 참조).젠센 다이버전스는 비교 볼록도를 사용하여 일반화할 수 있으며, 이러한 왜곡된 젠센 다이버전의 제한적인 경우는 일반화된 브레그만 다이버전스를 산출한다(닐슨과 녹, 2017 참조).브레그만 화음 분비는[4] 접선 대신 화음을 취함으로써 얻는다.null

다른 물체에 대한 Bregman 발산

브레그만 분리는 행렬, 함수 사이, 조치 간(분산)에도 정의될 수 있다.브레그먼이 매트릭스 사이에 분리한 것은 스타인의 상실과 폰 노이만 엔트로피를 포함한다.함수 간 브레그만 분리는 총 제곱 오차, 상대 엔트로피 및 편향 제곱을 포함한다. 정의와 속성은 아래 Frigyik 등.의 참조를 참조한다.마찬가지로 Bregman 다이버전스도 볼록함수의 이산 아날로그로 알려진 하위모듈러 집합함수를 통해 집합에 걸쳐 정의되었다.서브모듈라 Bregman 다이버전스는 해밍 거리, 정밀도 리콜, 상호 정보 및 기타 설정 기반 거리 측정과 같은 여러 이산 거리 측정값을 소급한다(Iyer & Bilmes, 2012 참조).null

일반 행렬 Bregman 다이버전스 목록은 표 15.1 in을 참조하십시오.[5]null

적용들

머신러닝에서 Bregman 다이버전스는 데이터세트가 소음이 많은 소프트맥스 기능보다 더 뛰어난 성능을 발휘하며, 바이성 로지스틱 손실을 계산하는 데 사용된다.[6]null

참조

  1. ^ H. Bauschke와 J. Borwein의 D.에 의한 "브레그만 거리의 공동 및 분리 볼록도"부트나리우, Y.검열관, 그리고 S.Reich, 편집자, Ematically Parallel Algorithm in Optimization and the Applications, Exvier 2001
  2. ^ https://www.cs.utexas.edu/users/inderjit/Talks/bregtut.pdf
  3. ^ https://www.cs.utexas.edu/users/inderjit/Talks/bregtut.pdf
  4. ^ Nielsen, Frank; Nock, Richard (2019). "The Bregman Chord Divergence". Geometric Science of Information. Lecture Notes in Computer Science. Vol. 11712. pp. 299–308. arXiv:1810.09113. doi:10.1007/978-3-030-26980-7_31. ISBN 978-3-030-26979-1. S2CID 53046425.
  5. ^ "매트릭스 정보 기하학", R. 녹, B. 막달루, E. 브리, F.닐슨, pdf, 이 의 내용
  6. ^ 에산 아미드, 만프레드 K.워무트, 로한 아닐, 토머 코렌(2019년)."Bregman 다이버전스에 기반한 로버스트성 로지스틱 손실".신경 정보 처리 시스템에 관한 회의. 페이지 14987-14996. pdf