베이지안적 커널 정규화 해석

Bayesian interpretation of kernel regularization

기계 학습에 대한 베이지안 통계에서, 커널 방법은 입력에 대한 내부 제품 공간이나 유사성 구조의 가정으로부터 발생한다.서포트 벡터 머신(SVM)과 같은 일부 방법의 경우, 원래 제형과 그 정규화는 본질적으로 베이시안식이 아니었다.베이지안 관점에서 그들을 이해하는 것은 도움이 된다.커널은 반드시 양성의 세미데핀이 아니기 때문에, 기초적인 구조는 내부 제품 공간이 아니라 커널 힐버트 공간을 보다 보편적으로 재현하는 것일 수 있다.베이지안 확률 커널 방법은 가우스 프로세스의 핵심 구성 요소로서 커널 함수를 공분산 함수로 한다.커널 방법은 전통적으로 입력 공간벡터의 공간인 반면 출력 공간스칼라의 공간감독 학습 문제에서 사용되어 왔다.최근에는 이러한 방법들이 멀티태스킹 학습과 같이 여러 출력을 다루는 문제로까지 확대되었다.[1]

정규화와 베이지안 관점 사이의 수학적 동등성은 재생성 커널 힐버트 공간이 유한한 경우에 쉽게 증명된다.무한 차원 사례는 미묘한 수학 문제를 제기한다; 우리는 여기서 유한 차원 사례를 고려할 것이다.스칼라 학습을 위한 커널 방법의 기초가 되는 주요 아이디어에 대한 간략한 검토부터 시작해, 정규화 및 가우스 프로세스 개념을 간략히 소개한다.그런 다음 우리는 어떻게 두 관점이 본질적으로 동등한 추정기에 도달하는지 보여주고, 그것들을 서로 연결하는 연결점을 보여준다.

감독되는 학습 문제

고전적인 감독 학습 문제는으로 구성된 교육 S 에 기초하여 스칼라 값 추정기 ( 를 학습하여 새로운 입력 x{{\ {의 출력을 추정할 필요가 있다.N}입출력 쌍, S)(X, Y))(x1,1y),…,(), yn){\displaystyle S=(\mathbf{X}{Y},\mathbf)=(\mathbf{x}_{1},y_{1}),\ldots ,(\mathbf{x}_{n},y_{n})}.[2]을 감안할 때는 대칭과 긍정적인 bivariate 기능 k(⋅, ⋅){\displaystyle k(\cdot ,\cdot)}라고 부르는 커널, 하나의 대부분의.pt기계학습에 있어서 입상 추정기는 다음에 의해 주어진다.

(1)

where is the kernel matrix with entries , , and . We will see how this estimator can be derived both from a regularization and a Bayesian perspective.

정규화 관점

정규화 관점에서 주요 가정은 함수 {이(가) 재생성 커널 Hilbert space H {에 속하는 것으로 가정한다[2][3][4][5]

커널 힐버트 공간 재현

A reproducing kernel Hilbert space (RKHS) is a Hilbert space of functions defined by a symmetric, positive-definite function called the reproducing kernel such that the function ,) k은(는) 모든 }\ 대해를 호소하는 세 가지 주요 속성이 있다[6][7][8]

1. 공간에 이름을 붙이는 재생 속성,

여기서 k k k k{\{\의 내제품이다

2. RKHS의 기능은 주어진 지점에서 커널의 선형 결합의 폐쇄에 있다.

( )= i ( , x) x

이를 통해 선형 및 일반화된 선형 모델의 통일된 프레임워크에서의 구축을 가능하게 한다.

3. RKHS의 표준 제곱은 다음과 같이 쓸 수 있다.

기능의 복잡성을 측정하는 것으로 볼 수 있다.

정규화된 기능

추정기는 정규화된 기능의 최소제로서 도출된다.

(2)

_k}}는 H k 의 표준이다( f 사이의 오차 제곱의 평균을 측정하는 이 기능에서의 첫 번째 용어는 위험이라고 하며 f( f(\ {_i}}})를 예측하여 우리가 지불하는 비용을 나타낸다.참 값 기능에서 두 번째 용어는 RKHS의 표준 제곱에 중량 \을 곱한 것이며, 추정기의[3][5] 피팅과 복잡성 사이의 트레이드오프를 추가하는 것을 목적으로 한다.[2]레귤라이저라고 불리는중량 {\은 추정기의 불안정성과 복잡성에 대해 처벌해야 하는 정도를 결정한다의 값을 증가시키면 더 높은 벌금이 부과된다).

추정기의 유도

등식 (1)의 추정기의 명시적 형태는 두 단계로 도출된다.첫째로, 대표자[9][10][11] 정리에서는 기능적(2)의 최소화가 항상 훈련 세트 포인트를 중심으로 한 커널의 선형 결합으로 작성될 수 있다고 명시한다.

(3)

일부 에 대해계수 =[ 1,… ,c 의 명시적 형식을 기능 (2)에서 ( f )를 대체하면알 수 있다.(3)식의 형태 함수에 대해서는 다음과 같은 것을 가지고 있다.

기능(2)을 다음과 같이 다시 쓸 수 있다.

이 기능은 에서 볼록하므로 대한 그라데이션 설정을 통해 최소값을 찾을 수 있다.

식을 등식 (3)의 계수에 대입하여 앞에서 등식 (1)에 기술된 추정기를 구한다.

베이시안적 관점

커널의 개념은 가우스 과정이라 불리는 확률적 과정의 공분산 함수로서 베이시안 확률에 결정적인 역할을 한다.

베이지안 확률에 대한 고찰

베이시안 프레임워크의 일부로, 가우스 프로세스는 모델링되는 함수의 속성에 대한 이전의 신념을 설명하는 사전 분포를 명시한다.이러한 믿음은 관찰과 이전의 믿음을 연관시키는 우도함수를 이용하여 관찰 데이터를 고려한 후에 갱신된다.이전 분포와 가능성을 종합하면, 시험 사례를 예측하는 데 관례적으로 사용되는 후방 분포라고 하는 최신 분포가 나타난다.

가우스 과정

가우스 공정(GP)은 표본을 추출한 유한한 수의 랜덤 변수가 공동 정규 분포를 따르는 확률적 공정이다.[12]가우스 분포의 평균 벡터 및 공분산 행렬은 GP를 완전히 명시한다. GP는 대개 함수의 선행 분포로 사용되며, 따라서 평균 벡터 및 공분산 행렬은 함수로 볼 수 있는데, 여기서 공분산 함수를 GP의 커널이라고도 한다.함수 (가) 평균 m 및 커널 함수 를) 사용하여 가우스 프로세스를 따르도록 하십시오.

In terms of the underlying Gaussian distribution, we have that for any finite set if we let 그때

where is the mean vector and is the covariance matrix of the multivariate Gaussian di공로를 세우다

추정기의 유도

회귀 컨텍스트에서 우도 함수는 대개 가우스 분포로 가정되며 관측치는 독립적이고 동일한 분포(iid)로 간주된다.

가정은 분산이 인 0-mean 가우스 노이즈로 손상된 관측치에 해당한다iid 가정은 입력 (와 의 분산 2 {\ \2}}, 따라서 후분포를 분석적으로 계산할 수 있다.테스트 입력 벡터 {의 경우 S { Y S가) 지정된 후분포를 통해

여기서 은(는) 2 ^{2노이즈 분산과 공분산 함수 모든 파라미터의 분산을 포함하는 매개 변수 집합을 의미한다.

정규화와 베이즈 간의 연결

정규화 이론과 베이지안 이론 사이의 연관성은 유한 치수 RKHS의 경우에만 달성될 수 있다.이러한 가정 하에서 정규화 이론과 베이시안 이론은 가우스 공정 예측을 통해 연결된다.[3][12]

유한 치수 사례에서 모든 RKHS는 형상[2] 지도 : X 화살표 관점에서 설명될 수 있다.

그런 다음 K {\ {가) 있는 RKHS의 함수를 다음과 같이 기록할 수 있다.

그리고 우리는 또한 그것을 가지고 있다.

w=[ ,… , ]{ 을(를) 평균 및 ID 공분산 행렬이 0인 다변량 가우스 분포에 따라 분포한다고 가정하여 가우스 프로세스를 구축할 수 있다.

가우스 가능성이 있다고 가정하면

where .그 결과 후분포는 다음과 같다.

최대 후방(MAP) 추정치는 타이코노프 정규화를 정의하는 최소화 문제와 동등하다는 것을 알 수 있다. 이 경우 베이시안 사례에서 정규화 매개변수는 소음 분산과 관련이 있다.

철학적인 관점에서 정규화 설정의 손실 함수는 베이시안 설정의 우도 함수와 다른 역할을 한다. 함수는 대신 f( x) 를 예측할 때 발생하는 오류를 측정하는 반면, 우도 함수는 생성 과정에서 참으로 가정된 모형에서 관측치가 얼마나 발생할 가능성을 측정한다그러나 수학적 관점에서 정규화와 베이시안 프레임워크의 공식은 손실 함수와 우도 함수를 한 한 라벨 y y에 근접한 함수 의 추론을 촉진하는 수학적 역할을 하도록 만든다.

참고 항목

참조

  1. ^ Álvarez, Mauricio A.; Rosasco, Lorenzo; Lawrence, Neil D. (June 2011). "Kernels for Vector-Valued Functions: A Review". arXiv:1106.6251 [stat.ML].
  2. ^ a b c d Vapnik, Vladimir (1998). Statistical learning theory. Wiley. ISBN 9780471030034.
  3. ^ a b c Wahba, Grace (1990). Spline models for observational data. SIAM.
  4. ^ Schölkopf, Bernhard; Smola, Alexander J. (2002). Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. MIT Press. ISBN 9780262194754.
  5. ^ a b Girosi, F.; Poggio, T. (1990). "Networks and the best approximation property" (PDF). Biological Cybernetics. Springer. 63 (3): 169–176. doi:10.1007/bf00195855. hdl:1721.1/6017. S2CID 18824241.
  6. ^ Aronszajn, N (May 1950). "Theory of Reproducing Kernels". Transactions of the American Mathematical Society. 68 (3): 337–404. doi:10.2307/1990404. JSTOR 1990404.
  7. ^ Schwartz, Laurent (1964). "Sous-espaces hilbertiens d'espaces vectoriels topologiques et noyaux associés (noyaux reproduisants)". Journal d'Analyse Mathématique. Springer. 13 (1): 115–256. doi:10.1007/bf02786620. S2CID 117202393.
  8. ^ Cucker, Felipe; Smale, Steve (October 5, 2001). "On the mathematical foundations of learning". Bulletin of the American Mathematical Society. 39 (1): 1–49. doi:10.1090/s0273-0979-01-00923-5.
  9. ^ Kimeldorf, George S.; Wahba, Grace (1970). "A correspondence between Bayesian estimation on stochastic processes and smoothing by splines". The Annals of Mathematical Statistics. 41 (2): 495–502. doi:10.1214/aoms/1177697089.
  10. ^ Schölkopf, Bernhard; Herbrich, Ralf; Smola, Alex J. (2001). "A Generalized Representer Theorem". COLT/EuroCOLT 2001, LNCS. Lecture Notes in Computer Science. 2111/2001: 416–426. doi:10.1007/3-540-44581-1_27. ISBN 978-3-540-42343-0.
  11. ^ De Vito, Ernesto; Rosasco, Lorenzo; Caponnetto, Andrea; Piana, Michele; Verri, Alessandro (October 2004). "Some Properties of Regularized Kernel Methods". Journal of Machine Learning Research. 5: 1363–1390.
  12. ^ a b Rasmussen, Carl Edward; Williams, Christopher K. I. (2006). Gaussian Processes for Machine Learning. The MIT Press. ISBN 0-262-18253-X.