학습 가능한 함수 클래스

Learnable function class

통계 학습 이론에서, 학습 가능한 함수 클래스는 모든 확률 분포에 걸쳐 균일하게 예상되는 위험을 점근적으로 최소화하기 위해 알고리즘이 고안될 수 있는 함수의 집합이다.학습 가능한 클래스의 개념은 기계 학습정규화와 밀접하게 관련되어 있으며 특정 학습 알고리즘에 대한 많은 샘플 정당성을 제공합니다.

정의.

배경

X × { (x , ) {{ =}={( 샘플 공간으로 합니다. y {\y}는 공변량인)입니다.{{ x x y y하기 위해 고려 중인 매핑(함수)의 입니다 Y × R { L : {\ \ {Y}\style}은mathcal })에 미리 주어집니다\ \ 의 확률 P ( ,){ P ( , y ){ x , y}이 주어진 경우 예상되는 I ( p는 다음과 같이 정의한다.

통계학 학습의 일반적인 목표는 예상 위험을 최소화하는 F 함수를 찾는 것이다.즉, 다음 [1]문제에 대한 해결책을 찾는 것입니다.

그러나 실제로는 P P 알 수 없으며, 어떤 학습 태스크도 한정된 샘플만을 기반으로 할 수 있습니다.따라서 우리는 대신 경험적 위험을 점근적으로 최소화하는 알고리즘을 찾는다. 즉, 다음을 만족하는 일련의 함수 ^ n {}}}을 찾는다.

이러한 시퀀스를 찾는 일반적인 알고리즘 중 하나는 경험적 위험 최소화이다.

학습 가능한 함수 클래스

우리는 모든 확률 분포에 대해 수렴이 균일하도록 요구함으로써 위의 방정식에서 주어진 조건을 더 강하게 만들 수 있다.즉, 다음과 같습니다.

(1)

보다 엄격한 요건의 배경에는 다음과 같은 직관이 있습니다.실제에서는 실제 P 시퀀스{^ {\ 예상 리스크 최소화에 수렴하는 속도는 매우 다를 수 있습니다.항상 알 수 없기 때문에 모든 경우에 잘 작동하는 시퀀스를 선택합니다.

그러나 무상급식 정리에 따라 F 너무 하면 (1)을 만족하는 수열은 존재하지 않는다.즉, (1)이 의미 있는 요건이 되려면 F{\ {F 너무 많은 함수가 포함되도록 주의해야 합니다.구체적으로는 (1)을 만족시키는 시퀀스 ^ { 존재를 보증하는 함수 클래스를 학습 가능[1]클래스라고 합니다.

적어도 감독된 분류 및 회귀 문제의 경우, 함수 클래스가 학습 가능한 경우 경험적 위험 최소화는 자동으로 (1)을 [2]충족한다는 점에 주목할 필요가 있다.따라서 이러한 설정에서는 (1)에 의해 야기되는 문제가 해결 가능하다는 것을 알 수 있을 뿐만 아니라 해결책을 제시하는 알고리즘도 즉시 도입됩니다.

해석

관계가 ~ (x인 경우, 적절한 손실 함수를 선택하면 f ( \ f { *} )는 가능한 모든 함수에서 예상되는 손실을 최소화하는 것으로 항상 표현할 수 있습니다.그것은,

에서는 X를Y 모든 함수의 집합이 F {로 합니다f(\ f 실제 데이터 생성 메커니즘으로 해석할 수 있습니다.단, 무상급식 정리에 따르면 실제로는 한정된 샘플로는 F에 대해 예상되는 위험 최소화 장치를 검색할 수 없습니다. 따라서 우리는 종종 Fdisplaystyle {F display {의 서브셋을 고려하는 경우가 많습니다.검색 대상입니다.이를 통해 f {\ f F {\가 아닐 수 . 이 트레이드오프는 수학적으로 다음과 같이 표현될 수 있습니다.

(2)

상기 분해에서 파트( { 데이터에 의존하지 않고 비파괴적이다.이는 우리의 가정(이 얼마나 진실과 동떨어져 있는지를 나타냅니다 강한 가정( 하면 0보다 훨씬 커집니다(F\displaystyle 너무 작습니다.한편, F 스타일 })에 충분한 제한을 두지 않으면 F(디스플레이 스타일 { 학습할 수 없게 되고 파트(는 확률적으로 0으로 수렴되지 않습니다.이것은 통계학 및 기계학습 문헌에서 잘 알려진 과적합 문제이다.

예:티코노프 정규화

학습 가능한 클래스가 사용되는 좋은 예는 커널 Hilbert 공간(RKHS)을 재생하는 이른바 Tikhonov 정규화입니다.구체적으로는 F { style {F { * } } RKHS, 2 { style \ _ {} the the the the { { { * } } It is shown in [3] that is a learnable class for any finite, positive . The empirical minimization algorithm to the dual form of this problem is

이것은 티코노프에[4] 의해 잘못된 문제를 해결하기 위해 처음 도입되었다.많은 통계적 학습 알고리즘은 그러한 형태로 표현될 수 있다(예: 잘 알려진 능선 회귀).

(2)의 ( {( { 사이의 트레이드오프는 RKHS에서의 Tikhonov 정규화와 함께 기하학적으로 더 직관적이다.기본적으로 F{\({ 의 볼인 { 시퀀스를 생각할 수 있습니다. style 】 【 displaystyle 커짐에 】({ })는 공간 전체에 가까워지고, b】({ )】는 작아질 가능성이 높아집니다.그러나 (컨버전스 속도도 낮아집니다.유한 샘플 설정에서 최적의(\ 선택하는 방법은 일반적으로 교차 검증을 통해 이루어집니다.

경험적 공정 이론과의 관계

(2)의 파트( { 통계의 경험적 과정 이론과 밀접하게 관련되어 있다. 여기서 경험적 위험 { L ( , ( ) F { \ { \ _ { }^{ ( y} ) , _ { i} ) , { 이 필드에서는 확률적 수렴을 만족하는 함수 F(\ 표시한다.

(3)

균일한 글리벤코-칸텔리 클래스로 알려져 있습니다.특정 규칙성 조건에서는 학습 가능한 클래스와 균일하게 글리벤코-칸텔리 클래스가 [1]동등하다는 것이 입증되었다.통계자료에서 ( {displaystyle { 사이의 상호작용은 종종 편향-변형 트레이드오프라고 한다.

그러나 저자들은 학습성이 균일한 수렴과 동등하지 않은 일반 학습 설정에 대한 확률적 볼록 최적화의 예를 제시하였다.

레퍼런스

  1. ^ a b c Vladimir N. Vapnik (17 April 2013). The Nature of Statistical Learning Theory. Springer Science & Business Media. ISBN 978-1-4757-2440-0.
  2. ^ a b "Learnability, stability and uniform convergence". The Journal of Machine Learning Research.
  3. ^ "Learnability in Hilbert spaces with reproducing kernels". Journal of Complexity.
  4. ^ Andreĭ Nikolaevich Tikhonov; Vasiliĭ I︠A︡kovlevich Arsenin (1977). Solutions of ill-posed problems. Winston. ISBN 978-0-470-99124-4.
  5. ^ A.W. van der vaart; Jon Wellner (9 March 2013). Weak Convergence and Empirical Processes: With Applications to Statistics. Springer Science & Business Media. pp. 116–. ISBN 978-1-4757-2545-2.