분포 학습 이론
Distribution learning theory분포 학습 이론 또는 확률 분포의 학습은 계산 학습 이론의 틀이다.1994년에 Michael Kearns, Yishay Mansour, Dana Ron, Ronitt Rubinfeld, Robert Schapire 및 Linda Sellie에서 제안되었으며, Leslie Valiant가 [2]도입한 PAC 프레임워크에서 영감을 받았습니다.
이 프레임워크에서 입력은 분포의 특정 클래스에 속하는 분포에서 추출된 다수의 표본이다.목표는 이러한 표본을 기반으로 표본이 추출된 분포를 높은 확률로 결정하는 효율적인 알고리즘을 찾는 것입니다.그 일반성 때문에, 이 프레임워크는 기계 학습, 근사 알고리즘, 응용 확률 및 통계와 같은 다양한 분야에서 사용되어 왔다.
이 기사에서는 계산 이론의 관점에서 이 프레임워크의 기본 정의, 도구 및 결과를 설명합니다.
정의들
xisplaystyle X를 관심 분포의 지원으로 .컨즈(알의 원작 있습니다.만약 X{\textstyle X\displaystyle}에는 한도가 있다.[1]그것은 일반성의 손실 없이 X가{0,1}n{\displaystyle\textstyle X=\{0,1\}^{n}초기 조향 순간}은 사용되어야 한다 비트의 n{\textstyle n\displaystyle}은 번호에 y∈ X{\d을 나타내는 데 가정할 수 있다. yX X X에 대한 분포에 초점을 맞춥니다.
확률 D X에는 두 가지 표현이 있습니다.
- 확률분포함수(또는 평가자의 displaystyle \D})는 의 ydisplaystyle \ X)를 입력으로 사용하여 다음 확률을 나타내는 를 출력한다.{\ D에 따른y \ \textstyle y [ Y ]=[ Y y ]} (Y ~의 displaystyle \Y\D
- G D G(\ \textstyle G_는 D(\ \ \ y의 문자열을 입력으로 사용하여 를 합니다.D 제너레이터는 일련의 페어코인 토스가 주어진 D(\displaystyle D에서 샘플링을 시뮬레이트하는 루틴으로 해석할 수 .
D는 그 생성기(각 평가기)가 존재하며 다항시간 내에 계산할 수 있는 경우 다항식 생성기(각 평가기)를 가지도록 호출된다.
X를 X에 대한 분포 클래스로 ., CX는 모든 D X \ C_가 X을 하는 확률 분포가 되도록 설정됩니다. X는 C C로 간단하게 쓸 수도 있습니다.
학습 가능성을 정의하기 전에 의 근사치를 정의해야 합니다 두 분포 의 거리를 측정하는 방법은 여러 가지가 있습니다.다음 세 가지 일반적인 가능성이 있습니다.
이들 거리 중 가장 강한 것은 쿨백-라이블러 발산이고 가장 약한 것은 콜모고로프 거리이다.즉, D의 임의의 쌍에 대해 D는 다음과 같습니다.
예를 들어D \ D와 \D')가 Kullback-Leibler 컨버전스에 근접한 경우 다른 거리에도 근접합니다.
다음 정의는 모든 거리에 대해 유지되므로 d ( , d ( ,D )} 에는 위에서 설명한 거리 중 를 사용하여 분포D 와 D ( \ D) 사이의 거리를 나타냅니다.분포 클래스의 학습 가능성은 이러한 거리 중 하나를 사용하여 정의할 수 있지만 응용 프로그램은 특정 거리를 참조합니다.
분포를 학습하기 위해 사용하는 기본 입력은 이 분포에 의해 도출된 다수의 샘플입니다.계산적 관점에서 이러한 표본은 일정한 시간 내에 제공된다는 가정이다., 분포에서 샘플을 반환하는 N ( \ \GEN ( )에 액세스 할 수 있는 것과 같습니다.시간 복잡도를 측정하는 것 외에 특정 분포를 학습하기 위해 사용해야 하는 샘플의 수를 측정하는 것도 중요합니다.\ \ D\ C \ displaystyle C。이 양을 학습 알고리즘의 샘플 복잡도라고 합니다.
분포 학습의 문제를 보다 명확하게 하기 위해 [3]에 정의된 감독 학습의 문제를 고려합니다.통계 학습 이론의 이 프레임워크에서 훈련 S { ( , 1), , ( n , ) { \ S \ { ( x} , _ { } ) , \ , ( x _ , y_ { n} \ } \ fstyle 찾습니다제곱 손실 함수 arg gV(y ,( ) (, ) \ f = \ \ _ { } \ V ( , ( , y ) \ x , y )。서V (g ,、g ) \ V ( \ \ cd \ cdot \ \ cd )는 e )의 손실입니다교육 세트의 요소를 표본으로 추출하는 준수성 분포.조건부 확률분포 ( y \_ {)}가 알려진 경우 타겟 함수는 형식 (x ) y x ( f ( x )= \ { y _ { 입니다. 즉, S set set set set of sy 이제 분포 학습 이론의 목표는 목표 f f를 찾는 데 사용할 수 있는 S S를 찾는 것입니다
학습성의 정의
모든 ϵ>에 0{\displaystyle\textstyle \epsilon>0}과 0개체, δ ≤ 1{\displaystyle \textstyle 0<, \delta \leq 1} 알 수 없는 유통을 위한 GEN(D){\textstyle GEN(D)\displaystyle}에 대한 접근권을 부여하는 것은 C{\displaystyle\textstyle C}의 수업 효율적으로 익힐 수 있는이라고 불린다. D∈ C{\d D CC\ \ C의 알고리즘이라고 불리는 다항식 시간 AA가 존재합니다이 알고리즘은 다음과 같은 D의 생성자 또는 평가자(\displaystyle D를 출력합니다.
D \ \ D ' \ C 、 \ \ A ,,,,,알고리즘이라고 불리며, 그렇지 않으면 부적절한 학습 알고리즘이라고 불립니다.
설정에서는 분포 C C 클래스가 파라미터 세트로 설명할 수 있는 잘 알려진 분포를 가진 클래스입니다.를 들어 CC는 모든 가우스 N 2)의 입니다.이 경우 A(\ \는 파라미터μ ,\style \ . 를 추정할 수 있어야 합니다.이 \A는 파라미터 학습 알고리즘이라고 불립니다.
분명 단순한 분포에 대한 모수 학습은 통계적 추정이라고 불리는 매우 잘 연구된 분야이며, 다양한 종류의 단순한 알려진 분포에 대한 다양한 추정치에 대한 매우 긴 참고 문헌이 있다.그러나 분포 학습 이론은 더 복잡한 설명을 가진 분포의 학습 클래스를 다룬다.
첫 번째 결과
Kearns 등에서는 유한 다항식의 회로로 기술하고 특정 [1]분포 클래스에 대해 다음을 증명하는 경우를 .
- R \ OR 게이트 분포는 # P poly \ P를 제외하고 다항식 크기의 평가자는 없습니다. 한편, 이 클래스는 제너레이터를 사용하여 효율적으로 학습할 수 있습니다.
- 이 클래스의 패리티 게이트 분포는 제너레이터와 평가자 모두에서 효율적으로 학습할 수 있습니다.
- 이 클래스의 해밍 볼 혼합물은 발생기와 평가자 모두에서 효율적으로 학습할 수 있습니다.
- 확률론적 유한 오토마타는 PAC 학습 프레임워크에서 불가능한 가정인 노이즈 패리티 가정 하에서 평가자와 함께 효율적으로 학습할 수 없다.
- \ \ textstyle \ }
의 클래스에 대한 학습 알고리즘을 찾기 위한 매우 일반적인 방법 중 하나는 C \displaystyle \ \epsilon의 - \C의 커버를 찾는 것입니다.
정의.
C { \ \ C _ { \ 는 C \ style \ D \ 마다 D \ display style C \ C \ C의 라고 불립니다. \\ d \D를 나타내는 파라미터에 대해 다항식 사이즈를 갖는 경우 커버는 작습니다
옛날에 모든 ϵ는 을 효율적인 절차이다;0{\displaystyle\textstyle \epsilon>0}C({\displaystyle\textstyle C_{\epsilon}}C그 다음에 유일한 좌파 과제 C에서 선택할 있는 작은ϵ −{\displaystyle\textstyle \epsilon-}커버를 찾으면{\displaystyle\textstyle C_{\epsilon}}톤그는 dis해야 할 DC \\ D \ C_{ \ 。
는 D {\epsilon에 된 C D Ddisplaystyle \ d DD D(\textstyle D')를 하는 방법이 간단하지 않다는 점입니다를 알 수 없기 입니다.따라서 이러한 비교에는D D의 샘플을 사용해야 합니다.분명히 비교 결과는 항상 오차 확률을 가지고 있다.따라서 작업은 노이즈가 많은 비교를 사용하여 요소 집합에서 최소값을 찾는 것과 유사합니다.이 목표를 달성하기 위해서는 많은 고전적인 알고리즘이 있습니다.가장 최근의 사건은 최고의 보장을 달성하도록 Daskalakis과 Kamath[4]에 의해 제시되었다 이 알고리즘은 C는 이번 대회의ϵ −{\displ은 요소 요소들이 우승자 D{\displaystyle\textstyle D^{*}∗({\displaystyle\textstyle C_{\epsilon}}}사이에 빠른 토너먼트를 설정합니다.아아!\} ( \ d ( ^ { * ) \ \epsilon 。알고리즘의 순서는 - \ \ 1 - ) 。 N는 D D에서 샘플링을 수행하고O( N / 2 N/\2}) 시간 에 실행됩니다. 서 C \displaystyle \ \N = {
랜덤 변수의 학습 합계
단순하게 잘 알려진 분포에 대한 학습은 잘 연구된 분야이며 사용할 수 있는 많은 추정치가 있습니다.한 가지 더 복잡한 분포 클래스는 단순 분포를 따르는 변수 합계의 분포입니다.이러한 학습 절차는 합계가 무한합이 되는 경향이 있을 때 동일한 대상을 검토하는 경향이 있기 때문에 중심 한계 정리처럼 한계 이론과 밀접한 관계가 있습니다.최근 여기에 설명된 두 가지 결과는 독립적인 정수 랜덤 변수의 학습 포아송 이항 분포와 학습 합계를 포함한다.아래의 모든 결과는 총 변동 거리를 거리 측도로 사용하여 유지됩니다.
포아송 이항 분포 학습
bernouli 랜덤 X, \\}, \\ p n\ p_},\dots, p_n의 성공 을 고려합니다n은 X i i \ X = \_ {의 분포입니다. 클래스 { : 이항 입니다 \ =\{ 분포다음 결과 중 첫 번째는 D PBD의 부적절한 학습에 관한 것이며 두 번째는 D PBD[5]의 적절한 학습에 관한 것입니다.
정리
∈ PBD{\textstyle D\in 대통령 예산 확정\displaystyle}에 n{\textstyle n\displaystyle},ϵ>를 주어진 알고리즘은;0{\displaystyle\textstyle \epsilon>0}, 0<>δ ≤ 1{\displaystyle \textstyle 0<, \delta \leq 1}과 GEN에 대한 액세스(D)D자{\textstyle GEN(D)\displaystyle}a를 찾는다 D′ D는 [d ( , D) ) - -" \ [ ( , ' ) \ \ epsilon ]\ \ 。이 알고리즘의 샘플 는O(1 /1 )입니다은 O~( / ) log 2( ( / ^{ n}()} 。
정리
∈ PBD{\textstyle D\in 대통령 예산 확정\displaystyle}에 n{\textstyle n\displaystyle},ϵ>를 주어진 알고리즘은;0{\displaystyle\textstyle \epsilon>0}, 0<>δ ≤ 1{\displaystyle \textstyle 0<, \delta \leq 1}과 GEN에 대한 액세스(D)D자{\textstyle GEN(D)\displaystyle}a를 찾는다 D′ ∈ D D PBD : ( D , )- -" ( \ \ [ ( D , ' )\\ 알고리즘의 복잡도는 과 같습니다실행시간은( /" ) ( 2" ( / ")~ ( " " " ( / " ) \ ( 1 / \ } ( / \ ) 、 { \ { } ( \ \ log \ log .
위의 결과 중 하나는D의 은 nn의 선형이지만 학습 알고리즘의 샘플 복잡도는 n n에 의존하지 않는다는 것입니다.또한 두 번째 결과는 샘플 복잡도 b에 대해 거의 최적입니다.ec는 O( / 2의 도 존재하기 때문입니다.{ \ ( / \ epsilon {} } 。
The proof uses a small cover of that has been produced by Daskalakis and Papadimitriou,[6] in order to get this algorithm.
독립 정수 랜덤 변수의 학습 합계
n개 \ n의 된랜덤 X 1, n(\에 대해 합니다.각 변수는 { - - 1 \ \textstyle 을 지원합니다.n 순서의 n\dependent 정수 랜덤 변수는 X i Xi \ = \_ { } {i }。클래스를 학습하기 위한
다음과 같은 결과가 있다
정리
자 D∈ k− S나는 R V{\displaystyle\textstyle D\in k-SIIRV} 다음이 있는 알고리즘은 어느 주어진 n{\textstyle n\displaystyle},ϵ>0{\displaystyle\textstyle \epsilon>0}및 액세스에 GEN(D){\textstyle GEN(D)\displaystyle}을 찾는 D′{\displaystyle\textstyle D'}과 같다. Pr (D , ) 1-" " \ \ [ ( D , D ' ) \ \]\ - \ 。이 알고리즘의 복잡도는( / ) \ \ { poly } ( k / the the the the the the the the the the \
또 다른 부분은 샘플과 시간의 복잡도는 nn에 하지 않는다는 것입니다.k \[7]로 하면 이전 섹션에서 이 독립성을 결론지을 수 있습니다.
가우스어 혼합 학습
랜덤 X 1,1 \X\(\1},\1}) (2,2)(\displaystyle Y N_2 을 정의합니다.X는 이 1이고, 이 2와 . 이 XX)의 밀도이고 F2displaystyle F_})가Y(\ Y의 밀도인 경우 Z(\ Z의 밀도는+ (\ 2입니다. 이 Z(\ Z는 가우스어의 혼합을 따른다고 합니다.Pearson은 자신이 분석하고자 하는 동일한 데이터를 얻은 확률 분포를 설명하기 위해 Gaussian의 혼합 개념을 도입한 첫 번째 사람입니다.그래서 손으로 많은 계산을 한 후, 그는 마침내 그의 데이터를 가우시안 혼합물에 맞췄다.이 경우의 학습 태스크는 1, 1, 2 \}, _ _{2sigma _},\_{의 혼합 파라미터를 결정하는 것입니다.
이 문제를 해결하기 위한 첫 번째 시도는 Dasgupta에서 [9]했습니다.이 작업에서 Dasgupta는 가우시안들의 두 가지 수단이 서로 충분히 멀리 떨어져 있다고 가정한다.이는 1- 2 _ _에 하한이 있음을 의미하며, 이 가정을 사용하여 Dasgupta와 그 이후의 많은 과학자들이 혼합물의 매개변수를 배울 수 있었다.학습 절차는 샘플을 두 개의 서로 다른 클러스터로 클러스터링하여 일부 메트릭을 최소화하는 것으로 시작합니다.가우시안 평균이 높은 확률로 서로 멀리 떨어져 있다는 가정을 사용하여, 첫 번째 군집의 표본은 첫 번째 가우스에서 두 번째 군집의 표본에 해당하고 두 번째 군집의 표본에 해당한다.샘플이 i \ \},\ _로 분할되었으므로 클러스터의 크기를 비교하여 단순한 통계적 추정치와 에서 계산할 수 있습니다.
GM이 2개의 Gaussian 혼합의 집합이라면 와 같은 절차 정리를 사용하면 다음과 같이 증명할 수 있습니다.
정리
1- c max ( 1 a ( 1 μ a ( 2)\ \ _ { - \ \ mu _ { - {2} \ { ( ; lam ) μ1 ~ ~μ2 ) ( c n max max ( )의 }}}, c1/2{\displaystyle\textstyle c>, 1/2}과λ m는 x(A){\displaystyle\textstyle \lambda_{맥스}(A)}한{\displaystyle\textstyle A}의 가장 큰 고유치,에 ϵ>를 주어진 알고리즘은;0{\displaystyle\textstyle \epsilon>0}, 0<>δ ≤ 1{\display.스타일 \textstylE0<, \delta \leq 1}GEN에 대한 액세스(D){\textstyle GEN(D)\displaystyle} 매개 변수 i′, 나는 μ′w, Σ 나는 ′{\displaystyle\textstyle w'_{나는},\mu '_{나는},\Sigma '_{나는}}에 대한 근사치를 발견하 Pr −δ{\displaystyle\textstyle \Pr는 경우에는 w_{나는}-w'_ ≥ 1[나는 wi≤ ϵ ′ − w].{나는}]\} (각각 \ _{i \ _ 알고리즘의 복잡도의 는 O ( (/ ( ) M = { O ( \ {2} ( 1 / ( \ \ \ d )}} 입니다.실행시간은 ( d + )\ style \ O ( 2 d + md ) {}
위의 결과는 k-\ 가우시안 [9]에서도 일반화될 수 있다.
두 가우시안 혼합의 경우, 총 변동 거리를 거리 측도로 사용하는 다음과 같은 평균 간 거리를 가정하지 않은 학습 결과가 있다.
정리
자 F∈ GM{\displaystyle \textstyle F\in GM} 다음이 있는 알고리즘은 주어지ϵ>0{\displaystyle\textstyle \epsilon>0}, 0<>δ ≤ 1{\displaystyle \textstyle 0<, \delta \leq 1}및 액세스에 GEN(D){\textstyle GEN(D)\displaystyle}을 아니 나는′, 나는 μ′, Σ 나는 ′{\dis.playstyle \t w F 1 F + 2 \ \ F' =2 서 = (i i { \ _ { } = ( \ ' _ { i , \' _ { } ) [ ,F F )displaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplaydisplay ] 1, / 2, / ( 1 , \text style \ \ text { poly } ( , / \ , 1 / \ / _ { , / d ( { , _ { } )} ) 。
과 사이의 는 알고리즘 결과의 품질에 영향을 주지 않고 샘플 복잡도와 실행 [9][10]시간에만 영향을 줍니다.
레퍼런스
- ^ a b c M. Kearns, Y. Mansour, D.Ron, R. Rubinfeld, R. Schapire, L. Sellie, 이산 분포 학습 가능성ACM 컴퓨팅 이론 심포지엄, 1994년 [1]
- ^ L. Valiant 학습 가능한 것의 이론.ACM 커뮤니케이션, 1984
- ^ Lorenzo Rosasco, Tomaso Poggio, "기계학습의 정규화 투어 - MIT-9.520 강의 노트" 2014년 12월 [2]
- ^ C. Daskalakis, G. Kamath 고속 및 가우스어의 적절한 학습 혼합을 위한 샘플 최적 알고리즘.학습이론연차총회, 2014년 [3]
- ^ 다스카라키스, I. 디아코니콜라스, R.Serviceedio 학습 포아송 이항 분포.ACM 컴퓨팅 이론 심포지엄, 2012년 [4]
- ^ C. Daskalakis, C. Papadimitriou 표시기 합계에 대한 희박한 커버.확률 이론 및 관련 분야, 2014년 [5]
- ^ C. Daskalakis, I. Diakonikolas, R. O'Donnell, R. Servedio, L. Tan 독립 정수 랜덤 변수의 학습 합계.IEEE 컴퓨터 사이언스 기반 심포지엄, 2013년 [6]
- ^ K. Pearson의 수학 진화론에 대한 공헌.1894년 런던 왕립학회 철학거래[7]
- ^ a b c d S. 가우스어의 Dasgupta Learning Mixed of Gaussians.IEEE 컴퓨터 사이언스 기초 심포지엄, 1999년 [8]
- ^ a b A. 칼라이, A.Moitra, G. 두 가우시안 ACM Computing 이론 심포지엄, 2010년 [9]