오컴 러닝

컴퓨터 학습 이론에서, Occam 학습은 알고리즘 학습의 모델로, 학습자의 목표는 수신된 훈련 데이터의 간결한 표현을 출력하는 것이다.이는 학습자가 테스트 세트의 예측 능력을 평가받는 대략적으로 올바른(PAC) 학습과 밀접하게 관련되어 있습니다.

Occam 학습성은 PAC 학습을 의미하며, 다양한 개념 클래스에 대해서도 그 반대입니다. PAC 학습성은 Occam 학습성을 의미합니다.

서론

Occam Learning은 Occam의 면도칼에서 따온 이름으로, 다른 모든 것이 동일하다면 관찰된 데이터에 대한 짧은 설명이 긴 설명보다 선호되어야 한다는 원칙이다.Occam 학습이론은 이 원리에 대한 형식적이고 수학적 정당화이다.Blumer ^[1]등에 의해 Occam 학습이 컴퓨터 학습 이론에서 학습의 표준 모델인 PAC 학습을 의미한다는 것이 처음 밝혀졌다.즉, (출력 가설의) 절약성은 예측력을 의미합니다.

Occam 학습의 정의

개념 $c$ ${\mathcal {C}}$ C $(\$ { $C})$ 의 개념 $c$ (\displaystyle ${C$ $})$ 의 간결성은 C $(\displaystyle$ { $C$ 의 ${\mathcal {C}}$ c $(\displaystyle$ c})를 $c$ $나타낼$ 수 있는 최단 비트 문자열의 $size(c)$ $size(c)$ $size(c)$ e $c)$ 로 $size(c)$ 나타낼 수 있습니다.오캄 러닝은 su를 연결합니다.보이지 않는 데이터에 대한 예측력에 대한 학습 알고리즘 출력의 간결성.

${\mathcal {H}}$ $\$ $}}$ 와 H\displaystyle\ $mathcal{H}$ 를 ${\mathcal {C}}$ ${\mathcal {H}}$ 각각 대상 개념과 가설을 포함하는 개념 클래스로 ${\mathcal {C}}$ .그리고, 상수에}H{\displaystyle{{H\mathcal}}}iff,을 사용하여 ≥ 0{\displaystyle \alpha \geq 0}과 0≤β<1{\displaystyle 0\leq \beta<1}, C{\displaystyle{{C\mathcal}의{L\displaystyle}은(α, β){\displaystyle(\alpha ,\beta)}-Occam 알고리즘 학습 알고리즘}α.줘n $S=\{x_{1},\dots ,x_{m}\}$ S $S=\{x_{1},\dots ,x_{m}\}$ { $S=\{x_{1},\dots ,x_{m}\}$ , $S=\{x_{1},\dots ,x_{m}\}$ , $S=\{x_{1},\dots ,x_{m}\}$ m $}$ { $display$ $style$ S = \ { $x$ _ { $1}$ , \ $dots$ , x _ { $m$ } } $display$ $c\in {\mathcal {C}}$ $display$ C $c\in {\mathcal {C}}$ \ $display$ c \ $in$ \ $mathcal$ ${ C$ } $、$ L \ $display$ $style$ L $displaydisplay$ $h\in {\mathcal {H}}$ htimespon $h\in {\mathcal {H}}$

$h$ {\ $displaystyle$ h $}$ 는 $h$ S{\ $displaystyle$ S $}$ 의c {\ $displaystyle$ c $}($ $h(x)=c(x),\forall x\in S$ ( x ) $h(x)=c(x),\forall x\in S$ c $h(x)=c(x),\forall x\in S$ ( $h(x)=c(x),\forall x\in S$ ) , $h(x)=c(x),\forall x\in S$ x $s$ S { $displaystyle$ h ( x ) = $h(x)=c(x),\forall x\in S$ c ( x ) , \ $forall$ x \ $in$ S ） $h(x)=c(x),\forall x\in S$ )와 일치합니다.
$\displaystyle size(h)\leq(n\cdot size(c))^{\alpha}m^{\alpha}}$ ^[2]^[1]

$n$ 서n {\ $displaystyle$ n $}$ 은 $n$ $x\in S$ 샘플의 최대 길이 x $µ$ S {\ $displaystyle$ x\ $in$ S $x\in S$ 입니다. Occam 알고리즘은 n{\ $displaystyle$ n $n$ $m$ { $displaystyle$ m $}$ $size(c).$ $size(c).$ $size(c).$ e $(c)$ 의 시간 다항식으로 실행될 경우 효율적이라고 불립니다.} 개념 $size(c).$ $클래스$ $C$ $(\displaystyle$ \ $mathcal$ {C $})$ 는 가설 ${\mathcal {H}}$ $displaystyle$ \ $displaystyle$ \mathcal {H $})$ 에 대해 학습 가능한 개념 ${\mathcal {C}}$ ${\mathcal {C}}$ C $(\$ displaystyle\mathcal {C})라고 ${\mathcal {H}}.$ $.$ $}$

Occam 학습과 PAC 학습의 관계

Blumer ^[2]등의 다음 정리처럼 Occam 학습성은 PAC 학습성을 의미한다.

정리(Occam 학습은 PAC 학습을 의미함)

C{\displaystyle{{C\mathcal}의{L\displaystyle} 효율적인(α, β){\displaystyle(\alpha ,\beta)}-Occam 알고리즘}}}H{\displaystyle{{H\mathcal}를 사용하여}. 그럼 일정한는 을이 존재한다; 어떠한 0<>에 0{\displaystyle a>0}가;ϵ,δ<1{0<\displaystyle;자.\epsilon ,\delt $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ $0<\epsilon ,\delta <1$ < $1$ $displaystyle$ \ $mathcal$ { $D$ } ${\mathcal {D}}$ ） $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ ( $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ log $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ + $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ ( $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ e ( $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ ) $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ ) $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ - $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ { $displaystyle$ m \ $geq$ a \ left ( { \ $frac$ { \ 1 } \ $epsilon$ } } { $log$ { $frac$ 1 } { fr1 } $^{\alpha }}{\epsilon }}\right) {{\frac {1$ }{ $1-$ \beta $}}\fright}$ 개의 $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ 샘플이 D $(\displaystyle$ { $D})$ 에서 ${\mathcal {D}}$ 추출되어 $c\in {\mathcal {C}}$ $(\$ c $\in\mathcal {C})$ 에 $c\in {\mathcal {C}}$ $n$ $L$ 따라 라벨이 표시되고 각 n(\ $styledisplaystyle$ n $)$ 비트가 $표시됩니다.$ $\displaystyle$ h $\in\mathcal {H}}:$ e $h\in {\mathcal {H}}$ $error(h)\leq \epsilon$ $error(h)\leq \epsilon$ $error(h)\leq \epsilon$ r $error(h)\leq \epsilon$ ( h $error(h)\leq \epsilon$ \ displaystyle $error(h)\leq \epsilon$ ( $h)\leq$ \ $epsilon$ } ( $적어도$ - " $1-\delta$ \ $displaystyle$ $1-\delta$ } $1-\delta$ 。

$error(h)$ 서 e $error(h)$ $error(h)$ $error(h)$ r ( $error(h)$ $){$ $displaystyle$ error ( $h$ )는 $error(h)$ $개념$ c {\ ${\mathcal {D}}$ c ${\mathcal {D}}$ 및 $c$ 분포 D ${\$ $D}$ 에 관한 것입니다. $L$ 는 알고리즘L {\ $displaystyle$ $L}$ 도 $L$ ${\mathcal {C}}$ 가설 클래스를 사용하여 개념 ${\mathcal {C}}$ 의 PAC 학습자임을 의미합니다. $(\$ 조금 더 일반적인 공식은 다음과 같습니다.

정리(Occam 학습은 PAC 학습, 카디널리티 버전 포함)

;ϵ,δ<1{\displaystyle 0<,\epsilon ,\delta<1}. 나는{L\displaystyle} 알고리즘자가 주어지m{m\displaystyle}표본은지만 세상에는 알려지지 않은 고정 분배 D{\displaystyle{{D\mathcal}}}에서 개념 c에 따르면 라벨 그린 ∈ C{\displaystyle c\in{\mathcal{C0개체자}}}len의gth $n$ bits each, outputs a hypothesis $h\in {\mathcal {H}}_{n,m}$ that is consistent with the labeled samples. $그$ 후 로그 $\log |{\mathcal {H}}_{n,m}|\leq b\epsilon m-\log {\frac {1}{\delta }}$ , $\log |{\mathcal {H}}_{n,m}|\leq b\epsilon m-\log {\frac {1}{\delta }}$ - $\log |{\mathcal {H}}_{n,m}|\leq b\epsilon m-\log {\frac {1}{\delta }}$ $\log |{\mathcal {H}}_{n,m}|\leq b\epsilon m-\log {\frac {1}{\delta }}$ m - $\log |{\mathcal {H}}_{n,m}|\leq b\epsilon m-\log {\frac {1}{\delta }}$ 1 $\log |{\mathcal {H}}_{n,m}|\leq b\epsilon m-\log {\frac {1}{\delta }}$ ${\$ { $displaystyle \log$ \ $mathcal$ { $H}}_{n,m$ } \ $leq b\epsilon$ m- $\log$ \ $frac$ {1}{\ $delta$ 의 가설을 $h\in {\mathcal {H}}_{n,m}$ 할 수 있도록 b{ $displaystyle$ l $}$ 가 $L$ 존재합니다 $b$ . $}_{n,$ m $h\in {\mathcal {H}}_{n,m}$ }: $e$ $error(h)\leq \epsilon$ $error(h)\leq \epsilon$ r ( h $error(h)\leq \epsilon$ $、$ \ $displaystyle error$ ( $h$ ) \ $leq$ \ silon $error(h)\leq \epsilon$ } ( $1$ - $1-\delta$ " \ $displaystyle 1-$ \ $1-\delta$ silon $1-\delta$ ） $。$

위의 이론들은 Occam 학습이 PAC 학습에 충분하다는 것을 보여주지만, 필요성에 대해서는 아무 말도 하지 않습니다.Board와 Pitt는 광범위한 개념 수업에서 Occam 학습은 사실상 PAC ^[3]학습에 필수적이라는 것을 보여준다.그들은 예외 목록에서 다항식으로 닫힌 모든 개념 클래스에 대해 PAC 학습 가능성은 해당 개념 클래스에 대한 Occam 알고리즘의 존재를 의미함을 증명했다.예외 리스트에서 다항식으로 닫힌 개념 클래스에는 부울식, 회로, 결정론적 유한 오토마타, 의사결정 리스트, 의사결정 트리 및 기타 기하학적으로 정의된 개념 클래스가 포함됩니다.

$c\in {\mathcal {C}}$ ${\mathcal {C}}$ C(\ $displaystyle {C})$ 는 ${\mathcal {C}}$ 다항식 $시간$ 알고리즘 $A$ (\ $style$ A)가 $A$ 존재하는 경우 예외 리스트에서 다항식으로 $c\in {\mathcal {C}}$ (\ $displaystyle c\in\$ mathcal { $C})$ 및 $c\in {\mathcal {C}}$ 예외 제외된 유한 $리스트$ E(\ $displaystyle$ E $)$ 의 $E$ 표현).에서는 c $\$ $displaystyle$ c $E$ 와 $c$ $\$ c $'$ 가 $c'$ 일치하도록 c $c'\in {\mathcal {C}}$ $displaystyle$ C'\ $in$ { $C}$ 에 $c'\in {\mathcal {C}}$ $c\$ $displaystyle$ E를 나타냅니다.

Occam 학습이 PAC 학습을 의미한다는 증거

먼저 카디널리티 버전을 증명합니다. $error(h)\geq \epsilon$ $error(h)\geq \epsilon$ $error(h)\geq \epsilon$ ( h ) $≥$ \ display $style$ $h\in {\mathcal {H}}$ error ( $error(h)\geq \epsilon$ h ) \ $geq$ \ $epsilon$ $error(h)\geq \epsilon$ 의 $h\in {\mathcal {H}}$ 가설 h $(\$ 를 bad라고 합니다. $error(h)$ 서 $error(h)$ $error(h)$ $error(h)$ r ( h $)$ 는 진정한 $error(h)$ $개념$ c {\ $displaystyle$ $error(h)$ c $}$ 및 $c$ 기본 $분포$ 에 관한 것입니다 $.$ $샘플$ S(\ $displaystyle$ S $)$ 세트가 $S$ h $(\displaystyle$ $(1-\epsilon )^{m}$ h $)$ 와 $h$ 일치할 확률은 샘플의 독립성에 따라 최대 $(1-\epsilon )^{m}$ ( $(1-\epsilon )^{m}$ - $(1-\epsilon )^{m}$ ) $(1-\epsilon )^{m}$ ( $1-\epsilon)^{m$ 이다.유니온에 의해 $,$ 에 ${\mathcal {H}}_{n,m}$ 가설이 존재할 가능성은 $|{\mathcal {H}}_{n,m}|(1-\epsilon )^{m}$ $|{\mathcal {H}}_{n,m}|(1-\epsilon )^{m}$ (1 $|{\mathcal {H}}_{n,m}|(1-\epsilon )^{m}$ - $|{\mathcal {H}}_{n,m}|(1-\epsilon )^{m}$ ) $($ 스타일 ${H}_$ 으로 $,$ $\delta$ 스타일 log $ta$ 의 $\delta$ $\log |{\mathcal {H}}_{n,m}|\leq O(\epsilon m)-\log {\frac {1}{\delta }}$ 표시 $스타일$ {H}(1 - \ $epsilon$ $\log |{\mathcal {H}}_{n,m}|\leq O(\epsilon m)-\log {\frac {1}{\delta }}$ }^{m $|{\mathcal {H}}_{n,m}|(1-\epsilon )^{m}$ 보다 작습니다. $\log |{\mathcal {H}}_{n,m}|\leq O(\epsilon m)-\log {\frac {1}{\delta }}$ ) - log $\log |{\mathcal {H}}_{n,m}|\leq O(\epsilon m)-\log {\frac {1}{\delta }}$ 1 ${\$ { $style$ \ $log$ \ $mathcal$ { $H$ } $_$ { $n$ , m } \ $leq$ O ( \ $epsilon$ m ) - \ $log$ \ $frac$ { $1$ } { \ $delta }$ 。이것으로 위의 두 번째 정리 증명은 완료되었습니다.

두 번째 정리를 사용하면 첫 번째 정리를 증명할 수 있다. $(\alpha ,\beta )$ β $)$ { $displaystyle (\alpha,\beta)}$ - Occam $(\alpha ,\beta )$ 알고리즘이 있으므로 L{ $displaystyle$ L $}$ 에 $L$ $의한$ 가설 출력은 최대 $(n\cdot size(c))^{\alpha }m^{\beta }$ ( $(n\cdot size(c))^{\alpha }m^{\beta }$ $†$ $(n\cdot size(c))^{\alpha }m^{\beta }$ z $(n\cdot size(c))^{\alpha }m^{\beta }$ ( $(n\cdot size(c))^{\alpha }m^{\beta }$ ) $(n\cdot size(c))^{\alpha }m^{\beta }$ $(n\cdot size(c))^{\alpha }m^{\beta }$ β { $displaystyle$ ( n \ $cdot size$ ( $(n\cdot size(c))^{\alpha }m^{\beta }$ ))로 나타낼 수 있습니다. $^{\alpha }m^{\beta$ }}비트 $(n\cdot size(c))^{\alpha }m^{\beta }$ , 로그 $\log |{\mathcal {H}}_{n,m}|\leq (n\cdot size(c))^{\alpha }m^{\beta }$ $\log |{\mathcal {H}}_{n,m}|\leq (n\cdot size(c))^{\alpha }m^{\beta }$ ( n $\log |{\mathcal {H}}_{n,m}|\leq (n\cdot size(c))^{\alpha }m^{\beta }$ $\log |{\mathcal {H}}_{n,m}|\leq (n\cdot size(c))^{\alpha }m^{\beta }$ z $\log |{\mathcal {H}}_{n,m}|\leq (n\cdot size(c))^{\alpha }m^{\beta }$ ( $\log |{\mathcal {H}}_{n,m}|\leq (n\cdot size(c))^{\alpha }m^{\beta }$ ) $\log |{\mathcal {H}}_{n,m}|\leq (n\cdot size(c))^{\alpha }m^{\beta }$ mβ { $displaystyle$ \ $log$ \ $mathcal$ { $H}$ _ { n , $m$ } \ $leq ( n$ \ $cdot$ size ( $\log |{\mathcal {H}}_{n,m}|\leq (n\cdot size(c))^{\alpha }m^{\beta }$ c ) $^{\alpha }m^{\beta$ m $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ a $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ ( $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ log $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ 1 $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ + $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ ( $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ s $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ 로 $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ 하면 $O(\epsilon m)-\log {\frac {1}{\delta }}$ O ( $O(\epsilon m)-\log {\frac {1}{\delta }}$ " $O(\epsilon m)-\log {\frac {1}{\delta }}$ ) - log $O(\epsilon m)-\log {\frac {1}{\delta }}$ 1 {\ 1 （ \ $epsilon$ m $）$ - log 1 $O(\epsilon m)-\log {\frac {1}{\delta }}$ 1 $O(\epsilon m)-\log {\frac {1}{\delta }}$ $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ 보다 작습니다 $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ $c)$ {{\ $alpha }}{\alpha$ }}{\right $)^{\frac$ {1 $}{$ $1-$ \flac }}\right $}$ $a>0$ ( $a$ > $0$ 일 $m\geq a\left({\frac {1}{\epsilon }}\log {\frac {1}{\delta }}+\left({\frac {(n\cdot size(c))^{\alpha })}{\epsilon }}\right)^{\frac {1}{1-\beta }}\right)$ 경우따라서 카디널리티 버전 정리에 따라 L{\ $displaystyle$ L $}$ 은 $L$ $1-\delta$ - ${\$ {\ $displaystyle 1-\delta$ 의 확률로 일관된 $가설$ h {\ $displaystyle$ h $h$ }를 출력합니다.이것으로 위의 첫 번째 정리에 대한 증명을 마치겠습니다.

일반적인 문제에 대한 샘플 복잡성 개선

Occam과 PAC 학습 가능성은 동일하지만 Occam 프레임워크는 연결,^[2] 관련 ^[4]변수가 거의 없는 연결 및 의사결정 ^[5]목록을 포함한 고전적 문제의 샘플 복잡성에 대한 보다 엄격한 경계를 생성하기 위해 사용될 수 있다.

내선번호

또한 Occam 알고리즘은 오류,^[6]^[7] 확률론적 개념,^[8] 함수^[9] 학습 및 마르코프 비독립적 ^[10]예제의 존재 하에서 PAC 학습에 성공한 것으로 나타났다.

「」를 참조해 주세요.

레퍼런스

^ ^a ^b Blumer, A., Ehrenfeucht, A., Haussler, D. 및 Warmuth, M. K. (1987년)Occam의 면도기.정보처리 서신, 24(6), 377-380
^ ^a ^b ^c 켄스, M. J., & 바지라니, U. V. (1994년)컴퓨터 학습 이론의 개요, 제2장. MIT 프레스.
^ Board, R. & Pitt, L. (1990년, 4월).Occam 알고리즘의 필요성에 대해서.연산 이론에 관한 22번째 연례 ACM 심포지엄의 속행 (54-63)ACM.
^ 하우슬러, D. (1988)유도 바이어스 정량화: AI 학습 알고리즘 및 Valiant의 학습 프레임워크 2013-04-12 Wayback Machine에서 아카이브.인공지능, 36(2), 177-221.
^ Rivest, R. L.(1987년)학습 의사결정 리스트 기계학습, 2(3), 229-246.
^ 앵글루인, D., & Laird, P. (1988)시끄러운 예로부터 배우다.기계학습, 2(4), 343-370.
^ Kearns, M., & Li, M. (1993)악의적인 오류가 있는 경우의 학습.SIAM Journal on Computing, 22(4), 807-837.
^ 켄스, M. J., & Schapire, R. E.(1990년, 10월).확률론적 개념의 효율적인 분포 없는 학습.컴퓨터 과학 재단, 1990년.절차, 제31회 연례 심포지엄 on (382-391페이지)IEEE.
^ 나타라잔, B.K.(1993년, 8월)Occam의 기능 면도기.제6회 컴퓨터 학습 이론 연차 회의의 속행 (p. 370-376).ACM.
^ Aldous, D. 및 Vazirani, U.(1990년, 10월).발리안트의 학습 모델을 마르코프식으로 확장한 것입니다.컴퓨터 과학 재단, 1990년.제31회 연례 심포지엄 (392-396페이지)에 관한 절차.IEEE.

[def-1] Blumer, A., Ehrenfeucht, A., Haussler, D. 및 Warmuth, M. K. (1987년)Occam의 면도기.정보처리 서신, 24(6), 377-380

[kv-2] 켄스, M. J., & 바지라니, U. V. (1994년)컴퓨터 학습 이론의 개요, 제2장. MIT 프레스.

[3] Board, R. & Pitt, L. (1990년, 4월).Occam 알고리즘의 필요성에 대해서.연산 이론에 관한 22번째 연례 ACM 심포지엄의 속행 (54-63)ACM.

[4] 하우슬러, D. (1988)유도 바이어스 정량화: AI 학습 알고리즘 및 Valiant의 학습 프레임워크 2013-04-12 Wayback Machine에서 아카이브.인공지능, 36(2), 177-221.

[5] Rivest, R. L.(1987년)학습 의사결정 리스트 기계학습, 2(3), 229-246.

[6] 앵글루인, D., & Laird, P. (1988)시끄러운 예로부터 배우다.기계학습, 2(4), 343-370.

[7] Kearns, M., & Li, M. (1993)악의적인 오류가 있는 경우의 학습.SIAM Journal on Computing, 22(4), 807-837.

[8] 켄스, M. J., & Schapire, R. E.(1990년, 10월).확률론적 개념의 효율적인 분포 없는 학습.컴퓨터 과학 재단, 1990년.절차, 제31회 연례 심포지엄 on (382-391페이지)IEEE.

[9] 나타라잔, B.K.(1993년, 8월)Occam의 기능 면도기.제6회 컴퓨터 학습 이론 연차 회의의 속행 (p. 370-376).ACM.

[10] Aldous, D. 및 Vazirani, U.(1990년, 10월).발리안트의 학습 모델을 마르코프식으로 확장한 것입니다.컴퓨터 과학 재단, 1990년.제31회 연례 심포지엄 (392-396페이지)에 관한 절차.IEEE.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Search

오컴 러닝

네임스페이스

더

목차

서론

Occam 학습의 정의

Occam 학습과 PAC 학습의 관계

정리(Occam 학습은 PAC 학습을 의미함)

정리(Occam 학습은 PAC 학습, 카디널리티 버전 포함)

Occam 학습이 PAC 학습을 의미한다는 증거

일반적인 문제에 대한 샘플 복잡성 개선

내선번호

「」를 참조해 주세요.

레퍼런스

Search

오컴 러닝

서론

Occam 학습의 정의

Occam 학습과 PAC 학습의 관계

정리(Occam 학습은 PAC 학습을 의미함)

정리(Occam 학습은 PAC 학습, 카디널리티 버전 포함)

Occam 학습이 PAC 학습을 의미한다는 증거

일반적인 문제에 대한 샘플 복잡성 개선

내선번호

「 」를 참조해 주세요.

레퍼런스

「」를 참조해 주세요.