Vapnik-Chervonenkis 차원

Vapnik-Chervonenkis 이론에서 Vapnik-Chervonenkis(VC) 치수는 통계 이항 분류 알고리즘에 의해 학습될 수 있는 함수 집합의 용량(복잡도, 표현력, 풍부도 또는 유연성)의 척도이다.이는 알고리즘이 파괴할 수 있는 가장 큰 포인트 세트의 카디널리티로 정의됩니다.즉, 알고리즘은 이러한 데이터 포인트의 적어도1개의 설정에 대한 라벨링에 대해 항상 완벽한 분류자를 학습할 수 있습니다.원래 Vapnik과 Alexey Chervonenkis에 ^[1]의해 정의되었습니다.

비공식적으로, 분류 모델의 용량은 얼마나 복잡할 수 있는가와 관련이 있다.예를 들어, 다항식이 0보다 높게 평가되면 해당 점이 양수로, 그렇지 않으면 음수로 분류되는 고차 다항식의 임계값화를 고려합니다.고차 다항식은 흔들릴 수 있으므로 주어진 훈련 포인트 집합을 잘 맞출 수 있습니다.그러나 분류기가 너무 불안정하기 때문에 다른 부분에서 오류를 범할 것으로 예상할 수 있다.이런 다항식은 용량이 크다.훨씬 더 간단한 대안은 선형 함수를 임계값화하는 것입니다.이 기능은 용량이 낮기 때문에 교육 세트에 잘 맞지 않을 수 있습니다.용량에 대한 이러한 개념은 아래에서 엄격하게 설명됩니다.

정의들

세트 패밀리의 VC 치수

$H(\displaystyle$ H)를 세트 $(세트)$ 로 하고 C(\displaystyle C $)$ 를 $C$ 세트라고 $합니다$ .이들의 교차는 다음과 같은 집합 패밀리로 정의됩니다.

H\cap C:=\{h\cap C\mid h\in H\

H $H\cap C$ \ $display style$ H \ $cap$ C $:$ C $H\cap C$ \ $display style$ C $C$ 의 $모든$ 서브셋이 포함되어 있는 $H\cap C$ 는 $,$ C 의 $C$ 가 $C$ H $에$ $의해서$ 파괴된다고 합니다.즉, 다음과 같습니다.

(\displaystyle H\cap C = 2^{ C } )

H $(\displaystyle$ H $)$ 의 $H$ VC $치수$ D(\ $displaystyle$ D $)$ 는 $D$ H $(\displaystyle$ H $H$ 에 의해 파괴된 세트 중 가장 큰 카디널리티입니다.임의로 큰 서브셋을 분할할 수 있는 경우 VC 치수는 $"\displaystyle\infty$ 가 됩니다.

분류 모델의 VC 치수

일부 파라미터 $\theta$ ${\$ { $displaystyle$ $\theta$ }를 $\theta$ 사용하는 이진 분류 $모델$ f { $displaystyle$ $(x_{1},x_{2},\ldots ,x_{n})$ f}는 $f$ $(x_{1},x_{2},\ldots ,x_{n})$ 라벨의 모든 할당에 대해 일반적으로 배치된 데이터 포인트 $x$ 1, $x$ 2, $..., x n) 세트$ 를 분쇄하는 것으로 알려져 $.$ $ystyle \theta$ }: 모델 $\displaystyle$ f $}$ 가 $\theta$ $f$ 데이터 포인트^{[citation needed]} 세트를 평가할 때 오류가 발생하지 않도록 합니다.

$모델$ f ${$ style f $}$ 의 $VC$ 치수는 f ${style$ f $}$ 가 $f$ 이를 분쇄하도록 $f$ 배열할 수 있는 최대 포인트 수입니다.좀 더 형식적으로 말하면, $D$ 의 $D$ 일부 데이터 포인트 세트가 f{\ $displaystyle$ f}에 의해 산산조각날 수 있는 $최대값$ D(\ $displaystyle$ D $)$ 입니다 $D$ .

예

1. $\displaystyle$ f는 상수 $f$ 분류기(파라미터 없음)이다.VC 치수는 0입니다.단일 포인트도 파괴할 수 없기 때문입니다.일반적으로 유한 분류 모델의 VC 치수는 $최대$ $(\$ $displaystyle$ 2 $^{d$ $})$ 의 $2^{d}$ 다른 분류자를 반환할 수 있습니다(이것은 VC 치수의 상한이며, Sauer-Shellah lema는 치수의 하한을 나타냅니다).

2. $f$ {\ $displaystyle$ f $}$ 는 $f$ 실수의 단일 파라미터 임계값 분류기입니다.즉, 특정 임계값의 $\theta$ f ${\$ 는 $f_{\theta }$ 입력번호가 $"\displaystyle \theta}$ 보다 $\theta$ 크면 1을 반환합니다. $f$ ${\displaystyle$ f $f$ }의 VC 치수는 1입니다.이는 (a) 1개의 포인트가 깨질 수 있기 때문입니다.모든 $점$ x(\ $displaystyle$ x $x$ 에 대해 $f_{\theta }$ f $(\$ })는 $f_{\theta }$ $\theta >x$ (\ $displaystyle$ $\theta$ > $x)$ 의 $\theta >x$ 경우 0으로 $\theta <x$ $>$ $\theta <x$ (\ $displaystyle$ \theta $<x$ 의 경우 1로 라벨을 붙입니다. (b) 2개의 점으로 모든 세트를 분쇄할 수 없습니다.두 숫자의 모든 집합에 대해 작은 숫자의 레이블이 1이면 큰 숫자도 레이블이 1이어야 하므로 모든 레이블을 지정할 수 없습니다.

3. $f$ { $displaystyle$ $\theta$ f $\theta$ 는 $f$ 실수의 단일 파라미터 간격 분류자입니다. $즉,$ 특정 $\theta$ 의 경우 $f_{\theta }$ f $f_{\theta }$ is { \ $[\theta ,\theta +4]$ $f_{$ \ $theta$ $f_{\theta }$ }}는 $f_{\theta }$ 입력번호가 $[\theta ,\theta +4]$ [ $[\theta ,\theta +4]$ 、、 $[\theta ,\theta +4]$ 、 $[\theta ,\theta +4]$ + $](\ta$ + 4 $)$ 에 $[\theta ,\theta +4]$ 있는 경우 1을 반환합니다. $f$ ${\displaystyle$ f $f$ }의 VC 치수는 2입니다.이는 (a) 몇 개의 포인트가 깨질 수 있기 때문입니다.만약θ<>만약 θ ∈[)− 4)− 2){\displaystyle \theta \in는 경우에는 x-4,x-2)}로(1,0)예를 들마다 지었지만{x, x+2}{\displaystyle\와 같이{x,x+2\}}, 선별기 f({\displaystyle f_{\theta}}(0,0)으로^− 4{\displaystyle \theta<>x-4}또는θ<>를 사용하여 x+2{\displaystyle \theta>x+2},(1,1)만약 그것이한다. θ ∈[) $\theta \in [x-2,x]$ , x $\theta \in [x-2,x]$ ] { $displaystyle \theta \in$ [ x - 2, x $]}$ $\theta \in (x,x+2]$ as ( 、 $\theta \in (x,x+2]$ ( $\theta \in (x,x+2]$ x , $\theta \in (x,x+2]$ + $2 )\ displaystyle \theta \in$ ( x , $x$ + 2 $\theta \in (x,x+2]$ (b)3개의 포인트 세트를 부수지 않습니다.세 숫자의 모든 집합에 대해 가장 작은 숫자와 가장 큰 숫자의 레이블이 1이면 가운데 숫자에도 레이블이 1로 지정되어야 하므로 모든 레이블을 지정할 수 없습니다.

4. $\displaystyle$ f는 $f$ 2차원 평면에서의 점 분류 모델로서 직선(퍼셉트론이 사용하는 모델)입니다.선은 양의 데이터 점과 음의 데이터 점을 구분해야 합니다.이 모델을 사용하여 실제로 깨질 수 있는 3개의 점 세트가 있습니다(공선적이지 않은 3개의 점은 깨질 수 있습니다).그러나 라돈의 정리에 따르면, 어떤 4개의 점이라도 볼록한 선체가 교차하는 두 개의 부분 집합으로 분할될 수 있으므로, 이 두 부분 집합 중 하나를 다른 부분 집합에서 분리할 수 없다.따라서 이 특정 분류자의 VC 치수는 3입니다.포인트 배열을 선택할 수 있지만 라벨 할당을 위해 분할하려고 할 때 포인트 배열을 변경할 수 없다는 점을 기억해야 합니다.3개의 점에는 2 = 8개의³ 가능한 레이블 할당 중 3개만 표시됩니다.


3점 산산조각			4점 불가

5. $f$ {\ $displaystyle$ f}는 $f$ 단일 $\theta$ 사인 분류기입니다.즉, 특정 파라미터 ${\$ {\ $displaystyle$ \ $theta$ $\theta$ 의 $x$ 경우 $f_{\theta }$ f ${\$ {\ $displaystyle$ f_{\ $theta$ $}}$ 는 $입력번호$ x {\ $displaystyle$ x $\sin(\theta x)>0$ 에 sin $>$ {\ $displaystyle$ x $}$ 이 $f_{\theta }$ $\sin(\theta x)>0$ $\sin(\theta x)>0$ 1을 반환합니다.f{\ $displaystyle$ f $}$ 의 $f$ VC 치수는 무한합니다.{ $displaystyle$ \ { $2 µ$ m $†$ $\{2^{-m}\mid m\in \mathbb {N} \}$ $}$ \ $mid$ m \ $in$ \ $mathbb$ { $N }$ ^[2]^{: 57}display { { { of of of of of of of of of of of of of of of of of of of $\{2^{-m}\mid m\in \mathbb {N} \}$ of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of

사용하다

통계학습이론에서

VC 치수는 분류 모델의 테스트 오류에 대한 확률적 상한을 예측할 수 있다.Vapnik은^[3] (훈련 세트와 동일한 분포에서 도출된 데이터에 대한) 상한으로부터 거리를 둔 테스트 오류(0-1 손실 함수의 위험)의 확률이 다음과 같이 제공된다는 것을 증명했다.

\displaystyle \Pr \text {text {text {training error} + {\text {1} {N}} \left[D\left(\log \tfrac {2N} {D} {\right} + 1\right) - \log \tft\tfraceta {4} {\right}}

분류 모델의 D는 어디{D\displaystyle}은 VC치수, 0<>η ⩽ 1{0<, \eta \leqslant 1\displaystyle}, 그리고 훈련 세트(제한의 N{N\displaystyle}크기:D≪ N{D\ll N\displaystyle}이 공식 유효합니다. D의{D\displaystyle} 크면 test-error b. 수 있e훨씬훈련 오류보다 더 높아요.이는 과적합에 의한 것입니다).

VC 치수는 샘플 복잡도 경계에도 표시됩니다.VC $치수$ D(\ $displaystyle$ D $)$ 의 $D$ 이진 함수 공간은 다음을 사용하여 학습할 수 있습니다.

N=\Theta\leftfrac {D+\ln {1 \over \filon }}{\varepsilon }}\right

샘플. $\varepsilon$ 서 $"\displaystyle\varepsilon"$ 은 $\varepsilon$ 학습 오류이고 $"\displaystyle\display$ "는 실패 확률입니다 $\delta$ $.$ 따라서 표본 복잡도는 가설 공간의 VC 차원에 대한 선형 함수입니다.

계산기하학에서

VC 치수는 "nets" 크기의 중요한 파라미터 중 하나이며, 이를 기반으로 근사 알고리즘의 복잡성을 결정합니다.유한 VC 치수가 없는 범위 세트에는 유한한 "net"이 전혀 없습니다.

경계

0. F $(\$ 의 ${\mathcal {F}}$ 듀얼 세트 패밀리의 VC 치수는 2 $2^{\operatorname {vc} ({\mathcal {F}})+1}$ µ ( $2^{\operatorname {vc} ({\mathcal {F}})+1}$ + $(\$ 2 $^{\operatorname {vc}({\$ mathcal { $F}})+1$ 보다 작으며, 이것이 최선이다.

1. 유한 집합 $집합$ H $(\displaystyle$ H $)$ 의 $H$ VC 치수는 최대 $\log _{2}|H|$ 2 $\log _{2}|H|$ 2 $\log _{2}|H|$ (\ $displaystyle \log$ _ ${2} H$ ^[2]^{: 56}입니다.이것은 정의상 H $displaystyle$ H $\cap$ C $\leq$ H $)$ 이기 $|H\cap C|\leq |H|$ $|H\cap C|\leq |H|$ 입니다.

2. 세트 $패밀리$ H(\ $displaystyle$ H $H$ 를 지정하면 H $(\$ $displaystyle$ $H$ $H$ 요소의 모든 $s$ $H$ 을 포함하는 세트 패밀리로 H(\ $displaystyle$ H $)$ 를 $H_{s}$ 합니다.^[2]^{: 57} $그$ 다음:

\displaystyle \operatorname {VCDim}(H_{s})\leq \operatorname {VCDim}(H)\cdot(2s\log _{2}(3s)}}}

3. 세트 $패밀리$ H(\ $displaystyle$ H $)$ 와 $H$ $h_{0}\in H$ $(\$ $H\,\Delta h_{0}:=\{h\,\Delta h_{0}\mid h\in H\}$ $h_{$ $H\,\Delta h_{0}:=\{h\,\Delta h_{0}\mid h\in H\}$ $}\$ $H\,\Delta h_{0}:=\{h\,\Delta h_{0}\mid h\in H\}$ H $)$ 가 주어지면 H $displaystyle$ $,\Delta H_{0})$ 를 $H\,\Delta h_{0}:=\{h\,\Delta h_{0}\mid h\in H\}$ 합니다 $H\,\Delta h_{0}:=\{h\,\Delta h_{0}\mid h\in H\}$ 그 ^[2]^{: 58}후, 다음과 같이 입력합니다.

\displaystyle \operatorname {VCDim}(H,\Delta h_{0})=\operatorname {VCDim}(H)}

유한 투영 평면의 VC 치수

순서 n의 유한 투영 평면은 n + n + 1 요소 ("점"이라고 함)에 대한 n + n + 1 세트 ("선")의² 집합이다².

각 행에는 정확히 n + 1개의 점이 포함됩니다.
각 선은 정확히 한 점에서 다른 모든 선과 교차합니다.
각 점은 정확히 n + 1 행에 포함됩니다.
각 점은 다른 점들과 정확히 한 줄에 공통으로 있습니다.
최소 4개의 점이 공통 선에 있지 않습니다.

유한 투영 평면의 VC 치수는 ^[4]2입니다.

증명: (a) 각각의 구별되는 점에 대해, (a) 둘 다 포함된 한 줄, 둘 중 하나만 포함된 선, 둘 다 포함되지 않은 선이 있기 때문에 크기 2의 모든 세트는 산산조각이 납니다. (b) 구별되는 3개의 점 중 어느 하나에 대해 x가 3개를 모두 포함하는 경우, 정확히 두 개의 선을 포함하는 y는 존재하지 않습니다(t 이후).hen x와 y는 투영 평면의 정의에 반하는 두 점에서 교차한다.)따라서 사이즈 3의 세트는 깨지지 않는다.

부스팅 분류자의 VC 차원

VC 치수가 D(\ $style$ D $)$ 인 단순 분류자의 기본 $클래스$ B(\ $style$ B $D$ 가 $B$ 있다고 가정합니다.

B $(\displaystyle$ B $B$ 의 여러 분류기를 조합하여 보다 강력한 분류기를 구축할 수 있습니다.이 기법을 부스팅이라고 합니다.공식적으로T {\ $displaystyle$ T $}$ $h_{1},\ldots ,h_{T}\in B$ h $h_{1},\ldots ,h_{T}\in B$ , $h_{1},\ldots ,h_{T}\in B$ $h_{1},\ldots ,h_{T}\in B$ $h_{1},\ldots ,h_{T}\in B$ B {\ $displaystyle h_{1},\ldots, h_{T}\in$ B $}$ 및 $h_{1},\ldots ,h_{T}\in B$ 무게 $w\in \mathbb {R} ^{T}$ w $w\in \mathbb {R} ^{T}$ $w\in \mathbb {R} ^{T}$ T $w\in \mathbb {R} ^{T}$ {\ $displaystyle$ w $\in \mathbb {R} ^{T$ 를 $T$ 하면 다음 분류자를 정의할 수 있습니다.

f(x)=\operatorname {sign} \left(\sum _{t=1}^{)T}w_{t}\cdot h_{t}(x)\right)

이러한 모든 분류자 세트의 VC 치수(B에서 $T$ T $)$ 분류자 $T$ $B$ 및 $\mathbb {R} ^{T}$ T $(\$ 에서 Weight-Vector를 $T$ 한 경우)는 T $T,D\geq 3$ $T,D\geq 3$ 3 $T,D\geq 3$ ^[5]^{: 108–109} $displaystyle$ T, $D\geq$ 3 $)$ 의 최대값입니다.

({displaystyle T\cdot (D+1)\cdot (3\log(T\cdot (D+1)+2)}

뉴럴 네트워크의 VC 차원

뉴럴 네트워크는 유도 비순환 그래프 G(V,E)로 설명되며, 여기서 다음과 같다.

V는 노드 집합입니다.각 노드는 단순한 계산 셀입니다.
E는 에지 세트이며, 각 에지에는 무게가 있습니다.
네트워크에 대한 입력은 들어오는 가장자리가 없는 노드인 그래프의 소스로 표시됩니다.
네트워크의 출력은 그래프의 싱크(발신 에지가 없는 노드)로 표시됩니다.
각 중간 노드는 들어오는 에지에서 노드 출력의 가중치 합계를 입력으로 얻습니다.여기서 가중치는 에지의 가중치입니다.
각 중간 노드는 부호함수 또는 시그모이드함수와 같은 입력의 특정 증가함수를 출력한다.이 기능을 활성화 기능이라고 합니다.

뉴럴 네트워크의 VC 치수는 다음과 ^[5]^{: 234–235}같이 제한됩니다.

액티베이션 함수가 부호 함수이고 무게가 일반인 경우 VC 치수는 $O(|E|\cdot \log(|E|))$ O $O(|E|\cdot \log(|E|))$ $O(|E|\cdot \log(|E|))$ ' $O(|E|\cdot \log(|E|))$ ' ( $O(|E|\cdot \log(|E|))$ ) \ $displaystyle$ O $( E$ \ $cdot \log$ ( $E$ ) ) $O(|E|\cdot \log(|E|))$ 。
액티베이션 함수가 Sigmoid 함수이고 무게가 일반인 경우 VC 치수는 최소 $\Omega (|E|^{2})$ ( $\Omega (|E|^{2})$ 2 $)\displaystyle \Omega$ ( $E$ ^{ $2})$ 이고 $\Omega (|E|^{2})$ $O(|E|^{2}\cdot |V|^{2})$ O ( $O(|E|^{2}\cdot |V|^{2})$ 2 $O(|E|^{2}\cdot |V|^{2})$ $O(|E|^{2}\cdot |V|^{2})$ 2 $)\displaystyle$ O $(E ^2}\cdot$ V $^2$ 입니다.
무게가 유한 패밀리에서 나오는 경우(예를 들어, 무게는 컴퓨터에서 최대 32비트로 나타낼 수 있는 실수) 두 활성화 기능 모두에서 VC 치수는 $O(|E|)$ O $)\displaystyle$ O $(E)}$ 입니다 $O(|E|)$

일반화

VC 차원은 이진 함수 공간({0,1}에 대한 함수)에 대해 정의됩니다.비이항 함수의 공간에 대해 몇 가지 일반화가 제안되었다.

다중 클래스 함수(예: {0,...n-1}에 대한 함수)의 경우 Natarajan^[6] 치수를 사용할 수 있습니다.Ben David 등은^[7] 이 개념의 일반화를 제시한다.
실제값 함수(예를 들어 실제 간격에 대한 함수 [0,1])에 대해서는 폴라드의 의사^[8]^[9]^[10] 차원을 사용할 수 있다.
Rademacher의 복잡성은 VC와 유사한 경계를 제공하며 커널을 사용하는^{[citation needed]} 방법 등의 통계 방법에 대한 VC 차원 계산보다 더 많은 통찰력을 제공할 수 있습니다.
메모리 용량(메모리 등가 용량)은 상한(예:인위적인_neural_network#Capacity)로 인해 과적합 가능성이 있는 포인트를 나타냅니다.

「」를 참조해 주세요.

성장 함수
Sauer-Shellah lema. VC 치수에 관한 세트시스템 내 세트 수에 대한 제한입니다.
카르핀스키-매킨타이어 정리,^[11] 일반적인 파피아 공식의 VC 차원에 대한 경계.

각주

^ Vapnik, V. N.; Chervonenkis, A. Ya. (1971). "On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities". Theory of Probability & Its Applications. 16 (2): 264. doi:10.1137/1116025. 이것은 B의 영어 번역본입니다.러시아 신문의 Seckler:"균일 컨버전스 상대 Frequencies의 사건들의 그들의 Probabilities에".Dokl.Akad.Nauk.181(4):781.1968년.그 번역 Vapnik, VN;Chervonenkis, A. 응.(2015년):복제 했다."균일 컨버전스 상대 Frequencies의 사건들의 그들의 Probabilities에".복잡함의 조치. p. 11.doi:10.1007/978-3-319-21852-6_3.아이 에스비엔 978-3-319-21851-9.
^ ^a ^b ^c ^d Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of Machine Learning. USA, Massachusetts: MIT Press. ISBN 9780262018258.
^ Vapnik 2000.
^ Alon, N.; Haussler, D.; Welzl, E. (1987). "Partitioning and geometric embedding of range spaces of finite Vapnik-Chervonenkis dimension". Proceedings of the third annual symposium on Computational geometry – SCG '87. p. 331. doi:10.1145/41958.41994. ISBN 978-0897912310. S2CID 7394360.
^ ^a ^b Shalev-Shwartz, Shai; Ben-David, Shai (2014). Understanding Machine Learning – from Theory to Algorithms. Cambridge University Press. ISBN 9781107057135.
^ 나타라얀 1989년
^ 벤 데이비드, 세자비안치 & 롱 1992.
^ 폴라드 1984년
^ Anthony & Bartlett 2009.
^ Morgenstern & Roughgarden 2015.
^ Karpinski & Macintyre 1997.

레퍼런스

Moore, Andrew. "VC dimension tutorial".
Vapnik, Vladimir (2000). The nature of statistical learning theory. Springer.
Blumer, A.; Ehrenfeucht, A.; Haussler, D.; Warmuth, M. K. (1989). "Learnability and the Vapnik–Chervonenkis dimension" (PDF). Journal of the ACM. 36 (4): 929–865. doi:10.1145/76359.76371. S2CID 1138467.
Burges, Christopher. "Tutorial on SVMs for Pattern Recognition" (PDF). (VC 차원 정보도 포함)
Chazelle, Bernard. "The Discrepancy Method".
Natarajan, B.K. (1989). "On Learning sets and functions". Machine Learning. 4: 67–97. doi:10.1007/BF00114804.
Ben-David, Shai; Cesa-Bianchi, Nicolò; Long, Philip M. (1992). "Characterizations of learnability for classes of {O, …, n}-valued functions". Proceedings of the fifth annual workshop on Computational learning theory – COLT '92. p. 333. doi:10.1145/130385.130423. ISBN 089791497X.
Pollard, D. (1984). Convergence of Stochastic Processes. Springer. ISBN 9781461252542.
Anthony, Martin; Bartlett, Peter L. (2009). Neural Network Learning: Theoretical Foundations. ISBN 9780521118620.
Morgenstern, Jamie H.; Roughgarden, Tim (2015). On the Pseudo-Dimension of Nearly Optimal Auctions. NIPS. arXiv:1506.03684. Bibcode:2015arXiv150603684M.
Karpinski, Marek; Macintyre, Angus (February 1997). "Polynomial Bounds for VC Dimension of Sigmoidal and General Pfaffian Neural Networks". Journal of Computer and System Sciences. 54 (1): 169–176. doi:10.1006/jcss.1997.1477.

[vc-1] Vapnik, V. N.; Chervonenkis, A. Ya. (1971). "On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities". Theory of Probability & Its Applications. 16 (2): 264. doi:10.1137/1116025. 이것은 B의 영어 번역본입니다.러시아 신문의 Seckler:"균일 컨버전스 상대 Frequencies의 사건들의 그들의 Probabilities에".Dokl.Akad.Nauk.181(4):781.1968년.그 번역 Vapnik, VN;Chervonenkis, A. 응.(2015년):복제 했다."균일 컨버전스 상대 Frequencies의 사건들의 그들의 Probabilities에".복잡함의 조치. p. 11.doi:10.1007/978-3-319-21852-6_3.아이 에스비엔 978-3-319-21851-9.

[book12-2] Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of Machine Learning. USA, Massachusetts: MIT Press. ISBN 9780262018258.

[FOOTNOTEVapnik2000-3] Vapnik 2000.

[ahw87-4] Alon, N.; Haussler, D.; Welzl, E. (1987). "Partitioning and geometric embedding of range spaces of finite Vapnik-Chervonenkis dimension". Proceedings of the third annual symposium on Computational geometry – SCG '87. p. 331. doi:10.1145/41958.41994. ISBN 978-0897912310. S2CID 7394360.

[book14-5] Shalev-Shwartz, Shai; Ben-David, Shai (2014). Understanding Machine Learning – from Theory to Algorithms. Cambridge University Press. ISBN 9781107057135.

[FOOTNOTENatarajan1989-6] 나타라얀 1989년

[FOOTNOTEBen-DavidCesa-BianchiLong1992-7] 벤 데이비드, 세자비안치 & 롱 1992.

[FOOTNOTEPollard1984-8] 폴라드 1984년

[FOOTNOTEAnthonyBartlett2009-9] Anthony & Bartlett 2009.

[FOOTNOTEMorgensternRoughgarden2015-10] Morgenstern & Roughgarden 2015.

[FOOTNOTEKarpinskiMacintyre1997-11] Karpinski & Macintyre 1997.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Search

Vapnik-Chervonenkis 차원

네임스페이스

더

목차

정의들

세트 패밀리의 VC 치수

분류 모델의 VC 치수

예

사용하다

통계학습이론에서

계산기하학에서

경계

유한 투영 평면의 VC 치수

부스팅 분류자의 VC 차원

뉴럴 네트워크의 VC 차원

일반화

「」를 참조해 주세요.

각주

레퍼런스

Search

Vapnik-Chervonenkis 차원

정의들

세트 패밀리의 VC 치수

분류 모델의 VC 치수

예

사용하다

통계학습이론에서

계산기하학에서

경계

유한 투영 평면의 VC 치수

부스팅 분류자의 VC 차원

뉴럴 네트워크의 VC 차원

일반화

「 」를 참조해 주세요.

각주

레퍼런스

「」를 참조해 주세요.