코부스팅

코부스트는 1999년 콜린스와 싱어가 제안한 준감독 훈련 알고리즘이다.알고리즘의 원래 적용은 매우 약한 학습자를 이용한 명명된 엔티티 분류 작업이었다.^[1]특징에 중복성이 존재하는 경우 준감독 학습 수행에 사용할 수 있다.

공동훈련과 부양이 합쳐진 것으로 볼 수도 있다.각 예제는 두 개의 뷰(형상 집합의 하위 섹션)에서 사용할 수 있으며, 부스팅은 이전 반복의 대체 뷰에서 생성된 예측 라벨을 사용하여 각 뷰와 교대로 반복적으로 적용된다.CoBoosting은 PAC 학습의식에서 유효한 부스팅 알고리즘이 아니다.

동기

CoBoosting은 콜린스와 싱어가 반 감독 방식으로 분류자를 훈련시키기 위한 기능의 중복성을 이용하려는 이전의 시도를 개선하려는 시도였다.블럼과 미첼의 세미콜라 작품인 코트레이닝은 의사결정 목록에서 반복적으로 규칙을 유도함으로써 소수의 씨앗 예시를 주어 분류자를 학습하는 데 강력한 프레임워크임을 보여주었다.CoBoosting to CoTraining의 장점은 CoTraining 패턴을 일반화하여 어떤 분류기와도 함께 사용할 수 있다는 점이다.CoBoosting은 AdaBoost로부터 개념을 차용하여 이 업적을 달성한다.

CoTrain과 CoBoost에서 교육 및 테스트 예제 세트는 두 가지 특성을 따라야 한다.첫 번째는 예시의 형상공간이 두 형상공간(또는 보기)으로 분리되어 각 뷰가 분류를 위해 충분히 표현될 수 있다는 점이다.Formally, there exist two functions $f_{1}(x_{1})$ and $f_{2}(x_{2})$ such that for all examples $x=(x_{1},x_{2})$ , ${\displaystyle f_{1}(x_{1})=f_{2}(x_{2})=f$ $(x$ 이상적인 반면, 이 제약조건은 사실 소음과 다른 요인들로 인해 너무 강하며, 그 대신 두 알고리즘 모두 두 기능 사이의 합치를 최대화하려고 한다.두 번째 속성은 두 가지 관점이 높은 상관관계를 가져서는 안 된다는 것이다.

알고리즘.

입력: $\{(x_{1,i},x_{2,i})\}_{i=1}^{n}$ { $\{(x_{1,i},x_{2,i})\}_{i=1}^{n}$ ( $\{(x_{1,i},x_{2,i})\}_{i=1}^{n}$ $\{(x_{1,i},x_{2,i})\}_{i=1}^{n}$ , $\{(x_{1,i},x_{2,i})\}_{i=1}^{n}$ $\{(x_{1,i},x_{2,i})\}_{i=1}^{n}$ 2 $\{(x_{1,i},x_{2,i})\}_{i=1}^{n}$ $\{(x_{1,i},x_{2,i})\}_{i=1}^{n}$ ) $\{(x_{1,i},x_{2,i})\}_{i=1}^{n}$ = $\{(x_{1,i},x_{2,i})\}_{i=1}^{n}$ ${\$ \{{1}{( $x_{1,i},$ x_{ $2,i}\}_{i=1}^{n$ $\{y_{i}\}_{i=1}^{m}$ { $\{y_{i}\}_{i=1}^{m}$ = $\{y_{i}\}_{i=1}^{m}$ { $y_{i}\i}\i$ =1}^{m $}}}}}}}}:{m}$

초기화: $\forall i,j:g_{j}^{0}({\boldsymbol {x_{i}}})=0$ $\forall i,j:g_{j}^{0}({\boldsymbol {x_{i}}})=0$ , j $\forall i,j:g_{j}^{0}({\boldsymbol {x_{i}}})=0$ : $\forall i,j:g_{j}^{0}({\boldsymbol {x_{i}}})=0$ $\forall i,j:g_{j}^{0}({\boldsymbol {x_{i}}})=0$ 0 ( $\forall i,j:g_{j}^{0}({\boldsymbol {x_{i}}})=0$ x $\forall i,j:g_{j}^{0}({\boldsymbol {x_{i}}})=0$ ) $\forall i,j:g_{j}^{0}({\boldsymbol {x_{i}}})=0$ = 0 ${\displaystyle$ \ $for i,j:g_{j}^{0}({\boldsymbol {x_{i}}}}}=0$ .

$t=1,...,T$ = $t=1,...,T$ , . $t=1,...,T$ . $t=1,...,T$ , $t=1,...,T$ ${\displaystyle$ t= $1,...$ $,T}$ 및 $t=1,...,T$ $j=1,2$ = $j=1,2$ , $j=1,2$ ${\displaystyle j=1,2$

유사 레이블 설정:

${\hat {y_{i}}=\좌측\{{\now{array}{ll}y_{i},1\leq i\leq m\\sign(g_{3-j}^{t-1}({\symbol {x_{3-j,i}}}),m<leq nend\}오른쪽.$

Set virtual distribution: $D_{t}^{j}(i)={\frac {1}{Z_{t}^{j}}}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$

여기서 $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ = $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ i $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ = $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ e $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ - $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ g $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ - $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ j $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ , i $Z_{t}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}g_{j}^{t-1}({\boldsymbol {x_{j,i}}})}$ ) ${\$

$h_{t}^{j}$ 된 교육 오류를 최소화하는 약한 $h_{t}^{j}$ 가설 $h_{t}^{j}$ ${\$ 을(를) 찾으십시오.

확장된 교육 오류를 최소화하는 $\alpha _{t}$ $\alpha _{t}$ $\alpha _{t}$ ${\$ 에 대한 값을 선택하십시오.

현재 강력한 비임계 분류자 값 업데이트:

$\forall i:g_{j}^{t}{t}({\programsymbol {x_{j,i}}}}}}=g_{j}^-1}({\programsymbol {x_{t}^}}}{j,i}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}})$

최종 강력한 분류기 출력은

$f({\boldsymbol{x}}=좌(\sum _{j=1}^{2}g_{j}^{T})({\boldsymbol {x_{j}}}}\오른쪽)}$

AdaBoost 설정

CoBoosting은 AdaBoost 알고리즘을 기반으로 하며, 이것은 AdaBoost가 다른 많은 학습 알고리즘과 함께 사용될 수 있기 때문에 CoBoosting에게 일반화 능력을 부여한다.이 빌드업은 복수 클래스 분류에 적응할 수 있지만 2 클래스 분류 작업을 가정한다.AdaBoost 프레임워크에서는 훈련 세트의 예에 대한 분포뿐만 아니라 약한 분류자가 직렬로 생성된다.각각의 약한 분류기에는 무게가 주어지고 최종적인 강한 분류자는 할당된 무게에 의해 가중되는 약한 분류자의 합계의 기호로 정의된다.(표기법은 AdaBoost Wikipedia 페이지 참조)AdaBoost 프레임워크에서 Schapire와 Singer는 훈련 오류가 다음과 같은 방정식에 의해 제한된다는 것을 보여주었다.

${\frac {1}{m}}\sum _{i=1}^{m}e^{\left(-y_{i}\left(\sum _{t=1}^{T}\alpha _{t}h_{t}({\boldsymbol {x_{i}}})\right)\right)}=\prod _{t}Z_{t}$

여기서 $Z_{t}$ $Z_{t}$ ${\$ 는 분포 $Z_{t}$ $D_{t+1}$ t $D_{t+1}$ + $D_{t+1}$ ${\$ 의 정규화 요인이다 $D_{t+1}$ $D_{t}(i)$ $D_{t}(i)$ ( $D_{t}(i)$ ) $D_{t}(i)$ 에 대한 방정식의 $Z_{t}$ $Z_{t}$ $Z_{t}$ ${\$ 에 대한 해결 방법:

$Z_{t}=\sum _{i:x_{t}\notin x_{i}}}D_{t}(i)+\sum _{i:x_{t}\in x_{i}}}D_{t}(i)e^{-y_{i}\알파 _{i}h_{t}({\boldsymbol{x_{i}}}}}}}}}}$

여기서 $x_{t}$ $x_{t}$ ${\$ 는 현재 $x_{t}$ 약한 가설에서 선택된 형상이다.현재 가설이 올바른 레이블 또는 잘못된 레이블을 선택한 분포의 합을 설명하는 3개의 방정식이 정의된다.분류자가 제공된 라벨이 0인 예에서 라벨을 선택하지 않을 수 있다는 점에 유의하십시오.두 개의 라벨은 -1 또는 1로 선택된다.

$W_{0}=\sum _{i:h_{t}(x_{i})=0}D_{t}(i)$

$W_{+}=\sum _{i:h_{t}(x_{i})=y_{i}}D_{t}(i)$

$W_{-}=\sum _{i:h_{t}(x_{i})=-y_{i}D_{t}(i)$

샤피르와 싱어는 다음과 $\alpha _{t}$ 같이 $\alpha _{t}$ t ${\$ 를 선택하여 $Z_{t}$ Z $Z_{t}$ {\ $displaystyle Z_{t}$ 을 최소화할 $Z_{t}$ 수 있고, 따라서 훈련 오류도 최소화할 수 있다는 것을 보여주었다.

$\alpha _{t}={\frac {1}{2}}\ln \left({\frac {W_{+}}{W_}}}{-}}\오른쪽)$

정확하게 분류된 예제 수 대 예에 비해 분포에 의해 가중된 잘못 분류된 예제 수를 바탕으로 현재 가설의 분류자에 대한 신뢰 값 제공. $W_{-}$ 방정식은 W $W_{-}$ - ${\$ 가 너무 $W_{-}$ 작은 경우를 보상하기 위해 평활할 수 있다. $Z_{t}$ 방정식에서 $Z_{t}$ $Z_{t}$ Z t {\ $displaystyle$ Z_ ${t}$ 를 도출하면 다음과 같은 결과를 얻을 수 있다.

$Z_{t}=W_{0}+2{\sqrt{W_{+}W_{-}}}}}$

따라서 훈련 오류는 이전 방정식을 최소화하는 반복마다 약한 가설을 선택하여 최소화한다.

두 가지 견해를 가진 에이다부스트

CoBoosting은 라벨이 붙은 훈련 세트( $1...m$ $1...m$ 의 예 $1...m$ 와 라벨이 없는 훈련 세트( $m_{1}...n$ 1 $m_{1}...n$ . $m_{1}...n$ .n ${\displaystym_{1}...n})$ 가 있는 경우 이 프레임워크를 확장하며, $x_{i}=(x_{1,i},x_{2,i})$ i $x_{i}=(x_{1,i},x_{2,i})$ = $x_{i}=(x_{1,i},x_{2,i})$ ( $x_{i}=(x_{1,i},x_{2,i})$ $x_{i}=(x_{1,i},x_{2,i})$ , $x_{i}=(x_{1,i},x_{2,i})$ $x_{i}=(x_{1,i},x_{2,i})$ $x_{i}=(x_{1,i},x_{2,i})$ , $x_{i}=(x_{1,i},x_{2,i})$ $dis$ 의 형태로 특징의 중복성 조건을 충족한다 $.$ $Playstyle x_{i}=(x_{1,i},x_{2,i$ 알고리즘은 라벨이 부착된 훈련에 동의하는 에이다부스트와 같은 방식으로 두 분류자를 훈련시키고 라벨이 부착되지 않은 훈련 세트에 있는 두 분류자 사이의 합의를 최대화한다.최종 분류자는 두 개의 강력한 분류자를 합한 표시다.CoBoost에 대한 경계 훈련 오류는 다음과 같이 확장되며, $Z_{CO}$ 서 Z $Z_{t}$ $Z_{CO}$ ${\$ 는 $Z_{t}$ t ${\$ 의 확장이다 $Z_{{CO}}$ $Z_{t}$

$Z_{CO}=\sum _{i=1}^{m}e^{-y_{i}g_{1}({\boldsymbol {x_{1,i}}})}+\sum _{i=1}^{m}e^{-y_{i}g_{2}({\boldsymbol {x_{2,i}}})}+\sum _{i=m+1}^{n}e^{-f_{2}({\boldsymbol {x_{2,i}}})g_{1}({\boldsymbol {x_{1,i}}})}+\sum _{i=m+1}^{n}e^{-f_{1}({\boldsymbol {x_{1,i}}})g_{2}({\boldsymbol {x_{2,i}}})}$

여기서 $g_{j}$ $g_{j}$ ${\$ 는 $j^{th}$ $j^{th}$ $j^{th}$ ${\$ j $^{th}}$ 보기(j $j^{th}$ = 1 또는 2)에 대한 신뢰 값에 의한 가설 가중치의 합이다 $g_{j}$ . $f_{j}$ $f_{j}$ ${\$ 는 $f_{j}$ g $g_{j}$ ${\$ 의 기호인데 $g_{j}$ CoBoost의 각 반복에서 두 분류자는 반복적으로 업데이트된다. $t-1$ $g_{j}^{t-1}$ $g_{j}^{t-1}$ - 1 ${\$ 이 $j^{th}$ $t-1$ - 1 ${\displaystyle j$ $^{th$ $}}$ 보기에 대한 강력한 $j^{th}$ 분류기 출력인 경우, jth $g_{j}^{t-1}$ $t-1$ 에 대한 유사 라벨을 다음과 같이 설정할 수 있다.

${\hat {y_{i}}=\좌측\{{\now{array}{ll}y_{i},1\leq i\leq m\\sign(g_{3-j}^{t-1}({\symbol {x_{3-j,i}}}),m<leq nend\}오른쪽.$

여기서 $3-j$ - $3-j$ $3-j$ 은(는) 현재 업데이트 중인 보기의 다른 보기를 선택한다 $3-j$ . $Z_{CO}$ $Z_{CO}$ $Z_{CO}$ ${\$ 은(는 $Z_{CO}=Z_{CO}^{1}+Z_{CO}^{2}$ Z $Z_{CO}=Z_{CO}^{1}+Z_{CO}^{2}$ $Z_{CO}=Z_{CO}^{1}+Z_{CO}^{2}$ = $Z_{CO}=Z_{CO}^{1}+Z_{CO}^{2}$ C $Z_{CO}=Z_{CO}^{1}+Z_{CO}^{2}$ 1 + $Z_{CO}=Z_{CO}^{1}+Z_{CO}^{2}$ C O 2 {\ $displaystyle$ Z_ ${CO}=Z_{CO}^{1}+$ {{{}}}}와 같이 둘로 분할된다. $CO}^{2$ 어디

$Z_{CO}^{j}=\sum _{i=1}^{n}e^{-{\hat {y_{i}}}(g_{j}^{t-1}({\boldsymbol {x_{i}}})+\alpha _{t}^{j}g_{t}^{j}({\boldsymbol {x_{j,i}}}))}$

반복 $t$ $t$ 에서 $j$ 각 보기 $j$ $j$ 에 대한 예제를 통한 분포는 다음과 같이 정의된다 $t$ .

$D_{t}^{j}(i)={\frac {1}{1}{Z_{t}^{j}}e^{-{\hat {y_{i}}g_{j}^{t-1}}}}{\boldsymbol {x_{j,i}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}$

$Z_{CO}^{j}$ Z $Z_{CO}^{j}$ $Z_{CO}^{j}$ $Z_{CO}^{j}$ ${\$ 을(를) 로 다시 쓸 수 있다 $Z_{CO}^{j}$ .

$Z_{j}^{j}=\sum _{i=1}{n_{t}^{j}e^{-{\hat {y_{i}}}\alpha _{t}^{j}g_{t}^{\boldsymbol {x_{j,i}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}$

에이다부스트의 방정식과 동일한 것이다.Thus the same process can be used to update the values of $\alpha _{t}^{j}$ as in AdaBoost using ${\hat {y_{i}}}$ and $D_{t}^{j}$ . By alternating this, the minimization of $Z_{CO}^{1}$ and $Z_{CO}^{2}$ $Z_{CO}^{2}$ 이 패션에서 $Z_{CO}^{2}$ $Z_{CO}^{2}$ $Z_{CO}$ $Z_{CO}$ $Z_{CO}$ ${\$ 는 욕심 많은 패션으로 최소화된다 $Z_{CO}$ .

참조

각주

^ 마이클 콜린스와 요람 싱어, 명명되지 않은 개체 분류 모델.1999년도 자연어 처리 및 매우 큰 기업에서의 경험적 방법에 관한 공동 SIGDAT 회의의 진행, 페이지 100-110, 1999.

[Collins99-1] 마이클 콜린스와 요람 싱어, 명명되지 않은 개체 분류 모델.1999년도 자연어 처리 및 매우 큰 기업에서의 경험적 방법에 관한 공동 SIGDAT 회의의 진행, 페이지 100-110, 1999.

[1]

Search

코부스팅

네임스페이스

더

목차

동기

알고리즘.

AdaBoost 설정

두 가지 견해를 가진 에이다부스트

참조

각주