다중 커널 학습

다중 커널 학습은 미리 정의된 커널 집합을 사용하여 알고리즘의 일부로 커널의 최적의 선형 또는 비선형 조합을 학습하는 일련의 기계 학습 방법을 말합니다.복수의 커널 러닝을 사용하는 이유에는 a) 보다 큰 세트의 커널에서 최적의 커널과 파라미터를 선택할 수 있는 능력, 보다 자동화된 머신 러닝 방법을 허용하면서 커널 선택에 의한 편향을 줄이고 b) 다른 소스의 데이터(예: 비디오의 사운드와 이미지)를 결합하는 기능 등이 있습니다.f 유사성 때문에 다른 커널이 필요합니다.새로운 커널을 생성하는 대신 여러 커널 알고리즘을 사용하여 각 개별 데이터 소스에 대해 이미 설정된 커널을 결합할 수 있습니다.

비디오에서의 ^[1]이벤트 인식, ^[2]이미지에서의 객체 인식, 생물의학 데이터 융합과 ^[3]같은 여러 가지 커널 학습 접근법이 많은 애플리케이션에서 사용되어 왔다.

알고리즘

다중 커널 학습 알고리즘은 감독, 반감독 및 비감독 학습을 위해 개발되었다.대부분의 작업은 커널의 선형 조합을 사용하여 감독된 학습 사례에 대해 수행되었지만, 많은 알고리즘이 개발되었다.복수의 커널 학습 알고리즘의 배후에 있는 기본적인 생각은 학습 알고리즘의 최소화 문제에 추가 파라미터를 추가하는 것입니다.예를 들어 $n$ 의 $n개$ 의 n개의 $K$ K의 $선형$ 조합에 대한 감독 학습의 경우를 생각해 봅시다. $\beta$ 서 새로운 $K'=\sum _{i=1}^{n}\beta _{i}K_{i}$ K $K'=\sum _{i=1}^{n}\beta _{i}K_{i}$ 1 $K'=\sum _{i=1}^{n}\beta _{i}K_{i}$ $K'=\sum _{i=1}^{n}\beta _{i}K_{i}$ $K'=\sum _{i=1}^{n}\beta _{i}K_{i}$ K $K'=\sum _{i=1}^{n}\beta _{i}K_{i}$ \ $display style$ K $'$ = \ $sum$ _ { i $K'=\sum _{i=1}^{n}\beta _{i}K_{i}$ = $K'=\sum _{i=1}^{n}\beta _{i}K_{i}$ 1 $K'=\sum _{i=1}^{n}\beta _{i}K_{i}$ }^{ $n$ }\ $sum$ _ { $i$ } \ $tyledisplay$ K _ { $}$ $K'=\sum _{i=1}^{n}\beta _{i}K_{i}$ 。각 커널에 대해.커널은 (커널 힐버트 공간을 재현하는 속성 때문에) 가법적이기 때문에 이 새로운 함수는 여전히 커널입니다. $라벨$ Y $({displaystyle$ Y $Y$ 가 붙은 $데이터$ 세트 X({ $displaystyle$ X $X$ })의 경우 최소화 문제는 다음과 같이 기술할 수 있습니다.

\displaystyle \min _{\beta,c}\mathrm {E}(Y,K'c)+R(K,c)}

$\mathrm {E}$ 서 E $(\$ 는 $\Epsilon$ 오류 $R$ 이고 R $(\displaystyle$ R $)$ 은 $R$ 정규화 용어입니다. $(\$ 는 $\Epsilon$ 일반적으로 제곱 손실 함수(Tikhonov 정규화) 또는 힌지 손실 함수(SVM 알고리즘의 경우)이며 $,$ R(\ $displaystyle$ R $)$ 은 $R$ 일반적으로 $\ell _{n}$ n(\ $displaystyle \ell$ _ ${n})$ 또는 $\ell _{n}$ 규범 조합(탄성 네트 정규화)입니다.이 최적화 문제는 표준 최적화 방법으로 해결할 수 있습니다.순차적 최소 최적화와 같은 기존 기술의 적응도 여러 커널 SVM 기반 ^[4]방법을 위해 개발되었습니다.

지도 학습

지도 학습의 경우, 커널의 형태를 학습하기 위해 다른 방법을 사용하는 많은 알고리즘이 있습니다.다음 분류는 Gonen과 Alpaydyn(2011)^[5]에 의해 제안되었다.

고정 규칙 접근

위에서 설명한 선형 조합 알고리즘과 같은 고정 규칙 접근 방식은 규칙을 사용하여 커널 조합을 설정합니다.이들은 모수화가 필요하지 않으며 합산 및 곱셈과 같은 규칙을 사용하여 커널을 결합합니다.가중치는 알고리즘으로 학습됩니다.고정 규칙의 다른 예로는 다음과 같은 형식의 쌍별 커널이 있습니다.

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

(

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

i ,

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

j

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

)

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

, (

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

,

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

j

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

)

=

(

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

i ,

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

)

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

+

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

k (

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

,

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

j )

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

(

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

j ,

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

i

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

) k ( x 1 j ,

k((x_{1i},x_{1j}),(x_{2i},x_{2j}))=k(x_{1i},x_{2i})k(x_{1j},x_{2j})+k(x_{1i},x_{2j})k(x_{1j},x_{2i})

2 i ) （

display style

k (

x _

{ 1 } ,

x _

{ 1 j ) , x { 1 j 、 x 2 j ）、 {

i

}

이러한 쌍별 접근법은 단백질-단백질 ^[6]상호작용을 예측하는 데 사용되어 왔다.

휴리스틱 어프로치

이러한 알고리즘은 파라미터화된 조합 함수를 사용합니다.파라미터는 일반적으로 단일 커널 퍼포먼스 또는 커널 매트릭스에서의 일부 연산에 기초하여 각 개별 커널에 대해 정의됩니다.그 예로는 Tenabe 등의 커널이 있습니다.(2008년).^[7]Letting $\pi _{m}$ be the accuracy obtained using only $K_{m}$ , and letting $\delta$ be a threshold less than the minimum of the single-kernel accuracies, we can define

_{m}=subfrac {\sum _{h=1}^{n}(\pi _{h}-\sublic}

다른 접근법에서는 다음과 같은 커널 유사성의 정의를 사용합니다.

({displaystyle A(K_{1}, K_{2})=param frac {\paramle K_{1}, K_{1}\rangle \paramle K_{2}, K_{2}\rangle }})

이 척도를 사용하여 Qui와 Lane(2009)^[8]은 다음과 같은 경험적 접근법을 사용하여 다음을 정의했다.

\display_{m}=displayfrac {A(K_{m})YY^{T}}{\sum _{h=1}^{n}A(K_{h})YY^{T}}}}}

최적화 어프로치

이러한 접근법은 커널 조합 함수의 파라미터를 결정하기 위한 최적화 문제를 해결합니다.이는 유사성 측정과 구조적 위험 최소화 접근방식을 통해 수행되었다.위에서 정의한 것과 같은 유사성 측정의 경우 다음과 ^[9]같이 문제를 공식화할 수 있습니다.

\displaystyle \max _{\tra},\operatorname {tr}(K'_{tra})=1,K'\geq 0}A(K'_{tra})YY^{T})}

$K'_{tra}$ 서 K $K'_{tra}$ r $K'_{tra}$ $(\$ K $'_{tra})$ 는 $K'_{{tra}}$ 트레이닝 세트의 핵심입니다.

사용된 구조적 위험 최소화 접근법에는 Lanckriet 등이 사용한 것과 같은 선형 접근법이 포함된다.(2002).^[10]표준 SVM 문제를 해결한 후 커널 $\omega (K)$ ( $\omega (K)$ ) \ $displaystyle \omega (K)}$ 의 $\omega (K)$ 타당성을 목적 함수의 값으로 정의할 수 있다.다음으로 다음과 같은 최소화 문제를 해결할 수 있습니다.

\displaystyle \min _{\operatorname {tr}(K'_{tra})=c}\operatorname(K'_{tra})}

$c$ 서 c $\displaystyle$ c는 $c$ 양의 상수입니다.예를 들어 개별 커널에 대해 음이 아닌 가중치를 사용하고 커널의 비선형 조합을 사용하는 등 문제를 수정하고 해결하는 다른 방법들과 함께 많은 다른 변형들이 같은 아이디어에 존재한다.

베이지안 어프로치

베이지안 접근법은 커널 파라미터에 우선순위를 두고 파라미터 값과 기본 알고리즘을 학습합니다.예를 들어, 결정 함수는 다음과 같이 쓸 수 있습니다.

{{displaystyle f(x)=\sum _{i=0}^{n}\alpha _{i}^{p}\eta _{m}K_{m}(x_{i}^{m})

$δ {\displaystyle$ \eta $}$ 는 $\eta$ 디리클레 선행으로 모델링할 수 있으며 $α {\displaystyle$ \alpha $}$ 는 $\alpha$ 0-평균 가우스 및 역 감마 분산을 선행으로 모델링할 수 $\eta$ .그런 다음 이 모델은 깁스 샘플러와 함께 맞춤형 다항 프로빗 접근방식을 사용하여 최적화된다.

^[11] 이 방법들은 단백질 접힘 인식 및 단백질 호몰로지 문제와 같은 응용 분야에서 성공적으로 사용되어 왔다.

어프로치의 향상

부스트 접근법은 성능 함수의 일부 중지 기준에 도달할 때까지 새로운 커널을 반복적으로 추가합니다.그 예로는 Bennett 등이 개발한 MARK 모델이 있다.(2002년)

f(x)=\sum _{i=1}^{N}\sum _{m=1}^{P}\alpha _{i}^{m}K_{m}(x_{i}^{m},x^{m}+b

$\alpha _{i}^{m}$ i $\alpha _{i}^{m}$ {\ $displaystyle \alpha$ _ ${i}^{m}}$ 및 $b$ {\ $displaystyle$ b $}$ 는 $\alpha _{i}^{m}$ $b$ 좌표 기반의 경사 강하로 학습된다.이렇게 해서 강하 알고리즘의 각 반복은 각 특정 반복에서 선택하기에 가장 좋은 커널 열을 식별하고 그것을 결합 커널에 추가합니다.그런 다음 모델을 다시 실행하여 최적의 $\alpha _{i}$ i \ $displaystyle$ \ $alpha$ _ { $i}$ $b$ b \ $displaystyle$ b $b$ 를 생성합니다.

반감독적 학습

여러 커널 학습에 대한 반감독 학습 접근법은 다른 감독 학습 접근법의 확장과 유사합니다.이미지 분류를 위해 라벨이 부착되지 않은 데이터에 대한 조건부 기대 합의를 가진 로그 우도 경험적 손실 및 그룹 LASSO 정규화를 사용하는 유도 절차가 개발되었습니다.우리는 다음과 같이 문제를 정의할 수 있습니다. $L={(x_{i},y_{i})}$ $=$ ( $L={(x_{i},y_{i})}$ i , $L={(x_{i},y_{i})}$ i $L={(x_{i},y_{i})}$ ) { $displaystyle$ L={( $x_{i$ , $y_{i}}}}}}$ 을 $L={(x_{i},y_{i})}$ 레이블이 지정된 $데이터$ 로 하고 U $=$ x i { ${$ 를 레이블이 지정되지 $U={x_{i}}$ 않은 $U={x_{i}}$ 집합으로 합니다.그러면 다음과 같이 결정 함수를 쓸 수 있습니다.

f(x)=\alpha _{0}+\sum _{i=1}^{L}\alpha _{i}K_{i}(x)

이 문제는 다음과 같이 기술할 수 있습니다.

\displaystyle \min _{f}L(f)+\lambda R(f)+\gamma \Theta(f)}

$L$ 서L {\ $displaystyle$ L $}$ 은 $L$ 손실 함수(이 경우 가중치 음의 로그 우도), $R$ {\ $displaystyle$ R $}$ 은 $R$ 정규화 파라미터(이 경우 그룹 LASO), $\Theta$ {\ $displaystyle \Theta }$ 는 $\Theta$ 라벨이 부착되지 않은 데이터에 대한 조건부 기대 합의(CEC) 패널티이다.CEC 패널티는 다음과 같이 정의됩니다.모든 데이터에 대한 한계 커널 밀도를 설정합니다.

g_{m}^{\pi }(x)=\displayle \phi _{m}^{\pi },\psi _{m}(x)\rangle

여기서 $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ ( $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ x ) $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ [ $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ ( $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ 1, $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ x $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ ) , $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ , $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ m ( $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ L , $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ ) ] $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ { $display$ style \ $psi$ _ { $m$ } ( x ) $=$ [ $K$ _ { $m$ } ( $x$ _ { { $l$ , x ) \ $ldots$ , $K$ _ { $m$ } ( x ) ^ $\psi _{m}(x)=[K_{m}(x_{1},x),\ldots ,K_{m}(x_{L},x)]^{T}$ ]{ $T}($ 라벨 부착 데이터와 라벨 부착되지 않은 모든 데이터 사이의 커널 거리) 및 $\phi _{m}^{\pi }$ $†$ { $displaystyle \phi$ _ ${m}^{\pi}}$ 은 $\phi _{m}^{{\pi }}$ 2-norm이 1인 음이 아닌 랜덤 벡터이다 $.$ $(\displaystyle\Pi)$ 값은 $\Pi$ 각 커널이 투영된 횟수입니다.다음으로 MKD에서 기대 정규화가 실행되어 기준 $q_{m}^{pi}(y|g_{m}^{\pi }(x))$ $q_{m}^{pi}(y|g_{m}^{\pi }(x))$ $q_{m}^{pi}(y|g_{m}^{\pi }(x))$ $q_{m}^{pi}(y|g_{m}^{\pi }(x))$ $q_{m}^{pi}(y|g_{m}^{\pi }(x))$ $q_{m}^{pi}(y|g_{m}^{\pi }(x))$ $q_{m}^{pi}(y|g_{m}^{\pi }(x))$ $q_{m}^{pi}(y|g_{m}^{\pi }(x))$ ( $){$ $display q _$ { $m$ }^{ $pi$ }(x $p_{m}^{\pi }(f(x)|g_{m}^{\pi }(x))$ $display$ $p_{m}^{\pi }(f(x)|g_{m}^{\pi }(x))$ _ { m }^pi $p_{m}^{\pi }(f(x)|g_{m}^{\pi }(x))$ ( $x$ ) $p_{m}^{\pi }(f(x)|g_{m}^{\pi }(x))$ $p_{m}^{\pi }(f(x)|g_{m}^{\pi }(x))$ $p_{m}^{\pi }(f(x)|g_{m}^{\pi }(x))$ model model model model $display$ （ $p_{m}^{\pi }(f(x)|g_{m}^{\pi }(x))$ ){ $stylepy$ g $p_{m}^{\pi }(f(x)|g_{m}^{\pi }(x))$ }{ pi }{ $pi$ }{ pi }{ f $）$ ））。그 후, 다음과 같이 정의한다.

\Theta = flac {1}{\Pi }}\sum _{\pi =1}^{\Pi } \sum _{m=1}^{M}D(q_{m}^{pi}(x) p_{m}^{\pi }(x) p_{m}^{\pi }(f(x) g_{m}^{\pi }(x)})

$D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ 서 D $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ ( $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ P ) $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ i ( $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ ) $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ Q ( i ) $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ P ( $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ ) （ i $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ ） $displaystyle$ D ( Q $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ P ) = \ $sum$ _ { $i }$ Q ( i )\ $ln$ { $frac { Q$ ( i ) }{ $P$ ( i ) $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ }}는 $D(Q||P)=\sum _{i}Q(i)\ln {\frac {Q(i)}{P(i)}}$ Kullback-Leibler 발산입니다.결합된 최소화 문제는 수정된 블록 경사 강하 알고리즘을 사용하여 최적화된다.자세한 내용은 Wang ^[15]등을 참조하십시오.

비지도 학습

비지도 다중 커널 학습 알고리즘도 Zhang 등에 의해 제안되었다.이 문제는 다음과 같이 정의됩니다. $U={x_{i}}$ $=$ $U={x_{i}}$ i(\ $style$ U={ $x_{i})$ 를 $U={x_{i}}$ 레이블이 없는 데이터 집합으로 합니다.커널 정의는 선형 결합 $K'=\sum _{i=1}^{M}\beta _{i}K_{m}$ K $K'=\sum _{i=1}^{M}\beta _{i}K_{m}$ $K'=\sum _{i=1}^{M}\beta _{i}K_{m}$ $K'=\sum _{i=1}^{M}\beta _{i}K_{m}$ i $=$ $K'=\sum _{i=1}^{M}\beta _{i}K_{m}$ $K'=\sum _{i=1}^{M}\beta _{i}K_{m}$ $K'=\sum _{i=1}^{M}\beta _{i}K_{m}$ $K'=\sum _{i=1}^{M}\beta _{i}K_{m}$ K $K'=\sum _{i=1}^{M}\beta _{i}K_{m}$ { $display style$ K'=\ $sum$ _{ $i=1}^{M}\beta$ _ ${i}K_{m$ 입니다. 이 문제에서는 데이터를 커널 거리에 따라 그룹으로 "연결"해야 합니다. $(\$ })를 $B_{i}$ $(\$ })가 $x_{i}$ 멤버인 $x_{i}$ 또는 클러스터로 $B_{i}$ .손실함수는 ${i$ $\sum _{i=1}^{n}\sum _{x_{j}\in B_{i}}K(x_{i},x_{j})\left\Vert x_{i}-x_{j}\right\Vert ^{2}$ $\sum _{i=1}^{n}\sum _{x_{j}\in B_{i}}K(x_{i},x_{j})\left\Vert x_{i}-x_{j}\right\Vert ^{2}$ j ) $\sum _{i=1}^{n}\sum _{x_{j}\in B_{i}}K(x_{i},x_{j})\left\Vert x_{i}-x_{j}\right\Vert ^{2}$ $\sum _{i=1}^{n}\sum _{x_{j}\in B_{i}}K(x_{i},x_{j})\left\Vert x_{i}-x_{j}\right\Vert ^{2}$ - x $\sum _{i=1}^{n}\sum _{x_{j}\in B_{i}}K(x_{i},x_{j})\left\Vert x_{i}-x_{j}\right\Vert ^{2}$ 2 ( \ $displaystyle \sum$ _ { $i=1}^{n}\sum$ _ { $x_$ {j $}\in$ B_ ${i}K(x_i},x_{j})\left\Vert x_{i}-x_{j}\right\Vert ^2$ 마지막으로 정규화를 회피합니다.이 용어들을 조합하면 다음과 같이 최소화 문제를 작성할 수 있습니다.

\displaystyle \min _{\vert,B}\sum _{i}-\sum _{i}-\sum _{x_{j}\in B_{i}K(x_{i},x_{j})_{j}\right\Vert ^2}+\sum_{1}_{n}_{i}_{i}_i}_{i}_{i}_{i}_{i}_{i}_{i}_{i}_{i}_{i}_{i}_{i}\sum_{

여기서. 이것의 공식은 다음과 같이 정의됩니다.D $D\in {0,1}^{n\times n}$ , $D\in {0,1}^{n\times n}$ n × $D\in {0,1}^{n\times n}$ ( \ $displaystyle$ D \ $in { 0$ , $1$ $D_{ij}=1$ }^{ $n$ \ $times$ n $D\in {0,1}^{n\times n}$ } )을 $D\in {0,1}^{n\times n}$ 행렬로 $D_{ij}=1$ . $D_{ij}=1$ $=$ { $displaystyle D_{ij$ }=1}은 $D_{{ij}}=1$ x $x_{i}$ { $displaystyle x_{i}$ 와 $x_{i}$ $x_{j}$ { $displaystyle x_{j}$ 가 $x_{j}$ 인접함을 $x_{i}$ 합니다. $B_{i}={x_{j}:D_{ij}=1}$ 으로 B $B_{i}={x_{j}:D_{ij}=1}$ $B_{i}={x_{j}:D_{ij}=1}$ $B_{i}={x_{j}:D_{ij}=1}$ : $B_{i}={x_{j}:D_{ij}=1}$ $B_{i}={x_{j}:D_{ij}=1}$ j $=$ $B_{i}={x_{j}:D_{ij}=1}$ ({ $displaystyle B_$ {i}={ $x_{j}):$ $D_{ij}=1$ 이러한 그룹도 학습해야 합니다.Zhuang 등에서는 K $(\displaystyle$ K)와 $K$ $B_{i}$ Bi(\ $displaystyle B_{$ i $B_{i}$ 에 대해 번갈아 최소화 방법을 사용하여 이 문제를 해결합니다.자세한 내용은 Zhuang 등을 참조하십시오.^[16]

라이브러리

사용 가능한 MKL 라이브러리는 다음과 같습니다.

SPG-GMKL: 백만 개의 ^[17]커널을 처리할 수 있는 확장 가능한 C++ MKL SVM 라이브러리.
GMKL: MATLAB의 Generalized Multiple Kernel Learning 코드에서는 $\ell _{1}$ ( $display$ style $\ell _ {$ 1} )및 $\ell _{1}$ $\ell _{2}$ ( \ $displaystyle \ell$ _ { $2}$ )정규화를 $\ell _{2}$ ^[18]통해 지도학습이 이루어집니다.
(기타) GMKL : 탄성 네트^[19] 정규화를 실행할 수 있는 다른 MATLAB MKL 코드
SMO-MKL: 시퀀셜 최소 최적화 MKL 알고리즘용 C++ 소스 코드. $\displaystyle$ p-n $p$ ^[20]orm 정규화를 실행합니다.
SimpleMKL : MKL ^[21]SVM의 SimpleMKL 알고리즘을 기반으로 한 MATLAB 코드입니다.
MKLPy: MKL 및 커널 머신을 위한 Python 프레임워크로, 다음과 같은 다양한 알고리즘을 지원합니다.EasyMKL 등

레퍼런스

^ 「IEEE 국제 컴퓨터 비전 및 패턴 인식(CVPR), 2013년, 페이지 2666-2673」의 「이종의 Web 소스에서 학습하는 비디오의 이벤트 인식」(Lin Chen, Lixin Duan, Dong Xu).
^ Serhat S.Bucak, Rong Jin 및 Anil K. Jain, 시각적 객체 인식을 위한 다중 커널 학습: 리뷰.T-PAMI, 2013.
^ Yu et al.L2-표준 다중 커널 학습 및 생물의학 데이터 융합에 대한 적용.BMC 바이오인포매틱스 2010, 11:309
^ 프란시스 R.바흐, 거트 R. G. 랑크리에트, 그리고 마이클 I. 조던.2004. 다중 커널 학습, 원뿔 이중성 및 SMO 알고리즘.제21회 기계학습 국제회의의 속행(ICML '04)에서.ACM, 뉴욕, 뉴욕, 미국
^ 메흐메트 고넨, 에템 알페이든다중 커널 학습 알고리즘 Jour.마하. 배워라.문제 12(줄): 2211-2268, 2011
^ Ben-Hur, A. 및 Noble W.S. 단백질-단백질 상호작용을 예측하는 커널 방법.생물정보학.2005년 6월 21일 Suppl 1:i38-46.
^ 타나베 히로아키, 투바오호, 칸하오응웬, 가와사키 사오리.컴퓨터 생물학에서 커널을 결합하는 간단하지만 효과적인 방법입니다.IEEE International Conference on Research, Innovation and Vision for the Future, 2008.
^ 시빈추와 테란길.다중 커널을 위한 프레임워크는 벡터 회귀와 siRNA 유효성 예측에 대한 적용을 지원한다.IEEE/ACM 컴퓨터 생물학 및 생물정보학 트랜잭션, 6(2): 190~199,
^ 거트 R. G. 랑크리에트, 넬로 크리스티안니, 피터 바틀렛, 로랑 엘 고위, 그리고 마이클 I. 조던.반확정 프로그래밍을 통한 커널 매트릭스 학습.기계학습연구저널, 2004년 5월 27일 ~ 72일
^ 거트 R. G. 랑크리에트, 넬로 크리스티안니, 피터 바틀렛, 로랑 엘 고위, 그리고 마이클 I. 조던.반확정 프로그래밍을 통한 커널 매트릭스 학습.2002년 제19회 기계학습 국제회의 진행상황
^ 마크 지롤라미와 사이먼 로저스입니다커널 학습을 위한 계층형 베이지안 모델.2005년 제22회 기계학습 국제회의 속행록
^ 테오도로스 다물라스와 마크 A.지롤라미.분류를 위해 피쳐 공간을 결합합니다.패턴 인식, 42(11): 2671~2683, 2009
^ 테오도로스 다물라스와 마크 A.지롤라미.확률론적 다중 클래스 다중 커널 학습:단백질 접힘 인식 및 원격 호몰로지 검출에 관한 것입니다.생물정보학, 24(10): 1264~1270, 2008
^ 크리스틴 P.베넷, 미치나리 맘마, 마크 J. 엠브레츠입니다Mark: 이종 커널 모델용 부스트 알고리즘입니다.2002년 제8회 ACM SIGKDD 국제 지식 발견 및 데이터 마이닝 회의 진행 중
^ 왕, 슈후이 등S3MKL: 실제 이미지 애플리케이션을 위한 확장 가능한 반감시형 다중 커널 러닝.멀티미디어에 관한 IEEE 트랜잭션, 제14권, 제4호, 2012년 8월
^ J. Zhang, J. Wang, S.C.H. Hoi & X. Lan.비지도 다중 커널 학습.Jour. 마하.학습. Res. 20:129-144, 2011
^ Ashsh Jain, S. V. N. Vishwanathan 및 Manik Varma. SPG-GMKL: 100만 개의 커널을 사용한 다중 커널 학습 일반화ACM SIGKDD 지식 발견 및 데이터 마이닝 회의의 진행 상황, 2012년 8월 중국 베이징
^ M. 바르마와 B. R. 바부효율적인 다중 커널 학습을 위한 범용성 향상.2009년 6월 캐나다 몬트리올에서 열린 기계학습 국제회의의 진행에 대하여
^ Yang, H, Xu, Z., Ye, J., King, I. 및 Lyu, M. R. (2011).효율적인 스파스 다중 커널 학습 일반화뉴럴 네트워크에서의 IEEE 트랜잭션, 22(3), 433-446
^ S. V. N. 비슈와나단, Z.선, 엔테라-앰폰펀트와 M.Varma. 다중 커널 학습과 SMO 알고리즘.캐나다 밴쿠버, B.C., 2010년 12월, 신경 정보 처리 시스템의 진보.
^ 알랭 라코토마몬지, 프란시스 바흐, 스테판 카누, 이브 그랑발레SimpleMKL. 기계학습연구저널, 마이크로톰 퍼블리싱, 2008, 9, 페이지 2491-2521.
^ 파비오 아이오이, 미셸 도니EasyMKL: 스케일러블한 다중 커널 학습 알고리즘.신경컴퓨팅, 169페이지, 215-224

[1] 「IEEE 국제 컴퓨터 비전 및 패턴 인식(CVPR), 2013년, 페이지 2666-2673」의 「이종의 Web 소스에서 학습하는 비디오의 이벤트 인식」(Lin Chen, Lixin Duan, Dong Xu).

[2] Serhat S.Bucak, Rong Jin 및 Anil K. Jain, 시각적 객체 인식을 위한 다중 커널 학습: 리뷰.T-PAMI, 2013.

[3] Yu et al.L2-표준 다중 커널 학습 및 생물의학 데이터 융합에 대한 적용.BMC 바이오인포매틱스 2010, 11:309

[conic-4] 프란시스 R.바흐, 거트 R. G. 랑크리에트, 그리고 마이클 I. 조던.2004. 다중 커널 학습, 원뿔 이중성 및 SMO 알고리즘.제21회 기계학습 국제회의의 속행(ICML '04)에서.ACM, 뉴욕, 뉴욕, 미국

[supervised_review-5] 메흐메트 고넨, 에템 알페이든다중 커널 학습 알고리즘 Jour.마하. 배워라.문제 12(줄): 2211-2268, 2011

[6] Ben-Hur, A. 및 Noble W.S. 단백질-단백질 상호작용을 예측하는 커널 방법.생물정보학.2005년 6월 21일 Suppl 1:i38-46.

[7] 타나베 히로아키, 투바오호, 칸하오응웬, 가와사키 사오리.컴퓨터 생물학에서 커널을 결합하는 간단하지만 효과적인 방법입니다.IEEE International Conference on Research, Innovation and Vision for the Future, 2008.

[8] 시빈추와 테란길.다중 커널을 위한 프레임워크는 벡터 회귀와 siRNA 유효성 예측에 대한 적용을 지원한다.IEEE/ACM 컴퓨터 생물학 및 생물정보학 트랜잭션, 6(2): 190~199,

[9] 거트 R. G. 랑크리에트, 넬로 크리스티안니, 피터 바틀렛, 로랑 엘 고위, 그리고 마이클 I. 조던.반확정 프로그래밍을 통한 커널 매트릭스 학습.기계학습연구저널, 2004년 5월 27일 ~ 72일

[10] 거트 R. G. 랑크리에트, 넬로 크리스티안니, 피터 바틀렛, 로랑 엘 고위, 그리고 마이클 I. 조던.반확정 프로그래밍을 통한 커널 매트릭스 학습.2002년 제19회 기계학습 국제회의 진행상황

[11] 마크 지롤라미와 사이먼 로저스입니다커널 학습을 위한 계층형 베이지안 모델.2005년 제22회 기계학습 국제회의 속행록

[12] 테오도로스 다물라스와 마크 A.지롤라미.분류를 위해 피쳐 공간을 결합합니다.패턴 인식, 42(11): 2671~2683, 2009

[13] 테오도로스 다물라스와 마크 A.지롤라미.확률론적 다중 클래스 다중 커널 학습:단백질 접힘 인식 및 원격 호몰로지 검출에 관한 것입니다.생물정보학, 24(10): 1264~1270, 2008

[14] 크리스틴 P.베넷, 미치나리 맘마, 마크 J. 엠브레츠입니다Mark: 이종 커널 모델용 부스트 알고리즘입니다.2002년 제8회 ACM SIGKDD 국제 지식 발견 및 데이터 마이닝 회의 진행 중

[15] 왕, 슈후이 등S3MKL: 실제 이미지 애플리케이션을 위한 확장 가능한 반감시형 다중 커널 러닝.멀티미디어에 관한 IEEE 트랜잭션, 제14권, 제4호, 2012년 8월

[16] J. Zhang, J. Wang, S.C.H. Hoi & X. Lan.비지도 다중 커널 학습.Jour. 마하.학습. Res. 20:129-144, 2011

[17] Ashsh Jain, S. V. N. Vishwanathan 및 Manik Varma. SPG-GMKL: 100만 개의 커널을 사용한 다중 커널 학습 일반화ACM SIGKDD 지식 발견 및 데이터 마이닝 회의의 진행 상황, 2012년 8월 중국 베이징

[18] M. 바르마와 B. R. 바부효율적인 다중 커널 학습을 위한 범용성 향상.2009년 6월 캐나다 몬트리올에서 열린 기계학습 국제회의의 진행에 대하여

[19] Yang, H, Xu, Z., Ye, J., King, I. 및 Lyu, M. R. (2011).효율적인 스파스 다중 커널 학습 일반화뉴럴 네트워크에서의 IEEE 트랜잭션, 22(3), 433-446

[20] S. V. N. 비슈와나단, Z.선, 엔테라-앰폰펀트와 M.Varma. 다중 커널 학습과 SMO 알고리즘.캐나다 밴쿠버, B.C., 2010년 12월, 신경 정보 처리 시스템의 진보.

[21] 알랭 라코토마몬지, 프란시스 바흐, 스테판 카누, 이브 그랑발레SimpleMKL. 기계학습연구저널, 마이크로톰 퍼블리싱, 2008, 9, 페이지 2491-2521.

[22] 파비오 아이오이, 미셸 도니EasyMKL: 스케일러블한 다중 커널 학습 알고리즘.신경컴퓨팅, 169페이지, 215-224

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

Search