커널 방식

머신러닝에서 커널머신은 패턴 분석을 위한 알고리즘의 클래스이며, 가장 잘 알려진 멤버는 Support-Vector Machine(SVM; 지원 벡터 머신)입니다.잘 알려지지 않은 멤버는 Importance Vector Machine과 커널 PCA [1] 패턴 분석의 일반적인 태스크는 일반적인 유형의 관계(클러스터, 순위, 원리 등)를 찾아 연구하는 것입니다.pal 구성 요소, 상관 관계, 분류)를 데이터 세트에 포함시킵니다.이러한 작업을 해결하는 많은 알고리즘에서 원시 표현 데이터는 사용자 지정 기능 맵을 통해 특징 벡터 표현으로 명시적으로 변환되어야 합니다. 대조적으로 커널 메서드는 사용자 지정 커널만 필요로 합니다. 즉, 내부 제품을 사용하여 계산된 모든 데이터 포인트 쌍에 대한 유사성 함수입니다.커널 머신의 피처 맵은 무한 차원이지만 대표자 정리에 따라 사용자 입력으로부터 유한 차원 매트릭스만 필요합니다.커널 머신은 병렬 처리 없이 수천 개의 예보다 큰 데이터셋을 계산하는 속도가 느립니다.

커널 메서드는 커널 함수의 사용에 기인하며, 커널 함수는 그 공간에 있는 데이터의 좌표를 계산하지 않고, 오히려 기능 공간에 있는 모든 데이터 쌍의 이미지 사이의 내부 곱을 단순히 계산하는 것을 가능하게 한다.이 연산은 종종 좌표의 명시적 계산보다 계산 비용이 저렴합니다.이 방법을 "커널 속임수"^[1]라고 합니다.커널 함수는 벡터뿐만 아니라 시퀀스 데이터, 그래프, 텍스트, 이미지에도 도입되었습니다.

커널을 사용하여 작동할 수 있는 알고리즘에는 커널 퍼셉트론, 지원 벡터 머신(SVM), 가우스 프로세스, 주요 성분 분석(PCA), 표준 상관 분석, 리지 회귀, 스펙트럼 클러스터링, 선형 적응 필터 등이 있습니다.

대부분의 커널 알고리즘은 볼록 최적화 또는 고유 문제에 기초하고 있으며 통계적으로 충분한 근거가 있습니다.일반적으로 통계 특성은 통계 학습 이론(예를 들어 Rademacher 복잡도 사용)을 사용하여 분석된다.

동기 부여 및 비공식 설명

커널 메서드는 인스턴스 기반 학습자로 생각할 수 있습니다.입력 기능에 대응하는 고정 파라미터 세트를 학습하는 것이 아니라 i $\displaystyle$ i $}$ -th $i$ 트레이닝 예 $(\mathbf {x} _{i},y_{i})$ $)$ { $displaystyle (\mathbf {x}$ _ ${i,$ y_{ $i})}$ 을 $(\mathbf {x} _{i},y_{i})$ "기억"하고 대응하는 가중치를 학습합니다. $w_{i}$ {\ $displaystyle w_{$ i $w_{i}$ 라벨이 부착되지 않은 입력, 즉 훈련 세트에 포함되지 않은 입력에 대한 예측은 라벨이 부착되지 않은 $\mathbf {x'}$ x ${\$ {\ $displaystyle \mathbf {x'}$ 과 $\mathbf {x'}$ (와) 각 훈련 $\mathbf {x} _{i}$ ${\displaystyle$ \mathbf {x $'}$ 사이의 커널이라고 하는 유사 $함수$ k $\displaystyle$ k $k$ 의 적용으로 처리된다. $bf {x} _{i$ 예를 들어 커널화된 바이너리 분류자는 일반적으로 유사성의 가중치 합계를 계산합니다.

y

^

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

n

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

i

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

(

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

,

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

){

style

{ hat {

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

y } = \

operatorname

{

sgn

} \

sum

_ { i

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )

}

w _

{

i

}

k

( \

mathbf { x

}

_

{

i

} , \

mathbf

{

x

) ,

어디에

$y$ { - ${\hat {y}}\in \{-1,+1\}$ 1 ${\hat {y}}\in \{-1,+1\}$ , + ${\hat {y}}\in \{-1,+1\}$ $}$ { \ $displaystyle {$ y } \ $in$ \ { - $1,$ + $1$ \ } } ${\hat {y}}\in \{-1,+1\}$ 、 라벨이 $\mathbf {x'}$ 입력 x $\mathbf {x'}$ { \ $displaystyle$ \ $mathbf$ { x ' $}$ 에 $\mathbf {x'}$ $y$ 대한 커널화된 바이너리 분류기의 예측 $y$ 입니다 $.$
$k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ : $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ × $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ {\ $displaystyle k\times$ {\ $mathcal$ {X $}\to\mathbbb$ {R $}$ 은 $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ $\mathbf {x} ,\mathbf {x'} \in {\mathcal {X}}$ x $\mathbf {x} ,\mathbf {x'} \in {\mathcal {X}}$ X ${\displaystyle \mathbf$ {x $},$ \ $mathbf$ { $x} {\cal$ 입력 쌍 $\mathbf {x} ,\mathbf {x'} \in {\mathcal {X}}$ 의 유사성을 측정하는 커널 함수입니다.
합계는 레이블이 $지정$ 된 n개의 $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ 예 { $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ ( $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ , $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ i ) $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ } $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ , $y_{i})$ 에 걸쳐 있습니다.분류자의 $트레이닝 세트에 \}_$ {i $=1$ }^{n}, $y_{i}\in \{-1,+1\}$ { - $y_{i}\in \{-1,+1\}$ , + $y_{i}\in \{-1,+1\}$ }({ $displaystyle y_{i}\in \{-1,+1$
$w_{i}\in \mathbb {R}$ i $w_{i}\in \mathbb {R}$ R \ $displaystyle w_{i}\in \mathbb {R}$ 은 $w_{i}\in \mathbb {R}$ 학습 알고리즘에 의해 결정된 훈련 예제의 가중치이다.
기호 $\operatorname {sgn}$ sgn $\operatorname {sgn}$ \ $displaystyle \operatorname {sgn}$ 은(는 ${\hat {y}}$ 예측 분류 y $^\$ style\ $display\$ hat { $y}$ 이 ${\hat {y}}$ (가) 양수인지 음수인지를 결정합니다 $\operatorname {sgn}$ .

커널 분류기는 1960년대에 커널 ^[2]퍼셉트론의 발명으로 기술되었다.1990년대 SVM(support-vector machine)이 인기를 끌면서 SVM이 필기 인식과 같은 작업에서 신경 네트워크와 경쟁하는 것으로 밝혀지면서 두각을 나타냈습니다.

수학: 커널 트릭

δ(a

,

b) = (a, b, a² + b²)에 의해 주어지는 커널을 가진 SVM. 따라서

\mathbf {x} \cdot \mathbf {y} +\left\|\mathbf {x} \right\|^{2}\left\|\mathbf {y} \right\|^{2}

(x, y) =

\mathbf {x} \cdot \mathbf {y} +\left\|\mathbf {x} \right\|^{2}\left\|\mathbf {y} \right\|^{2}

y +

\mathbf {x} \cdot \mathbf {y} +\left\|\mathbf {x} \right\|^{2}\left\|\mathbf {y} \right\|^{2}

2

\mathbf {x} \cdot \mathbf {y} +\left\|\mathbf {x} \right\|^{2}\left\|\mathbf {y} \right\|^{2}

2 \

displaystyle

\

mathbf { x }

\

cdot

\

mathbf

{ y

}

+

\

mathb

x \

right ^2 ^2

}훈련 포인트는 분리형 하이퍼플레인을 쉽게 찾을 수 있는 3차원 공간에 매핑됩니다.

커널 트릭은 비선형 함수 또는 결정 경계를 학습하기 위해 선형 학습 알고리즘을 얻는 데 필요한 명시적 매핑을 회피합니다. ${\mathcal {X}}$ 의 $\mathbf {x}$ x $(\$ { $x$ $})$ $\mathbf {x'}$ x $(\$ \ $mathbf$ ${x$ ${\mathcal {X}}$ 에 $\mathbf {x'}$ 대해 특정 $k(\mathbf {x} ,\mathbf {x'} )$ k( $k(\mathbf {x} ,\mathbf {x'} )$ $))$ 를 다른 ${\mathcal {V}}$ 공간(\ $displaystyle$ k $(\mathbf {x},\mathbf {x$ $'})$ 로 $k(\mathbf {x} ,\mathbf {x'} )$ 표현할 수 있습니다 $.$ $V$ 함수 $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ : $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ × $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ {\ $displaystyle k\times$ {\ $mathcal {X}}$ ~ \ $mathbb$ {R $}$ }은 $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ 흔히 커널 또는 커널 함수라고 합니다."커널"이라는 단어는 수학에서 가중치 합 또는 적분의 가중치 함수를 나타내기 위해 사용됩니다.

기계학습의 특정 문제는 임의의 가중치 $함수$ k $\displaystyle$ k보다 $k$ 더 많은 구조를 가지고 있다. $\varphi \colon {\mathcal {X}}\to {\mathcal {V}}$ 이 다음을 만족하는 "하이브리드 맵" $\varphi \colon {\mathcal {X}}\to {\mathcal {V}}$ : $\varphi \colon {\mathcal {X}}\to {\mathcal {V}}$ $\varphi \colon {\mathcal {X}}\to {\mathcal {V}}$ {\ $displaystyle$ \ $varphi$ \display $\mathcal {X}\to$ {\ $mathcal$ {V $}}}$ 형식으로 $\varphi \colon {\mathcal {X}}\to {\mathcal {V}}$ 작성될 수 있다면 계산은 훨씬 더 간단해집니다.

\displaystyle k(\mathbf {x},\mathbf {x'})=\displayle \varphi(\mathbf {x}),\varphi(\mathbf {x'})\rangle _{\mathcal {V}}}.}

중요한 제약사항은 $\langle \cdot ,\cdot \rangle _{\mathcal {V}}$ 、 $\langle \cdot ,\cdot \rangle _{\mathcal {V}}$ V $\langle \cdot ,\cdot \rangle _{\mathcal {V}}$ { \ $displaystyle$ \ $langle$ \ $cdot$ , \ $cdot$ \ $rangle$ _ { \ $mathcal$ { $V$ } } 이 적절한 $\langle \cdot ,\cdot \rangle _{\mathcal {V}}$ 내부 제품이어야 한다는 것입니다.한편, V ${\mathcal {V}}$ {\ $displaystyle$ {\ $mathcal$ {V $}}}$ 이 ${\mathcal {V}}$ (가) ${\mathcal {V}}$ 제품 공간인 $\varphi$ , ${\$ {\displaystyle \ $varphi$ $}$ 에 $\varphi$ 대한 명시적 표현은 필요하지 않습니다. $다른$ 대안은 Mercer의 정리에 따른다. 공간 ${\mathcal {X}}$ $(\$ $displaystyle\mathcal {X})$ 에 ${\mathcal {X}}$ $함수$ k(\ $displaystyle$ k)가 Mercer의 조건을 만족시키는 적절한 척도를 장착할 수 있을 때마다 암묵적으로 정의된 함수 $\varphi$ (\ $displaystyle$ \ $varphi)$ 가 $\varphi$ 존재한다 $k$ .

Mercer의 정리는 어떤 양의 유한 행렬에 내적을 연관짓는 선형 대수의 결과의 일반화와 유사하다.사실 머서의 상태는 이 간단한 경우로 요약할 수 있습니다.측정값으로 $집합$ T(\ $displaystyle$ T $T$ 내의 포인트 수를 카운트하는 $T\subset X$ T $(\displaystyle$ T $\subset$ X $T\subset X$ 에 대해 계수 $\mu (T)=|T|$ T) $=$ (\ $displaystyle \mu(T$ )= T $}$ 를 $\mu (T)=|T|$ 선택하면 Mercer's 정리의 적분은 합계로 감소한다.

\displaystyle \sum _{i=1}^{n}\sum _{j=1}^{n}k(\mathbf {x}_{i},\mathbf {x}_{j})c_{i}c_{j}\geq 0.}

이 합계가 X $(\$ 의 ${\mathcal {X}}$ 모든 유한한 $(\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n})$ 점 시퀀스( $(\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n})$ $(\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n})$ $)$ 와 n $(\displaystyle$ \displaystyle $\mathbf {x}_$ ${n$ $})$ 의 $(\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n})$ $n$ 모든 n(\displaystyle n)에 대해 유지되는 경우 $(\$ displaystyle $(c_{1},\dots ,c_{n})$ $(c_{1},\dots ,c_{n})$ $c)$ f. 양의 유한 커널)을 사용하면 $함수$ k $\displaystyle$ k가 $k$ Mercer의 조건을 만족합니다.

원어민 ${\mathcal {X}}$ X(\ $displaystyle\mathcal$ { $X})$ 의 ${\mathcal {X}}$ 임의의 관계에 의존하는 알고리즘 중에는 실제로 $(\displaystyle\varphi$ 의 범위 공간과는 다른 설정으로 선형 해석을 하는 알고리즘도 있습니다.또, 서포트 벡터 머신과 같이, 계산중에 $「\displaystyle\varphi」$ 를 $\varphi$ 계산할 필요는 없습니다.일부에서는 이 러닝타임 단축키를 주요 장점으로 꼽는다.연구자들은 또한 그것을 기존 알고리즘의 의미와 속성을 정당화하기 위해 사용한다.

{x1,…,)n}{\displaystyle\와 같이{\mathbf{)}_{1},\dotsc,\mathbf{)}_{n}\}}(때때로 또한"커널 행렬"[3]을 불렀다), 제가 거기 j K)k(x,)j){\displaystyle K_{ij}=에 관한 이론적으로 그람 행렬 K∈ Rn×n{\displaystyle \mathbf{K}\in\mathbb{R}^{n\times의 스녀}}.k() $mathbf {x} _{i},\mathbf {x}$ _ ${j$ 은(는) 양의 반확정(PSD)[4]이어야 합니다.경험적으로 기계학습 휴리스틱스의 경우, k $\displaystyle$ k가 $k$ 최소한 직관적인 유사성에 ^[5] $가깝다면$ Mercer의 조건을 충족하지 않는 $함수$ k $\displaystyle$ k의 선택은 $k$ 여전히 합리적으로 수행될 수 있다.k $(\displaystyle$ k $k$ )가 Mercer $k$ 인지여부에 관계없이 k(\ $displaystyle$ k $)$ 는 $k$ 여전히 "커널"이라고 할 수 있습니다.

커널 $함수$ k(\ $displaystyle$ k $)$ 도 $k$ 가우스 프로세스에서 사용되는 공분산 함수인 경우 그램 $\mathbf {K}$ K(\ $displaystyle\mathbf {K})$ 를 $\mathbf {K}$ 공분산 ^[6]행렬이라고도 할 수 있습니다.

적용들

커널 방법의 적용 영역은 다양하며 지리통계학,^[7] 크리깅, 역거리 가중치, 3D 재구성, 생물정보학, 화학정보학, 정보 추출 및 필기 인식을 포함한다.

「」를 참조해 주세요.

레퍼런스

^ Theodoridis, Sergios (2008). Pattern Recognition. Elsevier B.V. p. 203. ISBN 9780080949123.
^ Aizerman, M.A.;Braverman, 엠마뉴엘 M.;Rozonoer, L. 나(1964년)."패턴 인식에서 잠재적인 함수 법의 이론적 기초를 배우는 것".자동화 원격 제어이다.25:821–837.귀용, 이사벨은;Boser, B;Vapnik, 블라디미르(1993년)에 영향.매우 큰 VC-dimension classifiers의 자동 용량 튜닝신경 정보 처리 시스템의 발전.CiteSeerX 10.1.1.17.7215.
^ Hofmann, Thomas; Scholkopf, Bernhard; Smola, Alexander J. (2008). "Kernel Methods in Machine Learning". The Annals of Statistics. 36 (3). doi:10.1214/009053607000000677. S2CID 88516979.
^ Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of Machine Learning. USA, Massachusetts: MIT Press. ISBN 9780262018258.
^ Sewell, Martin. "Support Vector Machines: Mercer's Condition". Support Vector Machines.
^ Rasmussen, C. E.; Williams, C. K. I. (2006). "Gaussian Processes for Machine Learning". {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
^ Honarkhah, M.; Caers, J. (2010). "Stochastic Simulation of Patterns Using Distance-Based Pattern Modeling". Mathematical Geosciences. 42 (5): 487–517. doi:10.1007/s11004-010-9276-7. S2CID 73657847.

추가 정보

Shawe-Taylor, J.; Cristianini, N. (2004). Kernel Methods for Pattern Analysis. Cambridge University Press.
Liu, W.; Principe, J.; Haykin, S. (2010). Kernel Adaptive Filtering: A Comprehensive Introduction. Wiley. ISBN 9781118211212.
Schölkopf, B.; Smola, A. J.; Bach, F. (2018). Learning with Kernels : Support Vector Machines, Regularization, Optimization, and Beyond. MIT Press. ISBN 978-0-262-53657-8.

외부 링크

Kernel-Machines Org: 커뮤니티 웹사이트
onlineprediction.net 커널 메서드 기사

[1] Theodoridis, Sergios (2008). Pattern Recognition. Elsevier B.V. p. 203. ISBN 9780080949123.

[2] Aizerman, M.A.;Braverman, 엠마뉴엘 M.;Rozonoer, L. 나(1964년)."패턴 인식에서 잠재적인 함수 법의 이론적 기초를 배우는 것".자동화 원격 제어이다.25:821–837.귀용, 이사벨은;Boser, B;Vapnik, 블라디미르(1993년)에 영향.매우 큰 VC-dimension classifiers의 자동 용량 튜닝신경 정보 처리 시스템의 발전.CiteSeerX 10.1.1.17.7215.

[3] Hofmann, Thomas; Scholkopf, Bernhard; Smola, Alexander J. (2008). "Kernel Methods in Machine Learning". The Annals of Statistics. 36 (3). doi:10.1214/009053607000000677. S2CID 88516979.

[4] Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Foundations of Machine Learning. USA, Massachusetts: MIT Press. ISBN 9780262018258.

[5] Sewell, Martin. "Support Vector Machines: Mercer's Condition". Support Vector Machines.

[6] Rasmussen, C. E.; Williams, C. K. I. (2006). "Gaussian Processes for Machine Learning". {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)

[7] Honarkhah, M.; Caers, J. (2010). "Stochastic Simulation of Patterns Using Distance-Based Pattern Modeling". Mathematical Geosciences. 42 (5): 487–517. doi:10.1007/s11004-010-9276-7. S2CID 73657847.

[1]

[2]

[5]

[6]

[7]

Search

커널 방식

네임스페이스

더

목차

동기 부여 및 비공식 설명

수학: 커널 트릭

적용들

인기 있는 커널

「」를 참조해 주세요.

레퍼런스

추가 정보

외부 링크

Search

커널 방식

동기 부여 및 비공식 설명

수학: 커널 트릭

적용들

인기 있는 커널

「 」를 참조해 주세요.

레퍼런스

추가 정보

외부 링크

「」를 참조해 주세요.