다항식 커널

\varphi

의 그림

§

{\

displaystyle \varphi

왼쪽의 입력 공간에 있는 샘플 세트는 다항식

K(x,y)

K(

)\displaystyle

K

(

x,y)}(

일부

파라미터

c

\displaystyle

c

c

\d) 및

d

\

displaystyle

d

d

가 내부 프로덕션 공간인 것과 같습니다.t. SVM에 의해 특징 공간에서 학습된 하이퍼플레인은 입력 공간의 타원이다.

기계학습에서 다항식 커널은 지원 벡터 머신(SVM) 및 기타 커널화된 모델과 함께 일반적으로 사용되는 커널 함수이며, 원래 변수의 다항식에 대한 특징 공간에서의 벡터(훈련 샘플)의 유사성을 나타내며 비선형 모델을 학습할 수 있다.

직관적으로 다항식 커널은 입력 샘플의 주어진 특징뿐만 아니라 이들의 조합도 조사합니다.회귀 분석에서는 이러한 조합을 교호작용 피쳐라고 합니다.다항식 커널의 (암묵적인) 특징 공간은 다항식 회귀의 그것과 동일하지만, 학습할 파라미터의 수에 있어서 조합적 확대는 없다.입력 피쳐가 바이너리 값(부울값)인 경우 피쳐는 ^[1]입력 피쳐의 논리 결합에 대응합니다.

정의.

degree-d 다항식의 경우 다항식 커널은 다음과 같이 정의된다^[2].

K(x,y)=(x^{\mathsf {T}}y+c}^{d}

$여기$ 서 $x$ 와 y는 입력 공간의 벡터이다. 즉, 훈련 또는 테스트 샘플에서 계산된 특징의 벡터이며 $c$ ≤ $0$ 은 다항식에서 고차 대 저차 항의 영향을 교환하는 자유 매개변수이다.c = $0일$ $때$ 커널은 ^[3]균질하다고 합니다(추가 일반화 폴리커널은 xy를 사용자 지정 스칼라 매개 $변수$ a로 $나눕니다 T$ ).^[4]

커널로서 $K$ 는 몇 가지 매핑에 근거해 기능 공간내의 내부 제품에 $대응$ 합니다.: :

\displaystyle K(x,y)=\langle \varphi(x),\varphi(y)\rangle }

예를 들어 $can$ 의 성질을 알 수 있다. $d$ = 2로 하면 2차 커널의 특수한 $경우$ 를 얻을 수 있습니다.다항식 정리(두 번, 가장 바깥쪽에 있는 것은 이항 정리)를 사용하고 다시 정리한 후,

{{displaystyle K(x,y)=\left(\sum _{i=1}^{n}x_{i}+c\right)^2}=\sum _{i=1}^{n}\left(x_{i}^2}\right)+{sum_i={i}_{n}_sum_sum_sum_{i}_{n}_{n}_sum

이 채널의 상세 기능 맵은 다음과 같습니다.

{\displaystyle \varphi (x)=\displayle x_{n}^2}\ldots,x_{1}x_{n-1},\ldots,{\displaystyle {x}x_{n}x_{2},{\displayrt {n}x_{n1},{{n},{2},{n},{2},\ldots},{n},

$\left(\mathbf {x} ^{T}\mathbf {y} +c\right)^{d}$ $\left(\mathbf {x} ^{T}\mathbf {y} +c\right)^{d}$ $\left(\mathbf {x} ^{T}\mathbf {y} +c\right)^{d}$ y + $\left(\mathbf {x} ^{T}\mathbf {y} +c\right)^{d}$ ) $\left(\mathbf {x} ^{T}\mathbf {y} +c\right)^{d}$ \ $displaystyle \left$ ( \ $mathbf$ { $x }^$ { T $\left(\mathbf {x} ^{T}\mathbf {y} +c\right)^{d}$ } \ $mathbf$ { $y }$ + $c$ \ $\left(\mathbf {x} ^{T}\mathbf {y} +c\right)^{d}$ )의 일반화 $^{d$ $\mathbf {x} \in \mathbb {R} ^{n}$ 서 x $\mathbf {x} \in \mathbb {R} ^{n}$ R $\mathbf {x} \in \mathbb {R} ^{n}$ \ $displaystyle$ \ $mathbbf$ { $x }$ \ $in$ \ $mathbb$ { $R$ } ^ { $n$ } , y $\mathbf {y} \in \mathbb {R} ^{n}$ $\mathbf {y} \in \mathbb {R} ^{n}$ n \ $display$ style \ $mathbbf$ { $y$ } \ $in$ \ $mathbb$ { $R ^$ { $n$ } and $\mathbf {y} \in \mathbb {R} ^{n}$ and { 。다항 정리를 적용합니다.

${begin{alignedat}{2}\left(\mathbf {x}^{T}\mathbf {y} +c\right)^{d}&=\sum _{j_{1}+j_{2}+\sum + j_{n+1}=d}{\frac {\frac {d}!}{\cdots {j_{1}!\cdots j_{n}!j_{n+1}!}}x_{1}^{j_{1}}\cdots x_{n}^{j_{n}}{\cdots {c}^{j_{n+1}}{\frac {d}!}{\cdots {j_{1}!\cdots j_{n}!j_{n+1}!}}y_{1}^{j_{1}\cdots y_{n}^{j_{n}}{\cdots {c}^{j_{n+1}\&=\varphi(\mathbf {x})^{n}}^{\cdotsrt {cdotsrt {c}}{c}{c}}}{j_{j_{n}}}}}}T}\varphi(\mathbf {y})\end {alignedat}$

마지막 합계는 $l_{d}={\tbinom {n+d}{d}}$ d $l_{d}={\tbinom {n+d}{d}}$ ( $l_{d}={\tbinom {n+d}{d}}$ + $l_{d}={\tbinom {n+d}{d}}$ ) $l_{d}={\tbinom {n+d}{d}}$ { $displaystyle l_{d$ } = $tbinom {n+d}$ { $d}}$ 개의 $l_{d}={\tbinom {n+d}{d}}$ 요소를 $l_{d}={\tbinom {n+d}{d}}$ 다음과 같습니다.

\displaystyle \varphi(\mathbf {x})=\left(a_{1},\display,a_{l},\display,a_{l}}\right)}

어디에,

(*displaystyle a_{l}=*displayfrac {d})}{\cdots {j_{1}!\cdots j_{n}!j_{n+1}!}}x_{1}^{j_{1}\cdots x_{n}^{j_{n}}{\cdots {c}^{j_{n+1}\cdots \cdots j_{1}+j_{n2}+\cdots + j_{n1}=d}

실용화

RBF 커널은 다항식 커널보다 SVM 분류에서 더 인기가 있지만, 후자는 자연 언어 처리(NLP)^[1]^[5]에서 꽤 인기가 있습니다.도수가 클수록 NLP 문제에 과적합하는 경향이 있기 때문에 가장 일반적인 $도수$ 는 $d$ = 2(표준)입니다.

다항식 커널을 계산하는 다양한 방법(정확한 방법과 대략적인 방법 모두)이 일반적인 비선형 SVM 훈련 알고리즘의 대안으로 고안되었습니다.

선형 ^[5]SVM으로 훈련/테스트하기 전 커널의 완전 확장, 즉 다항식 회귀 분석에서와 같이 매핑 $δ$ 의 완전 계산
대략적인 ^[6]확장을 생성하기 위해 훈련 세트에서 가장 일반적으로 발생하는 기능 결합에 대한 바스켓 마이닝(아프리오리 알고리즘의 변형 사용)
지원 ^[6]^[1]벡터의 반전 인덱싱.

다항식 커널의 한 가지 문제는 수치 불안정성을 겪을 수 있다는 것입니다. xy + $c$ < $1$ , K $(x,$ $y)$ = ( $xy T$ + c $) d$ 가^T d의 $증가$ 에 따라 0이 되는 경향이 있는 반면 xy + $c$ > $1$ 이면^T K $(x,$ $y)$ 는 ^[4]무한이 되는 경향이 있습니다.

레퍼런스

^ ^a ^b ^c 요브 골드버그와 마이클 엘하다드(2008).splitSVM: NLP 애플리케이션을 위한 빠르고 공간 효율적이며 휴리스틱하지 않은 다항식 커널 계산.Proc. ACL-08: HLT.
^ "Archived copy" (PDF). Archived from the original (PDF) on 2013-04-15. Retrieved 2012-11-12.{{cite web}}: CS1 maint: 제목으로 아카이브된 복사(링크)
^ Shashua, Amnon (2009). "Introduction to Machine Learning: Class Notes 67577". arXiv:0904.3664v1 [cs.LG].
^ ^a ^b Lin, Chih-Jen (2012). Machine learning software: design and practical use (PDF). Machine Learning Summer School. Kyoto.
^ ^a ^b Chang, Yin-Wen; Hsieh, Cho-Jui; Chang, Kai-Wei; Ringgaard, Michael; Lin, Chih-Jen (2010). "Training and testing low-degree polynomial data mappings via linear SVM". Journal of Machine Learning Research. 11: 1471–1490.
^ ^a ^b Kudo, T.; Matsumoto, Y. (2003). Fast methods for kernel-based text analysis. Proc. ACL.

[Goldberg2008-1] 요브 골드버그와 마이클 엘하다드(2008).splitSVM: NLP 애플리케이션을 위한 빠르고 공간 효율적이며 휴리스틱하지 않은 다항식 커널 계산.Proc. ACL-08: HLT.

[2] "Archived copy" (PDF). Archived from the original (PDF) on 2013-04-15. Retrieved 2012-11-12.{{cite web}}: CS1 maint: 제목으로 아카이브된 복사(링크)

[3] Shashua, Amnon (2009). "Introduction to Machine Learning: Class Notes 67577". arXiv:0904.3664v1 [cs.LG].

[lin2012-4] Lin, Chih-Jen (2012). Machine learning software: design and practical use (PDF). Machine Learning Summer School. Kyoto.

[Chang2010-5] Chang, Yin-Wen; Hsieh, Cho-Jui; Chang, Kai-Wei; Ringgaard, Michael; Lin, Chih-Jen (2010). "Training and testing low-degree polynomial data mappings via linear SVM". Journal of Machine Learning Research. 11: 1471–1490.

[Kudo2003-6] Kudo, T.; Matsumoto, Y. (2003). Fast methods for kernel-based text analysis. Proc. ACL.

[1]

[2]

[3]

[4]

[5]

[6]

Search

다항식 커널

네임스페이스

더

정의.

실용화

레퍼런스