스펙트럼 필터링에 의한 정규화

스펙트럼 정규화는 소음의 영향을 제어하고 과도한 피팅을 방지하기 위해 기계 학습에 사용되는 정규화 기법의 한 종류다.스펙트럼 정규화는 이미지를 디버링하는 것에서부터 이메일을 스팸 폴더와 비스팸 폴더로 분류하는 것까지 광범위한 어플리케이션에서 사용될 수 있다.예를 들어, 전자 메일 분류 예에서 스펙트럼 정규화를 사용하면 기계 학습 시스템이 스팸과 비스팸 전자 메일을 구분하는 방법을 학습하기 위해 라벨이 부착된 전자 메일 집합에 대해 교육을 받고 있을 때 노이즈의 영향을 줄이고 과도한 피팅을 방지할 수 있다.null

스펙트럼 정규화 알고리즘은 불량한 조건 번호나 무한의 역수를 가질 가능성이 있는 선형 연산자(또는 행렬)의 역전에 초점을 맞추어 원래부터 정의되고 연구된 방법(예: 참조^[1])에 의존한다.이러한 맥락에서, 정규화는 정규화 파라미터에 의해 제어되는 조건 번호를 가지는 「정규화 사업자」라고 하는 경계 사업자에 의한 원사업자를 대체하는 것에 해당하는데,^[2] 고전적인 예는 티호노프 정규화다.안정성을 보장하기 위해 이 정규화 매개변수는 소음 수준에 따라 조정된다.^[2]스펙트럼 정규화 이면의 주요 개념은 문제를 정의하는 연산자의 고유값에 대한 적절한 필터로서 스펙트럼 정규화 연산자를 사용하여 설명할 수 있으며, 필터의 역할은 "작은 고유값에 해당하는 진동 동작을 억제하는 것"^[2]이다.따라서 스펙트럼 정규화 알고리즘의 등급에 있는 각 알고리즘은 적절한 필터 함수(특정 알고리즘에 대해 파생될 필요가 있음)에 의해 정의된다.스펙트럼 필터링이 잘 연구되는 가장 일반적으로 사용되는 정규화 알고리즘 중 세 가지는 티호노프 정규화, 랜드위버 반복, 잘린 단수값 분해(TSVD)이다.정규화 매개변수 선택과 관련하여, 이 매개변수를 계산하기 위한 후보 방법의 예로는 불일치 원리, 일반화된 교차 검증, L-곡선 기준이 있다.^[3]null

기계 학습의 맥락에서 연구된 스펙트럼 필터링의 개념은 (신호 처리에서) 기능 근사치에 관한 문헌과 밀접하게 연결되어 있다는 점에 유의해야 한다.null

표기법

The training set is defined as $S=\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ , where $X$ is the $n\times d$ input matrix and $Y=(y_{1},\dots ,y_{n})$ is the output vector. Where applicable, the kernel function is denoted by $k$ , and the $n\times n$ kernel matrix is denoted by $K$ which has entries $K_{ij}=k(x_{i},x_{j})$ and ${\mathcal {H}}$ denotes the Re커널 $k$ $k$ 을(를) 사용하여 커널 힐버트 공간(RKHS) 생성 $k$ 정규화 매개 변수는 $\lambda$ $\lambda$ 로 표시된다 $\lambda$

(참고: $g\in G$ $g\in G$ $f\in F$ ${\$ $displaystyle g\in G}$ 및 $f\in F$ $f\in F$ F ${\displaystyle f\in F$ 에 대해 $G$ ${\$ $displaystyle G}$ 및 $G$ $F$ {\ $displaystyle L$ $}$ 의 $F$ $선형$ 연속 연산자 L {\ $displaystystyle L}$ 에 대해 $g=Lf$ = $Lf}$ 이 $g=Lf$ 있다고 가정한다 $L$ 이 설정에서 직접적인 문제는 $f$ $f$ 이 $g$ (가) 주어진 g ${\displaystyle$ $g}$ 에 대한 해결일 것이고 $f$ 역문제는 $g$ ${\$ $displaystyle g$ }에 $f$ 대한 $f$ 일 것이다 $g$ 솔루션이 존재한다면 역문제는 독특하고 안정적이다(즉, $f$ ${\displaystyl$ )에 대한 해결의 문제일 것이다. $e f}$ )는 잘 보존되어 있고, 그렇지 않으면 잘 보존되어 있지 않다.)null

역문제설과의 관계

정규화된 최소제곱(RLS) 추정 문제(Tikhonov 정규화 설정)와 부호 역문제 이론의 연결은 스펙트럼 정규화 알고리즘이 부호 역문제 이론과 어떤 관련이 있는지를 보여주는 예다.null

RLS Estimator가 해결

{\displaystyle \min _{f\in {\mathcal{H}}{\frac {1}{n}\sum _{i=1}^{n}(y_{i}-f(x_{i})^{2}+\lambda \f\{\mathcal{H}^{2}}:

and the RKHS allows for expressing this RLS estimator as $f_{S}^{\lambda }(X)=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ where ${\displaystyle (K+n\lambda I)c=$ $c=(c_{1},\dots ,c_{n})$ = ( $c=(c_{1},\dots ,c_{n})$ $c=(c_{1},\dots ,c_{n})$ , $c=(c_{1},\dots ,c_{n})$ … $c=(c_{1},\dots ,c_{n})$ , $c=(c_{1},\dots ,c_{n})$ n ) $c=(c_{1},\dots,c_{n}}$ 이 $(K+n\lambda I)c=Y$ (가) 있는 Y $c=(c_{1},\dots ,c_{n})$ ^[4]벌칙 용어는 부드러움을 조절하고 과도한 피팅을 방지하기 위해 사용된다.경험적 위험 최소화 $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ H $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ i $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ = $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ ( $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ - $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ ( $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ i $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ ) $\min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ ${\$ }}\ $sum _{i$ =1 $}^{n}(y_{i}-f(x_{i}))})$ $^{2}}$ can be written as $f_{S}^{\lambda }(X)=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ such that $Kc=Y$ , adding the penalty function amounts to the following change in the system that needs to be solved:^[5]

{\bigg \{}\min _{f\in {\mathcal {H}}{\frac {1}{n}\sum _{i=1}^{n}(y_{i}-f(x_{i})))^{2}\rightarrow \min _{f\in {\mathcal {H}}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}+\lambda \ f\ _{\mathcal {H}}^{2}{\bigg \}}\equiv {\bigg \{}Kc=Y\rightarrow (K+n\lambda I)c=Y{\bigg \}}.

이 학습 설정에서 커널 매트릭스는 $K=Q\Sigma Q^{T}$ = $K=Q\Sigma Q^{T}$ $K=Q\Sigma Q^{T}$ $K=Q\Sigma Q^{T}$ $K=Q\Sigma Q^{T}$ ${\displaystyle$ K= $Q\$ Sigma $Q^{T}$ 와 함께 분해될 수 있다 $K=Q\Sigma Q^{T}$

{\displaystyle \chostma =\displayname {filename}(\displayma _{1}\cdma \geq \geq \geq \geq \gecdots \gema \{n}\n}\gq 0})

및 $q_{1},\dots ,q_{n}$ , $q_{1},\dots ,q_{n}$ $q_{1},\dots ,q_{n}$ n $q_{1},\dots ,q_{n}$ {\ $displaystyle q_{1},\reason, q_{n}}$ 은(는) 해당 고유 벡터들이다 $q_{1},\dots ,q_{n}$ .따라서 초기 학습 환경에서는 다음과 같은 조건이 유지된다.

c=K^{-1}Y=Q\Sigma ^{-1}Q^{T}Y=\sum _{i=1}^{n}{\frac {1}{1}{\sigma _{i}}\langle q_{i}},Y\rangle q_{i}.

따라서 작은 고유값의 경우 데이터의 작은 동요도 솔루션에 상당한 변화를 초래할 수 있다.따라서, 문제는 잘못된 조건이고, 이 RLS 문제를 해결하는 것은 아마도 잘못된 조건의 매트릭스 역전 문제를 안정화시키는 것으로, 이것은 잘못된 조건의 역문제 이론에서 연구되고 있다. 두 문제에서, 주된 관심사는 수치적 안정성의 문제를 다루는 것이다.null

알고리즘 구현

스펙트럼 정규화 알고리즘 클래스의 각 알고리즘은 적절한 필터 함수에 의해 정의되며, $G_{\lambda }(\cdot )$ 서 G $G_{\lambda }(\cdot )$ ( $G_{\lambda }(\cdot )$ ) ${\displaystyle G_{\lambda }(\cdot )$ 로 표시된다 $G_{\lambda }(\cdot )$ 만일 커널 매트릭스가 $K$ $K$ 로 표시된다면, $K$ $\lambda$ $\lambda$ 은 보다 작은 고유값의 크기를 제어해야 $\lambda$ 한다. $G_{\lambda }(K)$ $G_{\lambda }(K)$ ( $G_{\lambda }(K)$ ) ${\displaystyle G_{\lambda }(K$ 필터링 설정에서 목표는 $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ f $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ ( $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ ) $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ = $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ c $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ k $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ ( $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ , $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ $){\displaystysty f_{S}^{\lambda }(X):$ $=\sum _{i=1}^{n}c_{i}k(x,x_{i})}$ where $c=G_{\lambda }(K)Y$ . To do so, a scalar filter function $G_{\lambda }(\sigma )$ is defined using the eigen-decomposition of the kernel matrix:

G_{\lambda }(K)=QG_{\lambda }(\Sigma )Q^{T}}

어느 것이 생산되는가

G_{\lambda }(K)Y~=~\sum _{i=1}^{n}G_{\lambda }(\sigma _{i})\langle q_{i}},Y\rangle q_{i}.

일반적으로 적절한 필터 함수는 다음과 같은 속성을 가져야 한다.^[5]

1. $\lambda$ $\lambda$ 이(가) 0으로 가므로 $\lambda$ $G_{\lambda }(\sigma )~\rightarrow ~1/\sigma$ $G_{\lambda }(\sigma )~\rightarrow ~1/\sigma$ ( $G_{\lambda }(\sigma )~\rightarrow ~1/\sigma$ ) $G_{\lambda }(\sigma )~\rightarrow ~1/\sigma$ → 1 / $G_{\lambda }(\sigma )~\rightarrow ~1/\sigma$ ${\displaystyle G_{\lambda }(\sigma )~~\rigrow ~1/\sigma$ $G_{\lambda }(\sigma )~\rightarrow ~1/\sigma$

2. $G_{\lambda }$ $G_{\lambda }$ ${\$ 의 (작은) 고유값의 크기는 $\lambda$ $\lambda$ 에 의해 제어된다 $G_{\lambda }$ $\lambda$

위의 항목은 모든 스펙트럼 정규화 알고리즘에 대한 필터 기능의 일반적 특성에 대한 대략적인 특성을 제공하지만, 필터 기능의 파생(따라서 정확한 형태)은 스펙트럼 필터링이 적용되는 특정 정규화 방법에 따라 달라진다.null

Tikhonov 정규화를 위한 필터 기능

Tikhonov 정규화 설정에서 RLS에 대한 필터 기능은 아래와 같다.에서와 같이,^[4] $c=(K+n\lambda I)^{-1}Y$ 에서 $c=(K+n\lambda I)^{-1}Y$ = ( $c=(K+n\lambda I)^{-1}Y$ + $c=(K+n\lambda I)^{-1}Y$ $c=(K+n\lambda I)^{-1}Y$ ) - 1 $c=(K+n\lambda I)^{-1}Y$ Y {\ $displaystyle c=($ K+n $\lambda$ I $)^{-1$ $따라서$ ,

c=(K+n\lambda I)^{-1}Y=Q(\Sigma +n\lambda I)^{-1}Q^{T}Y=\sum _{i=1}^{n}{\frac {1}{{1}{\sigma _{i}+n\lambda }}}}<q_{i},Y>>q_{i}.

원하지 않는 구성 요소는 정규화를 사용하여 필터링한다.

$\sigma \gg \lambda n$ $\sigma \gg \lambda n$ ≫ $\sigma \gg \lambda n$ ${\displaystyle \sigma \gg \lambda n$ ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\sigma _{i}}}$ ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\sigma _{i}}}$ ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\sigma _{i}}}$ + n $λ$ ~ ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\sigma _{i}}}$ ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\sigma _{i}}}$ i ${\$ { $1}{i}+n\lambda }}\심{\frac {1}{\sigma _{{i$
$\sigma \ll \lambda n$ $\sigma \ll \lambda n$ ≪ $\sigma \ll \lambda n$ {\ $displaystyle \sigma \$ ll \ $lambda$ ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\lambda n}}$ $\sigma \ll \lambda n$ ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\lambda n}}$ ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\lambda n}}$ ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\lambda n}}$ + ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\lambda n}}$ ~ ~ 1 ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\lambda n}}$ n ${\frac 스타일$ {\ $fractyle {1}{i$ }+n $\lambda }}}\\\frac {1}{\lambdan$

따라서 Tikhonov 정규화를 위한 필터 함수는 다음과 같이 정의된다.^[5]

$G_{\lambda }(\sigma )={\frac {1}{\sigma +n\lambda }}.$

Landweber 반복을 위한 필터 기능

랜드위버 반복의 이면에 있는 아이디어는 경사로 하강이다.^[5]

c^{0}=0

{\text{{}i=1,\properties,t-1

{\displaystyle ~~~c^{i}=c^{i-1}+\eta(Y-Kc^{i-1})

\mathrm {end}

이 설정에서 $n$ $n$ 이 $n$ (가) $K$ $K$ 의 $K$ 가장 큰 고유값보다 클 경우 위의 반복은 $\eta =2/n$ = 2 $\eta =2/n$ / $\eta =2/n$ $\eta =2/n$ 을(를) 단계 크기로 선택하여 $\eta =2/n$ 수렴한다.^[5]위의 반복은 구배 강하를 통해 ${\frac {1}{n}}||Y-Kc||_{2}^{2}$ Y ${\frac {1}{n}}||Y-Kc||_{2}^{2}$ - ${\frac {1}{n}}||Y-Kc||_{2}^{2}$ ${\frac {1}{n}}||Y-Kc||_{2}^{2}$ 2 ${\frac {1}{n}}||Y-Kc||_{2}^{2}$ ${\$ 즉, 경험적 위험)를 최소화하는 것과 같으며, 유도를 사용하여 $t$ ${\displaysty t}$ -th $t$ 반복에서 솔루션이 제공됨을 증명할 수 있다.

c=\eta \sum _{i=0}^{t-1(I-\eta K)^{i}Y.

따라서 적절한 필터 기능은 다음과 같이 정의된다.

$G_{\lambda }(\sigma )=\eta \sum _{i=0}^{t-1}(I-\eta \sigma )^{i}}$

이 여과 함수 K− 1{\displaystyle K^{)}의 절단 확장을}해당합니다;[5]이 관계 ∑ 나는 ≥ 0)나는 갈1/(1−)){\displaystyle \sum_{0i\geq}(1-x)}, 만약 x{\displaystyle)}는 매트릭스로 대체되는 것이 아직 유효할 것, 따라서, 만약 K. 이것을 보는데 나타낼 수 있 {) $displaystyle K}($ 커널 매트릭스) $I-\eta K$ $I-\eta K$ - $I-\eta K$ $I-\eta K$ $I-\eta K$ 이 $I-\eta K$ 가) 고려되며, 다음과 같은 고정 상태를 유지한다.

K^{-1}=\eta \sum _{i=0}^{\infit }{i}\sim \eta \sum \sum _{i=0}^{t-1}(I-\eta K)^{i}}}}}

이 설정에서 반복 횟수는 정규화 매개변수를 제공한다. 대략 $t\sim 1/\lambda$ ~ 1 / $t\sim 1/\lambda$ ${\displaystyle t\sim 1/\lambda }.$ ^[5] $t$ ${\displaysty t}$ 이 $t$ (가) 크면 오버피팅이 우려될 수 있다. $t$ $t$ 이 $t$ (가) 작을 경우 오버스무팅이 우려될 수 있다.따라서 반복의 조기 중단에 적절한 시간을 선택하는 것은 정규화 효과를 제공한다.null

TSVD용 필터 기능

TSVD 설정에서 고유 위치 $K=Q\Sigma Q^{T}$ = $K=Q\Sigma Q^{T}$ $K=Q\Sigma Q^{T}$ $K=Q\Sigma Q^{T}$ $K=Q\Sigma Q^{T}$ ${\$ Q $^{T}$ 를 $K=Q\Sigma Q^{T}$ 제공하고 규정된 임계값 $\lambda n$ $\lambda n$ 을 사용하여 이 임계값보다 작은 모든 고유값을 폐기함으로써 커널 매트릭스에 정규화된 역성 형성을 할 수 있다 $\lambda n$ ^[5]따라서 TSVD에 대한 필터 함수는 다음과 같이 정의될 수 있다.

G_{\lambda }(\sigma )=\왼쪽\{\\\begin{array}{lcll}1/\sigma &,&\cl\n\\\\text{0.05in]0&,&\\text{0.05in]\}}}}오른쪽.

TSVD는 (커널) 주성분 분석(PCA)을 이용한 데이터의 (감독되지 않은) 투영과 동일하며, 또한 (정규화하지 않은) 투영된 데이터에 대한 경험적 위험을 최소화하는 것과도 동등하다는 것을 보여줄 수 있다.^[5]투영을 위해 유지되는 구성 요소의 수는 여기에서 유일한 자유 매개변수라는 점에 유의하십시오.null

참조

^ H. W. Engl, M. Hanke, A.네우바우어.역문제의 정규화.클루워, 1996년
^ ^a ^b ^c L. Lo Gerfo, L. Rosasco, F.오돈, E.데 비토, 그리고 A.Verri. 감독된 학습, 신경 계산을 위한 스펙트럼 알고리즘, 20(7), 2008.
^ P. C. Hansen, J. G. Nagy, D. P. O'Leary.디블러링 이미지: 매트릭스, 스펙트럼 및 필터링, 알고리즘 3, SIAM, 필라델피아, 2006.
^ ^a ^b L. 로사스코.9.520 강의 노트 6: 통계 학습 이론과 응용매사추세츠 공과대학교, 2013년 가을.https://www.mit.edu/~9.520/fall13/slide/class06/class06_RLSSVM.pdf에서 이용 가능
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j L. 로사스코.9.520 강의 노트 7번 강의: 통계 학습 이론과 응용매사추세츠 공과대학교, 2013년 가을.https://www.mit.edu/~9.168/fall13/class07/class07_lass07.pdf에서 이용 가능

[1] H. W. Engl, M. Hanke, A.네우바우어.역문제의 정규화.클루워, 1996년

[rosasco-2] L. Lo Gerfo, L. Rosasco, F.오돈, E.데 비토, 그리고 A.Verri. 감독된 학습, 신경 계산을 위한 스펙트럼 알고리즘, 20(7), 2008.

[3] P. C. Hansen, J. G. Nagy, D. P. O'Leary.디블러링 이미지: 매트릭스, 스펙트럼 및 필터링, 알고리즘 3, SIAM, 필라델피아, 2006.

[BB-4] L. 로사스코.9.520 강의 노트 6: 통계 학습 이론과 응용매사추세츠 공과대학교, 2013년 가을.https://www.mit.edu/~9.520/fall13/slide/class06/class06_RLSSVM.pdf에서 이용 가능

[AA-5] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j L. 로사스코.9.520 강의 노트 7번 강의: 통계 학습 이론과 응용매사추세츠 공과대학교, 2013년 가을.https://www.mit.edu/~9.168/fall13/class07/class07_lass07.pdf에서 이용 가능

[1]

[2]

[3]

[4]

[5]

Search