하이퍼베이스 기능 네트워크

머신러닝, 하이퍼베이스 기능 네트워크 또는 하이퍼BF 네트워크는 RBF(Radial Basis Function) 네트워크 개념의 일반화이며, 여기서 유클리드 거리 측정 대신 마할라노비스와 같은 거리가 사용됩니다.하이퍼 베이시스 함수 네트워크는 Poggio와 Girosi에 의해 1990년 논문 "Networks for Abstimation and Learning"^[1]^[2]에서 처음 도입되었습니다.

네트워크 아키텍처

표준 하이퍼BF 네트워크 구조는 실제 입력 $x\in \mathbb {R} ^{n}$ $x\in \mathbb {R} ^{n}$ n \ $displaystyle$ x \ $in$ \ $mathbb$ { $R }^$ { $n$ }, 액티베이션 함수의 숨겨진 레이어 및 선형 출력 레이어로 구성됩니다.네트워크의 출력은 입력 벡터의 스칼라 $\phi :\mathbb {R} ^{n}\to \mathbb {R}$ 입니다. $\phi :\mathbb {R} ^{n}\to \mathbb {R}$ : R $\phi :\mathbb {R} ^{n}\to \mathbb {R}$ R ${\displaystyle$ \phi :\ $mathbb {R}^{n}\to \mathbb {R$ 는 다음과 같습니다.

\phi (x)=\sum _{j=1}^{N}a_{j}\rho _{j}(x-\mu _{j})

$N$ 서 N $(\displaystyle$ N $)$ 은 $N$ $\mu _{j}$ 층에 있는 다수의 뉴런이고, $\mu _{j}$ j(\ $displaystyle \mu$ _ ${j$ }) 및 $\mu _{j}$ $(\$ 는 $a_{j}$ $뉴런$ j(\ $displaystyle$ j $j$ 의 중심 및 무게입니다.하이퍼에서 활성화 함수 $\rho _{j}(||x-\mu _{j}||)$ j ( $\rho _{j}(||x-\mu _{j}||)$ - $\rho _{j}(||x-\mu _{j}||)$ j $\rho _{j}(||x-\mu _{j}||)$ ) { $displaystyle \rho$ _ { $j}(x$ - \ $mu$ _ { $j}$ )BF 네트워크는 다음 형식을 취합니다.

\displaystyle \rho _{j}(x-\mu _{j})=e^{(x-\mu _{j})^{T}R_{j}(x-\mu _{j})}}

$R_{j}$ 서 R $R_{j}$ j(\ $displaystyle R_{$ j $R_{j}$ })는 $d\times d$ 양의 $d\times d$ d × $d\times d$ (\ $displaystyle$ d\ $times$ d $)$ 매트릭스입니다.응용^[3] 프로그램에 따라 다음 유형의 $R_{j}$ $R_{j}$ j { $displaystyle R_{j}$ 이 $R_{j}$ (가) 고려됩니다.

$R_{j}={\frac {1}{2\sigma ^{2}}}\mathbb {I} _{d\times d}$ j $R_{j}={\frac {1}{2\sigma ^{2}}}\mathbb {I} _{d\times d}$ $R_{j}={\frac {1}{2\sigma ^{2}}}\mathbb {I} _{d\times d}$ 2 $R_{j}={\frac {1}{2\sigma ^{2}}}\mathbb {I} _{d\times d}$ $R_{j}={\frac {1}{2\sigma ^{2}}}\mathbb {I} _{d\times d}$ $R_{j}={\frac {1}{2\sigma ^{2}}}\mathbb {I} _{d\times d}$ d × $R_{j}={\frac {1}{2\sigma ^{2}}}\mathbb {I} _{d\times d}$ \ $displaystyle$ R _ { j } = $displayfrac {$ 1} { 2 \ $times$ ^ { 2} } \ $mathbb$ { $I$ } _ ${ d$ \ $times$ d $R_{j}={\frac {1}{2\sigma ^{2}}}\mathbb {I} _{d\times d}$ } 。 $\sigma >0$ 서 $\sigma >0$ > $\sigma >0$ { $displaystyle$ \ $times$ > $0$ } 。이 경우는, 통상의 RBF 네트워크에 대응합니다.
$R_{j}={\frac {1}{2\sigma _{j}^{2}}}\mathbb {I} _{d\times d}$ j $R_{j}={\frac {1}{2\sigma _{j}^{2}}}\mathbb {I} _{d\times d}$ $R_{j}={\frac {1}{2\sigma _{j}^{2}}}\mathbb {I} _{d\times d}$ 2 $R_{j}={\frac {1}{2\sigma _{j}^{2}}}\mathbb {I} _{d\times d}$ j $R_{j}={\frac {1}{2\sigma _{j}^{2}}}\mathbb {I} _{d\times d}$ d $R_{j}={\frac {1}{2\sigma _{j}^{2}}}\mathbb {I} _{d\times d}$ × $R_{j}={\frac {1}{2\sigma _{j}^{2}}}\mathbb {I} _{d\times d}$ \ $displaystyle$ R _ { j } = $displayfrac {$ 1} ${ 2$ \ $display$ style _ { $j$ }^{2 $}$ } \ $mathbb$ { $I } _$ { $d$ \ $times$ d $R_{j}={\frac {1}{2\sigma _{j}^{2}}}\mathbb {I} _{d\times d}$ $\sigma _{j}>0$ 。 $여기$ 서 > $\sigma _{j}>0$ { $displaystyle$ \ $j$ }이 경우 기본 함수는 반지름 대칭이지만 다른 너비로 스케일링됩니다.
Rj)d이σ j나는입니다. 나는 g(12σ j12..., 12σ jz2)나는 d{나는}_{d\times 해야}{\displaystyle R_{j}({\frac{1}{2\sigma_{j1}^{2}}},...,{\frac{1}{2\sigma_{jz}^{2}}}\right)\mathbb},× 해야;0{\displaystyle \sigma_{ji}>0}. 모든 뉴런들은 varyin과 타원 모양을 가지고 있다.g크기.
양의 유한 행렬이지만 대각 행렬은 아닙니다.

트레이닝

하이퍼 트레이닝BF 네트워크는 뉴런 $R_{j}$ j $R_{j}$ {\ $displaystyle$ $a_$ ${j}$ 및 $R_{j}$ $\mu _{j}$ j {\ $displaystyle \mu$ _ ${j$ 의 형태와 $a_{j}$ 인 $a_{j}$ 의 추정을 포함한다. Poggio와 Girosi(1990)는 움직이는 중심과 적응 가능한 뉴런 형태를 가진 훈련 방법을 설명한다.이 방법의 개요는 다음과 같습니다.

$H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ H $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ [ $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ ] $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ N ( $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ i - $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ ( $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ x i $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ ) $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ { $displaystyle$ H [ \ $phi$ ^ { * } = \ $sum$ _ { i $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ = $1$ ^ $N$ （ y $_$ { i $H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}$ } - \ $phi$ ^ { * } } （ x $_ i$ ））。 $^{2$ 다음 조건이 최적의 조건에서 충족되어야 합니다.

{\frac {\partial H(\phi ^{*})}{\partial a_{j}}}=0

{\frac {\partial H(\phi ^{*})}{\partial a_{j}}}=0

（

{\frac {\partial H(\phi ^{*})}{\partial a_{j}}}=0

∂

{\frac {\partial H(\phi ^{*})}{\partial a_{j}}}=0

j

=

0

{ {

displaystyle

{

frac

^ } { \ phi ^ * }

=

,

{\frac {\partial H(\phi ^{*})}{\partial \mu _{j}}}=0

H

{\frac {\partial H(\phi ^{*})}{\partial \mu _{j}}}=0

（

{\frac {\partial H(\phi ^{*})}{\partial \mu _{j}}}=0

\

{\frac {\partial H(\phi ^{*})}{\partial \mu _{j}}}=0

^ *

）

、 μ

{\frac {\partial H(\phi ^{*})}{\partial \mu _{j}}}=0

j =

0

\

displaystyle

{ \

frac H

( \

phi

^ * } } = 0 ,

0

{\frac {\partial H(\phi ^{*})}{\partial a_{j}}}=0

$R_{j}=W^{T}W$ 서 R j $R_{j}=W^{T}W$ $R_{j}=W^{T}W$ $R_{j}=W^{T}W$ W {\ $displaystyle R_{j$ $a_{j},\mu _{j},W$ $= W^{T}$ W $.$ $a_{j},\mu _{j},W$ 경사 강하법에서 $H[\phi ^{*}]$ H $[display style$ ${j},\$ $mu$ _ ${j$ $}$ 의 $a_{j},\mu _{j},W$ $H[\phi ^{*}]$ $H[\phi ^{*}]$ 을 안정적인 $a_{j},\mu _{j},W$ 으로 찾을 수 있습니다.

a

j

{\dot {a_{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial a_{j}}}

-

{\dot {a_{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial a_{j}}}

H (

{\dot {a_{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial a_{j}}}

)

{\dot {a_{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial a_{j}}}

{\dot {a_{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial a_{j}}}

\

displaystyle

( {

a _

{

j

} = - \

obega

{

frac （

\

phi

^ { * ）

{\dot {a_{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial a_{j}}}

} 、

{\dot {\mu _{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial \mu _{j}}}

j

{\dot {\mu _{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial \mu _{j}}}

-

{\dot {\mu _{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial \mu _{j}}}

H (

{\dot {\mu _{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial \mu _{j}}}

)

μ display

style ( {

dot

} )

W

$\omega$ 서 $"\displaystyle\obega"$ 는 컨버전스 속도를 나타냅니다 $\omega$ .

전체적으로 하이퍼 트레이닝BF 네트워크는 계산이 어려운 경우가 있습니다.또한 Hyper의 높은 자유도는BF는 과적합과 일반화를 초래합니다.단, 하이퍼BF 네트워크는 소수의 뉴런만으로도 복잡한 ^[2]기능을 학습하기에 충분하다는 중요한 이점을 가지고 있다.

레퍼런스

^ T. 포지오와 F.지로시(1990)."개산 및 학습용 네트워크"IEEE Vol. 78, No. 9:1481-1497.
^ ^a ^b R.N. Mahdi, E.C. Rouchka(2011)."하이퍼 저감BF 네트워크: 명시적인 복잡성 감소 및 스케일링된 Rprop 기반 훈련에 의한 정규화".IEEE 신경망의 트랜잭션 2:673–686.
^ F. Schwenker, H.A. Kestler 및 G. Palm(2001)."방사형 기저 기능 네트워크의 3가지 학습 단계" 신경 네트워크. 14:439-458.

[PoggioGirosi1990-1] T. 포지오와 F.지로시(1990)."개산 및 학습용 네트워크"IEEE Vol. 78, No. 9:1481-1497.

[Mahdi-2] R.N. Mahdi, E.C. Rouchka(2011)."하이퍼 저감BF 네트워크: 명시적인 복잡성 감소 및 스케일링된 Rprop 기반 훈련에 의한 정규화".IEEE 신경망의 트랜잭션 2:673–686.

[Schwenker-3] F. Schwenker, H.A. Kestler 및 G. Palm(2001)."방사형 기저 기능 네트워크의 3가지 학습 단계" 신경 네트워크. 14:439-458.

[1]

[2]

[3]

Search

하이퍼베이스 기능 네트워크

네임스페이스

더

네트워크 아키텍처

트레이닝

레퍼런스