전문가 혼합

전문가 혼합(Mixture of Expert, MoE)은 여러 전문가 네트워크(학습자)를 사용하여 문제 공간을 동질적인 영역으로 나누는 기계 학습 기법입니다.^[1]모든 모델의 결과를 조합하는 것이 아니라 일반적으로 한 명 또는 몇 명의 전문가 모델만 실행된다는 점에서 앙상블 기술과 다릅니다.

기본이론

전문가가 섞여있는 우리는 항상 다음과 같은 성분을 가지고 있지만, 그것들은 다르게 구성되고 조합됩니다.

전문가 $f_{1},...,f_{n}$ $f_{1},...,f_{n}$ ${\$ 이 $f_{1},...,f_{n}$ 가) 동일한 입력 $x$ $x$ 을 $x$ 를) 사용하고 $f_{1}(x),...,f_{n}(x)$ ( $f_{1}(x),...,f_{n}(x)$ $f_{1}(x),...,f_{n}(x)$ $f_{1}(x),...,f_{n}(x)$ 출력을 생성합니다 $f_{1}(x),...,f_{n}(x)$
${\displaystyle$ $x}$ 에 단일 가중치 함수(게이팅 함수)가 있으며 $w$ 이 $x$ 는 x{\ $displaystyle$ x}을(를) 사용하여 $x$ 출력 벡터 $(w(x)_{1},...,w(x)_{n})$ ( $(w(x)_{1},...,w(x)_{n})$ ) $(w(x)_{1},...,w(x)_{n})$ $(w(x)_{1},...,w(x)_{n})$ w $(w(x)_{1},...,w(x)_{n})$ ( $(w(x)_{1},...,w(x)_{n})$ ) $(w(x)_{1},...,w(x)_{n})$ ${\displaystyle (w(x)_{1$ }, $...,w(x)_{n}}$ 를 생성합니다 $(w(x)_{1},...,w(x)_{n})$
$\theta =(\theta _{0},\theta _{1},...,\theta _{n})$ $($ θ $\theta =(\theta _{0},\theta _{1},...,\theta _{n})$ $\theta =(\theta _{0},\theta _{1},...,\theta _{n})$ $\theta =(\theta _{0},\theta _{1},...,\theta _{n})$ $\theta =(\theta _{0},\theta _{1},...,\theta _{n})$ n $\theta =(\theta _{0},\theta _{1},...,\theta _{n})$ ${\displaystyle \th$ =(\ $theta$ _ ${0},\theta$ _ ${1},...,\theta$ _ ${n}}$ 는 매개 변수 집합입니다.매개 변수 θ $\theta _{0}$ $\theta _{0}$ 은(는) 가중치 함수입니다.
입력 $x$ $x$ 이 $x$ $f_{1}(x),...,f_{n}(x)$ 주어졌을 때, 전문가 혼합은 가중치 $w(x)_{1},...,w(x)_{n}$ ( $f_{1}(x),...,f_{n}(x)$ $w(x)_{1},...,w(x)_{n}$ ) 1 $w(x)_{1},...,w(x)_{n}$ ..., $w(x)_{1},...,w(x)_{n}$ $f_{1}(x),...,f_{n}(x)$ ${\displaystyle f_{1}(x$ ), $...,f_{n}(x$ )}를 w $($ $w(x)_{1},...,w(x)_{n}$ ), $w(x)_{1},...,w(x)_{n}$ n ${\$ 에 따라 $f_{1}(x),...,f_{n}(x)$ 결합하여 하나의 결합 출력을 생성합니다.

전문가와 가중치 함수 모두 일반적으로 기울기 강하에 의해 어떤 형태의 손실 함수를 최소화함으로써 훈련됩니다.전문가의 정확한 형태, 가중치 함수, 손실 함수를 선택하는 데 많은 자유가 있습니다.

메타파이 네트워크

햄프셔와 와이벨이 보고한 메타-파이 네트워크는 $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ ( $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ ${\displaystyle f(x)$ = $\sum _{i}w(x)_{i}f_{i}($ x)}( $x)$ 인 $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ ( x $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ ) = ∑ $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ ( $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ x $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ )를 출력으로 사용합니다.평균 squared 오류 손실 $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ := $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ ∑ $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ ‖ $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ - $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ f ( $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ ) $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ ‖ $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$ ${\displaystyle$ L :={\ $frac {1}{N}}\sum _{k}\y_{k}-f$ 전문가는 임의의 기능일 수 있습니다.

원래 출판물에서, 그들은 6명의 다른 일본어 화자들, 2명의 여성과 4명의 남성으로부터 음성 신호로 음소를 분류하는 문제를 해결하고 있었습니다.그들은 6명의 전문가들을 훈련시켰는데, 각각은 "시간 지연 신경망"(^[3]본질적으로 멜 스펙트로그램을 통한 다층 컨볼루션 네트워크)입니다.그들은 결과적으로 혼합된 전문가들이 5명의 화자를 위해 5명의 전문가를 전담하는 것을 발견했지만, 6번째 (남성) 화자는 전담 전문가가 없고, 대신 그의 목소리는 다른 3명의 남성 화자를 위한 전문가들의 선형 조합에 의해 분류되었습니다.

지역 전문가들의 적응적 혼합물

지역 전문가들의 적응적 혼합물은 가우스 혼합 모형을 사용합니다.각 전문가는 단순히 가우스 분포를 예측하고 입력을 완전히 무시합니다. $특히$ , i $i$ -th $i$ 전문가는 $y\sim N(\mu _{i},I)$ 을 y $y\sim N(\mu _{i},I)$ ~ N $y\sim N(\mu _{i},I)$ ( $y\sim N(\mu _{i},I)$ $y\sim N(\mu _{i},I)$ ) $y\sim N(\mu _{i},I)$ {\ $displaystyle y\sim$ N $(\mu _{i},I)}$ 로 예측합니다 $y\sim N(\mu _{i},I)$ 여기서 $\mu _{i}$ ${\$ 는 $\mu _{i}$ 학습 가능한 매개 변수입니다.가중치 함수는 선형 소프트맥스 함수입니다.

w(x)_{i}={\frac {e^{k_{i}^{T}x+b_{i}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}

전문가 혼합은 확률 밀도 함수에 따라 산출량이 분포될 것으로 예측합니다.

f_{\theta}(y x)=\ln \left[\sum _{i}{\frac {e^{k_{i}^{T}x+b_{i}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}}: N(y \mu _{i},I)\right]=\ln \left[(2\pi )^{-d/2}\sum _{i}{\frac {e^{k_{i}^{T}x+b_{i}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}}:e^{-{\frac {1}{2}}\y-\mu _{i}\^{2}}\right]

최대 우도 추정, 즉

f(y|x)

x

f(y|x)

{\displaystyle f(y

x

)}

의 기울기 상승에 의해 훈련됩니다

f(y|x)

i

i

-th

i

전문가의 기울기는

\nabla _{\mu _{i}}f_{\theta}(y x)={\frac {w(x)_{i}N(y \mu _{i},I)}{\sum _{j}N(y \mu _{j},I)}\;(y-\mu _{i})

그리고 가중치 함수의 기울기는

\nabla _{[k_{i},b_{i}}}f_{\theta }(y x)={\begin{bmatrix}x\1\end{bmatrix}}{\frac {w(x)_{i}}{\sum _{j}w(x)_{j}N(y \mu _{j},I)}}(f_{i}(x)-f_{\theta }(y x))

각 입출력 쌍 $(x,y)$ $){\displaystyle(x,y)}$ 에 대해 가중치 함수를 변경하여 평균 이상으로 수행한 모든 전문가의 가중치를 증가시키고 평균 이하로 수행한 모든 전문가의 가중치를 감소시킵니다 $(x,y)$ 이렇게 하면 가중치 함수가 각 입력에 대해 올바른 예측을 하는 예상치만 선택하도록 학습하도록 유도됩니다.

$i$ $i$ 번째 $i$ 전문가는 $y$ $y$ 에 근접하게 예측을 변경하지만 $y$ 변화량은 n $w(x)_{i}N(y|\mu _{i},I)$ $w(x)_{i}N(y|\mu _{i},I)$ $w(x)_{i}N(y|\mu _{i},I)$ {\ $displaystyle w(x)_{i}N(y \mu _{i},I)}$ 의 w $w(x)_{i}N(y|\mu _{i},I)$ ( $w(x)_{i}N(y|\mu _{i},I)$ 에 비례합니다 $w(x)_{i}N(y|\mu _{i},I)$ 이는 베이지안 해석입니다.입력 $x$ $x$ 이 $x$ 가 $w(x)_{i}$ $w(x)_{i}$ 때 $w(x)_{i}$ $전문가$ i {\displaystyle $i}$ 가 $w(x)_{i}$ 이전 확률은 $w(x)_{i}$ w ( x) i {\ $displaystyle$ w $(x)_{i$ }}이고 $w(x)_{i}$ $y μi$ , I) {\ $displaystyle N($ y \ $mu$ _ ${i}})$ 은 $N(y|\mu _{i},I)$ 증거 y $y$ 일 가능성입니다. 따라서 $y$ N ( ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ I ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ 에서 w ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ ( ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ ( ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ ${\$ N $(y \mu$ $_{i},I)}{\sum _{j}w(x)_{j}N(y \mu _{j}I)}}$ 는 ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ 전문가 $i$ $i$ 의 사후 확률이므로 $i$ $i$ $i$ 번째 $i$ 전문가의 변화율은 사후 확률에 비례합니다.

다시 말해, 나중에 보니 상담하기에 좋은 전문가처럼 보였던 전문가들이 모범적으로 배우도록 요청을 받은 것입니다.뒤늦게 생각해보면 그렇지 못했던 전문가들은 혼자 남게 됩니다.

복합적인 효과는 전문가가 전문화된다는 것입니다.두 전문가가 특정 유형의 입력을 예측하는 데는 능숙하지만 한 전문가가 약간 더 우수하다고 가정하면 가중치 함수는 결국 더 나은 입력을 선호하는 것을 배울 수 있습니다.그런 일이 발생한 후에는 전문가가 고구배 신호를 얻을 수 없게 되고, 그러한 종류의 입력을 예측하는 능력이 더욱 떨어지게 됩니다.반대로, 덜 전문적인 사람은 다른 종류의 입력을 더 잘 예측하고 점점 더 다른 지역으로 옮겨갈 수 있습니다.이는 긍정적인 피드백 효과를 가져, 각 전문가가 나머지와 떨어져 지역을 혼자서 돌보게 합니다(따라서 '지역 전문가'라는 이름).

계층형 MoE

전문가의^[6]^[7] 계층적 혼합은 트리에 여러 수준의 게이팅을 사용합니다.각 게이팅은 다음 수준의 게이팅에 대한 확률 분포이며 전문가는 트리의 리프 노드에 있습니다.그것들은 결정 나무와 비슷합니다.

예를 들어, 2-레벨 계층형 MoE는 ${\$ 의 1차 게이팅 기능을 $w_{i}$ $w_{j|i}$ , $w_{j|i}$ {\ $displaystyle w_{ji$ }의 2차 게이팅 기능과 전문가 $f_{j|i}$ ${\$ 의 2차 게이팅 기능을 갖습니다 $f_{j|i}$ $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ 총 예측값은 $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ ∑ $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ i $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ ( $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ ) $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ ∑ $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ ( x ) f $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ ( $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$ ) ${\displaystyle \sum _{i}w_{i}(x)\sum$ _ ${j}w_{ji}f_{ji}(x)$ 입니다 $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$

변형

가우시안 혼합 모델과 유사한 전문가 혼합도 가우시안 혼합 모델과 마찬가지로 기대-최대화 알고리즘에 의해 훈련될 수 있습니다.구체적으로 예상단계에서는 전문가보다 각 데이터 포인트를 설명하는 '부담'을 부여하고, 극대화 단계에서는 전문가가 높은 부담을 받은 설명을 개선하도록 교육하고, 게이트는 부담 할당을 개선하도록 교육합니다.로그 우도에서 경사 상승보다 빨라야 합니다.^[7]^[8]

전문가들은 보다 일반적인 형태의 다변량 가우스 분포를 사용할 수 있습니다.예를 들어 제안된 $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ ( $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ ) $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ = $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ + $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ , $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ σ i $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ ) ${\displaystyle f_{i}(y$ x) = $N(y A_{i}x+b_{i},\Sigma_{i}},$ 여기서 $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ $A_{i},b_{i},\Sigma _{i}$ $A_{i},b_{i},\Sigma _{i}$ , $A_{i},b_{i},\Sigma _{i}$ σ $A_{i},b_{i},\Sigma _{i}$ $A_{i}, b_{i},\Sigma_{i$ 는 학습 가능한 매개 변수입니다.즉, 각 전문가는 학습 가능한 불확실성 추정치를 사용하여 선형 회귀 분석을 수행하는 방법을 배웁니다.또한 이항 분류의 경우 로지스틱 회귀 분석 전문가를 제안했습니다.

f_{i}(y x)={\begin{case}{\frac {1}{1+e^{\beta_{i}^{T}x+\beta _{i,0}}},&y=0\1-{\frac {1}{1+e^{\beta_{i}^{T}x+\beta _{i,0}}},&y=1\end{case}

여기서

\beta _{i},\beta _{i,0}

\beta _{i},\beta _{i,0}

\beta _{i},\beta _{i,0}

i

\beta _{i},\beta _{i,0}

\beta _{i},\beta _{i,0}

{\displaystyle \

beta

_{i},\

beta

_{i,0}

는 학습 가능한 매개 변수입니다.이는 나중에 다항 로지스틱 회귀 분석 전문가와 함께 다중 클래스 분류에 일반화됩니다.^[9]

가우스 분포와는 다른 전문가를 사용할 수 있습니다.예를 들어, Laplace 분포 ^[10]또는 Student's t-분포를 사용할 수 있습니다.^[11]

게이팅 기능의 선택은 소프트맥스 게이팅인 경우가 많습니다.그 외 가우스 분포를 이용하여 제안하고, 지수 패밀리를 이용하여 제안합니다.

모든 전문가의 가중합을 수행하는 대신, 하드 MoE에서는 최고 순위의 전문가만 선택됩니다.즉, $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ ( $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ ) $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ = $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ ⁡ $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ ( $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ ) $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ ( x $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ ) ${\displaystyle f(x$ ) = $f_{\$ arg $\max _{i}w_{i}(x)}(x)}$ 입니다 $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$ 이는 훈련 및 추론 시간을 단축시킬 수 있습니다.

딥러닝

이전 절에서는 MoE가 딥러닝 시대 이전에 사용된 것으로 설명했습니다.심층 학습 후, MoE는 조건부 계산을 수행하는 간단한 방법으로 가장 큰 모델을 실행하는 응용 프로그램을 발견했습니다. 모델의 일부만 사용되고, 입력 내용에 따라 선택되는 부품입니다.^[15]

딥 러닝에 MoE를 적용한 가장 초기의 논문은 딥 뉴럴 네트워크의 각 계층에서 서로 다른 게이팅 네트워크를 사용할 것을 제안하는 ^[16]것입니다.구체적으로, 각각의 게이팅은 선형-ReLU-선형-소프트맥스 네트워크이고, 각각의 전문가는 선형-ReLU 네트워크.

희소 게이트 MoE 계층

구글 브레인의 연구원들이 발표한 ^[17]희소 게이트형 MoE 계층은 피드포워드 네트워크를 전문가로 사용하고 선형 소프트맥스 게이팅을 사용합니다.이전에 제안된 하드 MoE와 유사하게, 그들은 모두의 가중 합이 아닌 상위 k명의 전문가들만의 가중 합으로 희소성을 달성합니다.구체적으로 MoE 계층에는 피드포워드 네트워크 $f_{1},...,f_{n}$ ..., $f_{1},...,f_{n}$ {\ $displaystyle f_{1$ }, $..., f_{n$ {\ $displaystyle w}$ 및 게이팅 $w$ 가 있습니다 $w$ 게이팅 네트워크는 $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ ( $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ x ) $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ = $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ ( $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ + $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ ) ) ${\displaystyle w(x$ ) =\ $mathrm {softmax} (\mathrm {top} _{k}$ ( $Wx+{\text{noise}})}$ 로 정의됩니다 $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ 여기서 $\mathrm {top} _{k}$ $\mathrm {top} _{k}$ \ $displaystyle \mathrm {top} _{k}$ 는 벡터의 상위 k 항목을 동일하게 유지하지만 다른 모든 항목을 - $-\infty$ ∞ ${\displaystyle$ - $\infty}($ 으)로 설정하는 함수입니다 $-\infty$ 노이즈를 추가하면 로드 밸런싱에 도움이 됩니다.

$k$ $k$ 선택 항목은 응용 프로그램에 따라 선택되는 하이퍼 파라미터입니다 $k$ .일반적인 값은 $k=1,2$ = $k=1,2$ $k=1,2$ ${\displaystyle$ k = $1,2}$ 입니다 $k=1,2$

시연을 위해 MoE와 LSTM의 교대 레이어를 사용하여 기계 번역을 위한 일련의 모델을 교육하고 심층 LSTM 모델과 비교했습니다.^[18]표 3은 MoE 모델이 30배 더 많은 매개 변수를 가지고 있음에도 불구하고 추론 시간 계산을 덜 사용했음을 보여줍니다.

Vanilla MoE는 부하 분산에 문제가 있는 경향이 있습니다. 일부 전문가는 자주 상담을 받는 반면 다른 전문가는 거의 또는 전혀 상담을 받지 않습니다.게이트가 각 배치 내에서 동일한 빈도(적절한 로드 밸런싱)를 가진 각 전문가를 선택하도록 권장하기 위해 각 MoE 계층에는 두 개의 보조 손실 기능이 있습니다.이는 단일 보조 손실 함수로 개선됩니다.구체적으로, $n$ 을 $n$ (를) 전문가의 수로 $,$ T {\ $displaystyle$ T}을 $T$ (를) 배치 내 토큰의 수라 하자, 그러면 보조 손실은 다음과 비례합니다.

\sum _{i=1}^{n}f_{i}P_{i

여기서

f_{i}={\frac {1}{T}}\#({\text{tokens sent to expert }}i)

= 1

f_{i}={\frac {1}{T}}\#({\text{tokens sent to expert }}i)

#

f_{i}={\frac {1}{T}}\#({\text{tokens sent to expert }}i)

(

f_{i}={\frac {1}{T}}\#({\text{tokens sent to expert }}i)

로 토큰

f_{i}={\frac {1}{T}}\#({\text{tokens sent to expert }}i)

{\displaystyle f_{i

}={\

frac {1}{

T}}\#({\text{tokenss to expert }}i)}

은(는)

expert

i {\

displaystyle i}

가 가장 높은 순위를 차지하는 시간의 비율이며,

P_{i}={\frac {1}{T}}\sum _{j=1}^{T}w_{i}(x_{j})

=

P_{i}={\frac {1}{T}}\sum _{j=1}^{T}w_{i}(x_{j})

P_{i}={\frac {1}{T}}\sum _{j=1}^{T}w_{i}(x_{j})

∑

j

=

1

P_{i}={\frac {1}{T}}\sum _{j=1}^{T}w_{i}(x_{j})

P_{i}={\frac {1}{T}}\sum _{j=1}^{T}w_{i}(x_{j})

(

P_{i}={\frac {1}{T}}\sum _{j=1}^{T}w_{i}(x_{j})

P_{i}={\frac {1}{T}}\sum _{j=1}^{T}w_{i}(x_{j})

{\displaystyle P_{i

}

=

{\

frac {1}{

T}}\sum _{j=1}^{

T}w_{i}(x_{j})}

은

P_{i}={\frac {1}{T}}\sum _{j=1}^{T}w_{i}(x_{j})

(는) 전문가

i

i

의 가중치 비율입니다

i

이 손실은 모든 상황에서 모든

1/n

전문가가

1/n

한

1/n

1

/n

{\

displaystyle

1

/

n}을(를) 가질 때 정확하게 최소화됩니다.

변압기 모델에 적용

희박하게 게이트된 MoE 계층은 매우 큰 Transformer 모델에 사용되는데, 이 때문에 전체 모델에 대한 학습과 추론은 너무 비용이 많이 듭니다.트랜스포머 모델에서 MoE 레이어는 종종 피드포워드 레이어를 선택하는 데 사용되며, 멀티헤드 주의 후 각 트랜스포머 블록에 나타납니다.트랜스포머 블록에서, 각 피드포워드 계층은 일반적으로 선형-ReLU-선형 네트워크입니다.

Google의 일련의 대형 언어 모델은 MoE를 사용했습니다. GShard는^[20] 계층별로 최대 2명의 전문가를 보유한 MoE를 사용합니다.구체적으로 항상 상위 1위 전문가를 선정하고, 상위 2위 전문가는 게이팅 기능에 따라 해당 전문가의 가중치에 비례하는 확률로 선정합니다.나중에 구글의 GLaM은^[21] 64명의 전문가 중 상위 2명을 사용하여 MoE 계층에 1조 2천억 개의 매개 변수를 가진 언어 모델을 시연했습니다.스위치 트랜스포머는^[19] 모든 MoE 계층에서 top-1을 사용합니다.

메타 AI의 NLLB-200은 200개 언어의 기계번역 모델입니다.^[22]각 MoE 계층은 두 가지 레벨을 가진 계층적 MoE를 사용합니다.첫 번째 레벨에서 게이팅 함수는 "공유" 피드포워드 계층을 사용하거나 전문가를 사용하도록 선택합니다.전문가를 사용하는 경우, 다른 게이팅 함수는 가중치를 계산하여 상위 2명의 전문가를 선택합니다(그림 19 참조).^[23]

일반적으로 MoE는 밀도가 높은 모델이 너무 비싸졌을 때 사용됩니다.2023년 현재 가장 큰 모델은 대형 언어 모델인 경향이 있습니다.그 외에도 비전^[24] MoE는 MoE 계층이 포함된 트랜스포머 모델입니다.그들은 150억 개의 매개 변수를 가진 모델을 훈련시켜 그것을 증명했습니다.

추가열람

기사 검토
- Nguyen, Hien D.; Chamroukhi, Faicel (July 2018). "Practical and theoretical aspects of mixture‐of‐experts modeling: An overview". WIREs Data Mining and Knowledge Discovery. 8 (4). doi:10.1002/widm.1246. ISSN 1942-4787. S2CID 49301452.
- Yuksel, S. E.; Wilson, J. N.; Gader, P. D. (August 2012). "Twenty Years of Mixture of Experts". IEEE Transactions on Neural Networks and Learning Systems. 23 (8): 1177–1193. doi:10.1109/TNNLS.2012.2200299. ISSN 2162-237X. PMID 24807516. S2CID 9922492.
- Masoudnia, Saeed; Ebrahimpour, Reza (12 May 2012). "Mixture of experts: a literature survey". Artificial Intelligence Review. 42 (2): 275–293. doi:10.1007/s10462-012-9338-y. S2CID 3185688.
교재(통계적 관점에서):

참고 항목

참고문헌

^ Baldacchino, Tara; Cross, Elizabeth J.; Worden, Keith; Rowson, Jennifer (2016). "Variational Bayesian mixture of experts models and sensitivity analysis for nonlinear dynamical systems". Mechanical Systems and Signal Processing. 66–67: 178–200. Bibcode:2016MSSP...66..178B. doi:10.1016/j.ymssp.2015.05.009.
^ Hampshire, J.B.; Waibel, A. (July 1992). "The Meta-Pi network: building distributed knowledge representations for robust multisource pattern recognition" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 14 (7): 751–769. doi:10.1109/34.142911.
^ Lang, Alexander Waibel, Toshiyuki Hanazawa, Geoffrey Hinton, Kiyohiro Shikano, Kevin J. (1995), "Phoneme Recognition Using Time-Delay Neural Networks*", Backpropagation, Psychology Press, doi:10.4324/9780203763247-2/phoneme-recognition-using-time-delay-neural-networks-alexander-waibel-toshiyuki-hanazawa-geoffrey-hinton-kiyohiro-shikano-kevin-lang (inactive 2023-10-02), ISBN 978-0-203-76324-7, retrieved 2023-10-02{{citation}}: CS1 main : 2023년 10월 현재 DOI 비활성화 (링크) CS1 main : 여러 이름 : 저자 목록 (링크)
^ Nowlan, Steven; Hinton, Geoffrey E (1990). "Evaluation of Adaptive Mixtures of Competing Experts". Advances in Neural Information Processing Systems. Morgan-Kaufmann. 3.
^ Jacobs, Robert A.; Jordan, Michael I.; Nowlan, Steven J.; Hinton, Geoffrey E. (February 1991). "Adaptive Mixtures of Local Experts". Neural Computation. 3 (1): 79–87. doi:10.1162/neco.1991.3.1.79. ISSN 0899-7667. PMID 31141872. S2CID 572361.
^ ^a ^b Jordan, Michael; Jacobs, Robert (1991). "Hierarchies of adaptive experts". Advances in Neural Information Processing Systems. Morgan-Kaufmann. 4.
^ ^a ^b Jordan, Michael I.; Jacobs, Robert A. (March 1994). "Hierarchical Mixtures of Experts and the EM Algorithm". Neural Computation. 6 (2): 181–214. doi:10.1162/neco.1994.6.2.181. ISSN 0899-7667.
^ ^a ^b Jordan, Michael I.; Xu, Lei (1995-01-01). "Convergence results for the EM approach to mixtures of experts architectures". Neural Networks. 8 (9): 1409–1431. doi:10.1016/0893-6080(95)00014-3. hdl:1721.1/6620. ISSN 0893-6080.
^ Chen, K.; Xu, L.; Chi, H. (1999-11-01). "Improved learning algorithms for mixture of experts in multiclass classification". Neural Networks. 12 (9): 1229–1252. doi:10.1016/S0893-6080(99)00043-X. ISSN 0893-6080. PMID 12662629.
^ Nguyen, Hien D.; McLachlan, Geoffrey J. (2016-01-01). "Laplace mixture of linear experts". Computational Statistics & Data Analysis. 93: 177–191. doi:10.1016/j.csda.2014.10.016. ISSN 0167-9473.
^ Chamroukhi, F. (2016-07-01). "Robust mixture of experts modeling using the t distribution". Neural Networks. 79: 20–36. arXiv:1701.07429. doi:10.1016/j.neunet.2016.03.002. ISSN 0893-6080. PMID 27093693. S2CID 3171144.
^ Xu, Lei; Jordan, Michael; Hinton, Geoffrey E (1994). "An Alternative Model for Mixtures of Experts". Advances in Neural Information Processing Systems. MIT Press. 7.
^ Collobert, Ronan; Bengio, Samy; Bengio, Yoshua (2001). "A Parallel Mixture of SVMs for Very Large Scale Problems". Advances in Neural Information Processing Systems. MIT Press. 14.
^ Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). "12: Applications". Deep learning. Adaptive computation and machine learning. Cambridge, Mass: The MIT press. ISBN 978-0-262-03561-3.
^ Bengio, Yoshua; Léonard, Nicholas; Courville, Aaron (2013). "Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation". arXiv:1308.3432 [cs.LG].
^ Eigen, David; Ranzato, Marc'Aurelio; Sutskever, Ilya (2013). "Learning Factored Representations in a Deep Mixture of Experts". arXiv:1312.4314 [cs.LG].
^ Shazeer, Noam; Mirhoseini, Azalia; Maziarz, Krzysztof; Davis, Andy; Le, Quoc; Hinton, Geoffrey; Dean, Jeff (2017). "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer". arXiv:1701.06538 [cs.LG].
^ Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz (2016). "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation". arXiv:1609.08144 [cs.CL].
^ ^a ^b Fedus, William; Zoph, Barret; Shazeer, Noam (2022-01-01). "Switch transformers: scaling to trillion parameter models with simple and efficient sparsity". The Journal of Machine Learning Research. 23 (1): 5232–5270. arXiv:2101.03961. ISSN 1532-4435.
^ Lepikhin, Dmitry; Lee, HyoukJoong; Xu, Yuanzhong; Chen, Dehao; Firat, Orhan; Huang, Yanping; Krikun, Maxim; Shazeer, Noam; Chen, Zhifeng (2020). "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668 [cs.CL].
^ Du, Nan; Huang, Yanping; Dai, Andrew M.; Tong, Simon; Lepikhin, Dmitry; Xu, Yuanzhong; Krikun, Maxim; Zhou, Yanqi; Yu, Adams Wei; Firat, Orhan; Zoph, Barret; Fedus, Liam; Bosma, Maarten; Zhou, Zongwei; Wang, Tao (2021). "GLaM: Efficient Scaling of Language Models with Mixture-of-Experts". arXiv:2112.06905 [cs.CL].
^ "200 languages within a single AI model: A breakthrough in high-quality machine translation". ai.facebook.com. 2022-06-19. Archived from the original on 2023-01-09.
^ NLLB Team; Costa-jussà, Marta R.; Cross, James; Çelebi, Onur; Elbayad, Maha; Heafield, Kenneth; Heffernan, Kevin; Kalbassi, Elahe; Lam, Janice; Licht, Daniel; Maillard, Jean; Sun, Anna; Wang, Skyler; Wenzek, Guillaume; Youngblood, Al (2022). "No Language Left Behind: Scaling Human-Centered Machine Translation". arXiv:2207.04672 [cs.CL].
^ Riquelme, Carlos; Puigcerver, Joan; Mustafa, Basil; Neumann, Maxim; Jenatton, Rodolphe; Susano Pinto, André; Keysers, Daniel; Houlsby, Neil (2021). "Scaling Vision with Sparse Mixture of Experts". Advances in Neural Information Processing Systems. 34: 8583–8595. arXiv:2106.05974.

[1] Baldacchino, Tara; Cross, Elizabeth J.; Worden, Keith; Rowson, Jennifer (2016). "Variational Bayesian mixture of experts models and sensitivity analysis for nonlinear dynamical systems". Mechanical Systems and Signal Processing. 66–67: 178–200. Bibcode:2016MSSP...66..178B. doi:10.1016/j.ymssp.2015.05.009.

[2] Hampshire, J.B.; Waibel, A. (July 1992). "The Meta-Pi network: building distributed knowledge representations for robust multisource pattern recognition" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 14 (7): 751–769. doi:10.1109/34.142911.

[3] Lang, Alexander Waibel, Toshiyuki Hanazawa, Geoffrey Hinton, Kiyohiro Shikano, Kevin J. (1995), "Phoneme Recognition Using Time-Delay Neural Networks*", Backpropagation, Psychology Press, doi:10.4324/9780203763247-2/phoneme-recognition-using-time-delay-neural-networks-alexander-waibel-toshiyuki-hanazawa-geoffrey-hinton-kiyohiro-shikano-kevin-lang (inactive 2023-10-02), ISBN 978-0-203-76324-7, retrieved 2023-10-02{{citation}}: CS1 main : 2023년 10월 현재 DOI 비활성화 (링크) CS1 main : 여러 이름 : 저자 목록 (링크)

[4] Nowlan, Steven; Hinton, Geoffrey E (1990). "Evaluation of Adaptive Mixtures of Competing Experts". Advances in Neural Information Processing Systems. Morgan-Kaufmann. 3.

[5] Jacobs, Robert A.; Jordan, Michael I.; Nowlan, Steven J.; Hinton, Geoffrey E. (February 1991). "Adaptive Mixtures of Local Experts". Neural Computation. 3 (1): 79–87. doi:10.1162/neco.1991.3.1.79. ISSN 0899-7667. PMID 31141872. S2CID 572361.

[:0-6] Jordan, Michael; Jacobs, Robert (1991). "Hierarchies of adaptive experts". Advances in Neural Information Processing Systems. Morgan-Kaufmann. 4.

[:2-7] Jordan, Michael I.; Jacobs, Robert A. (March 1994). "Hierarchical Mixtures of Experts and the EM Algorithm". Neural Computation. 6 (2): 181–214. doi:10.1162/neco.1994.6.2.181. ISSN 0899-7667.

[:3-8] Jordan, Michael I.; Xu, Lei (1995-01-01). "Convergence results for the EM approach to mixtures of experts architectures". Neural Networks. 8 (9): 1409–1431. doi:10.1016/0893-6080(95)00014-3. hdl:1721.1/6620. ISSN 0893-6080.

[9] Chen, K.; Xu, L.; Chi, H. (1999-11-01). "Improved learning algorithms for mixture of experts in multiclass classification". Neural Networks. 12 (9): 1229–1252. doi:10.1016/S0893-6080(99)00043-X. ISSN 0893-6080. PMID 12662629.

[10] Nguyen, Hien D.; McLachlan, Geoffrey J. (2016-01-01). "Laplace mixture of linear experts". Computational Statistics & Data Analysis. 93: 177–191. doi:10.1016/j.csda.2014.10.016. ISSN 0167-9473.

[11] Chamroukhi, F. (2016-07-01). "Robust mixture of experts modeling using the t distribution". Neural Networks. 79: 20–36. arXiv:1701.07429. doi:10.1016/j.neunet.2016.03.002. ISSN 0893-6080. PMID 27093693. S2CID 3171144.

[12] Xu, Lei; Jordan, Michael; Hinton, Geoffrey E (1994). "An Alternative Model for Mixtures of Experts". Advances in Neural Information Processing Systems. MIT Press. 7.

[13] Collobert, Ronan; Bengio, Samy; Bengio, Yoshua (2001). "A Parallel Mixture of SVMs for Very Large Scale Problems". Advances in Neural Information Processing Systems. MIT Press. 14.

[14] Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). "12: Applications". Deep learning. Adaptive computation and machine learning. Cambridge, Mass: The MIT press. ISBN 978-0-262-03561-3.

[15] Bengio, Yoshua; Léonard, Nicholas; Courville, Aaron (2013). "Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation". arXiv:1308.3432 [cs.LG].

[16] Eigen, David; Ranzato, Marc'Aurelio; Sutskever, Ilya (2013). "Learning Factored Representations in a Deep Mixture of Experts". arXiv:1312.4314 [cs.LG].

[17] Shazeer, Noam; Mirhoseini, Azalia; Maziarz, Krzysztof; Davis, Andy; Le, Quoc; Hinton, Geoffrey; Dean, Jeff (2017). "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer". arXiv:1701.06538 [cs.LG].

[18] Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz (2016). "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation". arXiv:1609.08144 [cs.CL].

[:1-19] Fedus, William; Zoph, Barret; Shazeer, Noam (2022-01-01). "Switch transformers: scaling to trillion parameter models with simple and efficient sparsity". The Journal of Machine Learning Research. 23 (1): 5232–5270. arXiv:2101.03961. ISSN 1532-4435.

[20] Lepikhin, Dmitry; Lee, HyoukJoong; Xu, Yuanzhong; Chen, Dehao; Firat, Orhan; Huang, Yanping; Krikun, Maxim; Shazeer, Noam; Chen, Zhifeng (2020). "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668 [cs.CL].

[21] Du, Nan; Huang, Yanping; Dai, Andrew M.; Tong, Simon; Lepikhin, Dmitry; Xu, Yuanzhong; Krikun, Maxim; Zhou, Yanqi; Yu, Adams Wei; Firat, Orhan; Zoph, Barret; Fedus, Liam; Bosma, Maarten; Zhou, Zongwei; Wang, Tao (2021). "GLaM: Efficient Scaling of Language Models with Mixture-of-Experts". arXiv:2112.06905 [cs.CL].

[22] "200 languages within a single AI model: A breakthrough in high-quality machine translation". ai.facebook.com. 2022-06-19. Archived from the original on 2023-01-09.

[23] NLLB Team; Costa-jussà, Marta R.; Cross, James; Çelebi, Onur; Elbayad, Maha; Heafield, Kenneth; Heffernan, Kevin; Kalbassi, Elahe; Lam, Janice; Licht, Daniel; Maillard, Jean; Sun, Anna; Wang, Skyler; Wenzek, Guillaume; Youngblood, Al (2022). "No Language Left Behind: Scaling Human-Centered Machine Translation". arXiv:2207.04672 [cs.CL].

[24] Riquelme, Carlos; Puigcerver, Joan; Mustafa, Basil; Neumann, Maxim; Jenatton, Rodolphe; Susano Pinto, André; Keysers, Daniel; Houlsby, Neil (2021). "Scaling Vision with Sparse Mixture of Experts". Advances in Neural Information Processing Systems. 34: 8583–8595. arXiv:2106.05974.

[1]

[3]

[6]

[7]

[8]

[9]

[10]

[11]

[15]

[16]

[17]

[18]

[20]

[21]

[19]

[22]

[23]

[24]

Search