전자파 알고리즘 및 GMM 모델

통계에서 전자파(예상 최대화) 알고리즘은 잠재 변수를 취급하는 반면, GMM은 가우스 혼합물 모델이다.

배경

아래 그림에는 적혈구 헤모글로빈 농도와 빈혈 그룹과 대조군(즉, 빈혈이 없는 사람들의 그룹)의 적혈구 용적 데이터가 표시된다.예상대로 빈혈 환자는 빈혈이 없는 사람에 비해 적혈구 부피가 낮고 적혈구 헤모글로빈 농도가 낮다.

레이블이 있는 GMM 모델

$x$ ${\displaystyle$ $x}$ 는 $x$ $x$ $x:={\big (}{\text{red blood cell volume}},{\text{red blood cell hemoglobin concentration}}{\big )}$ $x:={\big (}{\text{red blood cell volume}},{\text{red blood cell hemoglobin concentration}}{\big )}$ $x:={\big (}{\text{red blood cell volume}},{\text{red blood cell hemoglobin concentration}}{\big )}$ ${\$ 와 같은 임의 벡터로 $x:={\big (}{\text{red blood cell volume}},{\text{red blood cell hemoglobin concentration}}{\big )}$ 의학 연구에서는 x ${nows$ .e 일반적으로 각 그룹에 분포한다. $x\sim {\mathcal {N}}(\mu ,\Sigma )$ x ~ $x\sim {\mathcal {N}}(\mu ,\Sigma )$ ( $x\sim {\mathcal {N}}(\mu ,\Sigma )$ , $x\sim {\mathcal {N}}(\mu ,\Sigma )$ ) ${\displaystyle x\sim {\mathcal {N}(\mu ,\Sigma$ $x\sim {\mathcal {N}}(\mu ,\Sigma )$

$z$ ${\$ $displaystyle$ $z}$ 은(는) $x$ ${\displaystyle$ $x}$ 이(가) 속한 $x$ 그룹으로 표시되며 $z$ , $x_{i}$ i ${\$ $x_{i$ $}$ 이 $x_{i}$ (가) 빈혈 그룹에 속할 $x_{i}$ 경우 $z_{i}=0$ $z_{i}=1$ $z_{i}=1$ = $z_{i}=0$ 1 ${\$ $displaysty z_{i}=$ 1}이 $($ ) 속한 그룹이다.Also $z\sim \operatorname {Categorical} (k,\phi )$ where $k=2$ , $\phi _{j}\geq 0,$ and $\sum _{j=1}^{k}\phi _{j}=1$ . See Categorical distribution.

다음 절차는 $\phi ,\mu ,\Sigma$ , $\phi ,\mu ,\Sigma$ $\phi ,\mu ,\Sigma$ , \ $\pi,\mu,\Sigma$ 을(를) 추정하는 데 사용될 수 있다 $\phi ,\mu ,\Sigma$

최대우도 추정은 다음과 같이 적용할 수 있다.

\ell (\phi ,\mu ,\Sigma )=\sum _{i=1}^{m}\log(p(x^{(i)};\phi ,\mu ,\Sigma ))=\sum _{i=1}^{m}\log \sum _{z^{(i)}=1}^{k}p\left(x^{(i)}\mid z^{(i)};\mu ,\Sigma \right)p(z^{(i)};\phi )

각 $x_{i}$ $x_{i}$ ${\$ 에 대한 $z_{i}$ $z_{i}$ $z_{i}$ ${\$ 가 알려져 $x_{i}$ 있으므로 로그우도 함수는 다음과 같이 단순화할 수 있다.

\ell (\phi ,\mu ,\Sigma )=\sum _{i=1}{m}\log p\p\left (x^{(i)}\mid z^{i);\mu ,\sigma \right};\log p\p\p^{{

이제 $\mu ,\Sigma ,\phi$ , $\mu ,\Sigma ,\phi$ , $\mu ,\Sigma ,\phi$ $\mu ,\Sigma ,\phi$ 에 대한 부분파생물을 만들어 우도함수를 최대화할 수 있다 $\mu ,\Sigma ,\phi$

\phi _{j}={\frac {1}{m}\sum _{i=1}^{m1\{z^{(i)}=j\}}}

{\displaystyle \mu _{j}={\frac {\sum _{i=1}1\{z^{i}}=j\}x^{i)}{\sum _{i=1}1\{m}1\{z^{z^{}=j\right\}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}.

\Sigma _{j}={\frac {\sum _{i=1}1\{z^{}}=j\}(x^{i)-\mu _{j})(x^{(i)-\mu _{j})^{x^{(i}-}})^{{{}}}}}}}}}}}}}^T}{{\sum _{i=1}^{m}1\{z^{(i)}=j\}}}}}}}}}}}}

^[1]

$z_{i}$ $z_{i}$ ${\$ 가 알려진 $z_{i}$ 경우 모수의 추정은 최대우도 추정과 함께 매우 간단하다.그러나 $z_{i}$ $z_{i}$ ${\$ 를 알 수 없다면 $z_{i}$ 훨씬 더 복잡하다.^[2]

레이블이 없는 GMM

$z$ $z$ 잠재적 $z$ 변수(즉, 관찰되지 않음)로서, 라벨이 없는 시나리오가 있는 경우 다른 $z$ 뿐만아니라 z {\ $displaystyle z}$ 을 $z$ (를) 추정하기 위해 기대 최대화 알고리즘이 필요하다.일반적으로 이 문제는 각 그룹의 데이터가 정규 분포를 따르므로 GMM으로 설정된다.^[3]^{[circular reference]}

머신러닝에서 잠재 변수 $z$ $z$ 은(는) 데이터 아래에 놓여 있는 잠재 패턴으로 간주되는데 $z$ , 관찰자는 이를 그다지 직접적으로 볼 수 없다. $x_{i}$ $x_{i}$ ${\$ 은 $x_{i}$ (는) 알려진 데이터이고, $\phi ,\mu ,\Sigma$ , $\phi ,\mu ,\Sigma$ , $\phi ,\mu ,\Sigma$ , ${\displaystyle \pi ,\mu ,\Sigma$ }은 $($ 는) 모델의 매개 변수다 $\phi ,\mu ,\Sigma$ .전자파 알고리즘을 사용하면 데이터 $x_{i}$ $x_{i}$ ${\$ 에서 $z$ 매개 변수의 추정과 함께 일부 $기본$ 패턴 z{\ $displaystyle z}$ 을(를) 찾을 $x_{i}$ 수 있다.머신러닝에서 이러한 상황을 폭넓게 적용하는 것이 전자파 알고리즘을 매우 중요하게 만드는 요인이다.^[4]

GMM의 전자파 알고리즘

전자파 알고리즘은 E-step과 M-step의 두 단계로 구성된다.먼저 모델 $z^{(i)}$ 와 $z^{(i)}$ ( i $){\$ z $^{(i)}}}}$ 을(를) 임의로 초기화할 수 있다 $z^{(i)}$ .E-step에서 알고리즘은 파라미터를 기준으로 $z^{(i)}$ $z^{(i)}$ ( $){\$ z $^{(i)}}$ 의 값을 추측하려고 하는 반면, M-step에서는 E-step의 z $z^{(i)}$ ( $){\$ 의 추측을 바탕으로 모델 파라미터의 값을 업데이트한다.이 두 단계는 수렴에 도달할 때까지 반복된다.

GMM의 알고리즘은 다음과 같다.

수렴할 때까지 반복하십시오.

1. (E-step)  $각$   $i$ , j  ${\displaystyle$  i $j}$ 에 대해 설정

    $w_{j}^{(i)}:=p\왼쪽(z^{(i)=j x^{(i)};\phi ,\mu ,\Sigma \right)}$

2. (M-step) update  $\phi _{j}:={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}$   $\phi _{j}:={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}$   $\phi _{j}:={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}$   $\phi _{j}:={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}$   $\phi _{j}:={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}$  i $\phi _{j}:={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}$ = 1  $\phi _{j}:={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}$   $\phi _{j}:={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}$   $\phi _{j}:={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}$  ( $\phi _{j}:={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}$ )  ${\$  $={\frac {1}{m}}\sum _{i=1}^{m}w_{j}^{(i)}}$  $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$  j := $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$  j $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$ )  $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$ ( $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$ ) x ( $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$  ) $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$ ∑ i $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$ =  $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$  j $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$ ( $\mu _{j}:={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}$  ) ${\$  $={\frac {\sum _{i=1}^{m}w_{j}^{(i)}x^{(i)}}{\sum _{i=1}^{m}w_{j}^{(i)}}}}$   ${\displaystyle \Sigma _{j}:$  $={\frac {\sum _{i=1}^{m=1}w_{j}^{{j}^{(i)}\좌(x^{i)-\mu_{j}\우)\좌(x^{i)-{j}-\mu_{$  $T}}{{{i=1}^{m}w_{j}^{(i)}}}}}}}}}}}}}}}}}}}$

^[1]

Bayes Rule로 E-step에 의해 다음과 같은 결과를 얻는다.

$p\left(z^{(i)}=j x^{(i)};\phi ,\mu ,\Sigma \right)={\frac {p\left(x^{(i)} z^{(i)}=j;\mu ,\Sigma \right)p\left(z^{(i)}=j;\phi \right)}{\sum _{l=1}^{k}p\left(x^{(i)} z^{(i)}=l;\mu ,\Sigma \right)p\left(z^{(i)}=l;\phi \right)}}$

GMM 설정에 따라 다음과 같은 공식을 구한다.

$p\left(x^{(i)} z^{(i)}=j;\mu ,\Sigma \right)={\frac {1}{(2\pi )^{n/2}\left \Sigma _{j}\right ^{1/2}}}\exp \left(-{\frac {1}{2}}\left(x^{(i)}-\mu _{j}\right)^{T}\\Sigma _{j}^{-1}\왼쪽(x^{(i)}-\mu _{j}\오른쪽)$

$p\ft(z^{)}=j;\phi \right)=\phi _{j}$

이렇게 하면 무작위로 초기화된 파라미터에 따라 E-step과 M-step 사이의 전환이 가능하다.

참조

^ ^a ^b Ng, Andrew. "CS229 Lecture notes" (PDF).
^ Hui, Jonathan (13 October 2019). "Machine Learning —Expectation-Maximization Algorithm (EM)". Medium.
^ Tong, Y. L. (2 July 2020). "Multivariate normal distribution". Wikipedia.
^ Misra, Rishabh (7 June 2020). "Inference using EM algorithm". Medium.

[Stanford_CS229_Notes-1] Ng, Andrew. "CS229 Lecture notes" (PDF).

[Machine_Learning_—Expectation-Maximization_Algorithm_(EM)-2] Hui, Jonathan (13 October 2019). "Machine Learning —Expectation-Maximization Algorithm (EM)". Medium.

[Multivariate_normal_distribution-3] Tong, Y. L. (2 July 2020). "Multivariate normal distribution". Wikipedia.

[Inference_using_EM_algorithm-4] Misra, Rishabh (7 June 2020). "Inference using EM algorithm". Medium.

[1]

[2]

[3]

[4]

Search

전자파 알고리즘 및 GMM 모델

네임스페이스

더

배경

GMM의 전자파 알고리즘

참조