가변 베이지안 방법

Variational Bayesian methods

가변 베이지안 방법베이지안 추론머신러닝에서 발생하는 난해한 통합에 대한 기술이다.이러한 변수들은 일반적으로 관측 변수(일반적으로 "데이터"라고 불림)와 미지의 매개변수잠재 변수구성된 복잡한 통계 모델에서 사용되며, 그래픽 모델에서 설명될 수 있는 세 가지 유형의 무작위 변수들 사이에 다양한 종류의 관계가 있다.베이시안 추론에서 전형적으로 볼 수 있듯이, 매개변수와 잠재 변수는 "관측되지 않은 변수"로 함께 그룹화된다.가변 베이지안 방법은 주로 다음 두 가지 목적으로 사용된다.

  1. 관측되지 않은 변수에 대한 통계적 추론을 수행하기 위해 관측되지 않은 변수의 후측 확률에 대한 해석 근사치를 제공한다.
  2. 관측된 데이터의 한계우도(, 관측되지 않은 변수에 대해 수행된 한계화로 주어진 모형의 한계 확률)에 대한 하한을 도출하는 것이다.이것은 일반적으로 모델 선택을 수행하는 데 사용된다. 일반적인 생각은 주어진 모형에 대한 높은 한계우도가 해당 모형에 의한 데이터의 더 나은 적합성을 나타내며, 따라서 해당 모형이 데이터를 생성했을 가능성이 더 크다는 것이다.(Bayes 요인 문서도 참조하십시오.)

이전 목적(후방 확률에 근사치)에서 변동 베이지스는 직접 또는 샘플링으로 평가하기 어려운 복잡한 분포에 대해 통계적 추론에 완전히 베이시안적인 접근법을 취하기 위해 몬테카를로 샘플링 방법, 특히 깁스 샘플링과 같은 마르코프 체인 몬테카를로 샘플링 방법의 대안이다.e. 특히 몬테카를로 기법은 표본 집합을 사용하여 정확한 후방에 수치 근사치를 제공하는 반면, 변동 베이지스는 후방의 근사치에 국소적으로 최적인 정확한 분석 솔루션을 제공한다.

가변 베이지스는 각 매개변수의 가장 가능성이 높은 단일 후행 추정(MAP 추정)에서 매개변수와 잠재 변수의 전체 후방 분포를 계산(근사치)하는 완전 베이지안 추정까지 전자파(예상-최대화) 알고리즘의 확장으로 볼 수 있다.전자파에서와 같이 최적 매개변수 값의 집합을 찾으며, 분석적으로 해결할 수 없는 연동(상호 의존) 방정식의 집합에 기초하여 전자파와 동일한 교대 구조를 갖는다.

많은 애플리케이션에서 가변 베이는 더 빠른 속도로 깁스 샘플링과 유사한 정확도의 솔루션을 생산한다.그러나 매개변수를 반복적으로 업데이트하는 데 사용되는 방정식 집합을 도출하는 것은 비교 가능한 Gibbs 표본 추출 방정식을 도출하는 것과 비교할 때 많은 양의 작업이 필요한 경우가 많다.이는 매개변수가 2개뿐이고 잠재적 변수가 없는 기본 비계층적 모델의 경우 아래에 설명했듯이 개념적으로 상당히 단순한 많은 모델에도 해당된다.

수학적 파생

문제

In variational inference, the posterior distribution over a set of unobserved variables given some data is approximated by a so-called variational distribution,

The distribution is restricted to belong to a family of distributions of simpler form (e.g. a family of Gaussian distributions) than , selected with the intention of making similar to true parter, ( X) P(\ \mid {

유사도( 유사도)는 상이한 함수 ; ) 의 관점에서 측정되므로 ; ) Q를 최소화하는 분포 를 선택하여 추론을 수행한다

KL 발산

가장 일반적인 유형의 가변 베이는 P로부터 QKullback-Leibler difference(KL-diversion)를 이종함수의 선택으로 사용한다.이러한 선택은 이러한 최소화를 다루기 쉽게 한다.KL-diversity는 다음과 같이 정의된다.

QP는 예상과 반대로 나타난다.이러한 역방향 KL-diversity의 사용은 개념적으로 기대-최대화 알고리즘과 유사하다. (다른 방식으로 KL-diversity를 사용하면 기대 전파 알고리즘이 생성된다.)

난치성

변동 기법은 일반적으로 다음에 대한 근사치를 형성하기 위해 사용된다.

분모에서 을(를)하기 Z {\displaystyle P(\{X})에 대한 한계화는 일반적으로 난해한 것으로, 예를 들어 의 검색 공간이 조합적으로 크기 때문이다.따라서 ) X ) P를 사용하여 근사치를 구한다

증거하한

Given that , the KL-divergence above can also be written as

Because is a constant with respect to and because is a distribution, we have

기대값의 정의에 따라 다음과 같이 기록할 수 있다.

다음 중 하나로 재배열할 수 있는

As the log-evidence is fixed with respect to , maximizing the final term minimizes the KL divergence of from . By appropriate choice of , ( Q) 은(는) 계산 및 최대화가 추적 가능해진다.Hence we have both an analytical approximation for the posterior , and a lower bound for the log-evidence (since the KL-divergence is음이 아닌

The lower bound is known as the (negative) variational free energy in analogy with thermodynamic free energy because it can also be expressed as a negative energy plus the entrop{\ Q의 y( ) {\mathcal이라는 용어는 ELBO로 약칭되는 증거 하한 BOUND로도 알려져 있어 데이터의 로그 증거에 대한 하한임을 강조한다.

교정쇄

KL-디버전스가 특수한 경우인 브레그만 분리의 피타고라스 정리 일반화에 의해 다음과 같은 것을 알 수 있다.[1][2]

Bregman 분열을 위한 일반화된 피타고라스 정리.[2]

여기서 C 은(는) 볼록 집합이며 다음과 같은 경우 동등성이 유지된다.

In this case, the global minimizer ={ , }} 다음과 같이 찾을 수 있다.[1]

정규화 상수가 다음과 같은 경우:

The term is often called the evidence lower bound (ELBO) in practice, since ,[1] as shown above.

By interchanging the roles of and we can iteratively compute the approximated and of the true model's marggins ) 각각}).이러한 반복적 체계가 단조롭게 수렴될 것을 보장하지만,[1] 수렴 Q은(는) ( PD_{\ P의 국소 최소제일 뿐이다

If the constrained space is confined within independent space, i.e. the above iterative scheme will become the so-called mean field approximation ( = ( ) ( 2), {}q1}(\Z} 는 아래와 같다.

평균 필드 근사치

The variational distribution is usually assumed to factorize over some partition of the latent variables, i.e. for some partition of the latent variables into ,

j 각 인자에 대한 "최상의" 분포 j {\displaystyleq_}^{*}}}(위에서 설명한 바와 같이 KL 분산을 최소화하는 분포 측면에서)를 다음과 같이 표현할 수 있다는 것을 변동의 미적분학("변량)을 사용하여 나타낼 수 있다.

데이터를 잠재적인 변수들의 결합 확률, 파티션에 있지 않은 모든 변수들을 인수의 로그의 E나는[ln ⁡ p(Z, X)]{\displaystyle \operatorname{E}_ᆬ[\ln p(\mathbf{Z},\mathbf{X})]⁡ j≠}은 기대:[3]에게 분배하는 것을 qj∗의 의 기원(Zj.을 참조하 ∣)

실제로, 우리는 보통 로그 측면에서 일한다. 예를 들어:

위의 식에 있는 상수는 정규화 ( {\j와 관련이 있으며, 일반적으로 나머지 식은 알려진 분포 유형(예: 가우스, 감마 등)으로 인식할 수 있기 때문에 검사에 의해 복구된다.

Using the properties of expectations, the expression can usually be simplified into a function of the fixed hyperparameters of the prior distributions over the latent variables and of expectations (and sometimes higher moments 현재 분할에 포함되지 않은 잠재 변수(, j 에 포함되지 않은 잠재 변수)같은 ts.이것은 한 칸막이의 변수에 대한 분포의 매개변수와 다른 칸막이의 변수에 대한 기대치 사이에 순환 종속성을 생성한다.이는 자연적으로 전자파(기대-최대화 알고리즘)와 마찬가지로 잠재 변수의 기대치(그리고 어쩌면 더 높은 모멘트)가 어떤 방식으로 초기화되는 반복 알고리즘을 시사하며, 그 다음에는 각 분포의 매개변수가 기대치의 현재 값을 사용하여 차례로 계산된다.새로 계산된 분포에 대한 기대가 계산된 매개변수에 따라 적절하게 설정되는 경우.이런 종류의 알고리즘은 수렴이 보장된다.[4]

즉, 변수의 각 분할에 대해, 분할의 변수에 대한 분포를 위한 표현을 단순화하고, 해당 변수에 대한 분포의 기능적 의존성을 조사함으로써, 일반적으로 분포의 집단을 결정할 수 있다(이것은 상수의 값을 결정한다).분포의 모수에 대한 공식은 이전 분포의 하이퍼 파라미터(알려진 상수)의 관점에서 표현되지만 다른 파티션의 변수의 함수에 대한 기대 측면에서도 표현될 것이다.일반적으로 이러한 기대는 변수 자체에 대한 기대 함수(, 수단)로 단순화할 수 있다. 때로는 변수 제곱에 대한 기대(변수의 분산과 관련될 수 있음) 또는 더 높은 힘에 대한 기대(즉, 더 높은 순간)도 나타난다.대부분의 경우, 다른 변수의 분포는 알려진 패밀리가 될 것이며, 관련 기대치에 대한 공식을 찾아볼 수 있다.그러나 그러한 공식은 그러한 분포의 모수에 의존하며, 다른 변수에 대한 기대치에 의존한다.그 결과 각 변수 분포의 모수에 대한 공식은 변수들 간의 상호, 비선형 의존성을 갖는 일련의 방정식으로 표현될 수 있다.보통 이런 방정식 체계를 직접 해결하는 것은 불가능하다.그러나 위에서 설명한 것처럼 의존성은 단순한 반복 알고리즘을 제안하며, 대부분의 경우 수렴이 보장된다.예를 들면 이 과정이 더 명확해질 것이다.

변동 추론을 위한 이중성 공식

이중성 공식에 의한 좌표 등향 변수 추론 알고리즘의 그림 그림 그림.

다음과 같은 정리를 변동 추론에 대한 이중성 공식이라고 한다.[6]그것은 변동 베이즈 방법에 사용된 변동 분포의 몇 가지 중요한 특성을 설명한다.

Theorem Consider two probability spaces and with . Assume that there is a common dominating probability measure such that and . Let denote any real-valued random variable on that satisfies . Then the following equality holds

또한, 우측의 우수는 그것이 지탱하는 경우에만 얻어진다.

almost surely with respect to probability measure , where and denote the Radon-Nikodym derivatives of the probability measures and 에 대한

기본적인 예

평균분산을 알 수 없는 가우스 분포i.i.d 관측치 집합으로 구성된 단순한 비계층적 베이시안 모델을 고려하십시오.[7]다음에서 우리는 변동 베이즈 방법의 작동을 설명하기 위해 이 모델을 매우 상세하게 연구한다.

수학적인 편의를 위해, 다음 예에서 우리는 분산 그 자체보다는 분산의 역수(또는 다변량 가우스에서 공분산 행렬의 역수)와 같은 정밀도의 측면에서 작업한다. (이론적인 관점에서, 정밀도와 분산은 일대일 대응성이 있기 때문에 동등하다.두 사람 사이를 이간질하다.)

수학적 모형

우리는 알 수 없는 평균 정밀도 조합 이전 분포를 배치한다. 즉, 평균은 감마 분포를 따르는 동안 가우스 분포를 따른다.즉, 다음과 같다.

이전 분포에서 파라미터 0 λ 0, b 지정된 값으로 고정되어 있다.[\() μs \의 이전 분포에 대한 무지를 나타내는 광범위한 사전 분포를 제공하기 위해 작은 양의 숫자로 설정할 수 있다

We are given data points and our goal is to infer the posterior distribution of the parameters .

관절 확률

모든 변수의 합동 확률은 다음과 같이 다시 쓸 수 있다.

개별 요인이 있는 곳

어디에

인자화된 근사치

( ,)= μ ) q ( ), )},[\ 대한 독립 인자로 후분배한다고 가정한다 이러한 유형의 가정한다.진정한 후분포는 사실 이런 식으로 인자가 되지 않으며(사실 이 간단한 경우 가우스-감마 분포로 알려져 있다), 따라서 우리가 얻는 결과는 근사치가 될 것이다.

q(μ)의 유도

그러면

In the above derivation, , and refer to values that are constant with respect to . Note that the term is not a function of (는 의 값과 상관없이 동일한 값을 가질 것이다 따라서 3행에서는 μs를 끝에 있는 상수 항으로 흡수할 수 있다.우리는 7번 줄에서도 같은 일을 한다.

The last line is simply a quadratic polynomial in . Since this is the logarithm of , we can see that itself is a Gaussian distribution.

일정량의 지루한 산술(가새 안쪽의 사각형을 확장하고, 를 포함하는 용어를 분리 및 그룹화하고,에 걸쳐 제곱을 완료하는 것)을 통해 다음과 같은 가우스 분포의 파라미터를 도출할 수 있다.

위의 모든 단계는 두 개의 사분위수 합계에 대한 공식을 사용하여 단축할 수 있다는 점에 유의하십시오.

즉, 다음과 같다.

q(τ)의 파생

for ( 의 파생은 간결성을 위해 일부 세부사항을 생략하지만 위와 유사하다.

양쪽을 지수화하면 ( 이(가) 감마 분포임 알 수 있다.구체적으로:

매개변수 계산 알고리즘

이전 절의 결론을 다시 요약해 봅시다.

그리고

각 경우에 한 변수에 대한 분포 모수는 다른 변수에 대해 취해진 기대치에 따라 달라진다.가우스 분포와 감마 분포의 모멘트에 대한 표준 공식을 사용하여 기대치를 확장할 수 있다.

위의 방정식에 이러한 공식을 적용하는 것은 대부분의 경우 사소한 것이지만 에 대한 방정식은 더 많은 작업을 필요로 한다.

그러면 우리는 기대하지 않고 다음과 같이 매개변수 방정식을 쓸 수 있다.

의 공식 사이에는 순환 종속성이 있다는 점에 유의하십시오이는 자연스럽게 전자파 알고리즘을 제안한다.

  1. 계산 = 1 = N n . \sum n}^{n}^{2 이 값을 하여 {\N . {\a_{을(를) 계산하십시오.
  2. 을(를) 임의의 값으로 초기화하십시오.
  3. 파라미터의 알려진 값과 함께 value N ,의 현재 값을 사용하여 을(를) 계산하십시오
  4. 파라미터의 알려진 값과 함께 b ,의 현재 값을 사용하여 을 계산하십시오
  5. 수렴할 때까지(즉, 어느 값도 일부 소량보다 많이 변경되지 않을 때까지) 마지막 두 단계를 반복하십시오.

그런 다음 후방 파라미터의 근사 분포에 대한 하이퍼 파라미터 값을 얻는다. 이 값을 사용하여 후방 파라미터의 평균과 분산, 95% 최고 밀도 영역(전체 확률의 95%를 포함하는 가장 작은 간격) 등의 원하는 특성을 계산할 수 있다.

이 알고리즘이 로컬 최대값으로 수렴할 수 있음을 보장할 수 있다.

또한 후방 분포는 해당 이전 분포와 동일한 형태를 가지고 있다는 점에 유의하십시오.우리는 이것을 가정하지 않았다; 우리가 한 유일한 가정은 분포가 인자화되고 분포의 형태가 자연적으로 따라온다는 것이었다.후분포가 이전분포와 같은 형태를 가지고 있다는 사실은 우연이 아니라 이전분포가 지수 계열의 구성원이 될 때마다 나타나는 일반적인 결과라는 것이 밝혀져(아래 참조) 대부분의 표준분포가 해당된다.

추가토론

단계별 레시피

위의 예는 주어진 베이시안 네트워크에서 후방 확률밀도에 대한 변동-베이시안 근사치를 도출하는 방법을 보여준다.

  1. 관측 변수(데이터) 관측되지 않은 변수(파라미터 displaybf})를 식별하는 그래픽 모델을 사용하여 네트워크를 설명하십시오.(와) 변수 Z {\ {) 및 이들의 조건부 확률 분포.그런 다음 Variative Bayes는 후방 p(, approx imationX) 에 대한 근사를 생성한다.근사치에는 인자화된 분포라는 기본 특성이 있다. 즉, 관측되지 않은 변수의 이산형 하위 집합에 대한 둘 이상의 독립 분포의 곱이다.
  2. 관측되지 않은 변수를 둘 이상의 하위 집합으로 분할하고, 그 위에 독립 요인을 도출한다.이를 위한 보편적인 절차는 없다; 너무 많은 하위 집합을 만드는 것은 좋지 않은 근사치를 산출하는 반면, 너무 적은 수의 하위 집합을 만드는 것은 전체 가변 베이 절차를 난해하게 만든다.일반적으로 첫 번째 분할은 매개변수와 잠재 변수를 분리하는 것이다. 종종 이 자체만으로도 추적 가능한 결과를 도출하기에 충분하다.파티션을 ,… , 라고 가정해 보십시오
  3. For a given partition , write down the formula for the best approximating distribution using the basic equation
  4. 그래픽 모델을 사용하여 접합 확률 분포에 대한 공식을 입력하십시오. 의 변수를 포함하지 않는 성분 조건부 분포는 무시할 수 있으며, 상수 항으로 접힌다.
  5. 위의 예에 따라 공식을 단순화하고 기대 연산자를 적용한다.이상적으로는 Z 에 없는 변수의 기본 기능에 대한 기대치로 단순화해야 한다(예: 첫 번째 또는 두 번째 원시 모멘트, 로그 기대 등).변동 베이즈 절차가 잘 작동하려면, 이러한 기대치는 일반적으로 이러한 변수들의 분포에 대한 매개변수 및/또는 하이퍼 파라미터의 함수로서 분석적으로 표현 가능해야 한다.모든 경우에 이러한 기대 조건은 현재 파티션의 변수와 관련된 상수다.
  6. 현재 분할된 변수에 대한 공식의 함수 형태는 분포의 유형을 나타낸다.특히 이 공식을 강조하면 분포의 확률밀도함수(PDF)가 생성된다(또는 최소한 분포에 비례하는 것으로, 정규화 상수를 알 수 없음).전체적인 방법을 추적하기 위해서는 기능적 형태를 알려진 분포에 속하는 것으로 인식할 수 있어야 한다.공식을 알려진 분포의 PDF와 일치하는 형태로 변환하려면 상당한 수학적 조작이 필요할 수 있다.이 작업을 수행할 수 있을 때, 정규화 상수는 정의에 의해 복원될 수 있으며, 알려진 분포의 모수에 대한 방정식은 공식의 적절한 부분을 추출하여 도출할 수 있다.
  7. 모든 기대를 현재 칸막이에 없는 변수의 함수로 분석적으로 대체할 수 있고, PDF를 알려진 분포로 식별할 수 있는 형태로 넣을 수 있는 경우, 그 결과는 다른 칸막이에 있는 변수의 함수로써 최적 파라미터의 값을 표현하는 일련의 방정식이 된다.
  8. 이 절차를 모든 파티션에 적용할 수 있는 경우 결과는 모든 파라미터의 최적 값을 지정하는 상호 연결된 방정식의 집합이다.
  9. 그런 다음 기대 최대화(EM) 유형 절차를 적용하여 각 파라미터의 초기 값을 선택하고 일련의 단계를 통해 반복하며, 각 단계에서 방정식을 통해 각 파라미터를 차례로 업데이트한다.이것은 확실히 수렴될 것이다.

가장 중요한 점

관련된 모든 수학적 조작 때문에, 큰 그림을 놓치기 쉽다.중요한 것은 다음과 같다.

  1. 변동 베이지의 개념은 데이터가 주어진 경우 관측되지 않은 변수 집합(파라미터와 잠재 변수)의 후방 확률에 대한 해석 근사치를 구성하는 것이다.이것은 해결책의 형태가 Gibbs 샘플링과 같은 다른 베이지안 추론 방법, 즉 변수에 대해 알려진 모든 것을 설명하려는 분포와 유사하다는 것을 의미한다.다른 베이지안 방법에서와 마찬가지로 - 그러나 를 들어 기대 최대화(EM) 또는 기타 최대우도 방법과는 달리, 두 유형의 관측되지 않은 변수(즉, 매개변수와 잠재 변수)는 모두 무작위 변수로 동일하게 취급된다.변수에 대한 추정치는 표준 베이지안 방식으로 도출할 수 있다. 예를 들어, 단일 점 추정치를 얻기 위해 분포의 평균을 계산하거나 신뢰할 수 있는 구간, 최고 밀도 지역 등을 도출한다.
  2. "분석적 근사치"는 후분포를 위해 공식을 기록할 수 있다는 것을 의미한다.공식은 일반적으로 잘 알려진 확률 분포의 산물로 구성되며, 각각은 관측되지 않은 변수 집합에 대해 인수된다(즉, 관측된 데이터를 감안할 때 다른 변수와는 조건부로 독립적이다).이 공식은 진정한 후방 분포가 아니라 그것에 대한 근사치로서, 특히 일반적으로 관측되지 않은 변수의 가장 낮은 순간(예: 평균과 분산)에서 상당히 밀접하게 일치할 것이다.
  3. 모든 수학적 조작의 결과는 (1) 인자를 구성하는 확률 분포의 정체성과 (2) 이러한 분포의 모수에 대한 상호 의존적인 공식이다.이 매개변수의 실제 값은 전자파처럼 교대 반복 절차를 통해 숫자로 계산된다.

기대 극대화와 비교(EM)

가변 베이지(VB)는 흔히 기대 최대화(EM)와 비교된다. 실제 수치 절차는 두 절차 모두 최적의 매개변수 값에 연속적으로 수렴하는 교대 반복 절차라는 점에서 상당히 유사하다.각각의 절차를 도출하기 위한 초기 단계 또한 모호하게 유사하며, 확률 밀도에 대한 공식으로 시작하며, 두 단계 모두 상당한 양의 수학 조작을 포함한다.

그러나 여러 가지 차이점이 있다.가장 중요한 것은 계산되고 있는 이다.

  • EM은 "모수"로 분류할 수 있는 무작위 변수의 후분포에 대한 점 추정치를 계산하지만, 잠재 변수의 실제 후분포에 대한 추정치만 계산한다(적어도 "부드러운 전자파"에서는, 그리고 잠재 변수가 불연속인 경우에만).계산된 점 추정치는 이러한 모수의 모드로서, 다른 정보는 이용할 수 없다.
  • 반면에 VB는 모든 변수의 실제 후방 분포에 대한 추정치를 계산한다.점 추정치를 도출해야 할 경우, 베이시안 추론에서 정상인 것처럼 일반적으로 평균이 모드보다 사용된다.이와 유사하게, VB에서 계산된 매개변수는 전자파에서와 같은 유의성을 가지지 않는다.EM은 베이즈 네트워크 자체의 파라미터의 최적 값을 계산한다.VB는 베이즈 네트워크의 매개변수 및 잠재 변수의 근사치에 사용되는 분포 매개변수의 최적 값을 계산한다.예를 들어, 일반적인 가우스 혼합물 모델은 각 혼합물 성분의 평균과 분산을 위한 모수를 가질 것이다.전자파에서는 이러한 모수에 대한 최적 값을 직접 추정할 수 있다.그러나 VB는 먼저 이러한 매개변수(예: 일반적으로 정규 분포따른감마 분포)에 분포를 적합시키고 이 이전 분포의 매개변수(즉, 본질적으로 하이퍼 파라미터)에 대한 값을 계산한다.이 경우 VB는 성분의 평균과 분산의 공동 분포를 설명하는 정규 척도 역 감마 분포의 네 모수에 대한 최적 추정치를 계산한다.

더 복잡한 예

플레이트 표기법을 사용한 베이시안 가우스 혼합물 모델정사각형이 작을수록 고정된 모수를 나타내며, 원이 크면 랜덤 변수를 나타낸다.채워진 모양은 알려진 값을 나타낸다.표시 [K]는 크기 K의 벡터를 의미하며, [D,D]는 크기 D×D의 행렬을 의미하며, K만이 K 결과를 갖는 범주형 변수를 의미한다.크로스바로 끝나는 z에서 나오는 스퀴글리 라인은 스위치를 나타낸다. 즉, 이 변수의 값은 가능한 값의 크기-K 배열에서 사용할 값을 다른 수신 변수를 선택한다.

다음과 같이 설명된 베이지안 가우스 혼합물 모델을 상상해 보십시오.[7]

참고:

위 변수의 해석은 다음과 같다.

  • is the set of data points, each of which is a -dimensional vector distributed according to a multivariate Gaussian distribution.
  • is a set of latent variables, one per data point, specifying which mixture component the corresponding data point belongs to, using a "one-of-K" vector representation with components for = 위에서 설명한 대로.
  • 은(는) 혼합물 성분의 혼합 비율이다.
  • = … K } = … K }dots 는 각 혼합 성분과 관련된 매개변수(평균 및 정밀도)를 지정한다.

모든 변수의 합동 확률은 다음과 같이 다시 쓸 수 있다.

개별 요인이 있는 곳

어디에

Assume that .

그러면

우리가 정의한 곳

( ) 수율에 대한 공식의 양면 지수화

이 표준화를 요구하면 합계가 k 의 모든 값에 대해 1이 되도록 해야 한다

어디에

즉, ( 단일 관측 다항 분포의 산물이며, 각 z {에 대한 인수는 단일 관측 다항 분포로서 k 에 분포한다.= … K 의 경우

게다가, 우리는 이 점에 주목한다.

범주형 분포에 대한 표준 결과.

Now, considering the factor , note that it automatically factors into due to the structure위에 명시된 우리의 가우스 혼합물 모델을 정의하는 그래픽 모델.

그러면

양쪽의 지수화를 통해 () }디리클레 분포 인식한다.

어디에

어디에

마침내

} } 을 포함하는 항을 그룹화하고 판독하면 결과가 다음과 같이 제공되는 가우스-위사트 분포가 된다.

정의에 따라

Finally, notice that these functions require the values of , which make use of , which is defined in turn based on , , and . Now th이러한 기대치를 바탕으로 한 분포를 결정하여 다음과 같은 공식을 도출할 수 있다.

이러한 결과는 다음과 같다.

값은 k 에 대해 정규화하여 비례에서 절대값으로 변환할 수 있으므로 해당 값은 1에 합치한다.

참고:

  1. The update equations for the parameters , , and of the variables and }은(는) 통계 N k } 에 따라 달라지며 이러한 도 달라진다
  2. 변수 에 대한 업데이트 방정식은 통계 N_에 따라 달라지며 N k 달라진다
  3. The update equation for has a direct circular dependence on , , and as well as an indirect circular dependence on , and through and .

이는 두 단계 사이에서 번갈아 나타나는 반복적 절차를 시사한다.

  1. 다른 모든 파라미터의 현재 값을 사용하여 의 값을 계산하는 E-step.
  2. 의 새 값을 사용하여 다른 모든 파라미터의 새 값을 계산하는 M-step.

이러한 단계는 가우스 혼합물 모델의 매개변수에 대한 최대우도 또는 최대 후미(MAP) 솔루션을 도출하기 위한 표준 전자파 알고리즘과 밀접하게 일치한다는 점에 유의하십시오.The responsibilities in the E step correspond closely to the posterior probabilities of the latent variables given the data, i.e. ; the computation of the statistics , {\ S k {\ \ _는 데이터에 대한 해당 "소프트카운트" 통계량의 계산에 근접하며, 이러한 통계를 사용하여 매개변수의 새로운 값을 계산하는 것은 소프트 카운트를 사용하는 것과 거의 일치한다.가우스 혼합물 모델 위의 M.

지수군 분포

앞의 예제에서 관측되지 않은 변수에 대한 분포를 "모수"에 대한 분포와 "잠재적 데이터"에 대한 분포로 가정했을 때 각 변수에 대한 파생된 "최상의" 분포는 변수에 대한 해당 사전 분포와 동일한 패밀리에 있었다.이것은 지수 계열에서 파생된 모든 이전 분포에 대해 참된 일반적인 결과물이다.

참고 항목

메모들

  1. ^ a b c d Tran, Viet Hung (2018). "Copula Variational Bayes inference via information geometry". arXiv:1803.10998 [cs.IT].
  2. ^ a b Adamčík, Martin (2014). "The Information Geometry of Bregman Divergences and Some Applications in Multi-Expert Reasoning". Entropy. 16 (12): 6338–6381. Bibcode:2014Entrp..16.6338A. doi:10.3390/e16126338.
  3. ^ Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods: 1–21. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214. S2CID 220935477.
  4. ^ Boyd, Stephen P.; Vandenberghe, Lieven (2004). Convex Optimization (PDF). Cambridge University Press. ISBN 978-0-521-83378-3. Retrieved October 15, 2011.
  5. ^ Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods: 1–21. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214. S2CID 220935477.
  6. ^ Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods: 1–21. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214. S2CID 220935477.
  7. ^ a b Bishop, Christopher M. (2006). "Chapter 10". Pattern Recognition and Machine Learning. Springer. ISBN 978-0-387-31073-2.
  8. ^ 소티리오스 P.Chatzis, "무한 마코프-스위치 최대 엔트로피 차별 기계", Proc. 30회 기계 학습 국제 회의 (ICML). 기계 학습 연구 저널: 워크샵 및 회의 절차, 28권, 3, 페이지 729–737, 2013년 6월.

참조

외부 링크