깁스 샘플링
Gibbs sampling다음에 대한 시리즈 일부 |
베이지안 통계 |
---|
![]() |
이론 |
기술 |
통계에서 Gibbs 샘플링 또는 Gibbs 샘플러는 직접 샘플링이 어려울 때 지정된 다변량 확률 분포에서 근사치인 일련의 관측치를 얻기 위한 MMC(Markov Chain Monte Carlo) 알고리즘이다. 이 시퀀스는 공동 분포의 근사치(예: 분포 히스토그램 생성), 변수 중 하나 또는 변수의 일부 부분 집합(예: 알 수 없는 모수 또는 잠재 변수)의 주변 분포의 근사치 또는 적분(예: 변수 중 하나의 기대값) 계산에 사용할 수 있다.일반적으로 일부 변수는 값이 알려진 관측치에 해당하므로 표본 추출할 필요가 없다.
깁스 표본 추출은 통계적 추론, 특히 베이시안 추론의 수단으로 흔히 사용된다. 무작위화된 알고리즘(즉, 무작위 숫자를 사용하는 알고리즘)이며, 기대-최대화 알고리즘(EM)과 같은 통계 추론을 위한 결정론적 알고리즘의 대안이다.
다른 MCMC 알고리즘과 마찬가지로, Gibbs 샘플링은 각각 인근 샘플과 상관관계가 있는 마르코프 샘플 체인을 생성한다. 따라서 독립적인 표본을 원하는 경우 주의를 기울여야 한다. 일반적으로 체인의 시작(번인 기간)부터 샘플은 원하는 분포를 정확하게 나타내지 못할 수 있으며 일반적으로 폐기된다.
소개
깁스 샘플링은 샘플링 알고리즘과 통계물리학의 유사점을 참고로 물리학자 조시아 윌러드 깁스의 이름을 따서 명명되었다. 이 알고리즘은 깁스가 사망한 지 80여 년이 지난 1984년 스튜어트와 도널드 제먼 형제가 기술했다.[1]
깁스 샘플링은 기본 버전에서 메트로폴리스-해스팅 알고리즘의 특별한 경우다. 그러나 확장된 버전(아래 참조)에서는 각 변수(또는 경우에 따라 각 변수 그룹)를 차례로 샘플링하여 큰 변수 집합에서 샘플링하기 위한 일반적인 프레임워크로 간주할 수 있으며, 하나 이상의 샘플링 단계를 구현하기 위해 Metropolitan-Hastings 알고리즘(또는 슬라이스 샘플링과 같은 방법)을 통합할 수 있다.
Gibbs 시료채취는 공동분포를 명시적으로 알 수 없거나 직접 시료채취가 어려운 경우에 적용되지만, 각 변수의 조건부 분포가 알려져 있고(또는 최소한, 쉽게) 시료채취할 수 있다. Gibbs 샘플링 알고리즘은 다른 변수의 현재 값을 조건으로 각 변수의 차례로 분포로부터 인스턴스를 생성한다. 표본의 순서가 마르코프 체인을 구성하고, 그 마르코프 체인의 고정된 분포는 단지 추구하는 공동 분포에 불과하다는 것을 알 수 있다.[2]
Bayesian 네트워크는 일반적으로 조건부 분포의 집합으로 지정되기 때문에 Gibbs 샘플링은 베이시안 네트워크의 후분포를 샘플링하는 데 특히 잘 적합하다.
실행
깁스 샘플링은 그 기본 화신에서 메트로폴리스-헤이스팅스 알고리즘의 특별한 경우다. Gibbs 표본 추출의 요점은 다변량 분포가 주어진 경우 공동 분포에 대해 통합하여 한계화하는 것보다 조건부 분포에서 표본 추출하는 것이 더 간단하다는 것이다. 을 얻으려고 한다고 가정합시다 samples of from a joint distribution . Denote the th sample by n}^{( 우리는 다음과 같이 진행한다.
- 초기 값 () 부터 시작합시다
- 우리는 다음 샘플을 원한다. Call this next sample . Since is a vector, we sample each component of the vector, ( + 지금까지 샘플링된 다른 모든 구성 요소에 조건화된 해당 구성 요소의 분포로부터 But there is a catch: we condition on 's components up to , and thereafter condition on 's components, starting from ~ ( 이를 위해 첫 번째 성분부터 순서대로 성분 표본을 추출한다. More formally, to sample , we update it according to the distribution specified by 는 (j+ ) th 샘플에 (+ ) th 샘플에 있는 값을 사용한다.
- 위의 단계 을 (를) 반복하십시오.
그러한 샘플링이 수행될 경우, 다음과 같은 중요한 사실이 유지된다.
- 표본은 모든 변수의 공동 분포에 가깝다.
- 변수의 부분 집합에 대한 한계 분포는 변수의 해당 부분 집합에 대한 표본을 고려하는 것만으로 근사할 수 있으며, 나머지는 무시한다.
- 모든 변수의 기대값은 모든 표본에 대한 평균을 통해 근사치를 구할 수 있다.
샘플링을 수행하는 경우:
- 변수의 초기 값은 무작위로 또는 기대 최대화와 같은 다른 알고리즘에 의해 결정될 수 있다.
- 실제로 샘플링된 첫 번째 변수에 대한 초기 값을 결정할 필요는 없다.
- 초기(일명 번인 기간)에는 일부 샘플 수를 무시한 다음, 기대치를 계산하기 값을평균화할 때 모든 n {\displaystyle 의 샘플만 고려하는 것이 일반적이다. 예를 들어, 처음 1,000개의 샘플은 무시될 수 있고, 그리고 나서 100번째 샘플마다 평균을 내서 나머지를 모두 버릴 수 있다. 그 이유는 (1) 마르코프 체인의 고정 분포는 변수에 대한 바람직한 공동 분포이지만, 그러한 고정 분포에 도달하는 데 시간이 걸릴 수 있다. (2) 연속 표본은 서로 독립적이지 않고 어느 정도의 상관 관계를 가진 마르코프 체인을 형성한다. 때때로 알고리즘을 사용하여 샘플 간의 자기 상관 양과 이를 통해 계산된 의 값(실제로 사용되는 샘플 간의 기간)을 결정할 수 있지만, 실제로는 상당한 양의 "흑마술"이 관련되어 있다.
- 시뮬레이션 어닐링 프로세스는 샘플링 프로세스의 초기 부분에서 "랜덤 워크(Random walk)" 동작을 줄이기 위해 자주 사용된다(즉, 샘플 공간을 중심으로 천천히 이동하는 경향, 샘플 간의 자기 상관도가 높은 경우, 원하는 대로 빠르게 이동하는 것이 아니라 샘플 간의 자기 상관성이 높은 경우). 자기 상관을 감소시킬 수 있는 다른 기법으로는 붕괴된 Gibbs 샘플링, 차단된 Gibbs 샘플링, 주문된 과대 상쇄 등이 있다. 아래를 참조한다.
조건부 분포와 관절 분포의 관계
또한 다른 모든 변수가 주어진 한 변수의 조건부 분포는 공동 분포에 비례한다.
이 경우 "비례적"은 가 x {\의 함수가 x {\의 모든 값에 대해 동일하다는 것을 하며 j{\에 대한 분포에 대한 정규화 상수의 일부를 형성하여 c의 특성을 결정한다.요인 의 추가 분포에서는 변수에 대해 그래픽 모델에 의해 정의된 개별 조건 분포에 따라 공동 분포를 가장 쉽게 인자화하고, 모두 분모와 함께)의 기능이 아닌 모든 요인은 무시한다그 이상에서 표준화 상수를 구성한다)를 선택한 다음 필요에 따라 마지막에 정상화 상수를 복원한다. 실제로 이것은 다음 세 가지 중 하나를 하는 것을 의미한다.
- 분포가 이산형인 경우 x 의 가능한 모든 값에 대한 개별 확률을 계산한 다음, 합쳐서 정규화 상수를 찾는다.
- 분포가 연속적이고 알려진 형태인 경우 정규화 상수도 알 수 있다.
- 다른 경우에는 대부분의 표본 추출 방법에서 요구하지 않기 때문에 정규화 상수를 무시할 수 있다.
추론
깁스 표본 추출은 일반적으로 통계적 추론을 위해 사용된다(예: 특정 날짜에 특정 상점에서 쇼핑할 가능성이 있는 사람의 수 결정, 유권자가 투표할 가능성이 가장 높은 후보 등). 관측된 데이터는 관측된 데이터의 각 조각에 대해 별도의 변수를 만들고 해당 변수를 해당 변수에서 추출하지 않고 관측된 값에 고정함으로써 샘플링 프로세스에 통합된다는 취지다. 나머지 변수의 분포는 관측된 데이터에 대해 사실상 후분포 조건이다.
원하는 매개변수(모드)의 가장 가능성이 높은 값은 그 다음 가장 흔히 발생하는 표본 값을 선택하여 간단히 선택할 수 있다. 이것은 본질적으로 매개변수의 최대 후미 추정과 동일하다. (매개변수는 대개 연속적이기 때문에, 표본 값을 한정된 수의 하나로 "bin"해야 하는 경우가 많다. 모드의 의미 있는 추정치를 얻기 위한 범위 또는 "빈") 그러나 더 일반적으로 샘플링된 값의 기대값(평균 또는 평균)을 선택한다. 이는 베이지안 샘플링에서 사용할 수 있는 전체 분포에 대한 추가 데이터를 활용하는 베이즈 추정기인 반면 기대 최대화(EM)와 같은 최대화 알고리즘은 단일 포인만 반환할 수 있다.t 분포로부터 예를 들어, 단항 분포의 경우 평균(기대 값)은 일반적으로 모드(가장 일반적인 값)와 유사하지만, 분포가 한 방향으로 치우쳐 있으면 평균이 그 방향으로 이동하게 되며, 이는 효과적으로 그 방향으로 여분의 확률 질량을 설명하게 된다. (분포가 다중모드인 경우 기대치가 유의미한 점을 반환하지 못할 수 있으며, 일반적으로 어떤 모드는 더 나은 선택이다.)
일부 변수는 일반적으로 관심 매개변수에 해당하지만, 다른 변수는 변수 간의 관계를 적절히 표현하기 위해 모델에 도입된 ("의무") 변수들이다. 표본 추출된 값이 모든 변수에 대한 공동 분포를 나타내지만, 기대 값이나 모드를 계산할 때 방해 변수를 무시할 수 있다. 이는 방해 변수에 대한 한계화와 같다. 다중 변수에 대한 값을 원하는 경우 각 변수에 대해 기대값을 간단하게 계산한다. (단, 모드를 계산할 때는 모든 변수를 함께 고려해야 한다.)
감독 학습, 감독되지 않은 학습, 준 감독 학습(가치가 누락된 학습이라고 함)은 모두 단순히 가치가 알려진 모든 변수의 값을 고정하고 나머지 변수에서 표본을 추출하는 것으로 처리할 수 있다.
관측된 데이터의 경우 각 관측치에 대해 표본 평균에 해당하는 변수 하나 또는 관측치 집합의 표본 분산에 해당하는 변수 하나가 아니라 하나의 변수가 있을 것이다. 사실, 일반적으로 "표본 평균" 또는 "표본 분산"과 같은 개념에 해당하는 변수는 전혀 없을 것이다. 대신, 그러한 경우, 알 수 없는 참 평균과 참 분산을 나타내는 변수가 있을 것이며, 이러한 변수에 대한 표본 값의 결정은 Gibbs sampler의 작동에 의해 자동으로 이루어진다.
일반화된 선형 모델(즉, 선형 회귀의 변화)도 Gibbs 샘플링으로 처리할 수 있다. 예를 들어, 정규 분포를 따르는 전례가 회귀 계수 위에 배치되어 주어진 이항(예/아니오) 선택의 확률을 결정하기 위한 프로빗 회귀 분석은 추가 변수를 추가하고 결합을 활용할 수 있기 때문에 Gibbs 표본 추출로 구현할 수 있다. 그러나 로지스틱 회귀는 이런 식으로 처리할 수 없다. 한 가지 가능성은 로지스틱 함수를 정규 분포의 혼합물(일반적으로 7-9)으로 근사하게 하는 것이다. 그러나 더 일반적으로는 깁스 샘플링 대신 메트로폴리스-헤이스팅스가 사용된다.
수학적 배경
X 이라고 가정해 보십시오 is taken from a distribution depending on a parameter vector of length , with prior distribution . It may be that 은 (는) 매우 크고 )의 한계 밀도를 찾기 위한 수치적 통합이다은(는) 계산상 비용이 많이 들 것이다. 그런 다음 한계 밀도를 계산하는 대안적인 방법은 공간에 마코프 체인을 만드는 것이다다음 두 단계를 반복하여
- 임의 인덱스 d 을(를) 선택하십시오.
- j 값을 새로 선택하십시오에 따라 g ( 1,… , - , j+ 1, d) g
이 단계들은 원하는 불변 g 을(를) 가진 가역 마코프 체인을 정의한다 이는 다음과 같이 증명할 수 있다. = 를 정의하십시오 j j에 대해}을를) 하고 p .은 (는) { }에서 y { 으)로 점프할 확률을 나타낸다 그러면 전환 확률은 다음과 같다.
그렇게
~ y 은(는) 동등성 관계이므로 . 따라서 체인은 되돌릴 수 있고 불변 g \right를 의미한다.
실제로 j 은(는) 무작위로 선택되지 않으며, 체인은 순서대로 인덱스를 순환한다. 일반적으로 이것은 비정전적 마르코프 프로세스를 제공하지만, 각각의 개별 단계는 여전히 되돌릴 수 있고, 전체 과정은 원하는 고정된 분포(고정된 주문에 따라 체인이 모든 상태에 접근할 수 있는 한)를 가질 것이다.
베이시안 추론의 Gibbs sampler와 정보이론과의 관계
은 (는 샘플링 f( \ ) y 및 은에서 생성된 관찰을 나타내도록 두십시오 베이지안 통계량의 중심 목표 중 하나는 대략 ths이다e 후방 밀도
서 m y)= f( y ) ⋅ ( ) m _ 는 모든 y {\ y에 대해 유한한 것으로 가정한다.
Gibbs sampler에 대해 설명하기 위해, 매개변수 공간 이 (가) 다음과 같이 분해되는 것으로 가정한다.
- \time \),
여기서 은(는) 데카르트 제품을 나타낸다. 각 구성요소 매개변수 공간 는 스칼라 구성요소, 하위 벡터 또는 행렬 집합일 수 있다.
를 보완하는 - i displaystyle \ 집합 정의 Gibbs sampler의 필수 성분은 = ,, K 에 대한 } -th 완전 조건부후분포다.
- .
다음 알고리즘은 일반적인 Gibbs sampler를 상세하게 설명한다.
Gibbs sampler는 주기 내에서 반복적인 몬테카를로 체계에 의해 작동된다는 점에 유의한다. 위의 알고리즘에 의해 그려진 개수의 샘플 { ( ) = 1 는 불변 분포로 마르코프 체인을 형성하여 표적 밀도 (( )
이제 각 = , , 에 대해 다음과 같은 정보 이론적 양을 정의한다
즉, 각각 후방 상호 정보, 후방 미분 엔트로피 및 후방 조건부 미분 엔트로피. We can similarly define information theoretic quantities , , and by interchanging the and 된 수량으로 l K 방정식은 유지된다.[5]
상호 정보 i - ){\ I는 일단 가 - {\후미인 임의 수량 i i}의 불확실성 감소를 정량화한다. 와 - _{-가 약간 독립되어 있는 경우에만 사라진다. 상호 정보 - i) I는 깁스 샘플러의 단일 사이클 내에서 -th 단계에서 + -th 단계로 전송되는 양으로 해석할 수 있다.
변형 및 확장
기본 Gibbs sampler에는 수많은 변형이 존재한다. 이러한 변동의 목적은 추가된 계산 비용을 극복할 수 있을 만큼 샘플 간의 자기 상관 관계를 줄이는 것이다.
차단된 Gibbs sampler
- 차단된 Gibbs sampler는 두 개 이상의 변수를 함께 그룹화하고 각 변수에서 개별적으로 샘플링하는 것이 아니라 다른 모든 변수에 조건부 결합 분포로부터 샘플을 추출한다. 예를 들어, 숨겨진 Markov 모델에서 차단된 Gibbs sampler는 한 번에 Markov 체인을 구성하는 모든 잠재 변수로부터 전방-후방 알고리즘을 사용하여 샘플링할 수 있다.
붕괴된 깁스 샘플러
- 접힌 Gibbs sampler는 일부 다른 변수에 대해 표본 추출할 때 하나 이상의 변수를 통합(상쇄)한다. 예를 들어, 모형이 A, B, C 변수 3개로 구성된다고 가정해 보십시오. 간단한 Gibbs sampler는 p(A B,C), p(B A,C), p(C A,B)에서 표본을 추출할 수 있다. 접힌 Gibbs sampler는 A에 대한 샘플링 단계를 한계 분포 p(A C)에서 추출한 샘플로 대체할 수 있으며, 이 경우 변수 B가 통합될 수 있다. 또는 변수 B를 완전히 축소하여 p(A C)와 p(C A)에서 교대로 표본을 추출할 수 있으며, B에서 표본을 추출하지 않을 수 있다. 상위 변수 B를 붕괴시킬 때 발생하는 변수 A에 대한 분포를 복합분포라고 한다. 이 분포로부터 추출한 분포를 B가 A에 대한 결합일 때, 특히 A와 B가 지수 계열의 일원이었을 때 일반적으로 추적 가능하다. 자세한 내용은 복합 분포에 대한 기사 또는 류(1994)를 참조하십시오.[6]
붕괴된 Gibbs sampler 구현
접히는 디리클레 분포
잠재된 디리클레 할당 및 자연어 처리에 사용되는 다양한 다른 모델과 같이 범주형 변수가 있는 계층적 베이지안 모델에서, 일반적으로 범주형 변수에 대한 사전 분포로 사용되는 디리클레 분포를 축소하는 것은 꽤 일반적이다. 이러한 붕괴의 결과는 이전에 주어진 디리클레에 의존하는 모든 범주형 변수들 사이에 의존성을 도입하며, 붕괴 후 이들 변수의 공동 분포는 디리클레-다항 분포가 된다. 이 분포에서 주어진 범주형 변수의 조건부 분포는 다른 분포에 따라 결정되며, 붕괴가 이루어지지 않았을 때보다 Gibbs 표본 추출이 훨씬 쉬워지는 매우 단순한 형태를 가정한다. 규칙은 다음과 같다.
- Dirichlet 이전 노드를 축소하면 이전 노드의 상위 노드와 하위 노드에만 영향을 미친다. 부모가 상수인 경우가 많기 때문에 우리가 걱정해야 할 것은 전형적으로 아이들뿐입니다.
- Dirichlet을 먼저 접으면 이전에 의존했던 모든 범주형 어린이들 사이에 의존성이 생기지만 다른 범주형 어린이들 사이에 추가적인 의존성은 없다. (예를 들어, 동일한 상위 계층에 의해 관련되는 여러 Dirichlet priors가 있는 경우, 이것은 명심하는 것이 중요하다. 이전의 각 디리클레는 독립적으로 붕괴될 수 있으며 직계 자녀에게만 영향을 미칠 수 있다.)
- 붕괴 후, 다른 어린이들에 대한 의존적 자녀 한 명의 조건부 분포는 매우 간단한 형태를 가정한다. 주어진 값을 볼 확률은 이 값에 해당하는 하이퍼프라이어의 합과 같은 값을 가정하는 다른 모든 종속 노드의 카운트에 비례한다. 동일한 이전 노드에 종속되지 않은 노드는 계산하지 마십시오. 변동 베이지나 기대 극대화와 같은 다른 반복적 추론 방법에도 동일한 규칙이 적용된다. 그러나 이 방법이 부분 계수를 유지하는 것을 포함할 경우, 해당 값에 대한 부분 계수는 다른 모든 종속 노드에 걸쳐 합산되어야 한다. 때로는 이렇게 요약된 부분 카운트를 예상 카운트 또는 유사한 카운트라고 부른다. 확률은 결과 값에 비례한다. 실제 확률은 범주형 변수가 취할 수 있는 모든 가능한 값(즉, 범주형 변수의 가능한 각 값에 대해 계산된 결과를 더하고, 계산된 모든 결과를 이 합으로 나눈 값)에 걸쳐 정규화함으로써 결정되어야 한다.
- 주어진 범주형 노드에 종속된 자식(예: 혼합물 모델의 잠재 변수인 경우)이 있는 경우, 이전 단계에서 계산된 값(예상 카운트 플러스 이전 또는 계산된 값)에 모든 자녀의 실제 조건 확률(확률에 비례하는 계산 값이 아님!)을 곱해야 한다. 부모님 자세한 내용은 Dirichlet-multinomial 분포에 대한 기사를 참조하십시오.
- 이전에 주어진 Dirichlet에 의존하는 노드의 그룹 멤버쉽이 일부 다른 변수(예: 주제 모델에서와 같이 다른 잠재적 범주형 변수에 의해 색인화된 범주형 변수)에 따라 동적으로 변경될 수 있는 경우, 동일한 기대 카운트를 여전히 계산하지만 정확한 변수 집합을 위해 주의 깊게 수행할 필요가 있다.난간이 포함되어 있다. 주제 모델의 컨텍스트를 포함하여 자세한 내용은 Dirichlet-multinomial 분포에 대한 기사를 참조하십시오.
접히는 기타 접합 전위
일반적으로, 만약 그것의 유일한 자녀가 그것과 결합한다면, 이전의 어떤 결합도 붕괴될 수 있다. 관련 수학은 복합 분포에 관한 기사에서 논의된다. 하위 노드가 하나만 있는 경우 결과는 알려진 분포를 가정하는 경우가 많다. 예를 들어, 단일 가우스 아이와 네트워크에서 반감마 분포 분산을 붕괴시키면 학생의 t-분포를 산출할 수 있다. (그 문제에 대해, 단일 가우스 아동의 평균과 분산을 모두 붕괴시키는 것은 여전히 학생의 t-분포를 산출할 것이다. 단, 가우스 평균, 반감마 분산이 모두 결합되어 있다면 말이다.)
하위 노드가 여러 개 있을 경우 디리클레 범주형 사례에서와 같이 모두 종속적이 된다. 결과적인 공동 분포는 비록 각 자식 노드마다 하나씩 여러 요인의 산물이 있겠지만, 복합 분포와 어떤 면에서 유사한 폐쇄 형태를 가질 것이다.
또한, 가장 중요한 것은 다른 노드(그리고 붕괴된 노드의 부모도 제공하지만 하위 노드의 자식도 제공되지 않음)가 주어지는 하위 노드 중 하나의 조건부 분포는 나머지 모든 하위 노드의 후방 예측 분포와 동일한 밀도를 가질 것이다. 더욱이 후방 예측 분포는 모수는 다르지만 단일 노드의 기본 복합 분포와 동일한 밀도를 가진다. 일반적인 공식은 복합 분포에 관한 기사에 제시되어 있다.
예를 들어, 평균과 분산에 배치된 이전의 결합 분포와 동일한 조건상 독립된 가우스 분포 노드의 집합을 가진 베이즈 네트워크에서, 평균과 분산을 모두 배합한 후 다른 노드가 주어진 한 노드의 조건부 분포는 학생의 t-분포가 될 것이다. 마찬가지로, 다수의 포아송 분산 노드보다 먼저 감마를 혼합한 결과 다른 노드가 주어진 한 노드의 조건부 분포를 음의 이항 분포를 가정하게 된다.
복제가 잘 알려진 분포를 생성하는 이러한 경우, 효율적인 샘플링 절차가 종종 존재하며, 이를 사용하는 것이 붕괴되지 않는 것보다 더 효율적이거나(필수하지는 않지만) 오히려 이전 노드와 하위 노드를 모두 분리하여 샘플링하는 경우가 많다. 그러나 복합분포가 잘 알려져 있지 않은 경우에는 일반적으로 지수분류에 속하지 않고 일반적으로 로그콘케이브(폐쇄형식이 항상 존재하기 때문에 적응적 거부표본을 사용하여 쉽게 표본을 추출할 수 있으므로)가 되지 않기 때문에 표본 추출이 쉽지 않을 수 있다.
붕괴된 노드의 하위 노드 자체가 하위 노드를 갖는 경우, 그래프에서 다른 모든 노드가 주어진 이러한 하위 노드 중 하나의 조건부 배포는 이러한 2차 하위 노드의 분포를 고려해야 할 것이다. 특히, 결과적 조건부 분포는 위에서 정의한 복합 분포의 산물에 비례하게 되며, 모든 자식 노드의 조건부 분포는 부모에게 주어진다(그러나 자식에게 주어지지 않음). 이는 완전한 조건부 분포가 공동 분포에 비례한다는 점에서 나타난다. 붕괴된 노드의 하위 노드가 연속적인 경우, 이 분포는 일반적으로 알려진 형식이 아니며, 잘 알려지지 않은 복합 분포에 대해 위에서 설명한 것과 동일한 이유로 폐쇄된 양식을 작성할 수 있음에도 불구하고 표본 추출이 어려울 수 있다. 단, 특히 하위 노드가 이산형인 경우, 이러한 하위 노드의 하위 노드가 연속형인지 이산형인지에 관계없이 샘플링이 가능하다. 사실 여기서 관련된 원리는 디리클레-다중분포(Dirichlet-multinomial distribution)에 관한 글에서 상당히 상세하게 기술되어 있다.
주문된 과완화 상태의 Gibbs sampler
- 순서 과완화가 있는 sampler는 주어진 단계에서 x ( i에 대해 주어진 홀수 수의 후보 값을 샘플링하여 잘 정의된 순서에 따라 x ( - 에 대한 단일 값과 함께 정렬한다. ( - 이 (가) 정렬 목록에서th 가장 작은 경우, j( 이(가) 정렬된 목록에서 가장th 큰 것으로 선택된다. 자세한 내용은 닐(1995)을 참조하십시오.[7]
기타 확장자
깁스 샘플링도 다양한 방법으로 확장할 수 있다. 예를 들어 조건부 분포가 표본 추출이 쉽지 않은 변수의 경우, 슬라이스 샘플링의 단일 반복 또는 Metropolitan-Hastings 알고리즘을 사용하여 해당 변수에서 표본을 추출할 수 있다. 랜덤 변수가 아니라 다른 변수에서 결정적으로 계산된 값을 갖는 변수를 통합할 수도 있다. 일반화된 선형 모델(예: 로지스틱 회귀 분석(일명 "최대 엔트로피 모델")은 이러한 방식으로 통합될 수 있다. (예를 들어, BUGS는 이러한 유형의 모델 혼합을 허용한다.)
고장 모드
깁스 표본 추출이 실패할 수 있는 두 가지 방법이 있다. 첫째는 가능성이 높은 상태의 섬이 있을 때, 그 사이에 경로가 없을 때 이다. 예를 들어, 벡터(0,0)와 (1,1)가 각각 확률 ½을 가지지만 나머지 두 벡터(0,1)와 (1,0)는 확률 0을 갖는 2비트 벡터에 대한 확률 분포를 고려한다. 깁스 샘플링은 두 개의 높은 확률 벡터 중 하나에 갇히게 되며, 다른 벡터에는 결코 도달하지 못할 것이다. 보다 일반적으로, 고차원적이고 실제 가치의 벡터에 대한 분포의 경우, 벡터의 두 특정 요소가 완벽하게 상관(또는 완벽하게 반 상관)되어 있다면, 그 두 요소가 고착될 것이고, 깁스 샘플링은 그것들을 결코 바꿀 수 없을 것이다.
두 번째 문제는 모든 주가 0이 아닌 확률을 가지고 있고 높은 확률 상태의 단일 섬만 있을 때에도 발생할 수 있다. 예를 들어, 100비트 벡터에 대한 확률 분포를 고려하십시오. 여기서 전체 0 벡터는 확률 ½과 함께 발생하며 다른 벡터는 모두 동일하게 발생하며 따라서 1 2 ( - 1 {1의 확률이 있다. 0 벡터의 확률을 추정하려면 실제 분포에서 100 또는 1000개의 표본을 추출하는 것으로 충분할 것이다. 그렇게 되면 ½에 매우 가까운 대답을 할 가능성이 매우 높다. 그러나 같은 결과를 얻으려면 아마도 Gibbs 샘플링에서 2 이상의 샘플을 채취해야 할 것이다. 어떤 컴퓨터도 평생 이런 일을 할 수 없었다.
이 문제는 아무리 화상입고 기간이 길어도 발생한다. 이는 실제 분포에서 영점 벡터는 절반의 시간에 발생하며, 이러한 발생은 0이 아닌 벡터와 무작위로 혼합되기 때문이다. 작은 표본이라도 0 벡터와 0이 아닌 벡터를 모두 볼 수 있다. 그러나 Gibbs 샘플링은 장기간에 걸쳐 제로 벡터(299{\99})만 반환한 다음 장기간에 걸쳐 벡터(약 {\ 2 따라서 실제 분포에 대한 수렴은 매우 느려서 2 단계를 훨씬 초과해야 한다. 이 많은 단계를 수행하는 것은 합리적인 시간 내에 계산적으로 가능하지 않다. 여기서의 느린 수렴은 차원성의 저주의 결과로 볼 수 있다. 이와 같은 문제는 100비트 벡터 전체를 한 번에 블록 샘플링하면 해결할 수 있다. (이는 100비트 벡터가 더 큰 변수 집합의 일부라고 가정한다. 만약 이 벡터만 샘플링된다면, 블록 샘플링은 Gibbs 샘플링을 전혀 하지 않는 것과 같으며, 가설상으로는 어려울 것이다.)
소프트웨어
- 오픈BUGS 소프트웨어(Bayesian accusion Using Gibbs Sampling)는 마코프 체인 몬테 카를로를 사용하여 복잡한 통계 모델을 베이시안적으로 분석한다.
- JAGS(Just another Gibbs sampler)는 마르코프 체인 몬테 카를로(Markov Chain Monte Carlo)를 이용한 베이지안 계층 모델 분석을 위한 GPL 프로그램이다.
- Church는 확률적 프로그램으로 지정된 임의 배포에 대한 Gibbs 추론을 수행하기 위한 무료 소프트웨어다.
- PyMC는 일반 확률론적 그래픽 모델의 베이지안 학습을 위한 오픈 소스 파이톤 라이브러리다.
- 튜링은 확률론적 프로그래밍을 이용한 베이지안 추론의 오픈소스 줄리아 도서관이다.
메모들
- ^ Geman, S.; Geman, D. (1984). "Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images". IEEE Transactions on Pattern Analysis and Machine Intelligence. 6 (6): 721–741. doi:10.1109/TPAMI.1984.4767596. PMID 22499653.
- ^ Gelman, Andrew and Carlin, John B and Stern, Hal S and Dunson, David B and Vehtari, Aki and Rubin, Donald B (2014). Bayesian data analysis. Vol. 2. FL: CRC press Boca Raton.
- ^ Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214.
- ^ Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214.
- ^ Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214.
- ^ Liu, Jun S. (September 1994). "The Collapsed Gibbs Sampler in Bayesian Computations with Applications to a Gene Regulation Problem". Journal of the American Statistical Association. 89 (427): 958–966. doi:10.2307/2290921. JSTOR 2290921.
- ^ Neal, Radford M. (1995). Suppressing Random Walks in Markov Chain Monte Carlo Using Ordered Overrelaxation (Technical report). University of Toronto, Department of Statistics. arXiv:bayes-an/9506004. Bibcode:1995bayes.an..6004N.
참조
- Bishop, Christopher M. (2006), Pattern Recognition and Machine Learning, Springer, ISBN 978-0-387-31073-2
- 볼스타드, 윌리엄 M. (2010), 컴퓨터 베이시안 통계 이해, 존 와일리 ISBN 978-0-470-04609-8
- Casella, G.; George, E. I. (1992). "Explaining the Gibbs Sampler". The American Statistician. 46 (3): 167. CiteSeerX 10.1.1.554.3993. doi:10.2307/2685208. JSTOR 2685208. (기본 요약 및 많은 참조 포함)
- Gelfand, Alan E.; Smith, Adrian F. M. (1990), "Sampling-Based Approaches to Calculating Marginal Densities", Journal of the American Statistical Association, 85 (410): 398–409, doi:10.2307/2289776, JSTOR 2289776, MR 1141740
- Gelman, A, Carlin J. B, Stern H. S, Dunson D, Vehicletari A, Rubin D. B.(2013), Bayesian Data Analysis, 제3판. 런던: 채프먼 & 홀.
- Levin, David A.; Peres, Yuval; Wilmer, Elizabeth L.(2008); "Markov Chains and Mixing Times", 미국 수학 학회.
- Robert, C. P.; Casella, G. (2004), Monte Carlo Statistical Methods (제2판), Springer-Verlag.