메트로폴리스-헤이스팅스 알고리즘

제안 분포Q는 무작위 보행이 이동할 수 있는 다음 지점을 제안한다.

통계학 및 통계물리학에서 메트로폴리스-해스팅 알고리즘은 직접 샘플링이 어려운 확률분포에서 무작위 샘플의 순서를 얻기 위한 마르코프 체인 몬테카를로(MMC) 방법이다.이 시퀀스는 분포의 근사치(예: 히스토그램 생성) 또는 적분(예: 기대값) 계산에 사용할 수 있다.일반적으로 Metropolitan-Hastings 및 기타 MCMC 알고리즘은 다차원 분포에서 추출하는 데 사용되며, 특히 차원 수가 많을 경우 더욱 그러하다.단차원 분포의 경우 일반적으로 분포에서 독립 샘플을 직접 반환할 수 있는 다른 방법(예: 적응 거부 샘플링)이 있으며, 이는 MCMC 방법에 내재된 자동 상관 표본의 문제로부터 자유롭다.

역사

이 알고리즘은 1953년 '패스트 컴퓨팅 머신에 의한 국가 계산식의 방정식'을 쓴 니콜라스 메트로폴리스가 아리안나 W. 로젠블루스, 마샬 로젠블루스, 오거스타 H와 함께 쓴 글에서 따왔다. 텔러와 에드워드 텔러.본 기사는 대칭 제안 분포의 경우에 대한 알고리즘을 제안하였고, W. K. 헤이스팅스는 1970년에 이를 보다 일반적인 사례로 확대하였다.^[1]

알고리즘 개발에 대한 신용과 관련하여 일부 논란이 존재한다.이 방법의 계산적 측면에 정통했던 메트로폴리스는 스타니스와프 울람과 함께 앞서 쓴 글에서 '몽테 카를로'라는 용어를 만들어 냈고, 1952년 실험에 사용된 '매니악 I 컴퓨터'를 설계하고 만든 이론부문에서 그룹을 이끌었다.그러나 2003년 이전에는 알고리즘의 개발에 대한 상세한 설명이 없었다.그 후, 그가 죽기 직전에 마샬 로젠블루스는 1953년 출판 50주년을 기념하여 LANL에서 열린 2003년 회의에 참석했다.이 회의에서 로젠블루스는 "통계역학을 위한 몬테카를로 알고리즘의 제네시스"라는 제목의 발표에서 알고리즘과 그 개발에 대해 설명했다.^[2]Gubernatis는 50주년 기념 콘퍼런스를 재점검하는 2005년 저널 기사에서^[3] 역사적인 추가 설명을 하고 있다.로젠블루스는 자신과 아내 아리안나가 그 일을 했고, 메트로폴리스가 컴퓨터 시간을 제공하는 것 외에는 개발에 아무런 역할도 하지 않았다는 점을 분명히 하고 있다.

이것은 1953년 기사의 5명의 작가가 "낮과 밤" 동안 함께 일했다고 그의 회고록에서 진술한 에드워드 텔러의 설명과 모순된다.^[4]이와는 대조적으로, 로젠블루스의 상세한 설명은 텔러에게 "세부적인 운동학을 따르는 대신에 통계적 역학을 활용하고 앙상블 평균을 취하라"는 중요하지만 초기 제안으로 인정한다.로젠블루스는 이것이 존 폰 노이만과 자주 논의했던 주제인 일반화된 몬테카를로 접근법에 대해 생각하기 시작했다고 말한다.아리안나 로젠블루스는 아우구스타 텔러가 컴퓨터 작업을 시작했지만, 아리안나가 직접 인수해 처음부터 코드를 작성했다고 (2003년 구베르나티스에게) 되뇌었다.로젠블루스는 죽기 직전에 기록된 구술 역사에서 텔러가 원래의 문제를 제기하고, 자신이 문제를 해결하는 것에 대해, 그리고 아리안나가 컴퓨터를 프로그래밍하는 것에 대해 다시 한 번 공로를 인정한다.^[5]평판 면에서는 로젠블루스의 계정을 의심할 이유가 거의 없다.로젠블루트의 전기적 회고록에서 프리먼 다이슨은 다음과 같이 쓰고 있다.^[6]

여러 번 로젠블루스에 와서 [...] 질문을 하고 2분 만에 대답을 받았다.그렇다면 왜 로젠블루스의 대답이 옳았는지 자세히 이해하려면 보통 일주일간의 고된 노력이 필요할 것이다.그는 복잡한 육체적 상황을 꿰뚫어보고 육체적 논쟁으로 정답을 찾아내는 놀라운 능력을 가지고 있었다.엔리코 페르미는 내가 알고 있는 다른 물리학자들 중 유일하게 로젠블루스와 동등한 물리학자가 물리학에 대한 직관적인 이해력이었다.

직감

밀도 $P$ $P$ 에 비례하는 $f(x)$ $f(x)$ f $f(x)$ ( $f(x)$ ) $f(x)$ 을 $P$ 알고 $f(x)$ f $f(x)$ ( x $f(x)$ ) $f(x)$ 값을 계산할 수 있다면 $f(x)$ Metropolitanis-Hastings 알고리즘은 확률 밀도 $P(x)$ ( $P(x)$ ) ${\displaystylean P(x)$ 를 가진 확률 분포에서 표본을 추출할 수 있다 $P(x)$ $f(x)$ ( $f(x)$ ) $f(x)$ 은(는) 밀도에만 비례해야 한다는 $f(x)$ 요구사항은 필요한 표준화 인자를 계산하는 것이 실무에서 매우 어려운 경우가 많기 때문에 Metropolitan-Hastings 알고리즘을 특히 유용하게 만든다.

Metropolitan-Hastings 알고리즘은 샘플 값이 점점 더 많이 생산될수록 값의 분포가 원하는 분포에 더 가깝게 되도록 샘플 값의 순서를 생성함으로써 작동한다.이러한 샘플 값은 반복적으로 생성되며, 다음 샘플의 분포는 현재의 샘플 값에만 의존한다(즉, 샘플의 순서를 마르코프 체인으로 만든다).특히, 각 반복에서 알고리즘은 현재 샘플 값에 기초하여 다음 샘플 값의 후보를 선택한다.그런 다음 어느 정도 확률로 후보를 수용하거나( $f(x)$ 경우 후보 값을 다음 반복에서 사용하고, 현재 값을 다음 반복에서 재사용하는 경우), 즉 f(x ){\ $displayst$ 함수 $f(x)$ 을 비교하여 합격 확률을 결정한다 $.$ 원하는 분포와 관련하여 현재 및 후보 표본 값의 $f(x)$ $yle f(x)}.$

예시를 위해, 제안 함수가 대칭인 메트로폴리스-해스팅 알고리즘의 특별한 사례인 메트로폴리스 알고리즘을 아래에 기술한다.

메트로폴리스 알고리즘(대칭 제안 분포)

$f(x)$ ( $f(x)$ ) $f(x)$ 을(를) 원하는 확률밀도함수 $P(x)$ ( $P(x)$ ) ${\displaystyle P(x)}($ 대상 분포)에 비례하는 함수로 한다 $f(x)$ .^[a]

초기화:표본의 첫 번째 관측치가 될 $x_{t}$ 임의 $x_{t}$ $x_{t}$ t ${\$ 을 $g(x\mid y)$ 하고 다음 표본 $값$ x {\ $displaystyle$ g $(x\mid$ y $)}($ $Q(x\mid y)$ Q $Q(x\mid y)$ y $Q(x\mid y)$ ) $Q(x\mid y)$ {\ $displaystyle$ Q $(x\mid$ y $x$ 를 선택하여 다음 표본 값 x ${\displaysty x}$ 에 대한 후보를 제시하십시오.n the previous sample value $y$ . In this section, $g$ is assumed to be symmetric; in other words, it must satisfy $g(x\mid y)=g(y\mid x)$ . A usual choice is to let $g(x\mid y)$ be a Gaussian distribution centered at $y$ $y$ 에 더 가까운 지점이 다음에 방문될 가능성이 높으므로 $y$ 표본의 순서가 무작위 보도로^[b] 된다 $y$ $g$ $g$ 함수를 제안 밀도 또는 점프 분배라고 한다.
각 반복 t:
- 분포 $g(x'\mid x_{t})$ $g(x'\mid x_{t})$ $g(x'\mid x_{t})$ $g(x'\mid x_{t})$ $g(x'\mid x_{t})$ ) ${\displaystyle g(x'\mid x_{t})$ 에서 선택하여 다음 샘플에 사용할 $x'$ 후보 $x$ $'$ ${\$ x $'}$ 을(를) 생성하십시오 $g(x'\mid x_{t})$
- 후보^[c] 수락 여부를 결정하는 데 사용할 합격 비율 $\alpha =f(x')/f(x_{t})$ = f $\alpha =f(x')/f(x_{t})$ ( $\alpha =f(x')/f(x_{t})$ $\alpha =f(x')/f(x_{t})$ ) $\alpha =f(x')/f(x_{t})$ / $\alpha =f(x')/f(x_{t})$ ( $\alpha =f(x')/f(x_{t})$ $\alpha =f(x')/f(x_{t})$ ) $\alpha =f(x')/f(x_{t}}}$ 을 계산한다 $\alpha =f(x')/f(x_{t})$ f는 P의 밀도에 비례하기 때문에 $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ = $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ ( x $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ ′ $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ ) $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ / f $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ ( $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ ) $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ = $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ ( $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ ) $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ / $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ ( x $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$ ) ${\displaystyle \alpha =f(x')/f(x_{t})=P(x_$ {t})/ $P(x_{t})}}}}$ 가 있다 $\alpha =f(x')/f(x_{t})=P(x')/P(x_{t})$
- 승인 또는 거부:
  - $[0,1]$ 에서 균일한 난수 $u\in [0,1]$ $u\in [0,1]$ 1 $u\in [0,1]$ ${\displaystyle u\\in$ [0,1]}을(를) 생성하십시오 $u\in [0,1]$
  - $u\leq \alpha$ ${\displaystyle u\leq \alpha$ $u\leq \alpha$ 인 경우 x t $x_{t+1}=x'$ + $x_{t+1}=x'$ = $x_{t+1}=x'$ $x_{t+1}=x'$ ${\$ 을(를) 설정하여 후보자를 수락하십시오 $x_{t+1}=x'$
  - $u>\alpha$ > $u>\alpha$ $u>\alpha$ 인 경우 $u>\alpha$ 후보를 거부하고 $x_{t+1}=x_{t}$ $x_{t+1}=x_{t}$ t $x_{t+1}=x_{t}$ + $x_{t+1}=x_{t}$ = $x_{t+1}=x_{t}$ t ${\$ 를 설정하십시오 $x_{t+1}=x_{t}$ .

이 알고리즘은 무작위로 샘플 공간을 이동하려고 시도하며, 때로는 이동을 수용하고 때로는 제자리에 유지함으로써 진행된다.합격률 $\alpha$ $\alpha$ 은(는) $P(x)$ 가 P $P(x)$ ( x $P(x)$ ) $P(x)$ {\ $displaystyle P$ (x $)}$ 인 분포에 따라 현재 표본과 관련하여 새로 제안된 표본의 개연성이 어느 $\alpha$ 정도인지 표시한다는 점에 유의하십시오 $P(x)$ 기존 지점보다 개연성이 높은 지점(즉, 더 높은 지점). $\alpha >1\geq u$ > $\alpha >1\geq u$ $\alpha >1\geq u$ $\alpha >1\geq u$ {\ $displaystyle \alpha >1\geq$ u}에 $P(x)$ $P(x)$ 하는 $P(x)$ y 영역 $,$ $\alpha >1\geq u$ 우리는 항상 이 이동을 수용한다.그러나 개연성이 낮은 지점으로 옮기려 하면 때로는 거부를 할 것이고 개연성의 상대적 하락이 클수록 새로운 지점은 거부를 할 가능성이 높다.따라서, 우리는 가끔 저밀도 지역을 방문하는 동안에만 $P(x)$ ( $P(x)$ x $){\displaystyle$ P $(x)}$ 의 고밀도 지역에 머물며 많은 수의 표본을 반환하는 경향이 있을 것이다 $P(x)$ 직관적으로 이 알고리즘이 작용하고 밀도 $P(x)$ ( $P(x)$ ) $P(x)$ 을(를) 사용하여 원하는 분포를 따르는 표본을 반환하는 이유가 여기에 있다 $P(x)$

분포로부터 독립 샘플을 직접 생성하는 적응 거부 샘플링과^[7] 같은 알고리즘에 비해 Metropolitude-Hastings 및 기타 MCMC 알고리즘에는 다음과 같은 여러 단점이 있다.

그 샘플들은 상관관계가 있다.장기간에 걸쳐 $P(x)$ 은 $P(x)$ ( $P(x)$ x $P(x)$ ) {\ $displaystyle P(x)}$ 을(를) 올바르게 따르지만 $P(x)$ 근처의 샘플 세트는 서로 상관관계가 있고 분포를 올바르게 반영하지 못할 것이다.이는 유효 시료 크기가 실제 채취한 시료 수보다 현저히 낮아져 오차가 클 수 있다는 것을 의미한다.
마르코프 체인은 결국 원하는 분포로 수렴되지만, 특히 시작점이 밀도가 낮은 지역에 있는 경우 초기 표본은 매우 다른 분포를 따를 수 있다.따라서 일반적으로 초기 샘플 수가 버려지는 연소 기간이 필요하다.^[8]

반면, 대부분의 간단한 거부 표본 추출 방법은 "차원의 수" 함수로서 거부 확률이 기하급수적으로 증가하는 "차원의 곡선"에 시달린다.Metropolitan-Hastings는 다른 MCMC 방법과 함께 이러한 문제를 가지고 있지 않기 때문에 표본 추출할 분포의 치수 수가 높을 때 사용할 수 있는 유일한 해결책이 되는 경우가 많다.결과적으로, MCMC 방법은 종종 많은 분야에서 오늘날 사용되는 계층적 베이지안 모델과 다른 고차원 통계 모델에서 샘플을 생산하기 위한 선택 방법이 된다.

다변량 분포에서 위에서 설명한 전형적인 메트로폴리스-해스팅 알고리즘은 새로운 다차원 샘플 포인트를 선택하는 것을 포함한다.치수의 수가 많을 때는 개별 치수의 동작이 매우 다르기 때문에 사용하기에 적합한 점프 분포를 찾기가 어려울 수 있으며, 점프 폭(위 참조)은 지나치게 느린 혼합을 피하기 위해 모든 치수에 대해 한 번에 "정확하게" 해야 한다.흔히 Gibbs 샘플링이라고 알려진 그러한 상황에서 더 잘 작동하는 대안적 접근법에는 모든 차원에 대해 한 번에 표본을 선택하는 것이 아니라 다른 차원과 별도로 각 차원에 대해 새로운 표본을 선택하는 것이 포함된다.그렇게 하면 잠재적으로 고차원적인 공간으로부터의 표본 추출 문제는 작은 차원성에서 표본을 추출할 수 있는 문제의 집합으로 줄어들 것이다.^[9]이것은 특히 다변량 분포가 대부분의 일반적인 계층적 모형에서와 같이, 각 변수가 소수의 다른 변수에 대해서만 조건화되는 개별 랜덤 변수 집합으로 구성된 경우에 적용된다.그런 다음 개별 변수를 한 번에 하나씩 표본으로 추출하고 각 변수는 다른 모든 변수의 가장 최근의 값으로 조건화한다.다변량 분포의 정확한 형태에 따라 다양한 알고리즘을 사용하여 이러한 개별 샘플을 선택할 수 있다. 적응 거부 샘플링 방법,^[7] 적응 거부 Metropolitanis 샘플링 알고리즘,^[10] 단순한 1차원 Metropolitan-Hastings 단계 또는 슬라이스 샘플링 등이 가능하다.

형식 파생

Metropolitan-Hastings 알고리즘의 목적은 원하는 $P(x)$ P $P(x)$ ( x $P(x)$ ) $P(x)$ 에 따라 상태 컬렉션을 생성하는 것이다 $P(x)$ 이를 위해 알고리즘은 마르코프 프로세스를 사용하며, 마르코프 프로세스는 $\pi (x)=P(x)$ ( x $\pi (x)$ ) $\pi (x)=P(x)$ = P $\pi (x)=P(x)$ ( $\pi (x)=P(x)$ 와 $\pi (x)$ 같은 고유한 고정 분포 $\pi (x)$ ( $\pi (x)$ ) ${\displaystysty \pi (x)$ 에 무증가 도달한다. $\pi (x)=P(x)$ $\pi(x)=P(x)$ ^[11].

마르코프 프로세스는 그 전환 $확률$ $P(x'\mid x)$ ( $P(x'\mid x)$ x $){\displaystyle$ $P$ $(x'\mid$ x $P(x'\mid x)$ 주어진 상태 x ${\displaystyle$ x $}$ 에서 다른 상태 $x$ $′$ ${\$ 으)로 $x$ 전환될 확률에 의해 고유하게 정의된다 $x'$ 마르코프 프로세스는 $\pi (x)$ $\pi (x)$ ) ${\displaystatyption statypi(x)$ 가 있다.e 다음 두 가지 조건이 충족된다.^[11]

고정 분포의 존재: 고정 분포 $\pi (x)$ ( x $\pi (x)$ ) $\pi (x)$ 이(가) 있어야 한다 $\pi (x)$ 충분하지만 필요하지 않은 조건은 세부 균형이다. 이 조건은 각 $x\to x'$ x → $x\to x'$ ′ $x\to x'$ {\ $displaystyle$ x $\to$ x $'}$ 이 $x\to x'$ (가) 가역할 수 있어야 한다: $각$ 상태 x, x $'$ ${\$ x, x, x, $x$ 프로브ability of being in state $x$ and transitioning to state $x'$ must be equal to the probability of being in state $x'$ and transitioning to state $x$ , ${\displaystyle \pi (x)P(x'\mid x)=\p$ $i(x')P(x\mid$ x $\pi (x)P(x'\mid x)=\pi (x')P(x\mid x')$
고정 분포의 고유성: 고정 분포 $\pi (x)$ ( $\pi (x)$ ) $\pi (x)$ 은(는) 고유해야 한다 $\pi (x)$ .이는 마르코프 프로세스의 에고다이컬리티에 의해 보장되며, 여기에는 (1) 모든 상태가 주기적이어야 하며, 시스템은 고정된 간격으로 동일한 상태로 되돌아가지 않아야 하며, (2) 양의 반복이어야 한다. 동일한 상태로 복귀하기 위한 예상 단계 수는 제한적이다.

Metropolitan-Hastings 알고리즘에는 위의 두 조건을 만족하는 Markov 프로세스 설계(전환 확률을 구성함)가 포함되며, 정지 분포 $\pi (x)$ $\pi (x)$ $P(x)$ $){\displaystyle \pi (x)}$ 가 $P(x)$ ( x $){\displaystyle P(x)}$ 로 선택된다 $\pi (x)$ $P(x)$ 알고리즘의 도출은 상세 균형상태로 시작한다.

P(x'\mid x)P(x)=P(x\mid x')P(x'),

로 다시 쓰여진.

{\p(x'\mid x)}{P(x\mid x')}}{\frac {P(x')}}

접근방식은 제안과 수용 거부라는 두 가지 하위 단계로 전환을 분리하는 것이다.제안 분포 $g(x'\mid x)$ ′ $g(x'\mid x)$ $g(x'\mid x)$ ) ${\displaystyle g$ $($ $x'\mid x)}$ 은 $x$ $x$ 을 $x'$ (를) $x'$ 할 조건부 확률이고, 합격 분포 $g(x'\mid x)$ $x$ $x$ $A(x',x)$ , $A(x',x)$ ′ , x $A(x',x)$ ) ${\displaystysty$ x $st$ {\\displayste $)$ 는 $A(x',x)$ 제안된 상태 $x$ $'$ ${\$ $x$ 를 수락 확률이다. $yle$ x $x'$ 전환 확률은 이들의 산물로 기록될 수 있다.

P(x'\mid x)=g(x'\mid x)A(x',x)

이 관계를 이전 방정식에 삽입하면

{\frac {A(x'),x}}{A(x,x')}}}}={\frac {P(x)}}{\frac {g(x\mid x')}{g(x'\mid x)}}}}}}}.

파생의 다음 단계는 위의 조건을 충족하는 합격 비율을 선택하는 것이다.한 가지 일반적인 선택은 메트로폴리스의 선택이다.

A(x',x)=\min \left(1,{\frac {P(x')}{P(x)(x)(x)}}{\frac {g(x\mid x')}{g(x'\mid x)}}}\오른쪽)).

이 Metroposition ratio $A$ ${\displaystyle A$ $A(x',x)=1$ 의 $A$ $A(x',x)=1$ A $($ $A(x',x)=1$ , $A(x',x)=1$ x ) = $A(x',x)=1$ ${\displaystyle$ A $(x')=1}$ $A(x,x')=1$ A( $A(x,x')=1$ x $A(x,x')=1$ ) $A(x,x')=1$ = $A(x,x')=1$ ${\displaystystyle A(x')=1}$ 중 $A(x,x')=1$ 어느 쪽이든 조건이 충족된다.

따라서 메트로폴리스-해스팅 알고리즘은 다음과 같이 작성할 수 있다.

초기화하다
1. $x_{0}$ 상태 $x_{0}$ 0 ${\$ 을 선택하십시오 $x_{0}$
2. $t=0$ = $t=0$ $t=0$ 을(를) 설정하십시오 $t=0$
반복하다
1. $g(x'\mid x_{t})$ ( $g(x'\mid x_{t})$ $g(x'\mid x_{t})$ $g(x'\mid x_{t})$ $g(x'\mid x_{t})$ $g(x'\mid x_{t})$ ) ${\displaystyle g(x'\mid x_{t}})$ 에 따라 $x'$ 임의 후보 상태 $x$ $'$ ${\$ 을(를) 생성하십시오 $g(x'\mid x_{t})$
2. Calculate the acceptance probability $A(x',x_{t})=\min \left(1,{\frac {P(x')}{P(x_{t})}}{\frac {g(x_{t}\mid x')}{g(x'\mid x_{t})}}\right)$ .
3. 승인 또는 거부:
  1. 균일한 난수 $u\in [0,1]$ ∈ $u\in [0,1]$ [ $u\in [0,1]$ $u\in [0,1]$ $u\in [0,1]$ ${\displaystyle u\in [0,1$
  2. $u\leq A(x',x_{t})$ $u\leq A(x',x_{t})$ $u\leq A(x',x_{t})$ ′ $u\leq A(x',x_{t})$ , x $u\leq A(x',x_{t})$ ) $u\leq A(x',x_{t}}$ 인 경우 $u\leq A(x',x_{t})$ 새 상태를 수락하고 x $x_{t+1}=x'$ + $x_{t+1}=x'$ = $x_{t+1}=x'$ t + 1 = x $x_{t+1}=x'$ ${\$
  3. $u>A(x',x_{t})$ > $u>A(x',x_{t})$ ( x $u>A(x',x_{t})$ , $u>A(x',x_{t})$ t $u>A(x',x_{t})$ ) $u>A(x',x_{t}}$ 인 경우 $u>A(x',x_{t})$ 새 상태를 거부하고 이전 상태 x $x_{t+1}=x_{t}$ + $x_{t+1}=x_{t}$ = $x_{t+1}=x_{t}$ $x_{t+1}=x_{t}$ ${\$ 을(를) 복사하십시오 $x_{t+1}=x_{t}$
4. 증분: $t=t+1$ = $t=t+1$ + $t=t+1$ 을 설정 $displaystyle t=t+1}.$

지정된 조건이 충족될 경우 $x_{0},\ldots ,x_{T}$ 된 $x_{0},\ldots ,x_{T}$ 의 경험적 분포는 x $x_{0},\ldots ,x_{T}$ , $x_{0},\ldots ,x_{T}$ … $x_{0},\ldots ,x_{T}$ , x T {\displaystyle $x_{0},\ldots ,x_{{}$ $T}}$ 이 $($ $P(x)$ ( x ){\displaystyle $P(x)}$ 에 접근한다 $x_{0},\ldots ,x_{T}$ $P(x)$ $P(x)$ ( $P(x)$ ) $P(x)$ 을(를) 효과적으로 추정하는 데 필요한 반복 횟수( $T$ $T$ )는 $P(x)$ ( x $P(x)$ ) ${\displaystyle P(x)$ 와 $P(x)$ 제안 분포 및 원하는 추정 정확도를 포함한 요인 수에 따라 달라진다 $P(x)$ .^[12]이산 상태 공간의 분포는 마르코프 프로세스의 자기 상관 시간 순서가 되어야 한다.^[13]

일반적인 문제에서 어떤 분포 $(x$ $g(x'\mid x)$ $x$ )를 사용해야 $g(x'\mid x)$ 하는지 $g(x'\mid x)$ 또는 적절한 추정에 필요한 $반복 횟수$ 가 무엇인지 명확하지 않은 점에 유의해야 한다. 두 가지 모두 방법의 자유 매개변수로서, 당면한 특정 문제에 맞춰 조정해야 한다.

수치적 통합에 사용

메트로폴리스-해스팅 알고리즘의 일반적인 용도는 적분을 계산하는 것이다.Specifically, consider a space $\Omega \subset \mathbb {R}$ and a probability distribution $P(x)$ over $\Omega$ , $x\in \Omega$ . Metropolis–Hastings can estimate an integral of the form of

P(E)=\int _{\Oomega }A(x)P(x)\,dx,

$A(x)$ 서 $A(x)$ ( x $A(x)$ ) $A(x)$ 은(측정 가능한) 관심 함수다 $A(x)$ .

예를 들어, $E(x)$ $E(x)$ ( x $E(x)$ ) $E(x)$ 및 통계량 $P(E)$ P $P(E)$ ( $P(E)$ ) $P(E)$ 을 $E(x)$ (를) 고려하십시오 $P(E)$ 이 분포는 한계 분포입니다. $P(E)$ $P(E)$ 의 꼬리에 있는 $E$ $E$ $E$ 에 $P(E)$ 대한 $P(E)$ ${\displaystyle$ P $(E)}$ 을(를) 추정하는 것이 목표라고 가정합시다 $P(E)$ 정식으로 $P(E)$ ${\displaystystyle P(E)}$ 을(E)로 작성할 수 있다 $P(E)$ .

P(E)=\int _{\Omega }P(E\mid x)P(x)\,dx=\int _{\Omega }\delta {\big (}E-E(x){\big )}P(x)\,dx=E{\big (}P(E\mid X){\big )}

and, thus, estimating $P(E)$ can be accomplished by estimating the expected value of the indicator function $A_{E}(x)\equiv \mathbf {1} _{E}(x)$ , which is 1 when $E(x)\in [E,E+\Delta E]$ and zero otherwise.Because $E$ is on the tail of $P(E)$ , the probability to draw a state $x$ with $E(x)$ on the tail of $P(E)$ is proportional to $P(E)$ , which is small by definition.여기서 Metropolitan-Hastings 알고리즘을 사용하여 상태를 더 잘 샘플링(레이어)할 수 있으며, $P(E)$ 꼬리에 $P(E)$ P $P(E)$ $){\displaystyle P($ E)}를 추정하는 데 사용되는 샘플의 수를 늘릴 수 있다.예를 들어 샘플링 $\pi (x)$ $\pi (x)$ ( x $\pi (x)$ ) $\pi (x)$ 을 사용하여 $\pi (x)$ 해당 상태를 선호할 수 있다( $\pi (x)\propto e^{aE}$ : $\pi (x)\propto e^{aE}$ ( $\pi (x)\propto e^{aE}$ ) e $\pi (x)\propto e^{aE}$ ${\$ e $^{a$ ). $e$ $a>0$ 에 $\pi (x)\propto e^{aE}$ 0이 $($ $a>0$ ) $a>0$ 이(가) 표시됨. $a>0$

단계별 지침

가장 최근에 샘플링된 값이 $x_{t}$ t ${\$ 라고 가정해 봅시다 $x_{t}$ Metropolitan-Hastings 알고리즘을 따르려면 다음에 $g(x'\mid x_{t})$ g $g(x'\mid x_{t})$ $g(x'\mid x_{t})$ t $){\displaystyle g(x'\mid x_{t})$ 를 가진 $x'$ 새로운 제안 $상태$ x $′{\$ 를 그려서 $g(x'\mid x_{t})$ 값을 계산한다.

a=a_{1}a_{2},

어디에

a_{1}={\frac {P(x')}{P(x_{t})}}

제안된 샘플 $x$ $'$ ${\$ x $'}$ 과 $x'$ (와) 이전 샘플 $x_{t}$ $x_{t}$ ${\$ 사이의 확률(예: 베이지안 후방) 비율이며 $x_{t}$

a_{2}={\frac {g(x_{t}\mid x')}{g(x'\mid x_{t})}{g(x'\mid x_{t})}}}

제안 밀도의 $x_{t}$ $($ x t {\ $displaystyle$ x_ ${t}$ 부터 $x_{t}$ $x$ {\ $displaystyle$ x $'}$ 까지 $x'$ )의 비율이다.제안 밀도가 대칭인 경우 이는 1과 같다.그런 다음 다음 다음 규칙에 따라 새로운 $x_{t+1}$ $x_{t+1}$ t $x_{t+1}$ + $x_{t+1}$ ${\$ 를 선택한다 $x_{t+1}$ .

a\geq 1{:}

a\geq 1{:}

:

{\

1

{:

}}

x_{t+1}=x',

기타:

x_{t+1}={\displaystyle{case}x'&{\text{probability}a,\x_{t}&{\text}{probable{probility{1}-a.\end{case}}

마르코프 체인은 임의의 초기 값 $x_{0}$ $x_{0}$ ${\$ 에서 $x_{0}$ 시작되며, 알고리즘은 이 초기 상태가 "잊혀질" 때까지 많은 반복에 대해 실행된다.버려지는 이 샘플들은 번인(burn-in)이라고 알려져 있다. $x$ $x$ 의 나머지 허용 값 집합은 $P(x)$ P $P(x)$ ( $P(x)$ ) $P(x)$ 의 표본을 나타낸다 $x$ $P(x)$

The algorithm works best if the proposal density matches the shape of the target distribution $P(x)$ , from which direct sampling is difficult, that is $g(x'\mid x_{t})\approx P(x')$ . If a Gaussian proposal density $g$ is used, the variance 매개 변수 $\sigma ^{2}$ ${\$ 번 화상입력 기간 동안 튜닝해야 한다 $\sigma ^{2}$ .이는 일반적으로 마지막 $N$ $N$ 샘플의 $N$ 창에서 수용되는 제안 샘플의 비율인 합격률을 계산하여 이루어진다.원하는 합격률은 목표 분포에 따라 다르지만 이론적으로는 1차원 가우스 분포의 이상적인 합격률이 약 50%이며, N ${\displaystyle N$ } - 차원 $N$ 가우스 표적 분포의 경우 약 23%로 감소한다는 것이 밝혀졌다.^[14]이러한 지침은 번스타인-본 미세스 정리를 사용하여 설정할 수 있는 다변량 정규 분포를 따르는 경우가 많기 때문에 충분히 정규 베이시안 포스터에서 표본을 추출할 때 잘 작동할 수 있다.^[15]

$\sigma ^{2}$ ${\$ 개가 너무 $\sigma ^{2}$ 작으면 체인이 천천히 섞이게 된다(즉, 수용률은 높겠지만, 연속적인 샘플은 천천히 공간을 이동하게 되고 체인은 천천히 $P(x)$ ( $P(x)$ ) ${\displaysty$ P $(x)}$ 에 수렴하게 된다). $P(x)$ 한편 $\sigma ^{2}$ ${\$ }가 너무 $\sigma ^{2}$ 크면, 제안이 훨씬 낮은 확률밀도의 지역에 상륙할 가능성이 높기 때문에 수용률은 매우 낮을 것이므로 $a_{1}$ ${\$ }는 매우 작을 것이고 $a_{1}$ , 다시 체인점들은 매우 천천히 수렴할 것이다.하나는 일반적으로 앞의 단락에서 언급한 이론적 추정치에 따라 알고리즘이 전체 표본의 30%의 순서를 받아들이도록 제안 분포를 조정한다.

Metropolitan-Hastings 알고리즘을 사용하여 3D Rosenbrock 기능으로 실행된 3개의 마르코프 체인의 결과.알고리즘은 후측 확률이 높은 지역에서 표본을 추출하고, 체인은 이들 지역에서 혼합되기 시작한다.최대값의 대략적인 위치가 켜졌다.적색 지점은 화상 처리 후에도 남아 있는 지점이다.이전의 것들은 이미 폐기되었다.

참고 항목

참조

^ Hastings, W.K. (1970). "Monte Carlo Sampling Methods Using Markov Chains and Their Applications". Biometrika. 57 (1): 97–109. Bibcode:1970Bimka..57...97H. doi:10.1093/biomet/57.1.97. JSTOR 2334940. Zbl 0219.65008.
^ M.N. Rosenbluth (2003). "Genesis of the Monte Carlo Algorithm for Statistical Mechanics". AIP Conference Proceedings. 690: 22–30. Bibcode:2003AIPC..690...22R. doi:10.1063/1.1632112.
^ J.E. Gubernatis (2005). "Marshall Rosenbluth and the Metropolis Algorithm". Physics of Plasmas. 12 (5): 057303. Bibcode:2005PhPl...12e7303G. doi:10.1063/1.1887186.
^ 텔러, 에드워드회고록: 과학과 정치의 20세기 여행.페르세우스 출판, 2001, 페이지 328
^ 로젠블루스, 마샬."오럴 히스토리 대본"미국 물리 연구소
^ F. Dyson (2006). "Marshall N. Rosenbluth". Proceedings of the American Philosophical Society. 250: 404.
^ ^a ^b Gilks, W. R.; Wild, P. (1992-01-01). "Adaptive Rejection Sampling for Gibbs Sampling". Journal of the Royal Statistical Society. Series C (Applied Statistics). 41 (2): 337–348. doi:10.2307/2347565. JSTOR 2347565.
^ Bayesian data analysis. Gelman, Andrew (2nd ed.). Boca Raton, Fla.: Chapman & Hall / CRC. 2004. ISBN 978-1584883883. OCLC 51991499.{{cite book}}: CS1 maint : 기타(링크)
^ Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods. 51 (6): 1549–1568. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214. S2CID 220935477.
^ Gilks, W. R.; Best, N. G.; Tan, K. K. C. (1995-01-01). "Adaptive Rejection Metropolis Sampling within Gibbs Sampling". Journal of the Royal Statistical Society. Series C (Applied Statistics). 44 (4): 455–472. doi:10.2307/2986138. JSTOR 2986138.
^ ^a ^b Robert, Christian; Casella, George (2004). Monte Carlo Statistical Methods. Springer. ISBN 978-0387212395.
^ 래프터리, 애드리안 E, 스티븐 루이스."기브스 샘플러에 얼마나 많은 반복이 있지?"베이시안 통계 4. 1992.
^ Newman, M. E. J.; Barkema, G. T. (1999). Monte Carlo Methods in Statistical Physics. USA: Oxford University Press. ISBN 978-0198517979.
^ Roberts, G.O.; Gelman, A.; Gilks, W.R. (1997). "Weak convergence and optimal scaling of random walk Metropolis algorithms". Ann. Appl. Probab. 7 (1): 110–120. CiteSeerX 10.1.1.717.2582. doi:10.1214/aoap/1034625254.
^ Schmon, Sebastian M.; Gagnon, Philippe (2022-04-15). "Optimal scaling of random walk Metropolis algorithms using Bayesian large-sample asymptotics". Statistics and Computing. 32 (2): 28. doi:10.1007/s11222-022-10080-8. ISSN 0960-3174. PMC 8924149.

메모들

^ 메트로폴리스 외 연구진(1953)이 작성한 원본 논문에서 f $f$ 은(는) 물리적 화학에서 상태 방정식의 몬테카를로 통합이 고려되었기 때문에 볼츠만 분포로 간주되었다 $f$ . 헤이스팅스에 의한 확장은 임의 $분포$ f ${\displaystyle$ f $}$ 로 일반화되었다 $f$
^ 메트로폴리스 외 연구진(1953년)이 작성한 원본 $g(x\mid y)$ 에서 g $g(x\mid y)$ y ) ${\displaystyle g(x\mid$ y $)}$ 은 어떤 규정된 범위에 걸쳐 균일한 밀도를 갖는 임의의 번역으로 제안되었다 $g(x\mid y)$ .
^ 메트로폴리스 외 연구진(1953년)이 작성한 원본 $f$ 에서, f{\ $디스플레이 스타일$ f $}$ 은 통계 역학(예를 들어 열 평형에서 주어진 온도에 대한 마이크로스테이트의 최대-엔트로피 분포)의 맥락에서 물리적 시스템에 적용되었기 때문에 실제로 볼츠만 분포였다 $f$ .따라서 합격비 자체는 분자의 모수와 이 비율의 분모의 차이를 지수화한 것이었다.

추가 읽기

베른트 A. 버그. 마르코프 체인 몬테카를로 시뮬레이션과 그들의 통계 분석.싱가포르, 월드 사이언티픽, 2004.
싯다르타 치브와 에드워드 그린버그: "메트로폴리스-해스팅 알고리즘의 이해"미국 통계학자, 49(4), 327–335, 1995
데이비드 D. L. 민과 도 레민. "헤이스팅스 알고리즘의 이해."통계에서의 통신 - 시뮬레이션 및 연산, 44:2 332-349, 2015
볼스타드, 윌리엄 M. (2010) 컴퓨터 베이시안 통계 이해, 존 와일리 & 선스 ISBN 0-470-04609-0

[Hastings-1] Hastings, W.K. (1970). "Monte Carlo Sampling Methods Using Markov Chains and Their Applications". Biometrika. 57 (1): 97–109. Bibcode:1970Bimka..57...97H. doi:10.1093/biomet/57.1.97. JSTOR 2334940. Zbl 0219.65008.

[Rosenbluth-2] M.N. Rosenbluth (2003). "Genesis of the Monte Carlo Algorithm for Statistical Mechanics". AIP Conference Proceedings. 690: 22–30. Bibcode:2003AIPC..690...22R. doi:10.1063/1.1632112.

[Gubernatis-3] J.E. Gubernatis (2005). "Marshall Rosenbluth and the Metropolis Algorithm". Physics of Plasmas. 12 (5): 057303. Bibcode:2005PhPl...12e7303G. doi:10.1063/1.1887186.

[Teller-4] 텔러, 에드워드회고록: 과학과 정치의 20세기 여행.페르세우스 출판, 2001, 페이지 328

[Barth-5] 로젠블루스, 마샬."오럴 히스토리 대본"미국 물리 연구소

[Dyson-6] F. Dyson (2006). "Marshall N. Rosenbluth". Proceedings of the American Philosophical Society. 250: 404.

[:0-10] Gilks, W. R.; Wild, P. (1992-01-01). "Adaptive Rejection Sampling for Gibbs Sampling". Journal of the Royal Statistical Society. Series C (Applied Statistics). 41 (2): 337–348. doi:10.2307/2347565. JSTOR 2347565.

[11] Bayesian data analysis. Gelman, Andrew (2nd ed.). Boca Raton, Fla.: Chapman & Hall / CRC. 2004. ISBN 978-1584883883. OCLC 51991499.{{cite book}}: CS1 maint : 기타(링크)

[12] Lee, Se Yoon (2021). "Gibbs sampler and coordinate ascent variational inference: A set-theoretical review". Communications in Statistics - Theory and Methods. 51 (6): 1549–1568. arXiv:2008.01006. doi:10.1080/03610926.2021.1921214. S2CID 220935477.

[13] Gilks, W. R.; Best, N. G.; Tan, K. K. C. (1995-01-01). "Adaptive Rejection Metropolis Sampling within Gibbs Sampling". Journal of the Royal Statistical Society. Series C (Applied Statistics). 44 (4): 455–472. doi:10.2307/2986138. JSTOR 2986138.

[Roberts_Casella-14] Robert, Christian; Casella, George (2004). Monte Carlo Statistical Methods. Springer. ISBN 978-0387212395.

[15] 래프터리, 애드리안 E, 스티븐 루이스."기브스 샘플러에 얼마나 많은 반복이 있지?"베이시안 통계 4. 1992.

[Newman_Barkema-16] Newman, M. E. J.; Barkema, G. T. (1999). Monte Carlo Methods in Statistical Physics. USA: Oxford University Press. ISBN 978-0198517979.

[Roberts-17] Roberts, G.O.; Gelman, A.; Gilks, W.R. (1997). "Weak convergence and optimal scaling of random walk Metropolis algorithms". Ann. Appl. Probab. 7 (1): 110–120. CiteSeerX 10.1.1.717.2582. doi:10.1214/aoap/1034625254.

[18] Schmon, Sebastian M.; Gagnon, Philippe (2022-04-15). "Optimal scaling of random walk Metropolis algorithms using Bayesian large-sample asymptotics". Statistics and Computing. 32 (2): 28. doi:10.1007/s11222-022-10080-8. ISSN 0960-3174. PMC 8924149.

[7] 메트로폴리스 외 연구진(1953)이 작성한 원본 논문에서 f $f$ 은(는) 물리적 화학에서 상태 방정식의 몬테카를로 통합이 고려되었기 때문에 볼츠만 분포로 간주되었다 $f$ . 헤이스팅스에 의한 확장은 임의 $분포$ f ${\displaystyle$ f $}$ 로 일반화되었다 $f$

[8] 메트로폴리스 외 연구진(1953년)이 작성한 원본 $g(x\mid y)$ 에서 g $g(x\mid y)$ y ) ${\displaystyle g(x\mid$ y $)}$ 은 어떤 규정된 범위에 걸쳐 균일한 밀도를 갖는 임의의 번역으로 제안되었다 $g(x\mid y)$ .

[9] 메트로폴리스 외 연구진(1953년)이 작성한 원본 $f$ 에서, f{\ $디스플레이 스타일$ f $}$ 은 통계 역학(예를 들어 열 평형에서 주어진 온도에 대한 마이크로스테이트의 최대-엔트로피 분포)의 맥락에서 물리적 시스템에 적용되었기 때문에 실제로 볼츠만 분포였다 $f$ .따라서 합격비 자체는 분자의 모수와 이 비율의 분모의 차이를 지수화한 것이었다.

[1]

[2]

[3]

[4]

[5]

[6]

[a]

[b]

[c]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Search