중요도 샘플링 방법
GHK 알고리즘(Geweke, Hajivassiliou 및 Keane)[1]은 다변량 프로빗 모델에서 선택 확률을 시뮬레이션하기 위한 중요도 샘플링 방법입니다.이러한 시뮬레이션 확률은 일반적으로 잘 알려진 최대화 방법 중 하나를 사용하여 최대우도 방정식에서 매개변수 추정치를 복구하는 데 사용할 수 있다(뉴턴의 방법, BFGS 등).트레인에는 다항 프로빗 모델에 대해 이 알고리즘을 구현하기 위한 단계가 잘 문서화되어 있습니다[2].다음 내용은 이항 다변량 프로빗 모델에 적용됩니다.
( y X β , (\displaystyle (\ \} )의
선택 확률을 평가하려고 하는 경우를 생각해 봅시다.서 y, ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., ., 및
j(\ j를
로, i(\ i를
개인 또는 관측치로 사용할 수 있는 경우 는
평균이고(\})는
모델의 공분산 행렬입니다 y를 관찰할 확률은 

서 A × × (\ A \ A_ 및
,
![{\displaystyle A_{j}={\begin{cases}(-\infty ,0]&y_{j}=0\\(0,\infty )&y_{j}=1\end{cases}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3a38b27c96032c1abf5d7b979d922b8144830765)
J J가
작거나 2 이하인 경우를 제외하고 에서 정의한 통합에 대한 폐쇄형 솔루션은 없습니다(일부 작업은 J
[3]이러한 적분 닫힌 형식 또는 직교 방법을 평가하는 대안은 시뮬레이션을 사용하는 것이다.GHK는 중요도 샘플링 방법을 사용하여 상기 확률을 시뮬레이션하는 시뮬레이션 방법입니다.
( β , = 1 y Af ( y i X , ) \ \( \ { _ { } \ { } \ } , \ 1 \ sigma 데이터 i β + \ =\}은
촐레스키 인수분해를 사용하여 다시 쓸 수 있다는 것을, the = ′ \ display \= \Sigma = Cigma
= y y y = y y y y y y y y y y y + _ 여기서
" _ 용어는
{ N(
로 배포됩니다
이 인수분해와 i _가
독립적으로 분포되어 있다는 사실을 사용하면 일변량 랜덤 정규 분포의 추첨을 사용하여 잘린 다변량 정규 분포의 추첨을 시뮬레이션할 수 있다.
예를 들어, A 영역(\{A
의 하한 및 상한이 [
, b ± {
포함과 같으면 작업이 다음과 같이 됩니다.

참고: y β + i \ =\ +i
로 대체:

상기의 재배열,

이제 위의 주어진 한계를 사용하여 잘린 일변량 정규 분포에서 반복적으로 끌어내기만 하면 됩니다.이는 역 누적분포함수법에 의해 수행될 수 있으며 잘린 정규분포는 다음과 같이 주어진다.

서u\u는
0과 1 사이의 숫자입니다. 위는 CDF이기 때문입니다.이는 x{\ x
giving에 풀어야 하는 잘린 분포에서 랜덤 추첨을 생성하도록 제안합니다.

서 a - - μ{ a - \ \
b -{\ { style \ }{\ 、 { \ F}는
표준 CDF입니다.이러한 추첨을 통해 콜레스키 인수분해를 사용하여 단순화된 방정식으로 {\을
재구성할 수 있습니다.이러한 추첨은 추첨 전에 이루어지는 것에 따라 결정되며, 정규의 속성을 사용하여 조건부 의 곱은 의합동 분포가 됩니다(\

서q ( ) \ q ( \ )는
다변량 정규분포입니다.
를 으로
y j {\j}^*} 、k < } restrict
( 、 factor factor factor factorA ( \ _ { } the a a a a the로
제한되므로q ( ) \ ( \ )는
잘린 정규 분포임을 알 수 있습니다.잘린 정규 분포 함수는 다음과 같습니다.

y j{\(\y_}^{*})는
배포가 있습니다.

서 §j \j
}는 선택지 {\ j
의 표준 표준 pdf입니다.
j { < j } ~ ( + k < j , j2) { _ { _ { y _ < j }^{ * } \ N ( \ { _ } \ } \ beta ) + 11 .
(b− ∑ k=1k<>j cjkη km그리고 4.9초 만 cjj)− Φ(한− ∑ k=1k<>j cjkη km그리고 4.9초 만 cjj))∏ j-1J의 나는 jj{\displaystyle \prod_{j=1}^{J}\Phi _{j}{\Big(}{{b-\sum_{k=1}^{k<. j}c_{jk}\eta_{k}}{{제}}c_}{\Big\frac)}-\Phi{\Big는 분모 ∏ j-1JΦ j자.(}{\frac{a-\sum_{k=1}^{k<, j}c_{jk}\eta _{k}}{c_{jj}}}{\Big)}=\prod _{j=1}^{J}l_{jj}}과 분자 ∏ j-1J1cjjϕ j(yj∗− ∑ k=1k<>j cjkη km그리고 4.9초 만 cjj)=fN(나는 ∗는 yX나는 β, Σ){\displaystyle \prod_{j=1}^{J}{\frac{1}{c_{jj}}}\phi _{j}{\Big(}{\fr.교류{y_ _ _}}=}\는
여기서{n}를 표시합니다
원래 목표로 돌아가서

중요도 샘플링을 사용하여 이 적분을 평가할 수 있습니다.

이것은 1 S { {_{ _
로 충분히 근사됩니다.
레퍼런스