이 기사는 상관관계가 있는 여러 이진 결과를 모델링하는 것에 관한 것이다. 여러 결과를 사용하여 단일 이벤트를 모델링하려면 다항 프로비트 를 참조하십시오. 통계학 및 계량학 에서 다변량 프로빗 모델 은 여러 개의 상관관계가 있는 이항 결과를 공동으로 추정하는 데 사용되는 프로빗 모델 의 일반화다.예를 들어, 공립학교에 적어도 한 명의 아이를 보내는 결정과 학교 예산에 찬성하는 투표의 결정이 상관관계가 있다고 생각되는 경우(두 결정은 이항이다), 다변량 프로빗 모델은 개별적인 기준으로 이러한 두 가지 선택을 공동으로 예측하는 데 적합할 것이다. J.R. Ashford와 R.R. Sowden은 처음에 다변량 프로빗 분석을 위한 접근법을 제안했다.[1] 싯다르타 치브 와 에드워드 그린버그는 이 아이디어를 확장했으며 매개변수 추정을 단순화하고 일반화한 다변량 프로빗 모델에 대한 시뮬레이션 기반 추론 방법도 제안했다.[2]
예제: 이변량 프로빗 일반 프로빗 모델에서는 이항 종속 변수 Y {\displaystyle Y} 이(가) 하나만 있으므로 잠재 변수 Y ∗ {\ displaystyle Y^{*} 하나만 사용된다 . 이와는 대조적으로, 이변량 프로빗 모델에는 두 개 의 이항 종속 변수 Y 1 {\ displaystyle Y_{ 1}과 Y 2 {\ displaystyle Y_{ 2}}개가 있으므로 , 두 개의 잠재적 변수가 있다. Y 1 ∗{\ displaystyle Y_{1}^{*} 및 Y 2 ∗ {\ displaystyle Y_{2 }^{*}}}}}. 관찰된 각 변수가 양수 값을 갖는 경우에만 값 1을 갖는다고 가정한다.
Y 1 = { 1 만일 Y 1 ∗ > 0 , 0 그렇지 않으면 , {\displaystyle Y_{1}={\begin{case}1&{\text}{{1}^{}}0,\0&{\text{otherwise},\case{case}}}}} Y 2 = { 1 만일 Y 2 ∗ > 0 , 0 그렇지 않으면 , {\displaystyle Y_{2}={\begin{case}1&{\text}{{2}^{*}}}0,\0&{\text{otherwise},\case{case}}}}}} , 와 함께.
{ Y 1 ∗ = X 1 β 1 + ε 1 Y 2 ∗ = X 2 β 2 + ε 2 {\displaystyle {\displaysty} Y_{1}^{*}=X_{1}\beta _{1}+\varepsilon _{1}\\ Y_{2}^{*}=X_{2}}\베타 _{2}+\varepsilon _{2}\end{case}}} , 그리고
[ ε 1 ε 2 ] ∣ X ∼ N ( [ 0 0 ] , [ 1 ρ ρ 1 ] ) {\displaystyle {\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\end{bmatrix}}\mid X\sim {\mathcal {N}}\left({\begin{bmatrix}0\\0\end{bmatrix}},{\begin{bmatrix}1&\rho \\\rho &1\end{bmatrix}}\right)} 이바리테이트 프로빗 모델을 맞추려면 β 1 , β 2 , {\displaystyle \beta _{1},\\beta _{2}, ρ {\displaysty \rho } 등의 값을 추정해야 한다. 그렇게 하려면 모델의 가능성을 극대화해야 한다 . 이 가능성은
L ( β 1 , β 2 ) = ( ∏ P ( Y 1 = 1 , Y 2 = 1 ∣ β 1 , β 2 ) Y 1 Y 2 P ( Y 1 = 0 , Y 2 = 1 ∣ β 1 , β 2 ) ( 1 − Y 1 ) Y 2 P ( Y 1 = 1 , Y 2 = 0 ∣ β 1 , β 2 ) Y 1 ( 1 − Y 2 ) P ( Y 1 = 0 , Y 2 = 0 ∣ β 1 , β 2 ) ( 1 − Y 1 ) ( 1 − Y 2 ) ) {\displaystyle {\begin{aigned}L(\beta _{1},\beta _{2}={\Big(}\prod &P(Y_{1}=1, Y_{2}=1\mid \beta _{1},\beta _{2}^{{}} Y_{1}Y_{2}}P(Y_{1}=0, Y_{2}=1\mid \beta _{1},\beta _{2}^{(1-Y_{1}) Y_{2}}\\[8pt]&{}\qquad P(Y_{1}=1, Y_{2}=0\mid \beta _{1},\beta _{2}^{{}} Y_{1}(1-Y_{2})}P(Y_{1}=0, Y_{2}=0\mid \beta _{1},\beta _{2}^{1-Y_{1}(1-Y_{2})({\Big )}{\end{arged}}}}}}}}} 확률함수에서 잠재 변수 Y 1 ∗ {\ displaystyle Y_{1}^{*}, Y 2 ∗ {\ displaystyle Y_{2}^{*}} 을 대체하고 로그를 취하면 다음과 같은 결과를 얻을 수 있다.
∑ ( Y 1 Y 2 ln P ( ε 1 > − X 1 β 1 , ε 2 > − X 2 β 2 ) + ( 1 − Y 1 ) Y 2 ln P ( ε 1 < − X 1 β 1 , ε 2 > − X 2 β 2 ) + Y 1 ( 1 − Y 2 ) ln P ( ε 1 > − X 1 β 1 , ε 2 < − X 2 β 2 ) + ( 1 − Y 1 ) ( 1 − Y 2 ) ln P ( ε 1 < − X 1 β 1 , ε 2 < − X 2 β 2 ) ) . {\displaystyle {\begin}\sum &{\Big(}Y_{1}) Y_{2}\ln P(\varepsilon _{1}-X_{1}\beta _{1},\varepsilon _{1},\valpsilon _{2}}-X_{2}\beta _{2}\2}\[4pt]\}\{}+(1-Y_{1}) Y_{2}\ln P(\varepsilon _{1}<-X_{1}\beta _{1},\varepsilon _{2}>-X_{2}\beta _{2})\\[4pt]&{}\quad {}+Y_{1}(1-Y_{2})\ln P(\varepsilon _{1}>-X_{1}\beta _{1},\varepsilon _{2}<-X_{2}\beta _{2})\\[4pt]&{}\quad {}+(1-Y_{1})(1-Y_{2})\ln P(\varepsilon _{1}<-X_{1}\beta _{1},\varepsilon _{2}<-X_{2}\beta _{2}){\Big )}. \end{정렬}}} 일부 재작성 후 로그 우도 함수는 다음과 같이 된다.
∑ ( Y 1 Y 2 ln Φ ( X 1 β 1 , X 2 β 2 , ρ ) + ( 1 − Y 1 ) Y 2 ln Φ ( − X 1 β 1 , X 2 β 2 , − ρ ) + Y 1 ( 1 − Y 2 ) ln Φ ( X 1 β 1 , − X 2 β 2 , − ρ ) + ( 1 − Y 1 ) ( 1 − Y 2 ) ln Φ ( − X 1 β 1 , − X 2 β 2 , ρ ) ) . {\displaystyle {\begin}\sum &{\Big(}Y_{1}) Y_{2}\ln \Phi(X_{1}\beta _{1},X_{2}\beta _{2}\{2}\beta _{2}, {2},\2}\\[4pt]\}\quad {}+(1-Y_{1}) Y_{2}\ln \Phi (-X_{1}\beta _{1},X_{2}\beta _{2},-\rho )\\[4pt]&{}\quad {}+Y_{1}(1-Y_{2})\ln \Phi (X_{1}\beta _{1},-X_{2}\beta _{2},-\rho )\\[4pt]&{}\quad {}+(1-Y_{1})(1-Y_{2})\ln \Phi (-X_{1}\beta _{1},-X_{2}\beta _{2},\rho ){\Big )}. \end{정렬}}} φ {\displaystyle \Phi } 은 (는) 이변량 정규 분포 의 누적 분포 함수 라는 점에 유의하십시오. 로그 우도함수의 Y 1 {\ displaystyle Y_{1} 및 Y 2 {\ displaystyle Y_{2 }}: 1 또는 0과 동일한 변수가 관찰된다.
다변량 프로빗 일반 사례 의 경우 y i = ( y 1 , . . . . . . . . . . N ) {\displaystyle \mathbf {y_{i}} =(y_{1}, y_{j}),\(i=1,...) ,N)} 은(는) j {\displaystyle j } 을(를) 선택으로, i {\displaystyle i} 을(를) 개인 또는 관찰로 선택할 수 있는 경우 , 선택 y {\ displaystyle \mathbf {y_}}}}}} 을(를) 관찰할 확률은 다음과 같다 .
PR ( y i X i β , Σ ) = ∫ A J ⋯ ∫ A 1 f N ( y i ∗ X i β , Σ ) d y 1 ∗ … d y J ∗ PR ( y i X i β , Σ ) = ∫ 1 y ∗ ∈ A f N ( y i ∗ X i β , Σ ) d y i ∗ {\displaystyle {\begin{aligned}\Pr(\mathbf {y_{i}} \mathbf {X_{i}\beta } ,\Sigma )=&\int _{A_{J}}\cdots \int _{A_{1}}f_{N}(\mathbf {y} _{i}^{*} \mathbf {X_{i}\beta } ,\Sigma )dy_{1}^{*}\dots dy_{ J}^{*}\\\Pr(\mathbf {y_{i}} \mathbf {X_{i}\beta } ,\Sigma )=&\int \mathbb {1} _{y^{*}\in A}f_{N}(\mathbf {y} _{i}^{*} \mathbf {X_{i}\beta } ,\Sigma )d\mathbf {y} _{i}^{*}\end{aligned}}} 여기서 A = A × × × A J {\ displaystyle A=A_{1}\time \cdots \time A_{J} 및 ,
A j = { ( − ∞ , 0 ] y j = 0 ( 0 , ∞ ) y j = 1 {\displaystyle A_{j}={\begin{case}(-\flt ,0]&y_{j}=0\\(\fty )&y_{j}=1\end}}}}}} 이 경우의 로그 우도 함수는 ∑ i = 1 N 로그 pr Pr (yi X i β , σ ) {\displaystyle \sum _{i=1}^{N}\log \Pr(\mathbf {y_{i}} \mathbf {X_{i}}},\Sigma )일 것이다.
J ≤ 2 {\displaystyle J\leq 2} 을 제외하고 일반적으로 로그 우도 방정식의 통합에 대한 폐쇄형 폼 솔루션은 없다.대신에 시뮬레이션 방법을 사용하여 선택 확률을 시뮬레이션할 수 있다. 중요도 샘플링을 사용하는 방법으로는 GHK 알고리즘 (Geweke, Hajivassilou, McFadden, Keane),[3] Stern의 방법인 AR(accept-reject)이 있다. 또한 CRB(Rao-Blackwellization을 사용한 Chib의 방법), CRT(Chib, Ritter, Tanner), ARK(수용-거부 커널), ASC(어댑티브 샘플링 커널)를 포함한 MCMC 접근법이 있다.[4] 대규모 데이터셋에 대한 가변적 접근방식은 Probit-LMM(Mandt, Wenzel, Nakjama et al.)[5] 에서 제안된다.
참조 ^ Ashford, J.R.; Sowden, R.R. (September 1970). "Multivariate Probit Analysis" . ^ Chib, Siddhartha; Greenberg, Edward (June 1998). "Analysis of multivariate probit models" . Biometrika . 85 (2): 347–361. CiteSeerX 10.1.1.198.8541 . doi :10.1093/biomet/85.2.347 – via Oxford Academic. ^ Hajivassiliou, Vassilis (1994). "Chapter 40 Classical estimation methods for LDV models using simulation". Handbook of Econometrics . 4 : 2383–2441. doi :10.1016/S1573-4412(05)80009-1 . ISBN 9780444887665 . ^ Jeliazkov, Ivan (2010). "MCMC perspectives on simulated likelihood estimation". Advances in Econometrics . 26 : 3–39. doi :10.1108/S0731-9053(2010)0000026005 . ISBN 978-0-85724-149-8 . ^ Mandt, Stephan; Wenzel, Florian; Nakajima, Shinichi; John, Cunningham; Lippert, Christoph; Kloft, Marius (2017). "Sparse probit linear mixed model" (PDF) . Machine Learning . 106 (9–10): 1–22. arXiv :1507.04777 . doi :10.1007/s10994-017-5652-6 . 추가 읽기 그린, 윌리엄 H, 계량 분석 , 7판 프렌티스 홀, 2012.