프로빗 모형

Probit model

통계학에서 프로빗 모형은 종속 변수가 결합 또는 결합되지 않은 두 값만 취할 수 있는 회귀 분석 유형입니다.이 단어는 portmanteau로, 확률 + [1]단위에서 유래했습니다.이 모형의 목적은 특정 특성을 가진 관측치가 특정 범주에 속할 확률을 추정하는 것입니다. 또한 예측 확률을 기반으로 관측치를 분류하는 것은 이항 분류 모델의 한 유형입니다.

프로빗 모형은 이항 반응 모형의 일반적인 규격입니다.이와 같이 유사한 기법을 사용한 로지스틱 회귀 분석과 동일한 문제 집합을 처리합니다.일반화된 선형 모델 프레임워크에서 볼 때, 프로빗 모델프로빗 [2]링크 함수를 사용합니다.이러한 추정을 프로빗 회귀 분석이라고 하는 최대우[3]절차를 사용하여 가장 자주 추정됩니다.

개념적 프레임워크

반응 변수 Y가 이항이라고 가정하면, 즉 1과 0으로 나타낼 있는 두 가지 결과만 가질 수 있습니다.예를 들어, Y는 특정 조건의 유무, 일부 디바이스의 성공/실패, 설문조사에 대한 예/아니오 등의 답변을 나타낼 수 있습니다.또한 결과 Y에 영향을 미치는 것으로 가정되는 회귀 X의 벡터도 있습니다.구체적으로, 우리는 모델이 다음과 같은 형태를 취한다고 가정한다.

여기서 Pr은 확률을 나타내며, δ는 표준 정규 분포의 누적분포함수(CDF)이다.매개변수 β는 일반적으로 최대우도로 추정한다.

프로빗 모델을 잠재적 변수 모델로 동기화할 수 있습니다.보조 랜덤 변수가 있다고 가정합니다.

여기서 ~ ~ N(0, 1)입니다.그러면 Y는 이 잠재 변수가 양수인지 여부를 나타내는 지표로 볼 수 있습니다.

평균에 고정량을 더하는 것은 절편에서 같은 양을 빼서 보상할 수 있고, 표준 편차에 고정량을 곱하는 것은 보상될 수 있기 때문에 표준 정규 분포를 사용하면 임의 평균과 표준 편차가 있는 정규 분포를 사용하는 것에 비해 일반성이 손실되지 않습니다.가중치에 동일한 양을 곱하여 계산한다.

두 모델이 동일한지 확인하려면

모델 추정

최대우도 추정

Suppose data set contains n independent statistical units corresponding to the model above.

단일 관측치의 경우, 해당 관측치의 입력 벡터에 따라 다음이 있다.

[검증 필요]

서 x i})는K ×(\ K1) 입력 이고 βK ×(\ K 1) 계수벡터입니다.

단일 관측치 i , i) { ( y { , x { } )의 가능성은 다음과 같습니다.

{1}이면( , ) ) { style { L} ( \ display \ ; y { } , { i } ) = \ ( _ { i} \ )

관측치는 독립적이고 동일하게 분포되어 있으므로 전체 표본의 우도 또는 결합 우도는 단일 관측치의 우도의 곱과 같습니다.

결합 로그 우도 함수는 다음과 같습니다.

E[XX]가 존재하고 단수가 아닌 경우 이 하는 βdisplaystyle {\ 일관되고 점근적으로 정상적이며 효율적입니다.이 로그 우도 함수는 전체적으로 β오목하므로 최적화를 위한 표준 수치 알고리즘은 고유한 최대값으로 빠르게 수렴된다.

점근 분포는 다음과 같다

어디에

{ = \ ' 표준 정규 분포의 확률 밀도 함수(PDF)입니다.

프로빗 유형 및 기타 관련 모델에 대한 반모수 및 비모수 최대우도 방법도 사용할 [4]수 있습니다.

버크슨의 최소 카이 제곱법

이 방법은 반응 }) 관측치가 많은 경우에만 적용할 수 있다('셀당 다수의 관측치'라고도 함).구체적으로는 다음과 같이 모델을 공식화할 수 있습니다.

n개의관측치 { i , n { \ { y { _ { i } \ { }^{ n i = 1 }^{ n } 중 { x() , ( ) { \ { x _ { ( } ) } , } , { } } } } 。x어서 나 정도)(t),{\displaystyle x_{나는}=x_{(t)},}과 r({\displaystyle r_{t}} 이러한 관찰의 나는 갈1{\displaystyle y_{나는}=1는 y규모를}. 우리는 실제로 각"세포"당" 많은"관찰:각 t동안,lim n→∞ nt/nxc t을 추정;0{\displaystyle t,\lim_{n.\ri 입니다.

나타내다

그러면 버크슨의 최소 카이 제곱 추정치는 x( -1 ( ^ ){\^ {-}}_ 회귀에서 일반화 최소 제곱 추정치이며, - 2 )} }}} {{t}}}이다

이 추정기는 일관성이 있고(n→solid T 고정), 점근적으로 정규적이며 [citation needed]효율적이라는 것을 보여줄 수 있다.이 방법의 장점은 추정기에 폐쇄형 공식이 있다는 것입니다.그러나 개별 관측치를 사용할 수 없는 경우에만 이 분석을 수행하는 것이 의미가 있습니다. t t{t x입니다(예: 투표 행동 분석).

깁스 샘플링

프로빗 모델의 깁스 표본 추출은 회귀 모형이 일반적으로 가중치에 대해 정규 사전 분포를 사용하고 이 분포는 오차(따라서 잠재 변수* Y)의 정규 분포와 결합하기 때문에 가능하다.모델은 다음과 같이 설명할 수 있습니다.

이를 통해 필요한 모든 조건부 밀도를 결정할 수 있습니다.

β에 대한 결과는 다른 표기법으로 명시되어 있지만 베이지안 선형 회귀에 대한 기사에 제시되어 있다.

유일한 속임수는 마지막 두 방정식에 있다. [ i < 0 i}^{\}< Iverson 괄호이며, I( i <0 ) { { } ( y { }^{ \} <0 ) } similar similar similar지정된 범위 내에서 분포를 잘라내고 적절한 크기를 조정해야 함을 나타냅니다.이 경우 잘린 정규 분포가 발생합니다.이 분포에서 표본 추출은 잘린 정도에 따라 달라집니다.원래 질량의 큰 부분이 남아 있는 경우 제거 샘플링으로 쉽게 표본을 추출할 수 있습니다. 즉, 절단되지 않은 분포에서 단순히 숫자를 추출하고 잘라내기 때문에 제한 범위를 벗어나면 표본을 추출할 수 있습니다.그러나 원래 질량의 극히 일부에서만 표본을 추출하는 경우(를 들어 x i{ '}}}})는 비효율적이며 음의 표본이 할 수 있다.다른 샘플링 알고리즘으로 돌아갑니다.잘린 법선으로부터의 일반 표본 추출은 정규 CDF 및 프로빗 함수에 대한 근사치를 사용하여 달성할 수 있으며, R은 함수를 가진다.rtnorm()잘린 정규 표본을 생성하는 데 사용됩니다.

모델 평가

추정된 이항 모형의 적합성은 1과 같은 참 관측치의 수와 0과 같은 숫자를 세어 평가할 수 있습니다. 이 경우 모형이 1/2(또는 1/2 이하) 이상의 추정 확률을 예측치의 할당으로 처리하여 올바른 예측 분류를 할당합니다.자세한 내용은 로지스틱 회귀 분석 § 모형 적합성을 참조하십시오.

사양에 어긋난 퍼포먼스

프로빗 모형의 잠재적 변수 모형 공식을 고려합니다.x x {\편차가 일정하지 않고x {\x에 의존하면 이질성 문제가 발생합니다.를 들어, y + 1 + { y^ { * } \ _ { } + _ {1 + \ ∣ ∣∣ ∣∣ ∣ ∣∣ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ for forvvvv ~ ~v for forvvvv for for for for for for for이형 탄성 하에서β에 프로빗는 일반적으로 일관성이 없으며 계수에 대한 대부분의 테스트는 무효이다.더 중요한 것은 P x 의 추정기mid x)})도 일관되지 않게 된다는 것입니다.이 문제를 해결하려면 원래 모델을 균질하게 변환해야 합니다.예를 들어, 동일한 예제에서 1[β 0+β 1x1+ε>0]{1[\beta_{0}일 경우 +\beta_{1}x_{1}+\varepsilon>0]\displaystyle}1[β 0/x1+β 1+ε/x1>0]{1[\beta_{0}일 경우 /x_{1}+\beta_{1}+\varepsilon /x_{1}>0]\displaystyle}, ε/x1∣ x번 국도 N(0,1)로 다시 쓸 수 있어{\displa x 따라서 ( x ) ( + / 1){ P \ x) =_ _{1 및 실행 인 프로빗( 1 / 1)({11}))은 조건부 P x에 대한 일관된 추정기를 (\P( 1\ x)

{ 정규 분포를 따른다는 가정이 유지되지 않으면 함수 형식의 규격 오류 문제가 발생합니다. 즉, 모델이 여전히 프로빗 모델로 추정될 경우 β { 추정치가 일관되지 않습니다.예를 들어,θ {(가) 실제 모델에서 로지스틱 분포를 따르지만 모델이 프로빗에 의해 추정되는 경우 추정치는 일반적으로 실제 값보다 작습니다.그러나, 부분 효과의 추정치 ( y x) / i \ \ x는 실제 로짓 [5]모델에 의해 주어진 추정치에 가깝기 때문에 계수 추정치의 불일치는 실질적으로 무관하다.

분포 지정 오류의 문제를 피하기 위해 오차항에 대한 일반 분포 가정을 채택할 수 있으며, 따라서 다양한 유형의 분포가 모형에 포함될 수 있다.파라미터의 [6]수를 증가시키기 위해 비용이 더 많이 들고 정확도가 더 낮습니다.실제로 분포 형식이 잘못 지정된 대부분의 경우 계수에 대한 추정치는 일관성이 없지만 조건부 확률과 부분 효과에 대한 추정치는 여전히 매우 [citation needed]우수합니다.

또한 지수 함수에 대한 파라메트릭 형식의 가정을 피하고 링크 함수(예: 프로빗 또는 [4]로짓) 선택에 강한 국소 우도 또는 비모수 준우도 방법을 통해 반모수 또는 비모수적 접근법을 취할 수 있다.

역사

프로빗 모델은 보통 1934년에 "[7]프로빗"이라는 용어를 만든 체스터 블리스와 초기 [8]작업을 체계화한 존 개덤(1933)의 공로를 인정받는다.그러나 기본 모델은 Fechner(1860)발표된 Gustav Fechner의 Weber-Fechner의 법칙으로 거슬러 : 도움말)은 1930년대까지 반복적으로 재발견되었다; Finney(1971년, 3.6장)와 Aitchison & Brown(1957년 1장 오류

프로빗 모델의 최대우도 추정치를 계산하는 빠른 방법은 1935년 [9]로널드 피셔에 의해 블리스의 연구의 부록으로 제안되었다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ 옥스퍼드 영어사전, 제3판 s.v. probit (2007년 6월호 기사): Bliss, C. I. (1934). "The Method of Probits". Science. 79 (2037): 38–39. Bibcode:1934Sci....79...38B. doi:10.1126/science.79.2037.38. PMID 17813446. These arbitrary probability units have been called ‘probits’.
  2. ^ Agresti, Alan (2015). Foundations of Linear and Generalized Linear Models. New York: Wiley. pp. 183–186. ISBN 978-1-118-73003-4.
  3. ^ Aldrich, John H.; Nelson, Forrest D.; Adler, E. Scott (1984). Linear Probability, Logit, and Probit Models. Sage. pp. 48–65. ISBN 0-8039-2133-0.
  4. ^ a b Park, Byeong U.; Simar, Léopold; Zelenyuk, Valentin (2017). "Nonparametric estimation of dynamic discrete choice models for time series data" (PDF). Computational Statistics & Data Analysis. 108: 97–120. doi:10.1016/j.csda.2016.10.024.
  5. ^ Green, W. H. (2003), 미국 뉴저지주, 어퍼 새들 리버, 프렌티스 홀, 에코메트릭 분석.
  6. ^ 자세한 내용은 Capé, O., Moulines, E. 및 Ryden, T.(2005)를 참조하십시오."숨겨진 마르코프 모델에서의 추론", 스프링거-발락 뉴욕, 2장.
  7. ^ Bliss, C. I. (1934). "The Method of Probits". Science. 79 (2037): 38–39. Bibcode:1934Sci....79...38B. doi:10.1126/science.79.2037.38. PMID 17813446.
  8. ^ a b 크래머 2002, 7페이지
  9. ^ Fisher, R. A. (1935). "The Case of Zero Survivors in Probit Assays". Annals of Applied Biology. 22: 164–165. doi:10.1111/j.1744-7348.1935.tb07713.x. Archived from the original on 2014-04-30.

추가 정보

외부 링크