포아송 회귀 분석

Poisson regression

통계학에서 포아송 회귀 분석은 카운트 데이터 분할표를 모형화하는 데 사용되는 일반화 선형 모형 형식입니다.포아송 회귀 분석에서는 반응 변수 Y에 포아송 분포가 있다고 가정하고 기대 값대수를 알 수 없는 모수의 선형 조합으로 모형화할 수 있다고 가정합니다.포아송 회귀 모형은 특히 분할표를 모형화하는 데 사용되는 경우 로그 선형 모형이라고도 합니다.

음의 이항 회귀 분석은 분산이 포아송 모형에 의해 만들어진 평균과 같다는 매우 제한적인 가정을 느슨하게 하기 때문에 포아송 회귀 분석의 일반적인 일반화입니다.기존의 음이항 회귀 모형은 포아송-감마 혼합물 분포를 기반으로 합니다.이 모형은 감마 분포를 사용하여 포아송 이질성을 모형화하기 때문에 인기가 있습니다.

포아송 회귀 모형은 로그를 (표준) 연결 함수로 사용하고 포아송 분포 함수를 반응의 가정된 확률 분포로 사용하는 일반화 선형 모형입니다.

회귀 모형

x R \ \ { x \ \ { { } 이 독립 변수의 벡터인 모델은 다음 형식을 취합니다.

\ {\ \ \ { { where where where where where where where where where where where where where where where where where where where where where where where where where where where where where where where wherewhere

여기서 x는 숫자 1에 연결된 n개의 독립 변수로 구성된 (n + 1)차원 벡터이다.여기서 δ간단히 β로 연결된다.

따라서 포아송 회귀 모형 θ와 입력 벡터 x가 주어진 경우 연관된 포아송 분포의 예측 평균은 다음과 같습니다.

Yi 예측 변수 i x에 해당하는 독립 관측치이면 최대우도θ를 추정할 수 있습니다.최대우도 추정치에는 닫힌 형식 식이 없으므로 숫자 방법으로 찾아야 합니다.최대우도 포아송 회귀를 위한 확률 표면은 항상 오목하므로 뉴턴-라프슨 또는 다른 경사 기반 방법이 적절한 추정 기법을 만든다.

최대우도 기반 모수 추정

모수 θ와 입력 벡터 x의 집합이 주어지면, 에서 설명한 바와 같이 예측된 포아송 분포의 평균은 다음과 같이 주어진다.

따라서, 포아송 분포의 확률 질량 함수는 다음과 같이 주어진다.

m 벡터 i n +, i , {\과 m 값 y_ldots가 있다고 가정합니다.이 특정 데이터 집합에서 주어지는 것은 다음과 같습니다.

최대우도법에 의해 이 확률을 가능한 한 크게 하는 파라미터의 집합을 찾고 싶다.이를 위해 방정식은 우선 θ관점에서 우도 함수로 다시 작성됩니다.

오른쪽 표현은 실제로 변경되지 않았습니다.이 형식의 공식은 일반적으로 사용하기 어렵습니다.대신 로그우도를 사용합니다.

파라미터 only는 합계의 각 항의 처음 두 항에만 표시됩니다.따라서 우리는 we에 대한 최적의 값을 찾는 것에만 관심이 있기 때문에 y!를i 빼고 그냥 쓸 수 있습니다.

최대값을 구하려면 닫힌 형태의 용액이 없는 ( X , ) ( \ \ \( \ \ X , Y ) } { \ \ } =)을 풀어야 합니다.단, 음의 로그우도- ( X,) { X은 볼록함수이므로 구배 강하 표준 볼록 최적화 기법을 적용하여 θ의 최적값을 구할 수 있다.

실제 포아송 회귀 분석

포아송 회귀 분석은 종속 변수가 카운트일 때 적합할 수 있습니다.[1] 예를 들어 콜 센터에 전화가 도착하는 것과 같은 사건입니다.하나의 호출이 도착한다고 해서 다른 호출의 가능성이 더 낮아지는 것은 아니지만, 이벤트의 단위 시간 당 확률은 하루 중 시간과 같은 공변량과 관련이 있는 것으로 이해됩니다.

"노출" 및 오프셋

포아송 회귀 분석은 비율 데이터에도 적합할 수 있으며, 여기서 속도는 사건 카운트를 해당 단위 노출의 일부 측정값(특정 관측 단위)으로 나눈 값이다.예를 들어, 생물학자들은 숲에 있는 나무 종의 수를 셀 수 있다: 사건은 나무 관찰, 노출은 단위 면적, 속도는 단위 면적당 종의 수이다.인구통계학자는 지리적 지역의 사망률을 인구연도로 나눈 사망자 수로 모델링할 수 있다.보다 일반적으로 이벤트 속도는 단위 시간당 이벤트로 계산될 수 있으며, 이를 통해 관측 창이 단위마다 달라질 수 있습니다.이러한 예에서 노출은 각각 단위 면적, 인년 및 단위 시간입니다.포아송 회귀 분석에서는 이 값이 간격띄우기로 처리됩니다.속도가 카운트/노출인 경우 방정식의 양쪽에 노출을 곱하면 방정식의 오른쪽으로 이동합니다.방정식의 양쪽이 기록되면 최종 모형에는 회귀 계수에 추가된 항으로 로그(노출)가 포함됩니다.이 로그 변수 log(exposure)는 오프셋 변수라고 불리며, 모수 추정치(log(exposure)가 1로 제한된 상태에서 방정식의 오른쪽에 들어갑니다.

그 의미는

RGLM의 경우 오프셋은 다음을 사용하여 얻을 수 있습니다.offset()기능:

glm(y ~ 오프셋(로그.(노출)) + x, 가족=포아송(링크=로그.) ) 

과잉 분산과 제로 인플레이션

포아송 분포의 특징은 평균이 분산과 같다는 것입니다.특정 상황에서는 관측된 분산이 평균보다 크며, 이를 과대산포라고 하며 모형이 적절하지 않음을 나타냅니다.일반적인 이유는 관련 설명 변수 또는 종속 관측치가 누락되었기 때문입니다.일부 상황에서는 [2][3]대신 준우도 추정이나 음의 이항 분포를 사용하여 과대산포 문제를 해결할 수 있습니다.

Ver Hoef와 Boveng은 준포아송(준우도를 가진 과분산이라고도 함)과 음이항(감마포아송과 동일)의 차이를 다음과 같이 설명했다.E(Y) = μ이면 준포아송 모형은 var(Y) = μ μ, 감마포아송 모형은 var(Y) = μ(1 + μ)로 가정하며 여기서 θ는 준포아송 과분산 모수이고 θ음이항 분포의 형상 모수이다.두 모형 모두에서 모수는 반복적 재가중 최소 제곱을 사용하여 추정됩니다.준포아송의 경우 가중치μ/µ입니다.음이항식의 경우 무게는 μ/(1 + µμ)입니다.큰 μ 상당한 추가 포아송 변동의 경우 음의 이항 가중치는 1/로 제한된다.Ver Hoef와 Boveng은 평균 잔차 제곱 대 [4]평균을 그림으로 표시하여 둘 중 하나를 선택한 예제에 대해 논의했습니다.

포아송 회귀 분석의 또 다른 일반적인 문제는 0을 초과하는 것입니다. 즉, 사건이 0인지 어떤지를 확인하는 공정이 두 개 있고 사건이 몇 개 있는지 결정하는 포아송 공정이 있는 경우 포아송 회귀 분석에서 예측되는 것보다 더 많은 0이 있을 것입니다.예를 들어, 일부 개인이 비흡연자인 그룹의 구성원들이 한 시간 동안 피운 담배의 분배가 있을 것이다.

이러한 경우에는 음이항 모형 또는 영팽창 모형과 같은 다른 일반화 선형 모형이 더 잘 작동할 수 있습니다.

반대로 과소 산포는 모수 [5]추정에 문제가 될 수 있다.

생존 분석에 사용

포아송 회귀 분석에서는 생존 분석의 한 클래스인 비례 위험 모형을 생성합니다. Cox 모형에 대한 설명은 비례 위험 모형을 참조하십시오.

내선번호

정규화된 포아송 회귀 분석

포아송 회귀 분석에 대한 모수를 추정할 때 일반적으로 형식의 표현 가능성을 최대화하는 that의 값을 찾으려고 합니다.

여기서 m은 데이터 세트의 예제 수입니다. ( ; e x ) }; e 평균이 e된 포아송 분포확률 질량 함수입니다. 이 최적화에수 있습니다.티드 최대화[6]

양의 상수\lambda 이 기술은 능선 회귀 분석과 유사하게 과적합을 줄일 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Greene, William H. (2003). Econometric Analysis (Fifth ed.). Prentice-Hall. pp. 740–752. ISBN 978-0130661890.
  2. ^ Paternoster R, Brame R (1997). "Multiple routes to delinquency? A test of developmental and general theories of crime". Criminology. 35: 45–84. doi:10.1111/j.1745-9125.1997.tb00870.x.
  3. ^ Berk R, MacDonald J (2008). "Overdispersion and Poisson regression". Journal of Quantitative Criminology. 24 (3): 269–284. doi:10.1007/s10940-008-9048-4.
  4. ^ Ver Hoef, JAY M.; Boveng, Peter L. (2007-01-01). "Quasi-Poisson vs. Negative Binomial Regression: How should we model overdispersed count data?". Ecology. 88 (11): 2766–2772. doi:10.1890/07-0043.1. Retrieved 2016-09-01.
  5. ^ Schwarzenegger, Rafael; Quigley, John; Walls, Lesley (23 November 2021). "Is eliciting dependency worth the effort? A study for the multivariate Poisson-Gamma probability model". Proceedings of the Institution of Mechanical Engineers, Part O: Journal of Risk and Reliability: 5. doi:10.1177/1748006X211059417.
  6. ^ Perperoglou, Aris (2011-09-08). "Fitting survival data with penalized Poisson regression". Statistical Methods & Applications. Springer Nature. 20 (4): 451–462. doi:10.1007/s10260-011-0172-1. ISSN 1618-2510.

추가 정보