비례 위험 모델

Proportional hazards model

비례 위험 모형은 통계에서 생존 모형의 한 종류입니다.생존 모형은 사건이 발생하기 전에 경과한 시간을 해당 시간과 연관될 수 있는 하나 이상의 공변량과 관련짓습니다.비례 위험 모델에서 공변량의 단위 증가의 고유한 효과는 위험률과 관련하여 곱셈된다.예를 들어, 약물을 복용하면 뇌졸중 발생 위험률이 절반으로 줄어들 수 있으며, 제조된 구성 요소가 만들어지는 재료를 변경하면 고장 위험률이 두 배로 증가할 수 있다.가속 수명 모형과 같은 다른 유형의 생존 모형은 비례적 위험을 나타내지 않습니다.가속 수명 모델은 사건의 생물학적 또는 기계적 수명 이력이 가속화(또는 감속)되는 상황을 설명합니다.

배경

생존 모델은 두 부분으로 구성된다고 볼 수 있다. ( t) \ \t로 표기되며, 공변량의 기준선 수준에서 시간 단위당 사건의 위험이 시간에 따라 어떻게 변화하는지를 설명하는 기본 기준선 위험 함수와 설명에 대응하여 어떻게 변화하는지를 설명하는 효과 매개 변수이다.ory 공변량.대표적인 의학적 예로는 변동성 및/또는 교란 요인을 통제하기 위해 치료 할당과 같은 공변량뿐만 아니라 연구 시작 시 연령, 성별, 연구 시작 시 다른 질환의 유무와 같은 환자 특성이 포함될 수 있다.

비례 위험[1] 조건은 공변량이 위험과 곱셈적으로 관련되어 있음을 나타낸다.예를 들어, 가장 단순한 정상 계수의 경우, 약물에 의한 치료는 기준 위험이 다른 반면, 주어진 t t\ tstyle t\"에서 피험자의 위험을 절반으로 줄일 수 있다.단, 이것은 피험자의 수명을 2배로 하는 것은 아닙니다.수명에 대한 공변량의 정확한 영향은 of ( _ {의 유형에 따라 달라집니다.공변량은 이진 예측 변수로 제한되지 않는다. 연속 x{\x의 경우 일반적으로 위험이 기하급수적으로 반응한다고 가정한다. x{\x}의 각 단위 증가는 위험의 비례적 스케일링을 초래한다.

콕스 모델

아래 표시된 Cox 부분우도는 기준선 위험 함수에 대한 Breslow의 추정치를 사용하여 전체 우도에 연결한 다음 결과가 두 가지 인자의 산물임을 관찰하여 구한다.첫 번째 요인은 다음과 같은 부분 우도로, 기준선 위험이 "취소"되었다.두 번째 요인은 회귀 계수가 없으며 관측 중단 패턴을 통해서만 데이터에 의존합니다.따라서 비례 위험 모델에 의해 추정된 공변량의 효과는 위험 비율로 보고될 수 있다.

데이비드 콕스 경은 비례 위험 가정이 유지(또는 유지한다고 가정)되면 위험 함수를 고려하지 않고 영향 매개변수를 추정할 수 있다고 관찰했다.생존 데이터에 대한 이러한 접근방식을 Cox 비례 위험 [2]모델의 적용이라고 하며, 때로는 Cox 모델 또는 비례 위험 모델로 축약되기도 한다.그러나 콕스는 비례 위험 가정에 대한 생물학적 해석은 [3][4]상당히 까다로울 수 있다고 지적했다.

Xi = (Xi1, …, Xip)과목 i에 대한 공변량의 실현값으로 합니다.Cox 비례 위험 모델에 대한 위험 함수는 다음과 같은 형태를 갖는다.

이 식은 공변량 벡터(설명i 변수) X가 있는 대상 i에 대한 시간 t의 위험 함수를 제공합니다.

Y에서i 대상 i에 대해 사건이 발생할 가능성은 다음과 같이 쓸 수 있다.

여기서 θj = exp(Xj β)이며, 합계는 시간 Yi 이전에 사건이 발생하지 않은 대상 j(대상 i 자체를 포함)에 대한 것이다.명백하게 0i < L(β) 1 1. 이것은 부분 우도이다. 공변량의 효과는 시간에 따른 위험의 변화를 모델링할 필요 없이 추정할 수 있다.

피험자를 서로 통계적으로 독립한 것처럼 취급할 때, 실현된[5] 모든 사건의 공동 확률은 다음과 같은 부분 우도이며, 여기서 사건의 발생은 C = 1로 나타난다i.

대응하는 로그 부분 우도는 다음과 같습니다.

이 함수는 모델 모수의 최대 부분우도 추정치를 생성하기 위해 β보다 최대화할 수 있다.

부분 점수 함수는

부분 로그 가능성의 헤시안 행렬은

이 점수 함수와 헤시안 행렬을 사용하여 뉴턴-라프슨 알고리즘을 사용하여 부분 우도를 최대화할 수 있습니다.β의 추정치로 평가된 헤시안 행렬의 역행렬은 추정에 대한 근사 분산-공분산 행렬로 사용할 수 있으며 회귀 계수에 대한 근사 표준 오차를 생성하는 데 사용할 수 있다.

동점 시간

시간 데이터에 연관성이 있는 상황을 처리하기 위해 몇 가지 접근법이 제안되었다.브레슬로우의 방법은 위에서 설명한 절차를 수정하지 않고 사용하는 접근방식을 기술하고 있으며, 동점이 존재하는 경우에도 마찬가지입니다.Efron의 [6]방법이 더 나은 결과를 가져올 것으로 생각되는 대안적 접근법입니다.tj 고유 시간을 나타내고, Hj Y = tjCi = 1인 지수i i 집합을 나타내며, mj = H로 한다j. Efron의 접근방식은 다음과 같은 부분 우도를 최대화한다.

대응하는 로그 부분 우도는 다음과 같습니다.

점수 함수는

헤시안 행렬은

어디에

H가 비어 있으면j(시간j t인 모든 관측치가 관측 중단됨), 이러한 식에서 합계는 0으로 처리됩니다.

시간 가변 예측 변수 및 계수

시간 의존 변수, 시간 의존 계층 및 피험자당 다중 사건에 대한 확장은 Andersen과 [7]Gill의 계수 프로세스 공식에 의해 통합될 수 있다.시간 가변 퇴행자와 함께 위험 모델을 사용하는 한 가지 예는 실업 [8][9]주문에 대한 실업 보험의 효과를 추정하는 것이다.

Cox 모델은 시간 가변 공변량(예: 예측 변수)을 허용하는 것 외에도 시간 가변 계수로 일반화될 수 있습니다.즉, 치료의 비례 효과는 시간에 따라 달라질 수 있다. 예를 들어, 약물은 질병 발생 후 1개월 이내에 투여하면 매우 효과적일 수 있으며 시간이 지날수록 효과가 떨어질 수 있다.그런 다음 계수의 시간(정지성)에 따른 변화가 없다는 가설을 검정할 수 있습니다.상세 및 소프트웨어(R 패키지)는 Martinussen 및 Scheike(2006)[10][11]에서 이용할 수 있습니다.

이러한 맥락에서, 추가 위험을 사용하여 [12]공변량의 효과를 특정하는 것이 이론적으로 가능하다는 것도 언급될 수 있다.

(log-)우도 극대화가 목표인 상황에서 그러한 추가 위험 모델을 사용하는 경우, X X_ 음이 아닌 값으로 제한하도록 주의해야 한다.아마도 이러한 복잡성의 결과로서, 그러한 모델은 거의 볼 수 없습니다.대신 목적이 최소 제곱인 경우 비음수성 제한은 엄격히 필요하지 않습니다.

기준선 위험 함수 지정

기준선 위험이 특정 형식을 따른다고 가정하는 이유가 존재하는 경우 Cox 모델을 전문화할 수 있다.이 경우 기준선 0 ( ){ _)}은 주어진 함수로 대체된다.예를 들어, 위험 함수를 Weibull 위험 함수로 가정하면 Weibull 비례 위험 모델이 제공된다.

참고로 와이불 기준선 위험의 사용은 모델이 비례 위험과 가속 수명 모델을 모두 만족하는 유일한 환경이다.

일반 용어 파라메트릭 비례 위험 모델을 사용하여 위험 함수가 지정된 비례 위험 모델을 설명할 수 있다.반대로 Cox 비례 위험 모델은 반파라메트릭 모델이라고 불리기도 한다.

일부 저자는 기초 위험 함수를 지정할 때에도 데이비드 콕스에 대한 전체 분야의 부채를 [13]인정하기 위해 콕스 비례 위험 모델이라는 용어를 사용한다.

콕스 회귀 모형(비례 위험 제외)이라는 용어는 시간 의존적 요인을 포함하기 위한 콕스 모델의 확장을 설명하는 데 사용되기도 한다.그러나 콕스 비례 위험 모델 자체가 회귀 모델로 설명될 수 있기 때문에 이 용도는 잠재적으로 모호하다.

포아송 모형과의 관계

비례 위험 모델과 포아송 회귀 분석 모델 사이에는 관계가 있으며, 포아송 회귀 분석을 위한 소프트웨어의 근사 비례 위험 모델을 적합시키는 데 사용되기도 한다.이렇게 하는 일반적인 이유는 계산이 훨씬 빠르기 때문입니다.이것은 느린 컴퓨터 시절에는 더 중요했지만, 특히 큰 데이터 세트나 복잡한 문제에 여전히 유용할 수 있습니다.Laird와 Olivier(1981)[14]는 수학적 세부사항을 제공한다.그들은 "우리는 [포아송 모델]이 사실이라고 가정하지 않고 단순히 가능성을 도출하기 위한 장치로 사용한다"고 지적한다. McCullagh와 Nelder의 일반화[15] 선형 모델에 대한 책은 비례 위험 모델을 일반화 선형 모델로 변환하는 장을 가지고 있다.

고차원 설정 시

고차원에서 공변량 p의 수가 표본 크기 n에 비해 클 경우, LASSO 방법은 전통적인 모형 선택 전략 중 하나입니다.Tibshirani(1997)는 비례 위험 회귀 [16]매개변수에 대한 Lasso 절차를 제안했다.회귀 모수 β의 Lasso 추정기는 L-norm1 유형 제약 조건 하에서 Cox 부분 로그 우도의 반대 최소치로 정의된다.

최근에 [17][18][19][20]이 주제에 대해 이론적인 진전이 있었다.

「 」를 참조해 주세요.

메모들

  1. ^ Breslow, N. E. (1975). "Analysis of Survival Data under the Proportional Hazards Model". International Statistical Review / Revue Internationale de Statistique. 43 (1): 45–57. doi:10.2307/1402659. JSTOR 1402659.
  2. ^ Cox, David R (1972). "Regression Models and Life-Tables". Journal of the Royal Statistical Society, Series B. 34 (2): 187–220. JSTOR 2985181. MR 0341758.
  3. ^ Reid, N. (1994). "A Conversation with Sir David Cox". Statistical Science. 9 (3): 439–455. doi:10.1214/ss/1177010394.
  4. ^ Cox, D. R. (1997). Some remarks on the analysis of survival data. the First Seattle Symposium of Biostatistics: Survival Analysis.
  5. ^ "각 고장은 우도 함수에 기여한다", Cox(1972), 191페이지.
  6. ^ Efron, Bradley (1974). "The Efficiency of Cox's Likelihood Function for Censored Data". Journal of the American Statistical Association. 72 (359): 557–565. doi:10.1080/01621459.1977.10480613. JSTOR 2286217.
  7. ^ Andersen, P.; Gill, R. (1982). "Cox's regression model for counting processes, a large sample study". Annals of Statistics. 10 (4): 1100–1120. doi:10.1214/aos/1176345976. JSTOR 2240714.
  8. ^ Meyer, B. D. (1990). "Unemployment Insurance and Unemployment Spells" (PDF). Econometrica. 58 (4): 757–782. doi:10.2307/2938349. JSTOR 2938349.
  9. ^ Bover, O.; Arellano, M.; Bentolila, S. (2002). "Unemployment Duration, Benefit Duration, and the Business Cycle" (PDF). The Economic Journal. 112 (479): 223–265. doi:10.1111/1468-0297.00034.
  10. ^ Martinussen; Scheike (2006). Dynamic Regression Models for Survival Data. Springer. doi:10.1007/0-387-33960-4. ISBN 978-0-387-20274-7.
  11. ^ "timereg: Flexible Regression Models for Survival Data". CRAN.
  12. ^ Cox, D. R. (1997). Some remarks on the analysis of survival data. the First Seattle Symposium of Biostatistics: Survival Analysis.
  13. ^ Bender, R.; Augustin, T.; Blettner, M. (2006). "Generating survival times to simulate Cox proportional hazards models". Statistics in Medicine. 24 (11): 1713–1723. doi:10.1002/sim.2369. PMID 16680804.
  14. ^ Nan Laird and Donald Olivier (1981). "Covariance Analysis of Censored Survival Data Using Log-Linear Analysis Techniques". Journal of the American Statistical Association. 76 (374): 231–240. doi:10.2307/2287816. JSTOR 2287816.
  15. ^ P. McCullagh and J. A. Nelder (2000). "Chapter 13: Models for Survival Data". Generalized Linear Models (Second ed.). Boca Raton, Florida: Chapman & Hall/CRC. ISBN 978-0-412-31760-6. (1989년 제2판, 1999년 제1회 CRC 전재)
  16. ^ Tibshirani, R. (1997). "The Lasso method for variable selection in the Cox model". Statistics in Medicine. 16 (4): 385–395. CiteSeerX 10.1.1.411.8024. doi:10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3.
  17. ^ Bradić, J.; Fan, J.; Jiang, J. (2011). "Regularization for Cox's proportional hazards model with NP-dimensionality". Annals of Statistics. 39 (6): 3092–3120. arXiv:1010.5233. doi:10.1214/11-AOS911. PMC 3468162. PMID 23066171.
  18. ^ Bradić, J.; Song, R. (2015). "Structured Estimation in Nonparametric Cox Model". Electronic Journal of Statistics. 9 (1): 492–534. arXiv:1207.4510. doi:10.1214/15-EJS1004.
  19. ^ Kong, S.; Nan, B. (2014). "Non-asymptotic oracle inequalities for the high-dimensional Cox regression via Lasso". Statistica Sinica. 24 (1): 25–42. arXiv:1204.1992. doi:10.5705/ss.2012.240. PMC 3916829. PMID 24516328.
  20. ^ Huang, J.; Sun, T.; Ying, Z.; Yu, Y.; Zhang, C. H. (2011). "Oracle inequalities for the lasso in the Cox model". The Annals of Statistics. 41 (3): 1142–1165. arXiv:1306.4847. doi:10.1214/13-AOS1098. PMC 3786146. PMID 24086091.

레퍼런스