카플란-마이어 추정기
Kaplan–Meier estimator
Kaplan-Meier 추정량은 수명 데이터에서 생존 [1][2]함수를 추정하는 데 사용되는 비모수 통계량입니다. 의학 연구에서는 치료 후 일정 시간 동안 생활하는 환자의 비율을 측정할 때 많이 사용됩니다. 다른 분야에서는 Kaplan-Meier 추정기를 사용하여 사람들이 실직 후 실업 상태로 있는 기간,[3] 기계 부품의 고장까지의 시간 또는 살이 많은 과일이 검소한 사람들에 의해 제거되기 전에 식물에 남아 있는 기간을 측정할 수 있습니다. 추정기의 이름은 Edward L. Kaplan과 Paul Meier의 이름을 따서 지어졌습니다. 그들은 각각 미국 통계 협회 저널에 비슷한 원고를 제출했습니다.[4] 저널 편집자 존 투키(John Tukey)는 그들의 작업을 하나의 논문으로 결합할 것을 설득했는데, 1958년 출판된 이후 61,800회 이상 인용되었습니다.[5][6]
생존 함수 수명이 보다 길 확률의 추정기는 다음과 같습니다.
{\ 시간에 적어도 하나의 이벤트가 발생한 시간에i 시간에 발생한 이벤트(예: 사망)의 수 n 에서 까지 생존한 것으로 알려진 개인 (아직 이벤트가 없거나 검열됨
기본개념
Kaplan-Meier 추정기의 도표는 충분히 큰 표본 크기로 해당 모집단의 실제 생존 함수에 접근하는 일련의 감소하는 수평 단계입니다. 연속적인 서로 다른 표본 관측치("클릭") 사이의 생존 함수 값은 일정하다고 가정합니다.
Kaplan-Meier 곡선의 중요한 이점은 이 방법이 일부 유형의 검열된 데이터, 특히 오른쪽 검열을 고려할 수 있다는 것입니다. 이 데이터는 환자가 연구에서 탈퇴하거나 추적 관찰을 위해 손실되거나 마지막 추적에서 이벤트가 발생하지 않고 살아있을 경우 발생합니다. 그림에서 작은 수직 눈금 표시는 생존 시간이 오른쪽으로 관측 중단된 개별 환자를 나타냅니다. 절단 또는 절단이 발생하지 않을 때 카플란-마이어 곡선은 경험적 분포 함수의 여집합입니다.
의료 통계에서 일반적인 응용 프로그램은 예를 들어, 유전자 A 프로필을 가진 환자와 유전자 B 프로필을 가진 환자를 범주로 그룹화하는 것을 포함할 수 있습니다. 그래프에서 B 유전자를 가진 환자는 A 유전자를 가진 환자보다 훨씬 빨리 사망합니다. 2년이 지나면 A 유전자 환자의 약 80%가 생존하지만, B 유전자 환자는 절반도 안 됩니다.
Kaplan-Meier 추정기를 생성하려면 각 환자(또는 각 피험자)에 대해 마지막 관찰 시 상태(이벤트 발생 또는 오른쪽 관측 중단) 및 이벤트 발생 시간(또는 관측 중단 시간)의 두 가지 이상의 데이터가 필요합니다. 두 개 이상의 그룹 간의 생존 함수를 비교하려면 각 피험자의 그룹 할당이라는 세 번째 데이터가 필요합니다.[7]
문제정의
τ ≥ {\displaystyle \tau \ 0}을 랜덤 변수라고 가정합니다. 이 변수를 가능한 노출 기간의 시작 시간인 t 0 {\displaystyle t_{0}과 관심 있는 이벤트가 발생하는 시간인 t 1 {\displaystyle t_{1} 사이의 시간으로 생각합니다. 위에 표시된 것처럼, 목표는τdisplaystyle\tau}의 기본 생존 함수 를 추정하는 것입니다. 이 함수는 다음과 같이 정의됩니다.
- > t) {\displaystyle (toperatorname {Pro\tau > t)}, 여기서 t = 0, 1, … {\displaystyl t = 0,ots }는 시간입니다.
τ, …, τ n ≥ 0 {\displaystyle \tau_{1},\dots,\tau_{n}\geq 0}이 독립적이고 동일하게 분포된 랜덤 변수이며, 공통 분포는 τ {\displaystyle \tau}입니다. τ j {\displaystyle \tau_{j}는 일부 이벤트 j {\displaystyle j}가 발생한 랜덤 시간입니다. The data available for estimating is not , but the list of pairs where for , is a fixed, deterministic integer, the censoring time of event and . In particular, 이벤트 j의 타이밍에 대해 사용할 수 있는 정보는 가 고정시간 c j {\ c_ 이전에 발생했는지 여부이며, 발생한 경우 이벤트의 실제 시간도 사용할 수 있습니다. 문제는 데이터에서 S( S를 추정하는 것입니다.
Kaplan-Meier 추정량의 유도
여기서 저희는 Kaplan-Meier 추정기의 두 가지 유도를 보여줍니다. 둘 다 때때로 위험 또는 사망률이라고 불리는 측면에서 생존 함수를 다시 작성하는 것을 기반으로 합니다. 그러나 이 작업을 수행하기 전에 순진한 추정기를 고려할 가치가 있습니다.
순진한 추정기
Kaplan-Meier 추정기의 검정력을 이해하기 위해서는 먼저 생존 함수의 순진한 추정기를 설명하는 것이 가치가 있습니다.
∈[n= {, …, n} {\displaystyle in [n]:\{1,\n\}이고t> 0 {\t>0}입니다. 인 논법은 다음 명제가 성립함을 보여줍니다.
- Proposition 1: If the censoring time of event exceeds (), then if and only if .
를 ≥ {\geq t}이라고 하자. 위 명제로부터 다음과 같은 것이 나옵니다.
= I(τ ~ k ≥ t) {\displaystyle X_{k}=\mathbb {I}({\tilde {\tau }_{k}\geq t)}라고 하고 해당 k ∈ Ct) : = { 1 ≤ k ≤ n : c k ≥ t} {\displaystyle k\in C(t):\{1\ t 즉 시간 t이전에 결과가 검열되지 않은 이벤트입니다. m C) {\ m) C(t)}를 C(t) {\displaystyle C(t)}의 요소 수라고 합니다. 집합 ( 는 랜덤이 아니므로 ( 도 아닙니다 또한( k ∈ C(t) {\})in C(t))}는 독립적인, 공통 S)= Prob (τ ≥ t) {\displaystyle S(t)=\operatorname {Prob}(\tau \geq t)}를 사용하여 동일하게 분포된 Bernoulli 랜덤 변수입니다. m(t) > 0 {\displaystyle m(t) > 0}이라고 가정하면, 이는 S(t) {\displaystyle S(t)}를 사용하여 추정할 것을 제안합니다.
τ ~k ≥ {\displaystyle {\tilde {\tau }_{k}\geq t}가 ck ≥ t {\displaystyle c_{k}\geq t}를 의미하기 때문에 두 번째 동일성이 뒤따르는 경우, 마지막 동일성은 단순히 표기법의 변경입니다.
이 추정치의 품질은 의 크기에 따라 결정됩니다 문제는 m m이 (가) 작을 때 발생할 수 있으며, 정의에 따라 많은 이벤트가 검열될 때 발생합니다. 이 추정기가 "최상의" 추정기가 아닐 수도 있음을 시사하는 특히 불쾌한 특성은 관측 중단 이 {\보다 앞선 관측치를 모두 무시한다는 것입니다 직관적으로 이러한 관측치에는 S 에 대한 정보가 포함되어 있습니다 예를 들어, < τ ~ k< ck}<c_{k}가 있는 많은 이벤트의 경우 이벤트가 조기에 발생하는 경우가 많음을 추론할 수 있으며 이는 ( ≤ {Prob}(\tau \leq t)}가 큰 = 1-Probτ ≤ t) S(t) = 1-\operatorname {Prob}(\leq t)}까지는 S(t) {\displaystyle S(t)}가 작아야 합니다. 그러나 이 순진한 추정기는 이 정보를 무시합니다. 그러면 문제는 모든 데이터를 더 잘 활용하는 추정량이 있는지 여부입니다. 이것은 Kaplan-Meier 추정기가 달성하는 것입니다. 나이브 추정기는 관측 중단이 발생하지 않을 때는 개선할 수 없습니다. 따라서 개선 가능 여부는 관측 중단 여부에 결정적으로 달려 있습니다.
플러그인 방식
기본적인 계산으로는
여기서 두 번째부터 마지막까지 동일하게 사용된τ tau }은 정수 값이며 마지막으로 도입한 행에 대해서는
등식 = S(t - 1) {\displaystyle S(t) = q(t)S(t-1)}의 재귀적 확장에 의해, 우리는
여기서 ( = 1-Probτ = 0 ∣ τ > - 1) = 1 - Prob (τ = 0) {\displaystyle q(0) = 1-\operatorname {Prob}(\tau = 0\mid \tau > - 1) = 1-\operatorname {Prob}(\tau = 0)입니다.
Kaplan-Meier 추정기는 데이터를 기반으로 ) {\ q를 추정하고 의곱으로 S( {\ S(t)}의 추정기를 얻는 "플러그인 추정기"로 볼 수 있습니다.
(s= 1 - τ = s ∣ τ ≥) {\displaystyle q(s) = 1-\operatorname {Prob}(\tau = s\mid \tau \geq s)}를 추정하는 방법은 아직 지정되지 않았습니다. 명제 1에 의해 의 ∈ [n] in [n]에 ≥ {\ c_{k}\geqs}에 대하여, s)= (τ k = s) \ {Protu s)=\operatorname {Prob}({\tildtau }{k}=s)} 및 로(τ ≥s) = 로 (τ k ≥ s) {\displaystyle \operatorname {Pro\tau \ge s)=\operatorname {Prob}({\tildtau }_{k}\geq s)} 둘 다 유지됩니다. 따라서 ∈ {\c_geqs}인 의k ≥ [n] {\ k\in [n]에 대하여,
위의 순진한 추정기의 구성으로 이어지는 유사한 추론에 의해 추정기에 도달합니다.
("hazard 속도"Probτ = s τ ≥)의 정의에서 분자와 분모를 개별적으로 추정하는 것을 생각합니다. {\displaystyle\operatorname {Prob}(\tau = s \tau \geq s)}). 그런 다음 Kaplan-Meier 추정기는 다음과 같이 표시됩니다.
기사의 시작 부분에 명시된 추정기의 형태는 몇 가지 추가 대수를 통해 얻을 수 있습니다. For this, write where, using the actuarial science terminology, is the number of known deaths at time , ={1 ≤ ≤ n : τ~ k ≥ s} {\displaystyle n(s) = \{1\leq k\leq n\,:\,{\tilde {\k}}_{tau }\geq s\}는 s - 1 {\style s-1}에서 살아 있는 사람의 수입니다.
Note that if , . This implies that we can leave out from the product defining all those terms where . Then, letting be the times when , and , 기사의 첫머리에 주어진 Kaplan-Meier 추정기의 형태에 도달합니다.
순진한 추정기와 달리 이 추정기는 사용 가능한 정보를 더 효과적으로 사용할 수 있습니다. 사전에 언급한 특수한 경우, 초기 사건이 많이 기록된 경우, 추정기는 1보다 작은 값으로 여러 항을 곱하기 때문에 생존 확률이 클 수 없다는 점을 고려합니다.
최대우도 추정기로서의 유도
카플란-마이어 추정기는 이산 위험 함수의 최대 가능성 추정으로부터 유도될 수 있습니다.[8][self-published source?] 보다 구체적으로 를 이벤트 횟수로, 를 에 위험에 처한 총 개인 수 이산 위험률 는 에 사건이 발생할 확률로 정의할 수 있습니다 생존율은 다음과 같이 정의할 수 있습니다.
까지의 위험 함수에 대한 우도 함수는 다음과 같습니다.
따라서 로그 가능성은 다음과 같습니다.
수율에 대한 최대 로그 가능성 찾기:
여기서 hat은 최대 우도 추정을 나타내는 데 사용됩니다. 이 결과를 고려하면 다음과 같이 쓸 수 있습니다.
보다 일반적으로 (연속 및 이산 생존 분포의 경우) Kaplan-Meier 추정기는 비모수 최대 우도 추정기로 해석될 수 있습니다.[9]
이점 및 제한 사항
Kaplan-Meier 추정기는 가장 자주 사용되는 생존 분석 방법 중 하나입니다. 이 추정치는 회복률, 사망 확률 및 치료 효과를 조사하는 데 유용할 수 있습니다. 공변량에 대해 조정된 생존을 추정하는 능력에는 제한이 있습니다. 모수 생존 모델과 Cox 비례 위험 모델은 공변량 조정 생존을 추정하는 데 유용할 수 있습니다.
Kaplan-Meier 추정량은 Nelson-Aalen 추정량과 직접적인 관련이 있으며 둘 다 경험적 가능성을 최대화합니다.[10]
통계적 고려사항
Kaplan-Meier 추정량은 통계량이며 여러 추정량을 사용하여 분산을 근사화합니다. 가장 일반적인 추정치 중 하나는 Greenwood의 공식입니다.[11]
서 는 사례 수이고 는< 에 대한 총 관찰 수입니다
Greenwood의 공식은 의 사례에서 고장 이 hi{\h_}인 이항 분포를 따른다는 점에 주목하여 유도됩니다[12][self-published source?] As a result for maximum likelihood hazard rate we have and {_{i}\) n_i}입니다. 곱셈 확률을 처리하지 않기 위해 ){S}(t)}의로그 분산을 계산하고 델타 방법을 사용하여 원래 분산으로 다시 변환합니다.
마팅게일 중심 극한 정리를 사용하면 다음 식에서 합의 분산이 분산의 합과 같다는 것을 알 수 있습니다.[12]
결과적으로 다음과 같이 쓸 수 있습니다.
델타 방법을 다시 사용합니다.
뜻대로
경우에 따라 서로 다른 Kaplan-Meier 곡선을 비교하려고 할 수 있습니다. 이는 로그 순위 테스트 및 콕스 비례 위험 테스트를 통해 수행할 수 있습니다.
이 추정기에 사용할 수 있는 다른 통계량은 점별 신뢰 구간,[13] 홀-웰너 밴드[14] 및 등정밀 밴드입니다.[15]
소프트웨어
- Mathematica: 내장 함수
SurvivalModelFit
생존 모델을 만듭니다.[16] - SAS: Kaplan-Meier 추정기는 에 구현됩니다.
proc lifetest
수속[17] - R: Kaplan-Meier 추정기는 다음의 일부로 사용할 수 있습니다.
survival
꾸러미의[18][19][20] - Stata: 명령어
sts
Kaplan-Meier 추정기를 반환합니다.[21][22] - 파이썬: 더
lifelines
그리고.scikit-survival
패키지에는 각각 Kaplan-Meier 추정기가 포함됩니다.[23][24] - 매트랩:
ecdf
와 함께 기능하는'function','survivor'
인수는 Kaplan-Meier 추정량을 계산하거나 플롯할 수 있습니다.[25] - 통계 직접: Kaplan-Meier 추정기는 다음과 같이 구현됩니다.
Survival Analysis
메뉴판[26] - SPSS: Kaplan-Meier 추정기는 다음과 같이 구현됩니다.
Analyze > Survival > Kaplan-Meier...
메뉴판[27] - 줄리아: 더
Survival.jl
패키지에는 Kaplan-Meier 추정기가 포함됩니다.[28] - Epi Info: Kaplan-Meier 추정기 생존 곡선과 로그 순위 테스트의 결과는 다음을 통해 얻을 수 있습니다.
KMSURVIVAL
지휘권을 [29]쥔
참고 항목
참고문헌
- ^ Kaplan, E. L.; Meier, P. (1958). "Nonparametric estimation from incomplete observations". J. Amer. Statist. Assoc. 53 (282): 457–481. doi:10.2307/2281868. JSTOR 2281868.
- ^ 캐플런, E.L. "이번 주 인용 고전"에서 신간 논문에 대한 회고에서. Current Contents 24, 14 (1983). 유펜에서 PDF로 제공됩니다.
- ^ Meyer, Bruce D. (1990). "Unemployment Insurance and Unemployment Spells" (PDF). Econometrica. 58 (4): 757–782. doi:10.2307/2938349. JSTOR 2938349. S2CID 154632727.
- ^ Stalpers, Lukas J A; Kaplan, Edward L (May 4, 2018). "Edward L. Kaplan and the Kaplan-Meier Survival Curve". BSHM Bulletin: Journal of the British Society for the History of Mathematics. 33 (2): 109–135. doi:10.1080/17498430.2018.1450055. S2CID 125941631.
- ^ Kaplan, E. L.; Meier, Paul (1958). "Nonparametric Estimation from Incomplete Observations". Journal of the American Statistical Association. 53 (282): 457–481. doi:10.1080/01621459.1958.10501452. Retrieved February 27, 2023.
- ^ "Paul Meier, 1924–2011". Chicago Tribune. August 18, 2011.
- ^ Rich, Jason T.; Neely, J. Gail; Paniello, Randal C.; Voelker, Courtney C. J.; Nussenbaum, Brian; Wang, Eric W. (September 2010). "A practical guide to understanding Kaplan-Meier curves". Otolaryngology–Head and Neck Surgery. 143 (3): 331–336. doi:10.1016/j.otohns.2010.05.007. PMC 3932959. PMID 20723767.
- ^ "STAT331 Unit 3" (PDF). Retrieved May 12, 2023.
- ^ Andersen, Per Kragh; Borgan, Ornulf; Gill, Richard D.; Keiding, Niels (1993). Statistical models based on counting processes. New York: Springer-Verlag. ISBN 0-387-97872-0.
- ^ Zhou, M. (2015). 생존 분석에서의 경험적 가능성 방법(1sted. 채프먼과 홀/CRC. https://doi.org/10.1201/b18598, https://books.google.com/books?id=9-b5CQAAQBAJ&dq=Does+the+Nelson%E2%80%93Aalen+estimator+construct+an+empirical+likelihood%3F&pg=PA7
- ^ Greenwood, Major (1926). A report on the natural duration of cancer. Issue 33 of Reports on public health and medical subjects. HMSO. OCLC 14713088.
- ^ a b "The Greenwood and Exponential Greenwood Confidence Intervals in Survival Analysis" (PDF). Retrieved May 12, 2023.
- ^ Fay, Michael P.; Brittain, Erica H.; Proschan, Michael A. (September 1, 2013). "Pointwise confidence intervals for a survival distribution with small samples or heavy censoring". Biostatistics. 14 (4): 723–736. doi:10.1093/biostatistics/kxt016. PMC 3769999. PMID 23632624.
- ^ Hall, W. J.; Wellner, Jon A. (1980). "Confidence bands for a survival curve from censored data". Biometrika. 67 (1): 133–143. doi:10.1093/biomet/67.1.133.
- ^ Nair, Vijayan N. (August 1984). "Confidence Bands for Survival Functions With Censored Data: A Comparative Study". Technometrics. 26 (3): 265–275. doi:10.1080/00401706.1984.10487964.
- ^ "Survival Analysis – Mathematica SurvivalModelFit". wolfram.com. Retrieved August 14, 2017.
- ^ "SAS/STAT(R) 14.1 User's Guide". support.sas.com. Retrieved May 12, 2023.
- ^ Therneau, Terry M. (August 9, 2022). "survival: Survival Analysis". The Comprehensive R Archive Network. Retrieved November 30, 2022.
- ^ Willekens, Frans (2014). "Statistical Packages for Multistate Life History Analysis". Multistate Analysis of Life Histories with R. Use R!. Springer. pp. 135–153. doi:10.1007/978-3-319-08383-4_6. ISBN 978-3-319-08383-4.
- ^ Chen, Ding-Geng; Peace, Karl E. (2014). Clinical Trial Data Analysis Using R. CRC Press. pp. 99–108. ISBN 9781439840214.
- ^ "sts — Generate, graph, list, and test the survivor and cumulative hazard functions" (PDF). Stata Manual.
- ^ Cleves, Mario (2008). An Introduction to Survival Analysis Using Stata (Second ed.). College Station: Stata Press. pp. 93–107. ISBN 978-1-59718-041-2.
- ^ "lifelines — lifelines 0.27.7 documentation". lifelines.readthedocs.io. Retrieved May 12, 2023.
- ^ "sksurv.nonparametric.kaplan_meier_estimator — scikit-survival 0.20.0". scikit-survival.readthedocs.io. Retrieved May 12, 2023.
- ^ "Empirical cumulative distribution function – MATLAB ecdf". mathworks.com. Retrieved June 16, 2016.
- ^ "Kaplan-Meier Survival Estimates". statsdirect.co.uk. Retrieved May 12, 2023.
- ^ "Kaplan-Meier method in SPSS Statistics Laerd Statistics".
- ^ "Kaplan-Meier · Survival.jl".
- ^ "Epi Info™ User Guide - Command Reference - Analysis Commands: KMSURVIVAL". Retrieved October 30, 2023.
더보기
- Aalen, Odd; Borgan, Ornulf; Gjessing, Hakon (2008). Survival and Event History Analysis: A Process Point of View. Springer. pp. 90–104. ISBN 978-0-387-68560-1.
- Greene, William H. (2012). "Nonparametric and Semiparametric Approaches". Econometric Analysis (Seventh ed.). Prentice-Hall. pp. 909–912. ISBN 978-0-273-75356-8.
- Jones, Andrew M.; Rice, Nigel; D'Uva, Teresa Bago; Balia, Silvia (2013). "Duration Data". Applied Health Economics. London: Routledge. pp. 139–181. ISBN 978-0-415-67682-3.
- Singer, Judith B.; Willett, John B. (2003). Applied Longitudinal Data Analysis: Modeling Change and Event Occurrence. New York: Oxford University Press. pp. 483–487. ISBN 0-19-515296-4.
외부 링크
- Dunn, Steve (2002). "Survival Curves: Accrual and The Kaplan–Meier Estimate". Cancer Guide. Statistics.
- 유튜브의 세 가지 진화하는 Kaplan-Meier 곡선