서바이벌
Survival function생존 함수는 환자, 장치 또는 기타 관심 대상이 특정 [1]시간 이후에도 생존할 확률을 제공하는 함수입니다.
생존 함수는 생존 함수 또는 신뢰성[2] [3]함수라고도 합니다.
신뢰성 함수라는 용어는 공학에서 일반적으로 사용되는 반면 생존 함수라는 용어는 사망률을 포함한 광범위한 응용 분야에서 사용됩니다.생존 함수는 평생의 보완 누적 분포 함수입니다.상보적 누적분포함수는 일반적으로 생존함수라고 불립니다.
정의.
수명 T를 [0,θ] 구간에서 누적 분포 함수 F(t)를 갖는 연속 랜덤 변수로 합니다.생존 함수 또는 신뢰성 함수는 다음과 같습니다.
생존 함수의 예
아래 그래프는 가상의 생존 함수의 예를 보여줍니다.x축은 시간입니다.Y축은 생존하는 피실험자의 비율입니다.그래프에서는 대상자가 시간 t를 초과하여 생존할 확률을 보여 줍니다.
예를 들어, 생존 함수 1의 경우 t = 2개월보다 오래 생존할 확률은 0.37입니다.즉, 피험자의 37%가 2개월 이상 생존합니다.
생존 함수 2의 경우 t = 2개월보다 오래 생존할 확률은 0.97입니다.즉, 피험자의 97%가 2개월 이상 생존합니다.
중위수 생존은 생존 함수에서 결정될 수 있습니다.예를 들어, 생존 함수 2의 경우 피험자의 50%가 3.72개월을 생존합니다.따라서 중위수 생존은 3.72개월입니다.
그래프에서 중위수 생존을 확인할 수 없는 경우도 있습니다.예를 들어, 생존 함수 4의 경우 피실험자의 50% 이상이 관측 기간인 10개월보다 오래 생존합니다.
생존 함수는 생존 데이터를 기술하고 표시하는 여러 방법 중 하나입니다.데이터를 표시하는 또 다른 유용한 방법은 피실험자의 생존 시간 분포를 보여주는 그래프입니다.426페이지의 [4]Olkin은 다음과 같은 생존 데이터의 예를 제시한다.에어컨 시스템의 연속적인 고장 간격(시간)을 기록했습니다.연속 장애 간격은 1, 3, 5, 7, 11, 11, 12, 14, 14, 16, 20, 21, 23, 42, 47, 52, 62, 71, 87, 90, 95, 120, 225, 246 및 261 시간입니다.평균 고장 간격은 59.6입니다.이 평균 값은 곧 이론적 곡선을 데이터에 적합시키는 데 사용됩니다.다음 그림은 고장 간격의 분포를 보여 줍니다.그래프 아래에 있는 파란색 체크 마크는 연속된 고장 사이의 실제 시간입니다.
수명의 분포는 지수 분포를 나타내는 곡선으로 겹쳐져 있습니다.이 예제의 경우 지수 분포는 수명의 분포에 가깝습니다.지수 곡선은 실제 수명에 적합한 이론적 분포입니다.이 특정 지수 곡선은 모수 람다, δ = 1/(고장 간격 평균 시간) = 1/59.6 = 0.0168로 지정됩니다.시간이 양수 값을 취할 수 있는 경우 수명의 분포를 확률 밀도 함수(pdf)라고 합니다.방정식에서 pdf는 f(t)로 지정된다.시간이 이산 값(1일, 2일 등)만 취할 수 있는 경우 수명의 분포를 확률 질량 함수(pmf)라고 합니다.대부분의 생존 분석 방법에서는 시간이 모든 양의 값을 취할 수 있으며 f(t)는 pdf라고 가정합니다.관측된 에어컨 고장 사이의 시간을 지수 함수를 사용하여 근사한 경우 지수 곡선은 에어컨 고장 시간에 대한 확률 밀도 함수 f(t)를 제공합니다.
생존 데이터를 표시하는 또 다른 유용한 방법은 각 시점까지의 누적 고장을 보여주는 그래프입니다.이러한 데이터는 각 시간까지의 누적 고장 횟수 또는 누적 비율로 표시될 수 있습니다.아래 그래프는 에어컨 시스템의 각 시간별 고장 누적 확률(또는 비율)을 보여 줍니다.검은색 계단 선은 누적 고장 비율을 나타냅니다.각 단계에 대해 그래프 하단에 파란색 체크 표시가 있으며, 이는 관측된 수명을 나타냅니다.매끄러운 빨간색 선은 관측 데이터에 적합된 지수 곡선을 나타냅니다.
각 시점까지의 고장 누적 확률을 나타내는 그래프를 누적분포함수 또는 누적분포함수라고 합니다.생존 분석에서 누적 분포 함수는 생존 시간이 특정 시간 t보다 작거나 같을 확률을 제공합니다.
T를 양수인 생존 시간으로 하자.특정 시간은 소문자 t로 지정된다.T의 누적분포함수는 다음과 같은 함수이다.
여기서 오른쪽은 랜덤 변수 T가 t보다 작거나 같을 확률을 나타냅니다.시간이 임의의 양의 값을 취할 수 있다면 누적분포함수 F(t)는 확률밀도함수 f(t)의 적분이다.
에어컨 예제의 경우, 아래 누적분포함수치의 그래프는 데이터에 대한 지수 곡선을 사용하여 추정된 수명의 확률이 100시간 이하일 확률이 0.81임을 나타냅니다.
수명이 100시간 이하일 확률을 그래프로 표시하는 방법으로는 수명이 100시간 이상일 확률을 그래프로 표시하는 방법이 있습니다.총 확률이 1이어야 하므로 수명이 100시간보다 클 확률은 1에서 100시간보다 작거나 같을 확률을 뺀 값이어야 합니다.
이것으로 알 수 있다.
P(수명 시간 > 100 시간) = 1 - P(수명 시간 < 100 시간) = 1 – 0.81 = 0.19입니다.
이 관계는 모든 수명에 대해 일반화됩니다.
P(T > t) = 1 - P(T < t) = 1 – 누적 분포 함수.
이 관계는 아래 그래프에 나와 있습니다.왼쪽 그래프는 누적분포함수인 P(T < t)입니다.오른쪽 그래프는 P(T > t) = 1 - P(T < t)입니다.오른쪽 그래프는 생존 함수 S(t)입니다.S(t) = 1 – CDF라는 사실은 생존 함수의 또 다른 이름이 보완 누적 분포 함수인 이유이다.
파라메트릭 생존 함수
공기조화기의 예와 같은 경우에 생존시간의 분포는 지수분포와 같은 함수에 의해 잘 근사될 수 있다.생존 분석에는 지수, Weibull, 감마, 정규 분포, 로그 정규 분포 및 로그 로지스틱 [3][5]분포를 포함하여 여러 분포가 일반적으로 사용됩니다.이러한 분포는 모수에 의해 정의됩니다.예를 들어 정규(가우스) 분포는 두 모수 평균과 표준 편차에 의해 정의됩니다.파라미터에 의해 정의되는 생존함수는 파라미터라고 불립니다.
위의 4개의 생존함수 그래프에서 생존함수의 형상은 특정 확률분포에 의해 정의되며, 생존함수 1은 지수분포에 의해 정의되며, 2는 와이불분포에 의해 정의되며, 3은 로그 로지스틱분포에 의해 정의되며, 4는 다른 와이불분포에 의해 정의된다.
지수 생존 함수
지수 생존 분포의 경우 고장 확률은 개인 또는 장치의 연령에 관계없이 모든 시간 구간에서 동일합니다.이 사실은 지수 생존 분포의 "기억 없는" 속성으로 이어집니다. 즉, 피험자의 나이는 다음 시간 간격의 실패 확률에 영향을 미치지 않습니다.지수는 고장이 [6]발생하더라도 부품을 교체하는 시스템의 수명에 대한 좋은 모형일 수 있습니다.그것은 또한 짧은 간격으로 살아있는 유기체의 생존을 모형화하는 데 유용할 수 있다.그것은 살아있는 [7]유기체의 전체 수명에 대한 좋은 모델이 될 것 같지 않다.Efron과 Hastie(134쪽)가 언급했듯이, "인간의 수명이 기하급수적이라면 늙거나 젊은 사람은 없을 것이다. 단지 운이 좋거나 운이 나쁜 사람들일 뿐이다."
와이불 생존 함수
지수 생존 함수의 핵심 가정은 위험률이 일정하다는 것이다.위의 예에서, 매년 사망하는 남성의 비율은 10%로 일정했고, 이는 위험률이 일정했음을 의미한다.지속적인 위험의 가정은 적절하지 않을 수 있다.예를 들어, 대부분의 생물 중에서 사망 위험은 중년보다 노년에 더 높다. 즉, 위험률은 시간이 지남에 따라 증가한다.유방암과 같은 일부 질환의 경우 5년 후 재발 위험이 낮습니다. 즉, 시간이 지남에 따라 위험률이 감소합니다.Weibull 분포는 지수 분포를 확장하여 위험률을 일정하게, 증가 또는 감소시킬 수 있습니다.
기타 파라메트릭 생존 함수
정규, 로그 정규, 로그 로지스틱 및 감마를 포함하여 특정 데이터 세트에 더 잘 적합할 수 있는 다른 여러 모수 생존 함수가 있습니다.특정 애플리케이션에 대한 모수 분포의 선택은 그래픽 방법 또는 공식 적합성 테스트를 사용하여 수행할 수 있습니다.이러한 분포와 검정은 생존 [1][3]분석에 대한 교과서에 설명되어 있습니다.Lawless는 파라메트릭 모델을 폭넓게 다루고 있습니다.
파라메트릭 생존 함수는 부분적으로 관찰 기간을 초과하는 생존 함수를 추정할 수 있기 때문에 제조 애플리케이션에서 일반적으로 사용됩니다.그러나 모수 함수를 적절하게 사용하려면 데이터가 선택된 분포로 잘 모형화되어야 합니다.적절한 분포를 사용할 수 없거나 임상시험이나 실험 전에 특정할 수 없는 경우, 비모수 생존 함수는 유용한 대안을 제공합니다.
비모수 생존 함수
생존의 모수 모형은 가능하지 않거나 바람직하지 않을 수 있습니다.이러한 상황에서 생존 함수를 모델링하는 가장 일반적인 방법은 비모수적 카플란-마이어 추정기이다.
특성.
- 모든 서바이벌 S S는 단조롭게 감소합니다., 모든>t \ > tS( 。
- t {0은 일반적으로 스터디의 시작 또는 일부 시스템의 작동 시작을 나타냅니다.( )\ S ( )는 일반적으로 통일성이지만, 시스템이 동작하는 즉시 고장날 확률을 나타내는 경우는 작을 수 있습니다.
- CDF는 우회전함수이므로 S - )( \ displaystyle ) =1 - F }도 우회전함수이다.
- 생존 함수는 확률 밀도 f { f 및 위험 함수( {와 관련될 수 있습니다.
S( t ) exp[ - ( ( ) t S) = \exp [ - \ _ { }^{}\( )}
- 예상 생존 (T ) 0S ( ) { ) = \ _
예상 생존 시간 공식의 증명 |
|---|
| 랜덤 T [ , T \ [ , \ }의 예상치는 다음과 같이 정의됩니다. 서 f { f는 확률 밀도 함수입니다.f( ) - (t) { f)=- 관계를 사용하여 과 같이 기대값 공식을 수정할 수 있습니다. 부품별 통합을 채택하면 이 작업을 더욱 단순화할 수 있습니다. 정의상 Sθ S)=은 경계항이 0과 동일함을 의미합니다.따라서 기대값은 단순히 생존 함수의 적분이라고 결론지을 수 있습니다. |
「 」를 참조해 주세요.
레퍼런스
- ^ a b Kleinbaum, David G.; Klein, Mitchel (2012), Survival analysis: A Self-learning text (Third ed.), Springer, ISBN 978-1441966452
- ^ Tableman, Mara; Kim, Jong Sung (2003), Survival Analysis Using S (First ed.), Chapman and Hall/CRC, ISBN 978-1584884088
- ^ a b c Ebeling, Charles (2010), An Introduction to Reliability and Maintainability Engineering (Second ed.), Waveland Press, ISBN 978-1577666257
- ^ Olkin, Ingram; Gleser, Leon; Derman, Cyrus (1994), Probability Models and Applications (Second ed.), Macmillan, ISBN 0-02-389220-X
- ^ Klein, John; Moeschberger, Melvin (2005), Survival Analysis: Techniques for Censored and Truncated Data (Second ed.), Springer, ISBN 978-0387953991
- ^ Mendenhall, William; Terry, Sincich (2007), Statistics for Engineering and the Sciences (Fifth ed.), Pearson / Prentice Hall, ISBN 978-0131877061
- ^ Brostrom, Göran (2012), Event History Analysis with R (First ed.), Chapman & Hall/CRC, ISBN 978-1439831649
- ^ Efron, Bradley; Hastie, Trevor (2016), Computer Age Statistical Inference: Algorithms, Evidence, and Data Science (First ed.), Cambridge University Press, ISBN 978-1107149892
- ^ Lawless, Jerald (2002), Statistical Models and Methods for Lifetime Data (Second ed.), Wiley, ISBN 978-0471372158