이진 분류기 평가

Evaluation of binary classifiers
용어와 파생어
혼란 매트릭스에서
condition positive(P)
데이터에 포함된 실제 양성 사례의 수
조건 마이너스(N)
데이터 내의 실제 마이너스 케이스의 수

true positive(TP)
상태 또는 특성의 유무를 정확하게 나타내는 시험 결과
True Negative(TN)
조건 또는 특성이 없음을 정확하게 나타내는 시험 결과
false positive(FP)
특정 조건 또는 속성이 존재함을 잘못 나타내는 테스트 결과
false negative(FN)
특정 조건 또는 속성이 존재하지 않음을 잘못 나타내는 테스트 결과

감도, 호출, 적중률 또는 True Positive Rate(TPR)
특이성, 선택성 또는 True Negative Rate(TNR; 참 네거티브 레이트)
정밀도 또는 양의 예측값(PPV)
음의 예측치(NPV)
미스 레이트 또는 false negative rate(FNR)
폴아웃 또는 False Positive Rate(false positive rate))
false discovery rate(FDR)
허위누락률(FOR)
양의 우도비(LR+)
음우도비(LR-)
유병률 임계값(PT)
Threat Score(TS; 위협 점수) 또는 Critical Success Index(CSI)

유병률
정밀도(ACC)
균형 정밀도(BA)
F1 점수
정밀도와 감도조화 평균입니다.
파이 계수(θ 또는 rφ) 또는 Matthews 상관 계수(MCC)
Fowlkes-Mallows 지수(Fowlkes-Mallows Index)
정보성 또는 장부 제작자의 정보성(BM)
마크니스(MK) 또는 델타P(δP)
진단 승산비(DOR)

출처:포싯(2006년),[1] 피료네시와 엘-디라비(2020년),[2] 파워스([3]2011년), [4]팅(2011년), CAWCR,[5] D. 치코&G. 주르만(2020년,[6][7] 2021년), 타르와트(2018년).[8]

혼란 매트릭스에서 네 가지 기본 척도를 도출할 수 있습니다.

바이너리 분류자의 평가는 바이너리 속성을 할당하는 두 가지 방법을 비교합니다.이 방법 중 하나는 보통 표준 방법이고 다른 하나는 조사 중입니다.분류자 또는 프레딕터의 퍼포먼스를 측정하기 위해 사용할 수 있는 메트릭은 여러 가지가 있습니다.목표가 다르기 때문에 필드에 따라 특정 메트릭에 대한 선호도가 달라집니다.예를 들어, 의학에서는 민감도와 특수성이 종종 사용되는 반면, 컴퓨터 과학에서는 정밀도와 리콜이 선호된다.유병률에 의존하지 않는 지표(인구 내에서 각 범주가 발생하는 빈도)와 유병률에 의존한 지표의 중요한 차이는 두 가지 유형이 유용하지만 속성은 매우 다르다.

분할표

데이터 세트를 지정하면 분류(그 집합의 분류자 출력)는 양의 수와 음의 수의 두 가지 숫자를 제공하며, 이는 집합의 총 크기에 해당합니다.분류기를 평가하기 위해, 그 출력을 다른 기준 분류와 비교한다. 이상적으로는 완벽한 분류이지만 실제로는 다른 금본위 테스트의 결과이다. 그리고 데이터를 2×2 분할 표로 교차 집계하여 두 분류를 비교한다.그런 다음 이 4개의 숫자에 대한 요약 통계를 계산하여 금본위제에 대한 분류자를 평가한다.일반적으로 이러한 통계량은 척도 불변성(같은 인수로 모든 숫자를 스케일링해도 출력이 변경되지 않음)이 되며, 이 통계량은 동종 함수, 가장 단순하게 동종 선형 또는 동종 2차 함수를 사용하여 달성되는 모집단 크기와 독립적입니다.

몇몇 사람들에게 질병의 유무를 검사한다고 합시다.이 사람들 중 몇몇은 그 병에 걸렸고, 우리의 검사는 그들이 양성이라는 것을 정확하게 말해준다.이것들은 True Positive(TP; 진정한 긍정)라고 불립니다.일부는 이 병에 걸렸지만, 검사 결과 그렇지 않다고 잘못 주장하고 있다.그것들은 거짓 음성이라고 불린다. 몇몇은 병을 가지고 있지 않다. 그리고 그 검사에서는 그렇지 않다고 말한다. 마지막으로, 양성 검사 결과 즉 거짓 양성인 건강한 사람들이 있을 수 있다.이것들은 2×2 분할표(혼란행렬)로 배열할 수 있으며, 일반적으로 시험 결과는 수직축에, 실제 상태는 수평축에 있다.

그런 다음 이 숫자들을 합산하여 총합과 한계합계를 산출할 수 있습니다.전체 표를 합산하면 참 긍정, 거짓 부정, 참 부정 및 거짓 긍정의 수가 세트의 100%에 이릅니다.열을 합산하면(수직으로 추가) 참 긍정 및 거짓 긍정의 수는 테스트 긍정의 최대 100%를 더하고 음의 경우도 마찬가지입니다.행의 합계(수평 추가)에 의해, 참 긍정과 거짓 부정의 수는, 조건 긍정의 최대 100%를 더합니다(반대로 음의 경우).기본 한계 비율 통계는 표의 2×2=4 값을 한계 총계(행 또는 열)로 나누어 2개의 보조 2×2 표를 산출하여 총 8개의 비율을 구한다.이러한 비율은 4개의 보완 쌍으로 제공되며, 각 쌍은 1로 합이 됩니다. 따라서 도출된 2×2 표 각각은 보완 쌍과 함께 2개의 숫자의 쌍으로 요약될 수 있습니다.이러한 비율의 비율, 비율 또는 더 복잡한 함수를 취함으로써 추가 통계를 얻을 수 있다.

분할표와 가장 일반적인 파생 비율은 아래에 요약되어 있습니다. 자세한 내용은 후속편을 참조하십시오.

예측 상태 출처:[9][10][11][12][13][14][15][16]
총인구
= P + N
긍정(PP) 네거티브(PN) 정보성, 장부 제작자 정보성(BM)
= TPR + TNR - 1
유병률 임계값(PT)
=§ TPR × FPR - FPR/TPR − FPR
실정
플러스(P) True Positive (TP; 참,
때리다
False Negative(FN; 거짓 음성),
타입 II 오류입니다.
과소 평가
True Positive Rate(TPR), 리콜, 감도(SEN), 검출 확률, 적중률, 전력
= TP/P= 1 - FNR
False Negative Rate(FNR; 거짓 네거티브레이트),
미스 레이트
= FN/P= 1 - TPR
네거티브(N False Positive(FP; 거짓 긍정),
유형 I 오류, 잘못된 경보,
과대 평가
True Negative(TN; 트루 네거티브),
정정 거부
False Positive Rate(FPR; 거짓 양수율),
허위 경보 발생 확률, 탈락
= FP/N= 1 - TNR
True Negative Rate(TNR; 참 마이너스 레이트),
특이성(SPC), 선택성
= TN/N= 1 - FPR
유병률
= P/P + N
양의 예측값(PPV), 정확
= TP/PP = 1 - FDR
허위누락률(FOR)
= FN/PN= 1 - NPV
양의 우도비(LR+)
= TPR/FPR
음우도비(LR-)
= FNR/TNR
정확도(ACC) = TP + TN/P + N FDR(False Discovery Rate)
= FP/PP= 1 - PPV
음의 예측값(NPV) = TN/PN = 1 - FOR 마크니스(MK), 델타P(δP)
= PPV + NPV - 1
진단 승산비(DOR) = LR+/LR-
균형 정확도(BA) = TPR + TNR/2 F1 스코어
= PPV × TPR/PPV + TPR = TP/2 TP + FP + FN
폴크스-몰로스 지수(FM) = δPPV×TPR Matthews 상관 계수(MCC)
=TPR × TNR × PPV × NPV - 【FNR × FPR × FOR × FDR】
위협 점수(TS), 중요 성공 지수(CSI), 자카드 지수 = TP/TP + FN + FP

행은 색상 코드와 같이 실제 양성 또는 음성(또는 금색 표준에 의해 분류됨)인 조건에 해당하며, 관련 통계는 유병률에 의존하지 않는 반면, 열은 양 또는 음성 테스트에 해당하며, 관련 통계는 유병률에 의존합니다.예측 값에는 유사한 우도비가 있지만 이러한 우도비는 덜 일반적으로 사용되며 위에서 설명되지 않습니다.

감도 및 특이성

유병률에 의존하지 않는 기본적인 통계는 민감도와 특이성이다.

감도 또는 양성률(TPR)은 리콜이라고도 하며, 실제로 양성 반응을 보이는 모든 사람의 양성(참 양성, TP)을 검사한 사람의 비율이다. (조건 양성, CP = TP + FN).환자가 아프다는 것을 감안할 때 양성 반응이 나올 확률로 볼 수 있습니다.감도가 높을수록 실제 질병이 검출되지 않는 경우가 줄어듭니다(또는 공장 품질 관리의 경우 시장에 출시되는 결함 제품의 수는 감소합니다).

특이성(SPC) 또는음성률(TNR)은 음성을 테스트한 사람의 비율이며 실제로 음성이 된 모든 사람(조건 음성, CN = TN + FP) 중 음성을 테스트한 사람의 비율입니다.민감도와 마찬가지로, 환자가 아프지 않을 때 검사 결과가 음성일 확률로 볼 수 있습니다.특이성이 높을수록 병으로 분류되는 건강한 사람의 수가 줄어듭니다(또는 공장의 경우 폐기되는 좋은 제품은 적습니다).

감도와 특수성 사이의 관계와 분류기의 성능은 수신기 작동 특성(ROC) 곡선을 사용하여 시각화 및 연구할 수 있습니다.

이론적으로 감도와 특이성은 양쪽에서 100% 달성할 수 있다는 점에서 독립적입니다(위의 빨간색/파란색 공 예시와 같음).그러나 보다 실용적이고 덜 계획적인 경우에는 일반적으로 서로 어느 정도 반비례하는 트레이드오프가 있다.이는 우리가 분류하고 싶은 것을 거의 측정하지 않기 때문입니다.대리 마커라고 불리는 분류하고 싶은 것의 지표는 일반적으로 측정됩니다.볼 예시로 100% 달성 가능한 이유는 붉은색과 푸른색을 직접 감지하여 붉은색과 푸른색을 판단하기 때문입니다.그러나 지표가 아닌 지표가 지표를 모방하거나 지표가 시간에 의존하는 경우처럼 지표가 때때로 손상되어 특정 지연 시간 후에만 명확해진다.임신 테스트의 다음 예시는 그러한 지표를 사용할 것이다.

현대의 임신 테스트에서는 임신 상태를 결정하기 위해 임신 자체를 사용하는 것이 아니라, 중력 여성의 소변에 존재하는 인간의 융모막 성선 호르몬, 즉 hCG가 여성이 임신 중임을 나타내기 위해 대리 표시로 사용됩니다.hCG는 종양에 의해서도 생성될 수 있기 때문에, 현대 임신 검사의 특이성은 100%일 수 없다(허위 양성일 수 있기 때문이다).또한 수정 후와 초기 태아 발생 후 소변에 hCG가 매우 적은 농도로 존재하기 때문에, 현대의 임신 검사의 민감도는 100%가 될 수 없다(허위 음성이 가능하기 때문이다).

우도비

양의 예측값과 음의 예측값

감도 및 특이성 외에도 정밀도(PPV) 및의 예측치(NPV)라고도 하는 2진수 분류 테스트의 성능을 측정할 수 있습니다.양성 예측 값은 "검사 결과가 양성일 경우 실제 질병의 존재를 얼마나 잘 예측합니까?"라는 질문에 대답합니다.TP/(TP + FP)로 계산됩니다. 즉, 모든 양성 결과 중 참 양성(true positive)의 비율입니다.음수 예측 값은 동일하지만 음수 예측 값은 자연스레 동일합니다.

예측값에 대한 유병률의 영향

유병률은 예측 값에 큰 영향을 미칩니다.예를 들어, 99% 민감도와 99% 특이성을 가진 질병에 대한 검정이 있다고 가정합니다.2000명이 검사를 받고 (표본에서) 발병률이 50%인 경우, 그 중 1000명은 아프고 1000명은 건강합니다.따라서 약 990개의 참된 긍정과 990개의 참된 부정의 가능성이 있으며, 10개의 거짓 긍정과 10개의 거짓 부정의 가능성이 있습니다.양의 예측값과 음의 예측값은 99%이므로 결과에 대한 신뢰도가 높을 수 있습니다.

그러나 발병률이 5%에 불과해 2000명 중 100명만 정말 아프면 예측값이 크게 달라진다.결과는 참 긍정 99개, 거짓 부정 1개, 참 부정 1881개, 거짓 긍정 19개입니다.양성 반응이 나온 19+99명 중 99명만이 실제로 질병을 앓고 있습니다.즉, 직관적으로 환자의 검사 결과가 양성이라는 것을 고려하면 실제로 질병에 걸릴 확률은 84%에 불과합니다.반면 검사 결과가 음성으로 나왔다는 점에서 1882년에는 검사 결과에도 불구하고 발병 확률이 0.05%인 단 한 차례에 불과했다.

우도비

정밀도 및 회수

관계들

이 비율 사이에는 다양한 관계가 있습니다.

유병률, 민감도 및 특이성이 알려진 경우 양의 예측 값은 다음 식별 정보에서 얻을 수 있습니다.

유병률, 민감도 및 특이성이 알려진 경우 음의 예측 값은 다음 식별 정보에서 얻을 수 있습니다.

단일 메트릭

쌍으로 구성된 메트릭 외에도 테스트를 평가하기 위한 단일 번호를 제공하는 단일 메트릭도 있습니다.

아마도 가장 간단한 통계는 정확하게 분류된 모든 인스턴스의 분율을 측정하는 정확도 또는 분율 정확도(FC)일 것입니다. 이는 정확하거나 부정확한 분류의 총수에 대한 올바른 분류 수 비율입니다. (TP + TN)/총 모집단 = (TP + TN + FP + FN)따라서 검사 전 및 사후 확률의 추정치를 비교합니다.이 척도는 유병률에 따라 달라집니다.COVID 증상이 있는 사람의 90%가 COVID를 가지고 있지 않다면, P(-)의 이전 확률은 0.9이며, "모든 그러한 환자를 COVID-free로 분류"라는 간단한 규칙은 90% 정확할 것이다.진단은 그것보다 더 나을 겁니다.가장 가능성이 높은 결과를 사용하여 간단한 규칙을 이기기를 바라는 진단 방법에 대해 p0을 max(priors) = max(P(-),P(+)로 하는 "1-비례 z-test"를 구성할 수 있다.여기서 가설은 "Ho: p 0 0.9 vs.Ha: p > 0.9"로, 큰 z 값에 대해 Ho를 거부합니다.z 통계량을 계산할 때 다른 진단 규칙의 정확도가 알려져 있고 p0 대신 사용될 경우 한 진단 규칙을 다른 진단 규칙과 비교할 수 있습니다.데이터로 계산되지 않은 경우 "Ho: p1 = p2에 대해 풀링된 2-비례 z-test"를 사용하여 정확도 비교 테스트를 수행할 수 있습니다.그다지 많이 사용되지 않는 것은 보완 통계량이며, 잘못된 부분(FiC)은 FC + FiC = 1, 또는 (FP + FN)/(TP + TN + FP + FN)입니다. 이는 반각형의 합을 총 모집단으로 나눈 값입니다.부정확한 원가 가중분율은 다른 방법에 대한 오분류의 예상원가를 비교할 수 있다.

진단 승산비(DOR)는 (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN)로 직접 정의하거나 비율 비율 비율(진정한 비율 또는 예측 값의 비율인 우도 비율)로 간접적으로 정의할 수 있는 보다 유용한 전체 메트릭이 될 수 있습니다.이는 승산비로서 유용한 해석이 가능하며, 유병률에 의존하지 않습니다.우도비는 일반적으로 유병률에 의존하지 않는 것으로 간주되며, 이전 확률사후 확률변환하는 승수로 쉽게 해석된다.또 다른 유용한 단일 척도는 "ROC 곡선 아래 영역"인 AUC입니다.

대체 지표

F 점수정밀도호출의 조합으로, 단일 점수를 제공합니다.정밀도와 호출의 상대적 가중치를 결정하는 매개변수 β를 가진 단일 매개변수 통계 패밀리가 있다.기존 또는 균형 F 점수(F1 점수)는 정밀도와 호출의 조화 평균입니다.

i n n + e { { 1 }= \ mathrm} { + \ { }}

F 점수는 실제 음의 비율을 고려하지 않으므로 정보 검색 및 정보 추출 평가에 더 적합하며, 실제 음의 비율은 셀 수 없이 많다.대신, 파이 계수, 매튜스 상관 계수, 정보성 또는 코헨의 카파와 같은 측정이 이항 [17][18]분류기의 성능을 평가하는 데 선호될 수 있다.상관 계수로써 Matthews 상관 계수는 문제의 회귀 계수와 이중 회귀 계수의 기하 평균입니다.Matthews 상관 계수의 성분 회귀 계수는 표시도(deltap)와 정보도(Youden의 J 통계량 또는 deltap')[19]입니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
  2. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
  3. ^ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
  4. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  5. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
  6. ^ Chicco D.; Jurman G. (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  7. ^ Chicco D.; Toetsch N.; Jurman G. (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  8. ^ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
  9. ^ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
  10. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
  11. ^ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
  12. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  13. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
  14. ^ Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  15. ^ Chicco D, Toetsch N, Jurman G (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  16. ^ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
  17. ^ Powers, David M W (2011). "Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63. hdl:2328/27165.
  18. ^ Powers, David M. W. (2012). "The Problem with Kappa" (PDF). Conference of the European Chapter of the Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop. Archived from the original (PDF) on 2016-05-18. Retrieved 2012-07-20.
  19. ^ Perruchet, P.; Peereman, R. (2004). "The exploitation of distributional information in syllable processing". J. Neurolinguistics. 17 (2–3): 97–119. doi:10.1016/S0911-6044(03)00059-9. S2CID 17104364.