혼동 행렬

Confusion matrix
용어와 파생어
혼돈의 행렬에서.
조건 양극(P)
데이터의 실제 양성 사례 수
조건 음수(N)
데이터의 실제 음성 사례 수

참 양성(TP)
상태 또는 특성이 있음을 정확하게 나타내는 테스트 결과
참 음수(TN)
조건이나 특성이 없음을 정확하게 나타내는 시험 결과
거짓 양성(FP)
특정 조건 또는 속성이 있음을 잘못 나타내는 검사 결과
거짓 음성(FN)
특정 조건 또는 속성이 없음을 잘못 나타내는 검사 결과

감도, 회수, 적중률 또는 참 양성률(TPR)
특수성, 선택성 또는 실제 음률(TNR)
정밀도 또는 양의 예측 값(PPV)
음의 예측 값(NPV)
잘못된 비율 또는 잘못된 음수 비율(FNR)
탈락 또는 거짓 양성률(FPR)
FDR(False Discovery Rate)
거짓 누락률(FOR)
양의 우도비(LR+)
음우도비(LR-)
유병 임계값(PT)
위협 점수(TS) 또는 중요 성공 지수(CSI)

유병률
정확도(ACC)
균형적 정확도(BA)
F1 점수
정밀도감도조화 평균:
phi 계수φ 또는 r) 또는 Matthews 상관 계수(MCC)
폴크스-말라우스 지수(FM)
정보 제공 또는 북메이커 정보 제공(BM)
표시(MK) 또는 델타P(Δp)
진단 오즈비(DOR)

출처: 포셋(2006년),[1] 피리오네이와 엘디라비(2020년),[2] 파워스(2011년),[3] 팅(2011년),[4] CAWCR,[5] D. 치코&G. 쥬먼(2020년, 2021년),[6][7] 타르왓(2018년) 등이다.[8]

기계 학습 분야와 특히 통계 분류의 문제에서, 오류 매트릭스라고도 알려진 혼동 매트릭스는 알고리즘의 성능을 시각화할 수 있는 특정한 표 레이아웃이며, 일반적으로 감독되는 학습(감독되지 않은 학습에서는 보통 매칭 매트릭스라고 부른다)이다.[9] 행렬의 각 행은 실제 클래스의 인스턴스를 나타내는 반면 각 열은 예측 클래스의 인스턴스(또는 그 반대)를 나타낸다. 두 변형은 문헌에서 찾아볼 수 있다.[10] 명칭은 시스템이 두 부류(즉, 일반적으로 한 부류를 다른 부류로 잘못 표기)를 혼동하고 있는지 쉽게 알 수 있게 한다는 데서 유래한다.

그것은 2차원("실제"와 "예측")이 있는 특별한 종류의 보정표로서, 양쪽 차원(각각 차원 및 등급 조합은 보정표의 변수)에서 동일한 세트의 "분류"를 가지고 있다.class)"가 있다.

암 진단을 받은 8명, 암이 없는 4명 등 12명의 개인과 암에 걸린 개인이 1급(양성)에 속하고 비암 개인이 0급(음성)에 속하는 경우, 그 데이터를 다음과 같이 표시할 수 있다.

개별 번호 1 2 3 4 5 6 7 8 9 10 11 12
실제 분류 1 1 1 1 1 1 1 1 0 0 0 0

우리가 어떤 식으로든 암이 있는 사람과 없는 사람을 구분하는 분류기를 가지고 있다고 가정해 보면, 12명의 개인을 취해서 분류기를 통해 실행할 수 있다. 이어 분류자는 9개의 정확한 예측을 하고 암이 없는 것으로 잘못 예측된 3:2개(샘플 1, 2), 암이 없는 1개(샘플 9)를 놓친다.

개별 번호 1 2 3 4 5 6 7 8 9 10 11 12
실제 분류 1 1 1 1 1 1 1 1 0 0 0 0
예측 분류 0 0 1 1 1 1 1 1 1 0 0 0

참고: 실제 분류 집합을 예측 분류 집합과 비교하면 특정 열을 발생시킬 수 있는 4가지 다른 결과가 있다는 점에 유의하십시오. 첫째, 실제 분류가 양수이고 예측 분류가 양수(1,1)인 경우, 양수 표본이 분류기에 의해 정확하게 식별되었기 때문에 이를 참 양수 결과라고 한다. 둘째, 실제 분류가 양이고 예측 분류가 음수(1,0)인 경우, 이를 거짓 음성 결과라고 하는데, 이는 양성 표본이 분류자에 의해 음수로 잘못 식별되기 때문이다. 셋째, 실제 분류가 음수이고 예측 분류가 양수(0,1)인 경우, 음수 표본을 분류자에 의해 양수라고 잘못 식별하기 때문에 이를 거짓 양성 결과라고 한다. 넷째, 실제 분류가 음수이고 예측 분류가 음수(0,0)인 경우, 음수 샘플이 분류기에 의해 정확하게 식별되기 때문에 이를 참 음수 결과라고 한다.

그런 다음 실제 분류와 예측 분류의 비교를 수행하고 이 정보를 표에 추가하여 정확한 결과를 녹색으로 표시하여 더 쉽게 식별할 수 있도록 할 수 있다.

개별 번호 1 2 3 4 5 6 7 8 9 10 11 12
실제 분류 1 1 1 1 1 1 1 1 0 0 0 0
예측 분류 0 0 1 1 1 1 1 1 1 0 0 0
결과 FN FN TP TP TP TP TP TP FP TN TN TN

이항 혼동 매트릭스의 템플릿은 위에서 논의한 네 가지 결과(진정한 긍정, 잘못된 부정, 잘못된 긍정, 잘못된 부정, 그리고 참된 부정)를 양과 음의 분류와 함께 사용한다. 네 가지 결과는 다음과 같이 2×2 혼동 매트릭스로 정의할 수 있다.

예측조건 출처: [11][12][13][14][15][16][17][18]
총인구
= P + N
양수(PP) 음수(PN)
실조건
양수(P) 참 양성(TP)
거짓 음성(FN)
음수(N) 거짓 양성(FP)
True Negative(TN)

위의 세 가지 데이터 표의 색상 규약은 데이터를 쉽게 구별하기 위해 이 혼동 행렬과 일치하도록 선택되었다.

이제 각 유형의 결과를 간단히 집계하고 템플릿으로 대체하며 분류자 테스트 결과를 간결하게 요약하는 혼동 행렬을 만들 수 있다.

예측조건
합계

8 + 4 = 12

비암
실조건
6 2
비암 1 3

이 혼동 행렬에서 암에 걸린 8개 검체 중 2개는 암이 없는 것으로, 4개 검체 중 1개가 암에 걸린 것으로 예측했다. 모든 정확한 예측은 표의 대각선(녹색으로 강조 표시)에 위치하므로, 대각선 밖의 값이 표의 대각선을 나타내기 때문에 예측 오류를 시각적으로 검사하는 것이 쉽다. 혼동 행렬의 두 행을 종합하면 원래의 데이터 집합에 있는 총 양의(P)와 음의(N) 표본 수를 추론할 수도 있다. + N= .

혼돈표

예측 분석에서 혼동표(혼란 행렬이라고도 함)는 참 긍정, 거짓 부정, 거짓 긍정, 참 부정의 수를 보고하는 2행 2열로 이루어진 표다. 이를 통해 정확한 분류 비율(정확성)을 단순히 관찰하는 것보다 더 상세한 분석이 가능하다. 정확도는 데이터 집합이 불균형인 경우, 즉 서로 다른 클래스의 관측치 수가 크게 다를 경우 잘못된 결과를 산출할 수 있다.

예를 들어, 데이터에 95개의 암 샘플이 있고 5개의 비암 샘플만 있는 경우, 특정 분류자는 모든 관찰 결과를 암에 걸린 것으로 분류할 수 있다. 전체적인 정확도는 95%가 되겠지만 보다 세부적으로 분류자는 암 등급에 대해서는 100% 인식률(감성)이 있지만 비암 등급에 대해서는 0% 인식률을 갖는다. F1 점수는 그러한 경우 훨씬 더 신뢰할 수 없으며, 여기서 97.4% 이상의 산출이 발생하는 반면, 정보 제공은 그러한 편견을 제거하고 어떤 형태의 추측에 대한 정보 제공 결정의 확률로 0을 산출한다(여기서는 항상 암을 추측한다).

다비드 치코와 주세페 쥬르만에 따르면 혼동 행렬을 평가하기 위한 가장 유용한 측정기준은 매튜스 상관 계수(MCC)이다.[19]

다른 지표는 각각 유의성과 용도가 있는 혼동 매트릭스에 포함될 수 있다.

예측조건 출처: [20][21][22][23][24][25][26][27]
총인구
= P + N
양수(PP) 음수(PN) 정보 제공, BM(Bookmaker Information)
= TPR + TNR − 1
유병 임계값(PT)
= TPR × FPR − FPR/TPR − FPR
실조건
양수(P) 양성(TP),
때리다
거짓 음성(FN),
II형 오류입니다, 아가씨
과소평가
참 양수율(TPR), 리콜, 민감도(SEN), 탐지 확률, 적중률, 검정력
= TP/P= 1 − FNR
거짓 음률(FNR),
요금을 잘못 매기다
= FN/P= 1 − TPR
음수(N) 거짓 양성(FP),
I형 오류, 잘못된 경보,
과대평가
True Negative(TN),
거절을 바로잡다
거짓 양성률(FPR),
거짓 경보, 낙오 확률
= FP/N= 1 − TNR
참 음률(TNR),
특수성(SPC), 선택성
= TN/N= 1 − FPR
유병률
= P/P + N
양의 예측 값(PPV), 정밀한
= TP/PP = 1 − FDR
거짓누락률(FOR)
= FN/PN= 1 − NPV
양의 우도비(LR+)
= TPR/FPR
음우도비(LR-)
= FNR/TNR
정확도(ACC) = TP + TN/P + N FDR(False Discovery Rate)
= FP/PP= 1 − PPV
음의 예측 값(NPV) = TN/PN = 1 - FOR 마크니스(MK), 델타P(Δp)
= PPV + NPV − 1
진단 오즈비(DOR) = LR+/LR-
균형적 정확도(BA) = TPR + TNR/2 F1 점수
= 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN
팔크스-말라우스 지수(FM) = PPV×TPR MCC(Matthews 상관 계수)
= TPR×TNR×PPV×NPVFNR×FPR×FOR×FDR
위협 점수(TS), 중요 성공 지수(CSI), 자카드 지수 = TP/TP + FN + FP

세 개 이상의 범주가 있는 혼동 행렬

혼동 매트릭스는 이항 분류에 국한되지 않으며 다중 클래스 분류자에서도 사용할 수 있다.[28] 위에서 논의된 혼란 매트릭스는 긍정과 부정의 두 가지 조건만 가지고 있다. 예를 들어 아래 표에는 두 개의 스피커 간에 휘파람을 부는 언어의 통신이 요약되어 있으며, 명확한 구별을 위해 생략된 값은 0이다.[29]

인식됨
모음
모음
생산한
i e a o u
i 15 1
e 1 1
a 79 5
o 4 15 3
u 2 2

참고 항목

참조

  1. ^ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
  2. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
  3. ^ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
  4. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  5. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
  6. ^ Chicco D.; Jurman G. (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  7. ^ Chicco D.; Toetsch N.; Jurman G. (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  8. ^ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
  9. ^ Stehman, Stephen V. (1997). "Selecting and interpreting measures of thematic classification accuracy". Remote Sensing of Environment. 62 (1): 77–89. Bibcode:1997RSEnv..62...77S. doi:10.1016/S0034-4257(97)00083-7.
  10. ^ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63. S2CID 55767944.
  11. ^ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
  12. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
  13. ^ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
  14. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  15. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
  16. ^ Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  17. ^ Chicco D, Toetsch N, Jurman G (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  18. ^ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
  19. ^ Chicco D., Jurman G. (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.CS1 maint: 작성자 매개변수 사용(링크)
  20. ^ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
  21. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
  22. ^ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
  23. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  24. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
  25. ^ Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  26. ^ Chicco D, Toetsch N, Jurman G (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  27. ^ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
  28. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
  29. ^ Rialland, Annie (August 2005). "Phonological and phonetic aspects of whistled languages". Phonology. 22 (2): 237–271. CiteSeerX 10.1.1.484.4384. doi:10.1017/S0952675705000552.