피 계수

Phi coefficient

통계에서 phi 계수(또는 평균 제곱 보정 계수φ 또는 rφ 표시됨)는 두 이항 변수에 대한 연관성의 척도다. 머신러닝(machine learning)에서는 MCC(Matthews correlation coefficient)로 알려져 있으며 1975년 생화학자 브라이언 W. 매튜스가 도입한 바이너리(2종) 분류의 품질 측도로 사용된다.[1] 칼 피어슨에 의해 [2]도입되었고, 1912년[3] 우드니 율에 의해 도입되었을 때부터 율 계수로도 알려져 있다. 이 측정치는 해석에서 피어슨 상관 계수와 유사하다. 실제로 두 이항 변수에 대해 추정된 Pearson 상관 계수는 phi 계수를 반환한다.[4] phi 계수는 2×2 분할표카이-제곱 통계량과 관련이 있다(Pearson의 카이-제곱 검정 참조).[5]

여기서 n은 총 관측치 수입니다. 대부분의 데이터가 대각선 셀을 따라 떨어질 경우 두 개의 이항 변수가 양적으로 연관된 것으로 간주된다. 대조적으로, 대부분의 데이터가 대각선으로부터 떨어질 경우 두 개의 이항 변수는 부정적으로 연관된 것으로 간주된다. 두 개의 랜덤 변수 xy에 대한 2×2 테이블이 있는 경우

y = 1 y = 0 총계
x = 1
x = 0
총계

여기서 n11, n10, n01, n00 총 관측치 수인 n을 합한 관측치 수의 음수가 아닌 계수다. xy의 연관성을 설명하는 phi 계수는

Phi는 점-이중 상관 계수 및 Cohen의 d와 관련이 있으며 두 변수 사이의 관계 정도(2×2)를 추정한다.[6]

또한 phi 는 n{\ {\ {\ ∙ 1{\ n ∙ 을 사용하여 표현할 수 있다.

최대값

Pearson 상관 계수는 계산적으로 2×2의 경우 phi 계수로 감소하지만, 일반적으로 동일하지는 않다. Pearson 상관 계수의 범위는 -1 ~ +1이며, 여기서 ±1은 완전한 일치 또는 불일치를 나타내며, 0은 관계가 없음을 나타낸다. phi 계수는 한 변수 또는 두 변수 모두 세 개 이상의 값을 가질 수 있는 경우 두 변수의 분포에 의해 결정되는 최대값을 가진다.[further explanation needed] 자세한 내용은 Davenport와 El-Sanhury(1991)를 참조하십시오.

머신러닝

MCC는 1912년 우드니 율(Udny Yule)이 도입했을 때부터 Yule pi 계수로도 알려진 칼 피어슨([8][9]Karl Pearson)은 Yule pi 계수로도 알려져 있다.[10] MCC라는 용어는 Matthews의 사용을 수십 년 앞서는 이러한 선행 조건에도 불구하고 생물정보학 및 기계학습 분야에서 널리 사용되고 있다.

계수는 참과 거짓 양과 음을 고려하며, 일반적으로 등급의 크기가 매우 다르더라도 사용할 수 있는 균형 잡힌 척도로 간주된다.[11] MCC는 본질적으로 관측된 이항분류와 예측된 이항분류 사이의 상관 계수로서 -1과 +1 사이의 값을 반환한다. +1 계수는 완벽한 예측을 나타내며, 0은 무작위 예측보다 크지 않으며 -1은 예측과 관측 사이의 총체적인 차이를 나타낸다. 그러나 MCC가 -1, 0 또는 +1이 아닌 경우, MCC는 데이터 집합에 의존하기 때문에 예측 변수가 무작위 추측과 얼마나 유사한지를 나타내는 신뢰할 수 있는 지표는 아니다.[12] MCC는 2×2 분할표카이-제곱 통계량과 밀접한 관련이 있다.

여기서 n은 총 관측치 수입니다.

진실과 거짓 긍정과 부정의 혼동 행렬을 하나의 숫자로 설명하는 완벽한 방법은 없지만, 일반적으로 매튜스 상관 계수는 그러한 척도의 최고 중의 하나로 간주된다.[13] 정확한 예측의 비율(정확도라고도 함)과 같은 다른 측정치는 두 등급의 크기가 매우 다를 때는 유용하지 않다. 예를 들어, 모든 개체를 큰 집합에 할당하면 정확한 예측의 비율이 높지만 일반적으로 유용한 분류는 아니다.

MCC는 다음 공식을 사용하여 혼동 매트릭스에서 직접 계산할 수 있다.

이 방정식에서 TP는 참 양성의 수, TN은 참의 수, FP거짓 양성의 수, FN거짓 음의 수입니다. 분모에 있는 4개의 합 중 하나가 0이면 분모는 임의로 1로 설정될 수 있으며, 이는 올바른 제한값으로 보여질 수 있는 0의 Matthews 상관 계수가 된다.

MCC는 다음 공식을 사용하여 계산할 수 있다.

양의 예측 값, 참의 양수 비율, 참의 음수 비율, 음수 예측 값, 거짓 발견 비율, 거짓의 음수 비율, 거짓의 양수 비율, 거짓의 누락 비율 등을 사용한다.

매튜스가 제시한 최초의 공식은 다음과 같다.[1]

이것은 위에 주어진 공식과 같다. 상관 계수로서 Matthews 상관 계수는 문제와 그 이중의 회귀 계수기하학적 평균이다. Matthews 상관 계수의 성분 회귀 계수는 Markness(Δp)와 Youden의 J 통계량(Informance 또는 Δp')[13][14]이다. 표시성과 정보성은 정보 흐름의 다른 방향에 대응하며 유덴의 J 통계량, 통계량 및 (기하학적 평균으로) 매튜스 상관 계수를 세 개 이상의 등급으로 일반화한다.[13]

일부 과학자들은 매튜 상관 계수가 혼동 매트릭스 맥락에서 이항 분류자 예측의 품질을 확립하는 데 가장 유용한 단일 점수라고 주장한다.[15]

사진 12장의 견본을 보면 고양이 8마리와 개 4마리는 1등급, 개는 0등급이다.

실제 = [1,1,1,1,1,1,1,1,0,0,0],

고양이와 개를 구분하는 분류자가 훈련을 받고, 12개의 사진을 찍어 분류기를 통해 실행한다고 가정하면 분류자는 9개의 정확한 예측을 하고, 분류자는 개로 잘못 예측한 3:2의 고양이(최초 예측)와 고양이로 잘못 예측된 1마리의 개를 놓친다(마지막 예측).

예측 = [0,0,1,1,1,1,1,0,0,1]

이 두 개의 라벨이 표시된 집합(실제 및 예측)을 사용하여 분류기 테스트 결과를 요약하는 혼동 행렬을 만들 수 있다.

예측된
계급
실급
고양이
고양이 6 2
1 3

이 혼동 매트릭스에서는 고양이 사진 8점 중 2점이 개로, 개 사진 4점 중 1점이 고양이일 것으로 예측했다. 모든 정확한 예측은 표의 대각선(볼드체로 강조 표시됨)에 위치하므로, 대각선 바깥의 값으로 표현되므로 예측 오류에 대한 육안으로 쉽게 검사할 수 있다.

추상적으로 말하면 혼동 행렬은 다음과 같다.

예측된
계급
실급
P N
P TP FN
N FP TN

여기서 P = 양수, N = 음수, TP = 참 양성, FP = 거짓 양성, TN = 참 음성, FN = 거짓 음성.

공식의 숫자 연결:

혼동 행렬

용어와 파생어
혼돈의 행렬에서.
조건 양극(P)
데이터의 실제 양성 사례 수
조건 음수(N)
데이터의 실제 음성 사례 수

참 양성(TP)
상태 또는 특성이 있음을 정확하게 나타내는 테스트 결과
참 음수(TN)
조건이나 특성이 없음을 정확하게 나타내는 시험 결과
거짓 양성(FP)
특정 조건 또는 속성이 있음을 잘못 나타내는 검사 결과
거짓 음성(FN)
특정 조건 또는 속성이 없음을 잘못 나타내는 검사 결과

감도, 회수, 적중률 또는 참 양성률(TPR)
특수성, 선택성 또는 실제 음률(TNR)
정밀도 또는 양의 예측 값(PPV)
음의 예측 값(NPV)
잘못된 비율 또는 잘못된 음수 비율(FNR)
탈락 또는 거짓 양성률(FPR)
FDR(False Discovery Rate)
거짓 누락률(FOR)
양의 우도비(LR+)
음우도비(LR-)
유병 임계값(PT)
위협 점수(TS) 또는 중요 성공 지수(CSI)

유병률
정확도(ACC)
균형적 정확도(BA)
F1 점수
정밀도감도조화 평균:
phi 계수φ 또는 r) 또는 Matthews 상관 계수(MCC)
폴크스-말라우스 지수(FM)
정보 제공 또는 북메이커 정보 제공(BM)
표시(MK) 또는 델타P(Δp)
진단 오즈비(DOR)

출처: 포셋(2006년),[16] 피리오네이와 엘디라비(2020년),[17] 파워스(2011년),[18] 팅(2011년),[19] CAWCR,[20] D. 치코&G. 쥬먼(2020년, 2021년),[21][22] 타르왓(2018년) 등이다.[23]

P 양수 인스턴스로부터 실험을 정의하고 일부 조건에 대해 N개의 음수 인스턴스로부터 실험을 정의해 봅시다. 네 가지 결과는 다음과 같이 2×2 분할표 또는 혼란 행렬로 작성할 수 있다.

예측조건 출처: [24][25][26][27][28][29][30][31]
총인구
= P + N
양수(PP) 음수(PN) 정보 제공, BM(Bookmaker Information)
= TPR + TNR − 1
유병 임계값(PT)
= TPR × FPR − FPR/TPR − FPR
실조건
양수(P) 양성(TP),
때리다
거짓 음성(FN),
II형 오류입니다, 아가씨
과소평가
참 양수율(TPR), 리콜, 민감도(SEN), 탐지 확률, 적중률, 검정력
= TP/P= 1 − FNR
거짓 음률(FNR),
요금을 잘못 매기다
= FN/P= 1 − TPR
음수(N) 거짓 양성(FP),
I형 오류, 잘못된 경보,
과대평가
True Negative(TN),
거절을 바로잡다
거짓 양성률(FPR),
거짓 경보, 낙오 확률
= FP/N= 1 − TNR
참 음률(TNR),
특수성(SPC), 선택성
= TN/N= 1 − FPR
유병률
= P/P + N
양의 예측 값(PPV), 정밀한
= TP/PP = 1 − FDR
거짓누락률(FOR)
= FN/PN= 1 − NPV
양의 우도비(LR+)
= TPR/FPR
음우도비(LR-)
= FNR/TNR
정확도(ACC) = TP + TN/P + N FDR(False Discovery Rate)
= FP/PP= 1 − PPV
음의 예측 값(NPV) = TN/PN = 1 - FOR 마크니스(MK), 델타P(Δp)
= PPV + NPV − 1
진단 오즈비(DOR) = LR+/LR-
균형적 정확도(BA) = TPR + TNR/2 F1 점수
= 2 PPV × TPR/PPV + TPR = 2 TP/2 TP + FP + FN
팔크스-말라우스 지수(FM) = PPV×TPR MCC(Matthews 상관 계수)
= TPR×TNR×PPV×NPVFNR×FPR×FOR×FDR
위협 점수(TS), 중요 성공 지수(CSI), 자카드 지수 = TP/TP + FN + FP

멀티클라스 케이스

Matthews 상관 계수는 멀티클라스 케이스로 일반화되었다. 이 일반화는 저자에 의해 R 통계(K different classes)라고 불렸으며, × K {\ 혼란 행렬 C {\ C의 관점에서 정의되었다[32][33]

라벨이 세 개 이상일 경우 MCC는 더 이상 -1과 +1 사이의 범위가 되지 않는다. 대신 최소값은 실제 분포에 따라 -1과 0 사이일 것이다. 최대값은 항상 +1이다.


이 공식은 중간 변수를 정의함으로써 더 쉽게 이해할 수 있다.[34]

  • = 클래스 k가 실제로 발생한 횟수,
  • = I i{\ _ 클래스 k가 예측된 횟수,
  • = k 정확하게 예측된 총 샘플 수,
  • = c s시료 총 개수. 이를 통해 공식은 다음과 같이 표현할 수 있다.
예측된
계급
실급
고양이 합계
고양이 6 2 8
1 3 4
합계 7 5 12

위의 공식을 사용하여 위에서 설명한 개와 고양이 예제에 대한 MCC 측정을 계산하며, 여기서 혼동 매트릭스는 2 × 멀티클라스 예시로 처리된다.

정확성 및 F1 점수 대비 장점

다비드 치코(Davide Chicco)가 논문 "계산 생물학에서의 기계학습 10가지 빠른"(BioData Mining, 2017)에서, 주세페 주르만이 논문 "F1 점수 대비 MCC(Matthews 상관 계수)의 이점과 이진 분류 평가에서의 정확성"(BMC Genomics, 2020)에서 설명한 바와 같이, 매슈 상관 계수. 4가지 혼동 매트릭스 범주(진정한 긍정, 참 부정, 거짓 긍정, 거짓 부정)의 균형 비율을 고려하기 때문에 F1 점수보다 유익하고 이항 분류 문제를 평가할 때 정확도가 높다.[15][35]

이전 기사는 팁 8에 대해 다음과 같이 설명한다.

당신의 예측을 전체적으로 이해하기 위해서, 당신은 정확도, F1 점수와 같은 일반적인 통계 점수를 이용하기로 결정한다.

(등분 1, 정확도: 최악의 값 = 0, 최상의 값 = 1)

(등분 2, F1 점수: 최악의 값 = 0, 최상의 값 = 1)

그러나 정확도와 F1 점수가 통계에 널리 채택되더라도 최종 점수 계산에서 혼동 매트릭스의 4개 등급의 크기를 충분히 고려하지 않기 때문에 둘 다 오해의 소지가 있다.

예를 들어 100개의 요소로 이루어진 매우 불균형한 유효성 검사 세트가 있으며 그 중 95개는 양의 요소이며 5개만 음의 요소라고 가정하십시오(팁 5에서 설명함). 또한 기계 학습 분류기를 설계하고 교육하는 과정에서 실수를 몇 가지 했다고 가정해 보십시오. 이제 여러분은 항상 긍정적인 것을 예측하는 알고리즘을 갖게 되었습니다. 당신이 이 문제에 대해 알지 못한다고 상상해보라.

따라서 불균형 유효성 검사 세트에 유일한 양의 예측 변수를 적용하면 혼동 행렬 범주에 대한 값을 얻을 수 있다.

TP = 95, FP = 5; TN = 0, FN = 0.

이 값들은 다음과 같은 성능 점수로 이어진다: 정확도 = 95%와 F1 점수 = 97.44%. 이러한 지나치게 낙관적인 점수를 읽음으로써, 여러분은 매우 행복할 것이고 기계 학습 알고리즘이 훌륭한 일을 하고 있다고 생각할 것이다. 분명히, 너는 잘못된 길을 가고 있을 것이다.

반대로 이러한 위험하고 오해의 소지가 있는 환상을 피하기 위해 이용할 수 있는 또 다른 성능점수가 있는데, 바로 Matthews 상관 계수 [40] (MCC)이다.

(등분 3, MCC: 최악의 값 = -1, 최상의 값 = +1)

그 공식에서 혼동 행렬의 각 등급의 비율을 고려함으로써, 분류자가 음과 양의 요소 둘 다 잘 하고 있는 경우에만 점수가 높다.

위의 예에서 MCC 점수는 정의되지 않을 것이다(TN과 FN은 0이므로 등식 3의 분모는 0이 된다). 이 값을 확인함으로써 정확도와 F1 점수 대신 분류자가 잘못된 방향으로 가고 있다는 것을 알 수 있을 것이고, 진행하기 전에 해결해야 할 문제가 있다는 것을 알게 될 것이다.

다른 예를 들어보자. 동일한 데이터 집합에서 분류를 실행하여 혼동 행렬 범주에 대한 다음 값을 얻으십시오.

TP = 90, FP = 4, TN = 1, FN = 5

이 예에서 분류자는 양의 인스턴스(instance)를 분류하는 데는 좋은 성과를 거두었으나 음의 데이터 요소를 올바르게 인식하지 못했다. 다시 말하지만, 결과 F1 점수와 정확도 점수는 매우 높을 것이다: 정확도 = 91%, F1 점수 = 95.24%. 앞의 사례와 마찬가지로, 만일 연구자가 MCC를 고려하지 않고 이 두 가지 점수 지표만을 분석한다면, 그들은 알고리즘이 그 임무에서 상당히 잘 수행되고 있다고 잘못 생각할 것이고, 성공하는 듯한 착각을 갖게 될 것이다.

한편, 매튜의 상관 계수를 확인하는 것은 다시 한번 중추적인 일이 될 것이다. 이 예에서 MCC 값은 0.14(등분 3)로 알고리즘이 무작위 추측과 유사하게 수행되고 있음을 나타낸다. 경보로 작용하면, MCC는 데이터 마이닝 실무자에게 통계 모델이 저조한 성과를 내고 있다는 것을 알릴 수 있을 것이다.

이러한 이유로 우리는 모든 이항 분류 문제에 대해 정확도와 F1 점수 대신 매튜 상관 계수(MCC)를 통해 각 시험 성능을 평가할 것을 강력히 권장한다.

Davide Chicco, Ten quick tips for machine learning in computational biology[15]

Chicco의 구절은 데이터 세트의 균형이 맞지 않는 경우 MCC 점수를 승인하는 것으로 읽힐 수 있다. 그러나 이것은 논쟁의 여지가 있다; 특히, Zhu(2020)는 강한 반론을 제시한다.[36]

F1 점수는 어떤 클래스를 포지티브 클래스로 정의하느냐에 따라 결정된다는 점에 유의한다. 위의 첫 번째 예에서 F1 점수는 과반수 등급이 양수 등급으로 정의되기 때문에 높다. 양극 및 음극 클래스를 뒤집으면 다음과 같은 혼동 매트릭스가 발생한다.

TP = 0, FP = 0, TN = 5, FN = 95

이것은 F1 점수 = 0%를 준다.

MCC는 어떤 등급이 포지티브 등급인지에 따라 달라지지 않는데, 이는 F1 점수보다 우위에 있어 포지티브 클래스를 잘못 정의하지 않도록 한다.

참고 항목

참조

  1. ^ a b Matthews, B. W. (1975). "Comparison of the predicted and observed secondary structure of T4 phage lysozyme". Biochimica et Biophysica Acta (BBA) - Protein Structure. 405 (2): 442–451. doi:10.1016/0005-2795(75)90109-9. PMID 1180967.
  2. ^ 크레이머, H. (1946) 수학적 통계 방법. 프린스턴: 프린스턴 대학교 출판부, 페이지 282 (두 번째 단락) ISBN 0-691-08004-6
  3. ^ Yule, G. Udny (1912). "On the Methods of Measuring Association Between Two Attributes". Journal of the Royal Statistical Society. 75 (6): 579–652. doi:10.2307/2340126. JSTOR 2340126.
  4. ^ 구일포드, J. (1936년) 사이코메트릭스. 뉴욕: McGraw-Hill Book Company, Inc.
  5. ^ 에버릿 B.S(2002) 케임브리지 통계사전 CUP ISBN 0-521-81099-X
  6. ^ 아론, B, 크롬리, J. D. & 페론, J. M. (1998, 11월) r 기반 및 d 기반 효과 크기 지수 동일화: 일반적으로 권장되는 공식의 문제. 플로리다 교육 연구 협회, 올랜도, FL. (ERIC 문서 재생산 서비스 번호 ED433353) 연차 회의에서 제시된 논문
  7. ^ Davenport, E, & E-Sanhury, N. (1991) Phi/Phimax: 검토 및 합성. 교육 및 심리 측정, 51, 821–828.
  8. ^ 크레이머, H. (1946) 수학적 통계 방법. 프린스턴: 프린스턴 대학교 출판부, 페이지 282 (두 번째 단락) ISBN 0-691-08004-6
  9. ^ 날짜는 불분명하지만 1936년 그가 죽기 전에.
  10. ^ Yule, G. Udny (1912). "On the Methods of Measuring Association Between Two Attributes". Journal of the Royal Statistical Society. 75 (6): 579–652. doi:10.2307/2340126. JSTOR 2340126.
  11. ^ Boughorbel, S.B (2017). "Optimal classifier for imbalanced data using Matthews Correlation Coefficient metric". PLOS ONE. 12 (6): e0177678. Bibcode:2017PLoSO..1277678B. doi:10.1371/journal.pone.0177678. PMC 5456046. PMID 28574989.
  12. ^ Chicco, D.; Tötsch, N.; Jurman, G. (2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (1): 13. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  13. ^ a b c Powers, David M. W. (10 October 2020). "Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation". arXiv:2010.16061 [cs.LG].
  14. ^ Perruchet, P.; Peereman, R. (2004). "The exploitation of distributional information in syllable processing". J. Neurolinguistics. 17 (2–3): 97–119. doi:10.1016/s0911-6044(03)00059-9. S2CID 17104364.
  15. ^ a b c Chicco D (December 2017). "Ten quick tips for machine learning in computational biology". BioData Mining. 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465.
  16. ^ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
  17. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
  18. ^ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
  19. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  20. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
  21. ^ Chicco D.; Jurman G. (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  22. ^ Chicco D.; Toetsch N.; Jurman G. (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  23. ^ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
  24. ^ Fawcett, Tom (2006). "An Introduction to ROC Analysis" (PDF). Pattern Recognition Letters. 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010.
  25. ^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems. 26 (1): 04019036. doi:10.1061/(ASCE)IS.1943-555X.0000512.
  26. ^ Powers, David M. W. (2011). "Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation". Journal of Machine Learning Technologies. 2 (1): 37–63.
  27. ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8.
  28. ^ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (2015-01-26). "WWRP/WGNE Joint Working Group on Forecast Verification Research". Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Retrieved 2019-07-17.
  29. ^ Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  30. ^ Chicco D, Toetsch N, Jurman G (February 2021). "The Matthews correlation coefficient (MCC) is more reliable than balanced accuracy, bookmaker informedness, and markedness in two-class confusion matrix evaluation". BioData Mining. 14 (13): 1-22. doi:10.1186/s13040-021-00244-z. PMC 7863449. PMID 33541410.
  31. ^ Tharwat A. (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.
  32. ^ Gorodkin, Jan (2004). "Comparing two K-category assignments by a K-category correlation coefficient". Computational Biology and Chemistry. 28 (5): 367–374. doi:10.1016/j.compbiolchem.2004.09.006. PMID 15556477.
  33. ^ Gorodkin, Jan. "The Rk Page". The Rk Page. Retrieved 28 December 2016.
  34. ^ "Matthew Correlation Coefficient". scikit-learn.org.
  35. ^ Chicco D, Jurman G (January 2020). "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
  36. ^ Zhu, Qiuming (2020-08-01). "On the performance of Matthews correlation coefficient (MCC) for imbalanced dataset". Pattern Recognition Letters. 136: 71–80. Bibcode:2020PaReL.136...71Z. doi:10.1016/j.patrec.2020.03.030. ISSN 0167-8655. S2CID 219762950.