팔크스-말라우스 지수

Fowlkes-Mallows 지수는 두 군집(군집화 알고리즘을 거쳐 얻은 클러스터) 사이의 유사성을 판단하는 데 사용되는 외부 평가 방법이며, 혼동 매트릭스를 측정하는 메트릭이기도 하다.^[1] 이러한 유사성 측정은 두 계층적 군집화 또는 군집화 및 벤치마크 분류 사이에 있을 수 있다. Fowlkes-Mallows 지수의 값이 높을수록 군집과 벤치마크 분류 간의 유사성이 더 크다는 것을 나타낸다.

예선

결과를 평가하기 위해 두 개의 클러스터링 알고리즘의 결과를 사용할 때 Fowlkes-Mallows 지수는 다음과^[2] 같이 정의된다.

FM={\sqrt {PPV\cdot TPR}={\sqrt {{\frac {TP}{TP+FP}\cdot {\frac {TP}{TP+FN}}

여기서 T $P$ $TP$ 은 $TP$ (는) 참 긍정 수, F $P$ $FP$ 은 $FP$ 거짓 긍정 수, F $N$ $FN$ 은 $FN$ 거짓 부정의 수입니다. $T$ $P$ $R$ $TPR$ 은 $TPR}$ (는) 감도 또는 회수라고도 하는 진정한 양성률이며, $P$ $P$ $V$ $PPV$ 은 $(\displaystyle PPV}$ 정밀도라고도 하는 양성 예측률이다.

파울크스-말라우스 지수의 최소 가능 값은 0으로, 모든 요소가 잘못 분류된 가능한 최악의 이항 분류에 해당한다. 그리고 파울크스-말라우스 지수의 최대 가능한 값은 1로, 모든 요소가 완벽하게 분류된 가능한 최고의 이항 분류에 해당한다.

정의

$A_{1}$ 이 A $A_{1}$ 1 {\ $displaystyle A_{$ 1 $A_{1}$ }이고 A $A_{2}$ 2 {\ $displaystyle A_{$ 2}}인 $n$ $n$ 객체의 $n$ 두 계층적 클러스터를 고려하십시오 $A_{2}$ 나무 $A_{1}$ ${\$ $A_{2}$ 2 ${\$ }}개를 잘라 각 트리에 $k=2,\ldots ,n-1$ k $k=2,\ldots ,n-1$ = 2 $k=2,\ldots ,n-1$ , $k=2,\ldots ,n-1$ - 1 $k=2,\ldots ,n-1$ 개의 $k=2,\ldots ,n-1$ 클러스터를 생성할 수 있다 $A_{2}$ (트리의 특정 높이에서 클러스터를 선택하거나 계층적 클러스터링의 다른 강도를 설정). $k$ $k$ 의 $k$ 각 값에 대해 다음 표를 생성할 수 있음

M=[m_{i,j}]\qquad(i=1,\ldots,k{\text{ 및 }j=1,\ldots,k)

여기서 m $m_{i,j}$ $m_{i,j}$ ${\$ 은 $m_{{i,j}}$ (는) $A_{1}$ 1 {\ $displaystyle A_{1$ }의i {\ $displaystyle i}$ 과 $i$ $A_{1}$ (와 $)$ $A$ $A_{2}$ ${\$ }}의 $j$ 클러스터 간에 공통적인 물체다 $A_{2}$ $그런$ 다음 k $k$ 의 특정 값에 대한 Fowlkes-Mallows 지수를 다음과 같이 정의한다 $k$ .

B_{k}={\frac {T_{k}}{\sqrt{P_{k}Q_{k}}}}}

어디에

T_{k}=\sum _{i=1}^{k}\sum _{j=1}{j=1}^{k}m_{i,j}^{2}-n

{\displaystyle P_{k}=\sum _{i=1}^{k}(\sum _{j=1}^{k}m_{i,j}^{2}-n})

{\displaystyle Q_{k}=\sum _{j=1}^{k}(\sum _{i=1}^{k_{i,j}^{2}-n})

$B_{k}$ $B_{k}$ ${\displaystyle B_$ ${k$ $}$ 의 모든 $k$ 에 대해 계산할 수 있으며 $B_{k}$ $k$ , $두$ $B_{k}$ 사이의 $유사성$ 은 B k {\displaystyle $B_{k}$ 대 $B_{k}$ k {\ $displaystystyle$ k $}$ 을(를 $)$ 플로팅하여 나타낼 $k$ 수 $있다$ . 각k {\ $displaystystyle$ k $}$ 에 $0\leq B_{k}\leq 1$ 0 $0\leq B_{k}\leq 1$ $0\leq B_{k}\leq 1$ \ $0\leq B_{k}\leq 1$ {\ $displaystyte{\leq$ \ $leq$ b_{leq b_B_{ $k_$ {k_{k_{k}이 있다. $q$ 1 $0\leq B_{k}\leq 1$ .

Powlkes-Mallows 지수는 또한 두 계층적 군집화에서 공통적이거나 흔하지 않은 점의 수에 기초하여 정의할 수 있다. 우리가 정의한다면

A_{2}

P

TP

은

TP

A_{1}

(는)

A_{1}

1

{\

A_{2}

}

A_{2}

및 A 2 {\

displaystyle A_{2

}} 모두에서 동일한 클러스터에 있는 점 쌍의 수입니다

A_{2}

F

P

FP

은

FP

(는)

A_{1}

A_{1}

{\

1}의

동일

한 클러스터에

A_{2}

하지만

A_{1}

A_{2}

A 2 {\

displaystyle A_{2

}}에는 존재하지 않는 점 쌍의 수입니다

A_{2}

F

N

FN

은

FN

(는)

A_{2}

A_{2}

{\

동일한 클러스터에 존재하지만

A_{2}

A_{1}

A_{1}

{\

}에는 존재하지 않는 점 쌍의 수입니다

A_{1}

T

N

TN

은

TN

(는)

A_{1}

1

{\

1} 및

A_{2}

A_{2}

{\

}의 서로 다른 클러스터에 있는 점 쌍 수입니다

A_{2}

4계수는 다음과 같은 속성을 가지고 있음을 알 수 있다.

TP+FP+FN+TN=n(n-1)/2

그리고 두 개의 군집에 대한 Powlkes-Mallows 지수는 다음과^[3] 같이 정의될 수 있다.

FM={\sqrt {PPV\cdot TPR}={\sqrt {{\frac {TP}{TP+FP}\cdot {\frac {TP}{TP+FN}}

여기서 T

P

TP

은

TP

(는) 참 긍정 수, F

P

FP

은

FP

거짓 긍정 수, F

N

FN

은

FN

거짓 부정의 수입니다.

T

P

R

TPR

은

TPR}

(는) 감도 또는 회수라고도 하는 진정한 양성률이며,

P

P

V

PPV

은

(\displaystyle PPV}

정밀도라고도 하는 양성 예측률이다.

파울크스-말라우스 지수는 정밀도와 회수율의 기하학적 평균이다.^[4]

토론

지수는 참긍정 수에 정비례하므로 지수가 높을수록 지수를 결정하는 데 사용되는 두 군집 사이의 유사성이 더 크다는 것을 의미한다. 이 지수의 유효성을 시험하는 한 가지 기본적인 방법은 서로 관련이 없는 두 개의 군집을 비교하는 것이다. Fowlkes과 Mallows 두 관계 없는 clusterings을 이용해서, 이 인덱스 접근법의 가치 전체 데이터 포인트 클러스터링 인상을 선택할 숫자만큼 zero는 반면에, 랜드 인덱스에 대한 같은 데이터 값을 빠르게 1{1\displaystyle}[1]Fowlkes–Mallows 지수를 만들고 될 훨씬 더 정확한 표현으로 다가간 것으로 나타났다nr의기양양한 자료 또한 이 지수는 기존 데이터 집합에 노이즈가 추가되고 그 유사성이 비교되는 경우에도 우수한 성능을 발휘한다. 파울키스와 말로스는 소음의 성분이 증가함에 따라 지수의 가치가 감소한다는 것을 보여주었다. 이 지수는 또한 소음이 많은 데이터 집합이 원래 데이터 집합의 클러스터와 다른 수의 클러스터를 가지고 있을 때에도 유사성을 보였다. 따라서 두 군집 사이의 유사성을 측정하는 신뢰할 수 있는 도구가 된다.

추가 읽기

Fowlkes, Edward B; Mallows, Colin L (1983). "A method for comparing two hierarchical clusterings". Journal of the American Statistical Association. 78 (383): 553–569. doi:10.1080/01621459.1983.10478008.

참고 항목

참조

^ ^a ^b Fowlkes, E. B.; Mallows, C. L. (1 September 1983). "A Method for Comparing Two Hierarchical Clusterings". Journal of the American Statistical Association. 78 (383): 553. doi:10.2307/2288117.
^ Halkidi, Maria; Batistakis, Yannis; Vazirgiannis, Michalis (1 January 2001). "On Clustering Validation Techniques". Journal of Intelligent Information Systems. 17 (2/3): 107–145. doi:10.1023/A:1012801612483.
^ MEILA, M (1 May 2007). "Comparing clusterings—an information based distance". Journal of Multivariate Analysis. 98 (5): 873–895. doi:10.1016/j.jmva.2006.11.013.
^ Tharwat A (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.

외부 링크

R의 Powlkes-Mallows 지수 시행.

[fowlkes1983method-1] Fowlkes, E. B.; Mallows, C. L. (1 September 1983). "A Method for Comparing Two Hierarchical Clusterings". Journal of the American Statistical Association. 78 (383): 553. doi:10.2307/2288117.

[2] Halkidi, Maria; Batistakis, Yannis; Vazirgiannis, Michalis (1 January 2001). "On Clustering Validation Techniques". Journal of Intelligent Information Systems. 17 (2/3): 107–145. doi:10.1023/A:1012801612483.

[3] MEILA, M (1 May 2007). "Comparing clusterings—an information based distance". Journal of Multivariate Analysis. 98 (5): 873–895. doi:10.1016/j.jmva.2006.11.013.

[4] Tharwat A (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.

[1]

[2]

[3]

[4]

Search

팔크스-말라우스 지수

네임스페이스

더

목차

예선

정의

토론

추가 읽기

참고 항목

참조

외부 링크