팔크스-말라우스 지수

Fowlkes–Mallows index

Fowlkes-Mallows 지수는 두 군집(군집화 알고리즘을 거쳐 얻은 클러스터) 사이의 유사성을 판단하는 데 사용되는 외부 평가 방법이며, 혼동 매트릭스를 측정하는 메트릭이기도 하다.[1] 이러한 유사성 측정은 두 계층적 군집화 또는 군집화 및 벤치마크 분류 사이에 있을 수 있다. Fowlkes-Mallows 지수의 값이 높을수록 군집과 벤치마크 분류 간의 유사성이 더 크다는 것을 나타낸다.

예선

결과를 평가하기 위해 두 개의 클러스터링 알고리즘의 결과를 사용할 때 Fowlkes-Mallows 지수는 다음과[2] 같이 정의된다.

여기서 T (는) 참 긍정 수, F 거짓 긍정 수, F 거짓 부정의 수입니다. (는) 감도 또는 회수라고도 하는 진정한 양성률이며, 정밀도라고도 하는 양성 예측률이다.

파울크스-말라우스 지수의 최소 가능 값은 0으로, 모든 요소가 잘못 분류된 가능한 최악의 이항 분류에 해당한다. 그리고 파울크스-말라우스 지수의 최대 가능한 값은 1로, 모든 요소가 완벽하게 분류된 가능한 최고의 이항 분류에 해당한다.

정의

이 A1 {\1}이고 A2 {\2}}인 객체의 두 계층적 클러스터를 고려하십시오 나무 2 }}개를 잘라 각 트리에 k= 2,- 1 개의 클러스터를 생성할 수 있다(트리의 특정 높이에서 클러스터를 선택하거나 계층적 클러스터링의 다른 강도를 설정). 각 값에 대해 다음 표를 생성할 수 있음

여기서 m (는) 1 {\}의i {\(와 }}의 클러스터 간에 공통적인 물체다 다음 k 의 특정 값에 대한 Fowlkes-Mallows 지수를 다음과 같이 정의한다.

어디에

의 모든 에 대해 계산할 수 있으며, 사이의 은 B k {\displaystyle k {\ k을(를 플로팅하여 나타낼. 각k {\ k 0 \ {\\ b_{leq b_B_{{k_{k_{k}이 있다. 1.

Powlkes-Mallows 지수는 또한 두 계층적 군집화에서 공통적이거나 흔하지 않은 점의 수에 기초하여 정의할 수 있다. 우리가 정의한다면

(는) 1 }및 A 2 {\}} 모두에서 동일한 클러스터에 있는 점 쌍의 수입니다
(는) 1}의 한 클러스터에 하지만A 2 {\}}에는 존재하지 않는 점 쌍의 수입니다
(는) 동일한 클러스터에 존재하지만 }에는 존재하지 않는 점 쌍의 수입니다
(는) 1 1} 및 }의 서로 다른 클러스터에 있는 점 쌍 수입니다

4계수는 다음과 같은 속성을 가지고 있음을 알 수 있다.

그리고 두 개의 군집에 대한 Powlkes-Mallows 지수는 다음과[3] 같이 정의될 수 있다.

여기서 T (는) 참 긍정 수, F 거짓 긍정 수, F 거짓 부정의 수입니다.
(는) 감도 또는 회수라고도 하는 진정한 양성률이며, 정밀도라고도 하는 양성 예측률이다.
파울크스-말라우스 지수는 정밀도와 회수율기하학적 평균이다.[4]

토론

지수는 참긍정 수에 정비례하므로 지수가 높을수록 지수를 결정하는 데 사용되는 두 군집 사이의 유사성이 더 크다는 것을 의미한다. 이 지수의 유효성을 시험하는 한 가지 기본적인 방법은 서로 관련이 없는 두 개의 군집을 비교하는 것이다. Fowlkes과 Mallows 두 관계 없는 clusterings을 이용해서, 이 인덱스 접근법의 가치 전체 데이터 포인트 클러스터링 인상을 선택할 숫자만큼 zero는 반면에, 랜드 인덱스에 대한 같은 데이터 값을 빠르게 1{1\displaystyle}[1]Fowlkes–Mallows 지수를 만들고 될 훨씬 더 정확한 표현으로 다가간 것으로 나타났다nr의기양양한 자료 또한 이 지수는 기존 데이터 집합에 노이즈가 추가되고 그 유사성이 비교되는 경우에도 우수한 성능을 발휘한다. 파울키스와 말로스는 소음의 성분이 증가함에 따라 지수의 가치가 감소한다는 것을 보여주었다. 이 지수는 또한 소음이 많은 데이터 집합이 원래 데이터 집합의 클러스터와 다른 수의 클러스터를 가지고 있을 때에도 유사성을 보였다. 따라서 두 군집 사이의 유사성을 측정하는 신뢰할 수 있는 도구가 된다.

추가 읽기

  • Fowlkes, Edward B; Mallows, Colin L (1983). "A method for comparing two hierarchical clusterings". Journal of the American Statistical Association. 78 (383): 553–569. doi:10.1080/01621459.1983.10478008.

참고 항목

참조

  1. ^ a b Fowlkes, E. B.; Mallows, C. L. (1 September 1983). "A Method for Comparing Two Hierarchical Clusterings". Journal of the American Statistical Association. 78 (383): 553. doi:10.2307/2288117.
  2. ^ Halkidi, Maria; Batistakis, Yannis; Vazirgiannis, Michalis (1 January 2001). "On Clustering Validation Techniques". Journal of Intelligent Information Systems. 17 (2/3): 107–145. doi:10.1023/A:1012801612483.
  3. ^ MEILA, M (1 May 2007). "Comparing clusterings—an information based distance". Journal of Multivariate Analysis. 98 (5): 873–895. doi:10.1016/j.jmva.2006.11.013.
  4. ^ Tharwat A (August 2018). "Classification assessment methods". Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003.

외부 링크