엘보우 방법(클러스터링)
Elbow method (clustering)군집 분석에서 엘보우 방법은 데이터 집합의 군집 수를 결정하는 데 사용되는 경험적 접근법입니다.이 방법에서는 설명된 변동을 군집 수의 함수로 표시하고 곡선의 팔꿈치를 사용할 군집 수로 선택하는 것으로 구성됩니다.동일한 방법을 사용하여 데이터 집합을 설명하는 주성분 수와 같은 다른 데이터 기반 모델에서 매개 변수 수를 선택할 수 있습니다.
그 방법은 Robert L.에 의한 추측으로 추적할 수 있다. 1953년 [1]손다이크.
직감
"팔꿈치" 또는 "곡선의 무릎"을 컷오프 지점으로 사용하는 것은 수익 감소가 더 이상 추가 비용의 가치가 없는 지점을 선택하기 위한 수학적 최적화에서 일반적인 휴리스틱이다.즉, 군집화에서는 다른 군집을 추가하는 것이 데이터를 더 잘 모델링하지 않도록 군집 수를 선택해야 합니다.
사용할 모수가 더 많으므로(더 많은 군집) 군집의 수를 늘리면 자연스럽게 적합성이 개선된다는 것이 직감입니다. 그러나 어느 시점에서는 이 모수가 과적합하고 팔꿈치가 이를 반영합니다.예를 들어, 실제로 k개의 레이블이 지정된 그룹(예: 잡음으로 표본 추출된 k개의 점)으로 구성된 데이터가 주어진 경우, k개 이상의 군집을 사용하여 더 많은 변동을 "설명"할 수 있지만, 레이블이 지정된 그룹을 여러 군집으로 세분화하는 것이므로 이 방법은 지나치게 적합합니다.첫 번째 클러스터는 많은 정보를 추가합니다(다양한 변화를 설명함). 데이터가 실제로는 그 많은 그룹으로 구성되어 있기 때문입니다.그러나 클러스터 수가 데이터 내의 실제 그룹 수를 초과하면 추가된 정보가 급격히 감소합니다.이는 실제 그룹을 세분화하는 데 불과하기 때문입니다.이 경우 설명되는 변동 대 클러스터의 그래프에는 날카로운 엘보가 있습니다. 즉, k까지 빠르게 증가(적합 이하 영역), k 이후 천천히 증가(과적합 영역)합니다.
실제로 날카로운 팔꿈치는 없을 수 있으며, 경험적 방법으로서 그러한 "팔꿈치"를 항상 명확하게 [2]식별할 수 없다.이를 극복하기 위해 빈센트 그랜빌이 2019년 '팔꿈치 강도'라는 양을 도입해 클러스터 수를 자동 결정하는 데 성공했음을 [3]입증했다.
변동 측정값
엘보우 방법에 사용되는 "설명된 변화"의 측정치는 다양하다.일반적으로 변동은 분산에 의해 정량화되며 사용되는 비율은 전체 분산에 대한 그룹 간 분산의 비율입니다.또는 일원 분산 분석 F-검정 [4]통계량인 그룹 간 분산 대 그룹 내 분산의 비율을 사용합니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Robert L. Thorndike (December 1953). "Who Belongs in the Family?". Psychometrika. 18 (4): 267–276. doi:10.1007/BF02289263.
- ^ 예를 들어,
- ^ Pavel V. Kolesnichenko; Qianhui Zhang; Changxi Zheng; Michael S. Fuhrer; Jeffrey A. Davis (2021). "Multidimensional analysis of excitonic spectra of monolayers of tungsten disulphide: toward computer-aided identification of structural and environmental perturbations of 2D materials". Machine Learning: Science and Technology. 2 (2): 025021. doi:10.1088/2632-2153/abd87c.
- ^ 그림 6을 참조해 주세요.
- Goutte, Cyril; Toft, Peter; Rostrup, Egill; Nielsen, Finn Årup; Hansen, Lars Kai (March 1999). "On Clustering fMRI Time Series". NeuroImage. 9 (3): 298–310. CiteSeerX 10.1.1.29.2679. doi:10.1006/nimg.1998.0391. PMID 10075900.