전체 링크 클러스터링
Complete-linkage clustering이 글은 검증을 위해 인용구가 추가로 필요하다. "완전한 – · · 책 · · (2010년 9월) (이 를 |
완전 연계 클러스터링은 집적 계층적 클러스터링의 몇 가지 방법 중 하나이다.공정의 시작에서 각 원소는 그 자체의 군집 안에 있다.그런 다음 모든 요소가 동일한 클러스터에 포함될 때까지 클러스터는 순차적으로 더 큰 클러스터로 결합된다.이 방법은 가장 먼 이웃 군집화라고도 알려져 있다.군집화 결과는 덴드로그램으로 시각화할 수 있는데, 군집 융합의 순서와 각 융화가 일어난 거리를 보여준다.[1][2][3]
군집화 절차
각 단계에서 가장 짧은 거리로 분리된 두 군집이 결합된다.'가장 짧은 거리'의 정의는 서로 다른 응집성 군집화 방법을 구별하는 것이다.완전한 링크 군집화에서, 두 군집 사이의 연결은 모든 요소 쌍을 포함하며, 군집 사이의 거리는 서로 가장 멀리 떨어져 있는 두 요소 사이의 거리(각 군집마다 한 개씩)와 같다.어떤 단계에 머물러 있는 이들 링크 중 가장 짧은 연결은 요소들이 관여하는 두 군집의 융합을 야기한다.
Mathematically, the complete linkage function — the distance between clusters and — is described by the following expression :
어디에
- ( , y) 은(는) X과 (는 y Y {\ Y}; 사이의 거리이다.
- 및 은 두 가지 요소(클러스터) 집합이다.
알고리즘
순진한 계획
다음 알고리즘은 기존 클러스터가 새로운 클러스터로 병합되면서 근접 행렬의 행과 열을 지우는 응집형 구조다. N N 근접 행렬 D에는 모든 거리 d(i,j)가 포함되어 있다.군집에는 시퀀스 번호 0,1,......, (n - 1)가 할당되며 L(k)은 k번째 군집화 수준이다.시퀀스 번호 m의 클러스터는 (m)으로 표시되고, 클러스터(r)와 (s) 사이의 근접성은 d[(r),(s)로 표시된다.
완전한 링크 클러스터링 알고리즘은 다음 단계로 구성된다.
- L( )= 0 L 및 시퀀스 번호 = 0 을(를) 갖는 분리형 클러스터링으로 시작하십시오
- [( )(), ( s ) , ( s에 따라 에서 유사한클러스터 을 찾으십시오. d [ ( r ) ,( ) = d ( i), ( d ( ) = ( ) = ] = #
- 시퀀스 번호: = + }을를) 증분하십시오클러스터) 및 ) 을 (를) 단일 클러스터로 병합하여 다음 클러스터링 을(를) 형성하십시오 이 클러스터링의 을 = d로 설정하십시오
- 클러스터) 및( 에 해당하는 행과 열을 삭제하고 새로 구성된 클러스터에 해당하는 행과 열을 추가하여 근접 행렬을 업데이트하십시오.The proximity between the new cluster, denoted and old cluster is defined as .
- 모든 개체가 하나의 클러스터에 있으면 중지하십시오.그렇지 않으면 2단계로 이동하십시오.
최적 효율적 계획
위에서 설명한 알고리즘은 이해하기 쉽지만 복잡성 ) 1976년 5월 D.디파이즈는 단일 링크 클러스터링에 대한 유사한 알고리즘 SLINK에서 영감을 받아 CLINK (1977년 발행)[4]로 알려진 복잡성 (2 O만 최적으로 효율적인 알고리즘을 제안했다.
![]() |
작업 예제
작업 예는 5S 리보솜 RNA 시퀀스 정렬에서 계산된 JC69 유전자 거리 매트릭스를 기반으로 한다.바실러스 아열대( subilis, 바실러스 스타어터모필루스( 유산균 바이러스덴스( 아콜레플라즈마모디쿰( d 마이크로코커스 루테우스([5][6]
1단계
- 첫 번째 군집화
5개 요소 와 그 요소들 사이의 쌍방향 거리의 다음 {\}이 있다고 가정해 봅시다.
a | b | c | d | e | |
---|---|---|---|---|---|
a | 0 | 17 | 21 | 31 | 23 |
b | 17 | 0 | 30 | 34 | 21 |
c | 21 | 30 | 0 | 28 | 39 |
d | 31 | 34 | 28 | 0 | 43 |
e | 23 | 21 | 39 | 43 | 0 |
이 예에서 1( , )= 의 가장 작은 이므로 및 요소에 한다
- 첫 번째 분기 길이 추정
이(가) {\과 (와) b{\}이(가) 연결된 노드를 나타내도록 하십시오.설정 Δ( ,)= ( b , = 1( , )/ }은는 a및 b {\ b} 가 {\displaystyle 로부터 동일하도록 보장한다이는 초경량 가설의 예상에 해당한다. b 을(를) 에 결합하는 분기의 길이 Δ)= / = 8 최종 덴드로그램 참조).
- 첫 번째 거리 행렬 업데이트
그런 다음 초기 근접 D1 {\1}를 새로운 2 {\D_{2}}( 참조 b {\ b을를) {\ a의 클러스터링으로 인해 크기가 한 행과 한 열로 축소됨 에서 굵은 값}는 첫 번째 군집 , )의 각 요소와 각 요소 사이의 최대 거리를 유지하여 계산한 새로운 거리에 해당한다
}의 기울임꼴로 표시된 값은 첫 번째 군집에 포함되지 않은 요소 사이의 거리에 해당하므로 행렬 업데이트의 영향을 받지 않는다.
두 번째 단계
- 두 번째 군집화
이제 새로운 거리 D }} :부터 시작하여 이전의 세 단계를 반복한다.
(a,b) | c | d | e | |
---|---|---|---|---|
(a,b) | 0 | 30 | 34 | 23 |
c | 30 | 0 | 28 | 39 |
d | 34 | 28 | 0 | 43 |
e | 23 | 39 | 43 | 0 |
여기서 ( ), )= 의 가장 낮은 우리는 ) 요소와 함께 클러스터(, b ) {\에 가입한다
- 두 번째 분기 길이 추정
이()( ,) 및 이(가) 연결된 노드를 나타내도록 하십시오.Because of the ultrametricity constraint, the branches joining or to , and to , are equal and have the following total length:
We deduce the missing branch length: (see the final dendrogram)
- 2차 거리 매트릭스
그런 다음 D }}매트릭스를 새로운 거리 매트릭스 3 D_아래 참조)로 업데이트하고 과 ){\의 클러스터링으로 인해 크기가 한 행과 한 열로 축소된다.
세 번째 단계
- 세 번째 군집화
업데이트된 거리 매트릭스 에서 시작하여 이전 세 단계를 다시 반복한다
((a,b),e) | c | d | |
---|---|---|---|
((a,b),e) | 0 | 39 | 43 |
c | 39 | 0 | 28 |
d | 43 | 28 | 0 |
여기서 ( c, )= 은 D 의 가장 작은값이기 때문에 요소 및 에 가입한다
- 세 번째 분기 길이 추정
이 (가) 및 이(가) 연결된 노드를 나타내도록 하십시오. 및 d 을 (를) 에 연결하는 분기의 길이는 Δ, )= / = 마지막 덴드로그램 참조)
- 3차 거리 행렬 업데이트
There is a single entry to update:
최종 단계
최종 행렬은 다음과 같다.
((a,b),e) | (c,d) | |
---|---|---|
((a,b),e) | 0 | 43 |
(c,d) | 43 | 0 |
그래서 우리는 (, ), e) 과, ) 을(를) 결합한다
이(가(, ), e) 및( d ){\이 (가) 연결되는 (root) 노드를 나타내도록 한다. ), ) {\ 및( , ){\d) 디스플레이style 을 (를) r r에 결합하는 분기의 길이는 다음과 같다.
남은 두 가지 가지 가지 길이를 추론해 봅시다.
전체 링크 덴드로그램
덴드로그램은 이제 완성되었다.모든 팁 ~ 이 r
따라서 덴드로그램은 가장 깊은 노드인 에 의해 뿌리를 내린다.
다른 링크와의 비교
대안적 연결 체계에는 단일 연결 클러스터링과 평균 연결 클러스터링이 포함된다. 순진한 알고리즘에서 다른 연결을 구현하는 것은 단순히 근접 매트릭스의 초기 계산과 위의 알고리즘의 4단계에서 클러스터 간 거리를 계산하기 위해 다른 공식을 사용하는 것이다.그러나 임의의 연결에는 최적으로 효율적인 알고리즘을 사용할 수 없다.조정해야 할 수식은 굵은 텍스트를 사용하여 강조 표시했다.
완전한 연결 클러스터링은 비록 각 클러스터의 많은 요소들이 서로 매우 멀리 떨어져 있더라도 단일 연결 클러스터링을 통해 형성된 클러스터들이 서로 가까이 있기 때문에 함께 강제될 수 있는 소위 체인 현상이라는 대안적인 단일 연결 방법의 단점을 피한다.완전한 연결은 대략 같은 직경의 콤팩트한 군집을 찾는 경향이 있다.[7]
![]() | |||
단일 링크 클러스터링. | 전체 링크 클러스터링 | 평균 연결 클러스터링: WPGMA | 평균 연결 클러스터링: UPGMA. |
참고 항목
참조
- ^ Sorensen T (1948). "A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons". Biologiske Skrifter. 5: 1–34.
- ^ Legendre P, Legendre L (1998). Numerical Ecology (Second English ed.). p. 853.
- ^ Everitt BS, Landau S, Leese M (2001). Cluster Analysis (Fourth ed.). London: Arnold. ISBN 0-340-76119-9.
- ^ Defays D (1977). "An efficient algorithm for a complete link method". The Computer Journal. British Computer Society. 20 (4): 364–366. doi:10.1093/comjnl/20.4.364.
- ^ Erdmann VA, Wolters J (1986). "Collection of published 5S, 5.8S and 4.5S ribosomal RNA sequences". Nucleic Acids Research. 14 Suppl (Suppl): r1-59. doi:10.1093/nar/14.suppl.r1. PMC 341310. PMID 2422630.
- ^ Olsen GJ (1988). "Phylogenetic analysis using ribosomal RNA". Methods in Enzymology. 164: 793–812. doi:10.1016/s0076-6879(88)64084-5. PMID 3241556.
- ^ 에버릿, 랜다우와 리스(2001), 페이지 62-64.
추가 읽기
- Späth H (1980). Cluster Analysis Algorithms. Chichester: Ellis Horwood.