전체 링크 클러스터링

완전 연계 클러스터링은 집적 계층적 클러스터링의 몇 가지 방법 중 하나이다.공정의 시작에서 각 원소는 그 자체의 군집 안에 있다.그런 다음 모든 요소가 동일한 클러스터에 포함될 때까지 클러스터는 순차적으로 더 큰 클러스터로 결합된다.이 방법은 가장 먼 이웃 군집화라고도 알려져 있다.군집화 결과는 덴드로그램으로 시각화할 수 있는데, 군집 융합의 순서와 각 융화가 일어난 거리를 보여준다.^[1]^[2]^[3]

군집화 절차

각 단계에서 가장 짧은 거리로 분리된 두 군집이 결합된다.'가장 짧은 거리'의 정의는 서로 다른 응집성 군집화 방법을 구별하는 것이다.완전한 링크 군집화에서, 두 군집 사이의 연결은 모든 요소 쌍을 포함하며, 군집 사이의 거리는 서로 가장 멀리 떨어져 있는 두 요소 사이의 거리(각 군집마다 한 개씩)와 같다.어떤 단계에 머물러 있는 이들 링크 중 가장 짧은 연결은 요소들이 관여하는 두 군집의 융합을 야기한다.

Mathematically, the complete linkage function — the distance $D(X,Y)$ between clusters $X$ and $Y$ — is described by the following expression : $D(X,Y)=\max _{x\in X,y\in Y}d(x,y)$

어디에

$d(x,y)$ ( $d(x,y)$ , y $d(x,y)$ ) $d(x,y)$ 은(는) $x\in X$ $x\in X$ $x\in X$ ${\displaystyle x\in$ X $}$ 과 $x\in X$ (는 $y\in Y$ y $\$ Y {\ $displaystyle y\in$ Y}; $y\in Y$ 사이의 거리이다 $d(x,y)$ .
$X$ $X$ 및 $X$ $Y$ $Y$ 은 $Y$ 두 가지 요소(클러스터) 집합이다.

알고리즘

순진한 계획

다음 알고리즘은 기존 클러스터가 새로운 클러스터로 병합되면서 근접 행렬의 행과 열을 지우는 응집형 구조다. $N\times N$ $N\times N$ $N\times N$ ${\displaystyle$ N $\times$ N $}$ 근접 $N\times N$ 행렬 D에는 모든 거리 d(i,j)가 포함되어 있다.군집에는 시퀀스 번호 0,1,......, (n - 1)가 할당되며 L(k)은 k번째 군집화 수준이다.시퀀스 번호 m의 클러스터는 (m)으로 표시되고, 클러스터(r)와 (s) 사이의 근접성은 d[(r),(s)로 표시된다.

완전한 링크 클러스터링 알고리즘은 다음 단계로 구성된다.

$L(0)=0$ L $L(0)=0$ ( $L(0)=0$ ) $L(0)=0$ = 0 ${\displaystyle$ L $(0)=0}$ 및 시퀀스 $L(0)=0$ 번호 $m=0$ = 0 $m=0$ 을(를) 갖는 분리형 클러스터링으로 시작하십시오 $m=0$
$d[(r),(s)]=\min d[(i),(j)]$ [ $d[(r),(s)]=\min d[(i),(j)]$ ( $d[(r),(s)]=\min d[(i),(j)]$ ) $d[(r),(s)]=\min d[(i),(j)]$ $(r),(s)$ ( $(r),(s)$ ) $(r),(s)$ , ( s ) , ( s $d[(r),(s)]=\min d[(i),(j)]$ 에 따라 $d[(r),(s)]=\min d[(i),(j)]$ $d[(r),(s)]=\min d[(i),(j)]$ 에서 $d[(r),(s)]=\min d[(i),(j)]$ 유사한 $d[(r),(s)]=\min d[(i),(j)]$ 클러스터 $d[(r),(s)]=\min d[(i),(j)]$ 을 찾으십시오. d [ ( r ) , $d[(r),(s)]=\min d[(i),(j)]$ ( ) = $(r),(s)$ $min$ d $d[(r),(s)]=\min d[(i),(j)]$ ( i $d[(r),(s)]=\min d[(i),(j)]$ ) $d[(r),(s)]=\min d[(i),(j)]$ , ( $d[(r),(s)]=\min d[(i),(j)]$ ${\displaystyle$ d $[(r)],$ ( ) = ( ) = ] = # $min d[i,$ $(j)}.$
시퀀스 번호: $m=m+1$ = $m=m+1$ + $m=m+1$ ${\displaystyle m=m+1$ }을 $($ 를) 증분하십시오 $m=m+1$ 클러스터 $(r)$ ) ${\displaystyle(r)}$ 및 $(s)$ ) ${\displaystyle(s)}$ 을 $(r)$ (를) 단일 클러스터로 $(s)$ 병합하여 다음 클러스터링 $m$ ${\$ $displaystyle$ $m$ $L(m)=d[(r),(s)]$ 을(를) 형성하십시오 $m$ 이 클러스터링의 $수준$ 을 $($ $L(m)=d[(r),(s)]$ = d $r)],$ 로 설정하십시오 $.$
클러스터 $(r)$ ) ${\displaystyle(r)}$ 및 $(s)$ ( $(s)$ ${\displaystyle(s)}$ 에 $(r)$ 해당하는 행과 열을 삭제하고 새로 $(s)$ 구성된 클러스터에 해당하는 행과 열을 추가하여 $D$ ${\displaystyle D$ 근접 행렬을 업데이트하십시오.The proximity between the new cluster, denoted $(r,s)$ and old cluster $(k)$ is defined as $d[(r),(s)]=\max\{d[(k),(r)],d[(k),(s)]\}$ .
모든 개체가 하나의 클러스터에 있으면 중지하십시오.그렇지 않으면 2단계로 이동하십시오.

최적 효율적 계획

위에서 설명한 알고리즘은 이해하기 쉽지만 복잡성 $O(n^{3})$ $O(n^{3})$ ) ${\displaystyle O(n^{3$ 1976년 5월 D.디파이즈는 단일 링크 클러스터링에 대한 유사한 알고리즘 SLINK에서 영감을 받아 CLINK (1977년 발행)^[4]로 알려진 $O(n^{2})$ 복잡성 $O(n^{2})$ ( $O(n^{2})$ 2 $){\displaystyle$ O $(n^{2})$ 만 최적으로 효율적인 알고리즘을 제안했다.

작업 예제

작업 예는 5S 리보솜 RNA 시퀀스 정렬에서 계산된 JC69 유전자 거리 매트릭스를 기반으로 한다.바실러스 아열대( $a$ subilis, ${\$ $displaystyle$ $a}),$ 바실러스 스타어터모필루스( $b$ ${\displaystyle b}),$ 유산균 바이러스덴스( $c$ ${\displaystyle$ $c$ $}),$ 아콜레플라즈마모디쿰( $d$ ${\$ d $}),$ 마이크로코커스 루테우스( $e}).$ ^[5]^[6]

1단계

첫 번째 군집화

5개 요소 $(a,b,c,d,e)$ $(a,b,c,d,e)$ $(a,b,c,d,e)$ $(a,b,c,d,e)$ $){\displaystyle(a,b,c,d,e)}$ 와 $(a,b,c,d,e)$ 그 요소들 사이의 쌍방향 거리의 다음 $D_{1}$ $D_{1}$ $D_{1}$ {\ $displaystyle D_{1$ }이 있다고 가정해 봅시다.

	a	b	c	d	e
a	0	17	21	31	23
b	17	0	30	34	21
c	21	30	0	28	39
d	31	34	28	0	43
e	23	21	39	43	0

이 예에서 $D_{1}(a,b)=17$ 1 $D_{1}(a,b)=17$ ( $D_{1}(a,b)=17$ , $D_{1}(a,b)=17$ ) $D_{1}(a,b)=17$ = $D_{1}(a,b)=17$ ${\displaystyle D_{1}(a$ $,$ $b$ $)=17}$ 의 가장 작은 $D_{1}$ 이므로 $D_{1}(a,b)=17$ $D_{1}$ $a$ 및 $a$ $b$ $b$ 요소에 $a$ 한다 $b$

첫 번째 분기 길이 추정

$u$ $u$ 이(가) $현재$ {\ $displaystyle a}$ 과 $a$ (와) b{\ $displaystyle b$ }이 $b$ (가) 연결된 노드를 나타내도록 $u$ 하십시오.설정 Δ $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ ( $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ , $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ ) $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ = $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ ( b , $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ = $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ 1 $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ ( $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ , $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ ) $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ / $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ ${\displaystyle \delta (a,u)=\delta (b,u)=$ $D_$ ${1}(a,b)/2$ }은 $\delta (a,u)=\delta (b,u)=D_{1}(a,b)/2$ $($ 는 $)$ ${\displaystyle$ a $}$ 및 b {\ $displaystyle$ b $b$ } $u$ 가 $u$ {\displaystyle $u}$ 로부터 동일하도록 보장한다 $u$ 이는 초경량 가설의 예상에 해당한다. $그러면$ $u$ $a$ $및$ b $a$ $b$ 을(를) $u$ ${\displaystyle u$ $\delta (a,u)=\delta (b,u)=17/2=8.5$ 에 $b$ 결합하는 분기의 길이 Δ $\delta (a,u)=\delta (b,u)=17/2=8.5$ ) $\delta (a,u)=\delta (b,u)=17/2=8.5$ = $\delta (a,u)=\delta (b,u)=17/2=8.5$ / $\delta (a,u)=\delta (b,u)=17/2=8.5$ = 8 $\delta (a,u)=\delta (b,u)=17/2=8.5$ ${\displaysty \delta(a,u)=17/2=8.5}($ 최종 덴드로그램 참조). $\delta (a,u)=\delta (b,u)=17/2=8.5$

첫 번째 거리 행렬 업데이트

그런 다음 초기 근접 $D_{1}$ D $D_{1}$ 1 {\ $displaystyle D_{$ 1}를 새로운 $D_{2}$ $D_{2}$ 2 {\ $displaystyle$ D_{2}}( $아래$ 참조 $).$ b {\ $displaystyle$ b $}$ 을 $a$ $($ 를) $가진$ {\ $displaystyle$ a $}$ 의 클러스터링으로 인해 크기가 한 행과 한 열로 축소됨 $b$ $D_{2}$ $D_{2}$ ${\$ 에서 굵은 값 $_{2$ }는 첫 번째 군집 $(a,b)$ $a$ , $b$ )의 각 요소와 $나머지$ 각 요소 사이의 최대 거리를 유지하여 계산한 새로운 거리에 해당한다 $D_{2}$ $.$

$D_{2}((a,b),c)=max(D_{1}(a,c),D_{1}(b,c)=max(21,30)=30$

$D_{2}(a,b),d)=max(D_{1}(a,d),D_{1}(b,d)=max(31,34)=34$

$D_{2}((a,b),e)=max(D_{1}(a,e),D_{1}(b,e)=max(23,21)=23$

$D_{2}$ $D_{2}$ ${\$ }의 기울임꼴로 표시된 값은 첫 번째 군집에 포함되지 않은 요소 사이의 거리에 해당하므로 행렬 업데이트의 영향을 받지 않는다 $D_{2}$ .

두 번째 단계

두 번째 군집화

이제 새로운 거리 $D_{2}$ D $D_{2}$ ${\$ }} $D_{2}$ :부터 시작하여 이전의 세 단계를 반복한다.

	(a,b)	c	d	e
(a,b)	0	30	34	23
c	30	0	28	39
d	34	28	0	43
e	23	39	43	0

여기서 $D_{2}((a,b),e)=23$ $D_{2}((a,b),e)=23$ ( $D_{2}((a,b),e)=23$ $D_{2}((a,b),e)=23$ ) $D_{2}((a,b),e)=23$ , $D_{2}((a,b),e)=23$ ) $D_{2}((a,b),e)=23$ = $D_{2}((a,b),e)=23$ ${\displaystyle D_{2}((a,b),e)=$ $23}$ 의 가장 낮은 $D_{2}$ 우리는 $클러스터$ $(a,b)$ $(a,b)$ ) $(a,b)$ ${\$ $displaystyle$ $e}$ 요소와 $(a,b)$ 함께 클러스터(, b ) {\ $displaystystyle$ $(a,b)}$ 에 가입한다 $e$

두 번째 분기 길이 추정

$v$ $v$ 이( $(a,b)$ ) $(a,b)$ ( , $(a,b)$ ) $(a,b)$ 및 $e$ $e$ 이(가) 연결된 노드를 $e$ 나타내도록 하십시오 $v$ .Because of the ultrametricity constraint, the branches joining $a$ or $b$ to $v$ , and $e$ to $v$ , are equal and have the following total length: ${\displaystyle \delt$ $a (a,v)=\cHB(b,v)=\cHB(e,v)=23/2=11.5}$

We deduce the missing branch length: $\delta (u,v)=\delta (e,v)-\delta (a,u)=\delta (e,v)-\delta (b,u)=11.5-8.5=3$ (see the final dendrogram)

2차 거리 매트릭스

그런 다음 D $D_{2}$ ${\$ }} $D_{2}$ 매트릭스를 $D_{2}$ 새로운 거리 매트릭스 $D_{3}$ 3 ${\$ D_ ${3}($ 아래 참조)로 업데이트하고 $(a,b)$ $e$ $e$ 과 $(a,b)$ $(a,b)$ $(a,b)$ ) $(a,b)$ {\ $displaystystyle (a,b)$ 의 클러스터링으로 인해 크기가 한 행과 한 열로 축소된다. $e$

$D_{3}((a,b),e),c)=max(D_{2}(a,b),c),D_{2}(e,c)=max(30,39)=39$

$D_{3}((a,b),e),d)=max(D_{2}(a,b),d),D_{2}(e,d)=max(34,43)=43$

세 번째 단계

세 번째 군집화

업데이트된 거리 매트릭스 $D_{3}$ $D_{3}$ ${\$ 에서 시작하여 이전 세 단계를 다시 반복한다 $D_{3}$

	((a,b),e)	c	d
((a,b),e)	0	39	43
c	39	0	28
d	43	28	0

여기서 $D_{3}(c,d)=28$ $D_{3}(c,d)=28$ ( c $D_{3}(c,d)=28$ , $D_{3}(c,d)=28$ ) $D_{3}(c,d)=28$ = $D_{3}(c,d)=28$ $D_{3}(c,d)=28$ 은 D $D_{3}$ ${\$ 의 가장 작은 $D_{3}$ 값이기 $D_{3}(c,d)=28$ 때문에 요소 $c$ $c$ 및 $d$ ${\displaystyd}$ 에 가입한다 $d$

세 번째 분기 길이 추정

$w$ $w$ 이 $w$ $c$ (가) $c$ $c$ 및 $d$ $d$ 이(가) 연결된 $d$ 노드를 나타내도록 하십시오. $c$ $w$ $c$ 및 d $d$ 을 $c$ (를) $w$ $w$ 에 $d$ 연결하는 분기의 길이는 Δ $\delta (c,w)=\delta (d,w)=28/2=14$ , $\delta (c,w)=\delta (d,w)=28/2=14$ ) $\delta (c,w)=\delta (d,w)=28/2=14$ = $\delta (c,w)=\delta (d,w)=28/2=14$ / $\delta (c,w)=\delta (d,w)=28/2=14$ = $\delta (c,w)=\delta (d,w)=28/2=14$ ${\displaysty \delta(c,w)=28/2=14}($ 마지막 덴드로그램 참조) $\delta (c,w)=\delta (d,w)=28/2=14$

3차 거리 행렬 업데이트

There is a single entry to update: $D_{4}((c,d),((a,b),e))=max(D_{3}(c,((a,b),e)),D_{3}(d,((a,b),e)))=max(39,43)=43$

최종 단계

최종 $D_{4}$ $D_{4}$ ${\$ 행렬은 $D_{4}$ 다음과 같다.

	((a,b),e)	(c,d)
((a,b),e)	0	43
(c,d)	43	0

그래서 우리는 $((a,b),e)$ ( $((a,b),e)$ , $((a,b),e)$ ) $((a,b),e)$ , e $((a,b),e)$ ) $((a,b),e)$ 과 $((a,b),e)$ $(c,d)$ , $(c,d)$ ) $(c,d)$ 을(를) 결합한다 $(c,d)$

$r$ $r$ 이(가 $((a,b),e)$ ( $((a,b),e)$ , $((a,b),e)$ ) $((a,b),e)$ , e $((a,b),e)$ ) $((a,b),e)$ 및 $((a,b),e)$ $(c,d)$ ( $(c,d)$ $(c,d)$ d ) $(c,d)$ {\ $displaystyle (c,d)}$ 이 $(c,d)$ (가) 연결되는 (root) 노드를 나타내도록 $r$ 한다. $($ $((a,b),e)$ $((a,b),e)$ ) $((a,b),e)$ , $((a,b),e)$ ) {\ $displaystyle ((a,b),e)}$ 및 $(c,d)$ ( , $(c,d)$ ) $(c,d)$ {\d) ${\d$ 디스플레이style $(c,d)}$ 을 $((a,b),e)$ (를) r ${\displaystyle$ r $}$ 에 $(c,d)$ 결합하는 분기의 길이는 다음과 $r$ 같다.

$\property ((a,b),e),r)=\property(c,d),r)=43/2=21.5$

남은 두 가지 가지 가지 길이를 추론해 봅시다.

$\cHB(v,r)=\cHB((a,b,e),r)-\cHB(e,v)=21.5-11.5=10$

$\property(w,r)=\property(c,d),r)-\properties(c,w)=21.5-14=7.5$

전체 링크 덴드로그램

덴드로그램은 이제 완성되었다.모든 팁 $({\displaystyle a}$ ~ $e$ ${\displaystyle e$ 이 r ${\displaystyle r}:$

$\d,r=\displaystyle \cHB=\displaystyle \b,r)=\display(b,r)=\display(c,r)=21.5}$

따라서 덴드로그램은 가장 깊은 노드인 $r$ $r$ 에 의해 뿌리를 내린다.

다른 링크와의 비교

대안적 연결 체계에는 단일 연결 클러스터링과 평균 연결 클러스터링이 포함된다. 순진한 알고리즘에서 다른 연결을 구현하는 것은 단순히 근접 매트릭스의 초기 계산과 위의 알고리즘의 4단계에서 클러스터 간 거리를 계산하기 위해 다른 공식을 사용하는 것이다.그러나 임의의 연결에는 최적으로 효율적인 알고리즘을 사용할 수 없다.조정해야 할 수식은 굵은 텍스트를 사용하여 강조 표시했다.

완전한 연결 클러스터링은 비록 각 클러스터의 많은 요소들이 서로 매우 멀리 떨어져 있더라도 단일 연결 클러스터링을 통해 형성된 클러스터들이 서로 가까이 있기 때문에 함께 강제될 수 있는 소위 체인 현상이라는 대안적인 단일 연결 방법의 단점을 피한다.완전한 연결은 대략 같은 직경의 콤팩트한 군집을 찾는 경향이 있다.^[7]

동일한 거리 행렬에서 다른 군집화 방법으로 얻은 덴드로그램 비교.


단일 링크 클러스터링.	전체 링크 클러스터링	평균 연결 클러스터링: WPGMA	평균 연결 클러스터링: UPGMA.

참고 항목

참조

^ Sorensen T (1948). "A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons". Biologiske Skrifter. 5: 1–34.
^ Legendre P, Legendre L (1998). Numerical Ecology (Second English ed.). p. 853.
^ Everitt BS, Landau S, Leese M (2001). Cluster Analysis (Fourth ed.). London: Arnold. ISBN 0-340-76119-9.
^ Defays D (1977). "An efficient algorithm for a complete link method". The Computer Journal. British Computer Society. 20 (4): 364–366. doi:10.1093/comjnl/20.4.364.
^ Erdmann VA, Wolters J (1986). "Collection of published 5S, 5.8S and 4.5S ribosomal RNA sequences". Nucleic Acids Research. 14 Suppl (Suppl): r1-59. doi:10.1093/nar/14.suppl.r1. PMC 341310. PMID 2422630.
^ Olsen GJ (1988). "Phylogenetic analysis using ribosomal RNA". Methods in Enzymology. 164: 793–812. doi:10.1016/s0076-6879(88)64084-5. PMID 3241556.
^ 에버릿, 랜다우와 리스(2001), 페이지 62-64.

추가 읽기

Späth H (1980). Cluster Analysis Algorithms. Chichester: Ellis Horwood.

[1] Sorensen T (1948). "A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons". Biologiske Skrifter. 5: 1–34.

[2] Legendre P, Legendre L (1998). Numerical Ecology (Second English ed.). p. 853.

[3] Everitt BS, Landau S, Leese M (2001). Cluster Analysis (Fourth ed.). London: Arnold. ISBN 0-340-76119-9.

[4] Defays D (1977). "An efficient algorithm for a complete link method". The Computer Journal. British Computer Society. 20 (4): 364–366. doi:10.1093/comjnl/20.4.364.

[Erdmann1986-5] Erdmann VA, Wolters J (1986). "Collection of published 5S, 5.8S and 4.5S ribosomal RNA sequences". Nucleic Acids Research. 14 Suppl (Suppl): r1-59. doi:10.1093/nar/14.suppl.r1. PMC 341310. PMID 2422630.

[Olsen1988-6] Olsen GJ (1988). "Phylogenetic analysis using ribosomal RNA". Methods in Enzymology. 164: 793–812. doi:10.1016/s0076-6879(88)64084-5. PMID 3241556.

[7] 에버릿, 랜다우와 리스(2001), 페이지 62-64.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Search