정보의 변동
Variation of information확률이론과 정보이론에서 정보의 변동이나 공유정보 거리는 두 군집(요소의 일부분) 사이의 거리를 측정하는 척도다.그것은 상호 정보와 밀접한 관련이 있다; 실제로 상호 정보를 포함하는 단순한 선형 표현이다.그러나 상호 정보와 달리 정보의 변동은 삼각형 불평등에 순응한다는 점에서 진정한 척도다.[1][2][3]
정의
Suppose we have two partitions and of a set into disjoint subsets, namely and .
허용:
- = / n 및 = /
그러면 두 칸막이 사이의 정보의 변동은 다음과 같다.
- .
는 B 에 대해 로 정의된 A 에 균일한측정에 랜덤 i와 j 의 공유 정보 거리에 해당한다
명시적 정보 내용
우리는 이 측정지표의 정보 내용을 명시적으로 강조하는 용어로 이 정의를 다시 쓸 수 있다.
집합의 모든 파티션 집합은 콤팩트한 래티스(Lattice)를 형성하며, 여기서 부분 순서는{ 과 조인{\의 두 가지 작업을 유도하며 1 블록은 하나의 블록만 그룹화된 파티션이다.nd 최소값은 이며 모든 원소로 구성된 파티션은 단골격이다.두 칸막이 X과 의 한 인 i{\와 Y의 한 블록의 모든 쌍 교차점에 의해 형성된 칸막이가 그 뒤를 따르기 때문에 이해하기 쉽다 X {\displaystyle Y 및 ∧ Y Y
파티션 의 엔트로피를 다음과 같이 정의하십시오.
- ( )= - i logp ,
where . Clearly, and . The entropy of a partition is a monotonous function on the lattice of partitions in the sense ( X) H( ){ H ( )\\ X .
다음 X 과 사이의 VI 거리는 다음과 같이 지정된다.
- ( , Y)= ( Y)- ( X)- ( ) - H ()
The difference is a pseudo-metric as doesn't necessarily imply that . From the definition of , V ( , )= ( ) { 입니다
Hasse 다이어그램에서 모든 파티션에서 최대 까지 에지를 그리고 된 파티션과 1 사이의 VI 거리와 동일한 가중치를 할당하면 기본적으로 VI 거리를 차이의 평균으로 해석할 수 있다최대 에지 웨이트의
- {\1 Y1 })
위에서 정의한 ( ) 의 경우, 두 파티션의 공동 정보가 모임의 엔트로피와 일치함을 유지한다.
and we also have that coincides with the conditional entropy of the meet (intersection) relative to .
정체성
정보의 변동이 만족한다.
- ( ; Y)= H( X)+ ( )- 2 ( , ) )-
where is the entropy of , and is mutual information between and with respect to the uniform probability measure on . This can be rewritten as
- ( ; Y)= ( , )- I( , Y)
여기서 ( , Y) 은(는) 및 의 공동 엔트로피 또는
- ( ; Y)= ( Y)+ H X) Y
여기서 Y) Y 및 X은 각각의 조건부 엔트로피이다.
정보의 변동은 또한 요소의 수에 따라 제한될 수 있다.
- ( ; ) () {Y)\(n
또는 최대 클러스터 수와 관련하여 K :
참조
- ^ P. 아라비, S.A. Boorman, S.A. Boorman, "칸막이 사이의 거리의 측정에 대한 다차원적 스케일링" , 수학심리학 저널 (1973) , 10, 2, 페이지 148–203, 도이: 10.1016/0022-2496 (73)90012-6.
- ^ W.H. Zurek, Nature, vol 341, p119 (1989), W.H. Zurek, Physical Review A, vol 40, 페이지 4731 (1989)
- ^ 마리나 메이라, "정보의 변화에 의한 클러스터링", 학습이론과 커널 머신(2003), 제2777권, 페이지 173–187, doi:10.1007/978-3-540-45167-9_14, 컴퓨터 과학 강의 노트, ISBN978-3-540-40720-1
추가 읽기
- Arabie, P.; Boorman, S. A. (1973). "Multidimensional scaling of measures of distance between partitions". Journal of Mathematical Psychology. 10 (2): 148–203. doi:10.1016/0022-2496(73)90012-6.
- Meila, Marina (2003). "Comparing Clusterings by the Variation of Information". Learning Theory and Kernel Machines. Lecture Notes in Computer Science. 2777: 173–187. doi:10.1007/978-3-540-45167-9_14. ISBN 978-3-540-40720-1.
- Meila, M. (2007). "Comparing clusterings—an information based distance". Journal of Multivariate Analysis. 98 (5): 873–895. doi:10.1016/j.jmva.2006.11.013.
- Kingsford, Carl (2009). "Information Theory Notes" (PDF). Retrieved 22 September 2009.
- Kraskov, Alexander; Harald Stögbauer; Ralph G. Andrzejak; Peter Grassberger (2003). "Hierarchical Clustering Based on Mutual Information". arXiv:q-bio/0311039.
외부 링크
- Partanalyzer에는 파티션 및 클러스터 분석을 위한 VI 및 기타 메트릭과 지수의 C++ 구현이 포함됨
- MATLAB mex 파일을 사용한 C++ 구현