홉킨스 통계량
Hopkins statistic홉킨스 통계(Brian Hopkins와 John Gordon Skellam이 소개함)는 데이터 집합의 군집적 경향을 측정하는 방법이다.[1]희박한 샘플링 테스트 계열에 속한다.데이터가 포아송 점 공정에서 생성되어 균일하게 랜덤하게 분포된다는 귀무 가설이 있는 경우 통계적 가설 검정으로 작용한다.[2]1에 가까운 값은 데이터가 고도로 군집화되어 있음을 나타내는 경향이 있고, 랜덤 데이터는 0.5 전후의 값을 나타내는 경향이 있으며, 균일하게 분포된 데이터는 0에 가까운 값을 나타내는 경향이 있다.[3]
예선
홉킨스 통계량의 전형적인 공식은 다음과 같다.[2]
- 을(를) n 데이터 점 집합으로 설정하십시오.
- 이( 있는 m {\displaystyle 데이터 포인트의 랜덤 표본을 고려하십시오
- {\의 집합 을(를) 균일하게 랜덤하게 분포된 데이터 점으로 생성하십시오.
- 두 가지 거리 측도를 정의하십시오.
- , 의 가장 가까운 이웃으로부터 y Y 의 거리
- 임의로 선택한 X X의 가장 가까운 으로부터 거리
정의
위의 표기법으로, 가d {\ d차원인 경우, Hopkins 통계량은 다음과 같이 정의된다.[4]
귀무 가설에서 이 통계량은 베타(m,m) 분포를 가진다.
참고 및 참조
- ^ Hopkins, Brian; Skellam, John Gordon (1954). "A new method for determining the type of distribution of plant individuals". Annals of Botany. Annals Botany Co. 18 (2): 213–227.
- ^ a b Banerjee, A. (2004). "Validating clusters using the Hopkins statistic". IEEE International Conference on Fuzzy Systems: 149–153. doi:10.1109/FUZZY.2004.1375706.
- ^ Aggarwal, Charu C. (2015). Data Mining. Cham: Springer International Publishing. p. 158. doi:10.1007/978-3-319-14142-8. ISBN 978-3-319-14141-1.
- ^ Cross, G.R.; Jain, A.K. (1982). "Measurement of clustering tendency". Theory and Application of Digital Control: 315-320. doi:10.1016/B978-0-08-027618-2.50054-1.