군집 가설
Cluster hypothesis이 글은 검증을 위해 인용구가 추가로 필요하다.– · · 책· · (2011년 11월)(이를 |
머신러닝과 정보 검색에서 클러스터 가설은 그러한 분야에서 취급되는 데이터의 성격에 대한 가정으로, 다양한 형태를 취한다.정보 검색에서, 그것은 함께 모여 있는 문서들은 "정보 요구와 관련성과 유사하다"[1]고 명시한다.분류에 있어서는 점들이 같은 군집 안에 있으면 같은 등급일 가능성이 있다고 기술하고 있다.[2]단일 클래스를 구성하는 여러 군집이 있을 수 있다.
정보 검색
군집 가설은 반 리즈베르겐에 의해 처음 공식화되었다:[3] "밀접하게 연관된 문서들은 동일한 요청과 관련이 있는 경향이 있다."따라서 이론적으로 검색 엔진은 쿼리에 적합한 클러스터만 찾고 사용자가 이 클러스터를 탐색할 수 있도록 허용할 수 있다.비록 실험에서 군집 가설이 이와 같이 유지되는 것으로 나타났지만, 그것을 검색에 이용하는 것은 만족스러운 결과로 이어지지 않았다.[4]
머신러닝
클러스터 가정은 k-가장 가까운 이웃 분류 알고리즘과 k-평균 군집화 알고리즘과 같은 많은 기계 학습 알고리즘에서 가정한다.정의에 '좋다'는 단어가 나타나기 때문에 가정이 유지되는지, 유지되지 않는지를 구분하는 명확한 경계선이 없다.이와 대조적으로 이 가정에 대한 데이터의 준수 정도를 정량적으로 측정할 수 있다.
특성.
군집 가정은 의사결정 경계가 저밀도 영역에 있어야 한다는 저밀도 분리 가정과 동등하다.이를 입증하려면 결정 경계가 군집 중 하나를 교차한다고 가정하십시오.그러면 이 클러스터는 서로 다른 두 클래스의 점을 포함하므로 이 클러스터에서 위반된다.
메모들
- ^ Manning, Christopher (2008). "16. Flat clustering". Introduction to information retrieval. New York: Cambridge University Press. ISBN 0-521-86571-9. OCLC 190786122.
- ^ Chapelle, Olivier; Scholkopf, Bernhard; Zien, Alexander, eds. (2006-09-22). Semi-Supervised Learning. The MIT Press. doi:10.7551/mitpress/9780262033589.001.0001. ISBN 978-0-262-03358-9.
- ^ van Rijsbergen, C. J. (1979). Information Retrieval (PDF) (2nd ed.). Butterworths. p. 30 ff. Retrieved 11 March 2022.
- ^ Voorhees, Ellen M. (1985). The cluster hypothesis revisited.