심해시

SimHash

컴퓨터 과학에서 심해쉬는 두 세트가 얼마나 비슷한지 빠르게 추정하는 기술이다.알고리즘구글 크롤러가 거의 중복된 페이지를 찾기 위해 사용한다.그것은 모세 샤리카에 의해 만들어졌다.2021년 구글은 새로 만든 FLOC(Federated Learning of Cohorts) 시스템에서도 이 알고리즘을 사용하겠다는 의사를 밝혔다.[1]

평가 및 벤치마크

2006년[2] 구글민아시 알고리즘과 심하시[3] 알고리즘의 성능을 비교하기 위해 대규모 평가를 실시한 바 있다.2007년 구글은 심하쉬를 웹 크롤에[4] 대한 중복 탐지에 사용하고 Minhash와 LSH를 구글 뉴스 개인화에 사용했다고 보고했다.[5]

참고 항목

참조

  1. ^ Cyphers, Bennett (2021-03-03). "Google's FLoC Is a Terrible Idea". Electronic Frontier Foundation. Retrieved 2021-04-13.{{cite web}}: CS1 maint : url-status (링크)
  2. ^ Henzinger, Monika (2006), "Finding near-duplicate web pages: a large-scale evaluation of algorithms", Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, p. 284, doi:10.1145/1148170.1148222, ISBN 978-1595933690.
  3. ^ Charikar, Moses S. (2002), "Similarity estimation techniques from rounding algorithms", Proceedings of the 34th Annual ACM Symposium on Theory of Computing, p. 380, doi:10.1145/509907.509965, ISBN 978-1581134957.
  4. ^ Gurmeet Singh, Manku; Jain, Arvind; Das Sarma, Anish (2007), "Detecting near-duplicates for web crawling", Proceedings of the 16th International Conference on World Wide Web (PDF), p. 141, doi:10.1145/1242572.1242592, ISBN 9781595936547.
  5. ^ Das, Abhinandan S.; Datar, Mayur; Garg, Ashutosh; Rajaram, Shyam; et al. (2007), "Google news personalization: scalable online collaborative filtering", Proceedings of the 16th International Conference on World Wide Web, p. 271, doi:10.1145/1242572.1242610, ISBN 9781595936547.

외부 링크