분산 웹 탐색

Distributed web crawling

분산형탐색인터넷 검색 엔진에 의해 웹 탐색을 통해 인터넷을 색인화하기 위해 많은 컴퓨터를 사용하는 분산 컴퓨팅 기법이다. 이러한 시스템은 사용자가 자발적으로 웹 페이지를 탐색하는 쪽으로 자신의 컴퓨팅과 대역폭 자원을 제공하는 것을 허용할 수 있다. 이러한 태스크의 부하를 많은 컴퓨터에 분산시킴으로써, 그렇지 않으면 대형 컴퓨팅 클러스터를 유지하는 데 소요될 비용을 피할 수 있다.

종류들

조와[1] 가르시아-몰리나는 두 가지 유형의 정책을 연구했다.

동적 할당

이러한 유형의 정책을 통해 중앙 서버는 새 URL을 다른 크롤러에 동적으로 할당한다. 이를 통해 중앙 서버는 예를 들어 각 크롤러의 부하를 동적으로 분산시킬 수 있다.

동적 할당을 통해 일반적으로 시스템은 다운로드자 프로세스를 추가하거나 제거할 수 있다. 중앙 서버가 병목현상이 될 수 있으므로, 대부분의 작업부하는 대규모 크롤을 위해 분산된 크롤링 프로세스로 옮겨져야 한다.

Shkapenyuk과 Suel이 설명한 동적 할당을 가진 기어가기 아키텍처의 두 가지 구성이 있다.[2]

  • 웹 사이트당 중앙 DNS 확인자 및 중앙 대기열이 있고 분산된 다운로드자가 있는 작은 크롤러 구성.
  • DNS 확인자 및 대기열이 배포되는 대형 크롤러 구성.

정적 할당

이러한 유형의 정책을 사용하면 크롤러에 새 URL을 할당하는 방법을 정의하는 크롤 시작부터 정해진 규칙이 있다.

정적 할당을 위해 해싱 함수를 사용하여 URL(또는 더 나은 완전한 웹 사이트 이름)을 해당 크롤링 프로세스의 색인에 해당하는 숫자로 변환할 수 있다. 한 번의 탐색 프로세스에 할당된 웹 사이트에서 다른 탐색 프로세스에 할당된 웹 사이트로 이동하는 외부 링크가 있으므로 URL의 교환이 이루어져야 한다.

크롤링 프로세스 간 URL 교환으로 인한 오버헤드를 줄이려면 한 번에 여러 URL을 일괄적으로 교환해야 하며, 수집에서 가장 많이 인용된 URL은 크롤 이전의 모든 크롤 프로세스(예: 이전 크롤의 데이터 사용)로 알아야 한다.[1]

구현

2003년 현재 대부분의 현대 상업용 검색 엔진은 이 기법을 사용한다. 구글야후는 수천 대의 개별 컴퓨터를 사용하여 웹을 탐색한다.

새로운 프로젝트들은 많은 경우에 그들의 집이나 개인용 컴퓨터를 사용하는 노력에 자원 봉사자들에게 참여하도록 함으로써 덜 구조화되고 더 특별한 형태의 협업을 시도하고 있다. 룩스마트그루브 분산형크롤링 프로젝트에 전력을 공급하는 이 기술을 사용하는 가장 큰 검색 엔진이다.

이 솔루션은 인터넷에 연결된 컴퓨터를 사용하여 인터넷 주소를 백그라운드에서 탐색한다. 탐색된 웹 페이지를 다운로드하면 압축되어 상태 플래그(예: 변경, 새, 다운, 리디렉션)와 함께 강력한 중앙 서버로 다시 전송된다. 대규모 데이터베이스를 관리하는 서버는 테스트를 위해 새로운 URL을 클라이언트에 발송한다.

단점

오픈소스 검색엔진 웹사이트인 너치대한 FAQ에 따르면, "검색엔진이 성공하려면 크롤러가 페이지를 다운로드해야 하는 것보다 쿼리 결과 페이지를 업로드하는 데 더 많은 대역폭이 필요하기 때문에 분산형 웹 탐색에 의한 대역폭의 절감은 크지 않다..".

참고 항목

원천

  1. ^ a b Cho, Junghoo; Garcia-Molina, Hector (2002). "Parallel crawlers". Proceedings of the 11th international conference on World Wide Web. ACM. pp. 124–135. doi:10.1145/511446.511464. ISBN 1-58113-449-5. Retrieved 2015-10-13.
  2. ^ Shkapenyuk, Vladislav; Suel, Torsten (2002). "Design and implementation of a high-performance distributed web crawler". Data Engineering, 2002. Proceedings. 18th International Conference on. IEEE. pp. 357–368. Retrieved 2015-10-13.

외부 링크