헤리트릭스

Heritrix
헤리트릭스
Heritrix logo.png
Heritrix 3.4.0 Web UI.png
Heritrix 관리 콘솔의 스크린샷.
안정적 해제
3.4.0-20210617[1] / 2021년 6월 17일; 6개월 전(2021년 6월 17일)
리포지토리
기록 위치자바
운영 체제Linux/Unix 유사/Windows(지원되지 않음)
유형웹 크롤러
면허증아파치 라이선스
웹사이트github.com/internetarchive/heritrix3/wiki

Heritrix는 웹 아카이빙을 위해 설계된 웹 크롤러다. 그것은 인터넷 아카이브에 의해 쓰여졌다. 그것은 무료 소프트웨어 라이센스로 이용 가능하며 자바어로 작성된다. 메인 인터페이스는 웹 브라우저를 사용하여 접근할 수 있으며, 크롤을 시작하는 데 선택적으로 사용할 수 있는 명령줄 도구가 있다.

헤리트릭스는 2003년 초 작성된 사양에 따라 인터넷 아카이브와 북유럽 국립도서관이 공동으로 개발했다. 첫 공식 발매는 2004년 1월이었고, 인터넷 아카이브(Internet Archive) 직원들과 다른 이해관계자들에 의해 지속적으로 개선되었다.

헤리트릭스는 수년간 인터넷 아카이브의 웹 컬렉션을 위한 콘텐츠를 탐색하는 데 사용된 주요 크롤러가 아니었다.[2] 2011년 현재 이 컬렉션의 가장 큰 기여자는 알렉사 인터넷이다.[2] 알렉사는 ia_archiver라는 이름의 크롤러를 사용하여 자신의 목적을 위해 웹을 기어 다닌다.[2] 알렉사는 그 자료를 인터넷 보관소에 기증한다.[2] 인터넷 아카이브는 헤리트릭스를 이용하여 자체 기어가기도 했지만, 규모가 더 작을 뿐이었다.[2]

2008년부터 인터넷 아카이브는 자체적인 광폭 기어를 하기 위해 성능 향상을 시작했고, 현재는 콘텐츠의 대부분을 수집하고 있다.[3][failed verification]

Heritrix를 사용한 프로젝트

많은 조직과 국립도서관이 헤리트릭스를 사용하고 있는데,[citation needed] 그 중 다음과 같다.

호 파일

기본적으로 이전 버전의 Heritrix는 웹 리소스를 Arc 파일에 저장했다. 이 파일 형식은 ARC(파일 형식)와는 전혀 무관하다. 이 형식은 1996년부터 인터넷 아카이브가 웹 아카이브를 저장하기 위해 사용해 왔다. 최근에는 ARC와 유사하지만 보다 정밀하고 유연한 WARC 파일 형식으로 기본적으로 저장된다. 헤리트릭스는 또한 URL을 사용하여 각 리소스의 디렉토리 및 파일 이름을 지정하는 Wget 크롤러와 유사한 디렉토리 형식으로 파일을 저장하도록 구성할 수 있다.

Arc 파일은 많은 수의 작은 파일을 관리하지 않기 위해 아카이브된 여러 리소스를 하나의 파일에 저장한다. 파일은 일련의 URL 레코드로 구성되며, 각 헤더는 HTTP 헤더와 응답에 따라 리소스가 요청된 방법에 대한 메타데이터를 포함하고 있다. 아크 파일 범위는 100 ~ 600MB이다.[citation needed]

예:

fileesc://IA-2006062.arc 0.0.0 20060622190110 텍스트/ss 76 1 1 InternetArchive URL IP 주소 Archive-date Content-type Archive-length http://foo.edu:80/hello.html 127.100.2 19961104142103 텍스트/ss 187 HTTP/1.1 200 OK 날짜: Thu, 2006년 6월 22일 19:01:15 GMT Server: Apache Last-Modified: Sat, 2006년 6월 10일 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! </기호> 

Arc 파일 처리 도구

Heritrix는 Arcreader라는 명령줄 도구를 포함하며, Arc 파일의 내용을 추출하는 데 사용할 수 있다. 다음 명령은 지정된 Arc 파일(CDX 형식)에 저장된 모든 URL 및 메타데이터를 나열하십시오.

아크리더 IA-2006062.arc 

다음 명령은 레코드가 오프셋 140에서 시작된다고 가정하는 위의 예에서 hello.html을 추출한다.

아크레더 -o 140 -f 덤프 IA-2006062.arc 

기타 도구:

명령줄 도구

Heritrix에는 다음과 같은 몇 가지 명령줄 도구가 함께 제공된다.

  • htmxtractor - Hitherrix가 특정 URL에 대해 추출할 링크를 표시함
  • hoppath.pl - 완료된 탐색에서 지정된 URL의 홉 경로(링크 경로)를 다시 생성
  • manifest_messages.pl - 크롤 매니페스트 파일에서 참조하는 모든 리소스를 압축되지 않거나 압축된 tarball로 묶음
  • cmdline-jmxclient - Heritrix의 명령줄 제어 활성화
  • 아크리더 - ARC 파일의 내용 추출(위 참조)

추가 도구는 인터넷 아카이브의 warctools 프로젝트의 일부로 이용할 수 있다.[6]

참고 항목

참조

이 편집에서 이 문서는 다음 의 내용을 사용한다. "re: "disallow /"만 제외하고 인터넷 아카이브에 대한 제어?"Creative Commons Attribution-ShareAlike 3.0 Unported License에 따라 재사용을 허용하는 방식으로 라이센스가 부여되지만, GFDL에는 해당되지 않는 모든 관련 조항이 따라야 한다.

  1. ^ "Release 3.4.0-20210617". 17 June 2021. Retrieved 21 June 2021.
  2. ^ a b c d e Kris (September 6, 2011). "Re: Control over the Internet Archive besides just "Disallow /"?". Pro Webmasters Stack Exchange. Stack Exchange, Inc. Retrieved January 7, 2013.
  3. ^ "Wayback Machine: Now with 240,000,000,000 URLs - Internet Archive Blogs". blog.archive.org. Retrieved 11 September 2017.
  4. ^ "About - Web Archiving (Library of Congress)". www.loc.gov. Retrieved 2017-10-29.
  5. ^ "Technische aspecten bij webarchivering - Koninklijke Bibliotheek". www.kb.nl. Retrieved 11 September 2017.
  6. ^ "warctools". 25 August 2017. Retrieved 11 September 2017 – via GitHub.
  1. Burner, M. (1997). "Crawling towards eternity – building an archive of the World Wide Web". Web Techniques. 2 (5). Archived from the original on January 1, 2008.
  2. Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Introduction to Heritrix, an archival quality web crawler" (PDF). Proceedings of the 4th International Web Archiving Workshop (IWAW’04). Archived from the original (PDF) on 2011-06-12. Retrieved 2007-03-09.CS1 maint: 여러 이름: 작성자 목록(링크)
  3. Sigurðsson, K. (2005). "Incremental crawling with Heritrix" (PDF). Proceedings of the 5th International Web Archiving Workshop (IWAW’05). Archived from the original (PDF) on 2011-06-12. Retrieved 2006-06-23.

외부 링크

인터넷 보관별 도구:

관련 도구에 대한 링크: