헤리트릭스
Heritrix![]() | |
![]() Heritrix 관리 콘솔의 스크린샷. | |
안정적 해제 | 3.4.0-20210617[1] / 2021년 6월 17일; |
---|---|
리포지토리 | |
기록 위치 | 자바 |
운영 체제 | Linux/Unix 유사/Windows(지원되지 않음) |
유형 | 웹 크롤러 |
면허증 | 아파치 라이선스 |
웹사이트 | github |
Heritrix는 웹 아카이빙을 위해 설계된 웹 크롤러다. 그것은 인터넷 아카이브에 의해 쓰여졌다. 그것은 무료 소프트웨어 라이센스로 이용 가능하며 자바어로 작성된다. 메인 인터페이스는 웹 브라우저를 사용하여 접근할 수 있으며, 크롤을 시작하는 데 선택적으로 사용할 수 있는 명령줄 도구가 있다.
헤리트릭스는 2003년 초 작성된 사양에 따라 인터넷 아카이브와 북유럽 국립도서관이 공동으로 개발했다. 첫 공식 발매는 2004년 1월이었고, 인터넷 아카이브(Internet Archive) 직원들과 다른 이해관계자들에 의해 지속적으로 개선되었다.
헤리트릭스는 수년간 인터넷 아카이브의 웹 컬렉션을 위한 콘텐츠를 탐색하는 데 사용된 주요 크롤러가 아니었다.[2] 2011년 현재 이 컬렉션의 가장 큰 기여자는 알렉사 인터넷이다.[2] 알렉사는 ia_archiver라는 이름의 크롤러를 사용하여 자신의 목적을 위해 웹을 기어 다닌다.[2] 알렉사는 그 자료를 인터넷 보관소에 기증한다.[2] 인터넷 아카이브는 헤리트릭스를 이용하여 자체 기어가기도 했지만, 규모가 더 작을 뿐이었다.[2]
2008년부터 인터넷 아카이브는 자체적인 광폭 기어를 하기 위해 성능 향상을 시작했고, 현재는 콘텐츠의 대부분을 수집하고 있다.[3][failed verification]
Heritrix를 사용한 프로젝트
많은 조직과 국립도서관이 헤리트릭스를 사용하고 있는데,[citation needed] 그 중 다음과 같다.
- 오스트리아 국립도서관, 웹 아카이브
- 비블리오테카 알렉산드리나의 인터넷 아카이브
- 프랑스 국립 비블리오테크
- 대영 도서관
- 캘리포니아 디지털 라이브러리의 웹 아카이빙 서비스
- CiteSeerX
- 인터넷 문서화2
- 인터넷 메모리 재단
- 캐나다 도서관 및 자료실
- 의회 도서관[4]
- 아이슬란드의 국립 및 대학교 도서관
- 핀란드 국립도서관
- 뉴질랜드 국립도서관
- 네덜란드 왕립도서관(코닝클리크 비블리오테크)[5]
- Netarkivet.dk
- 스미스소니언 협회 자료실
- 이스라엘 국립도서관
호 파일
기본적으로 이전 버전의 Heritrix는 웹 리소스를 Arc 파일에 저장했다. 이 파일 형식은 ARC(파일 형식)와는 전혀 무관하다. 이 형식은 1996년부터 인터넷 아카이브가 웹 아카이브를 저장하기 위해 사용해 왔다. 최근에는 ARC와 유사하지만 보다 정밀하고 유연한 WARC 파일 형식으로 기본적으로 저장된다. 헤리트릭스는 또한 URL을 사용하여 각 리소스의 디렉토리 및 파일 이름을 지정하는 Wget 크롤러와 유사한 디렉토리 형식으로 파일을 저장하도록 구성할 수 있다.
Arc 파일은 많은 수의 작은 파일을 관리하지 않기 위해 아카이브된 여러 리소스를 하나의 파일에 저장한다. 파일은 일련의 URL 레코드로 구성되며, 각 헤더는 HTTP 헤더와 응답에 따라 리소스가 요청된 방법에 대한 메타데이터를 포함하고 있다. 아크 파일 범위는 100 ~ 600MB이다.[citation needed]
예:
fileesc://IA-2006062.arc 0.0.0 20060622190110 텍스트/ss 76 1 1 InternetArchive URL IP 주소 Archive-date Content-type Archive-length http://foo.edu:80/hello.html 127.100.2 19961104142103 텍스트/ss 187 HTTP/1.1 200 OK 날짜: Thu, 2006년 6월 22일 19:01:15 GMT Server: Apache Last-Modified: Sat, 2006년 6월 10일 22:33:11 GMT Content-Length: 30 Content-Type: text/html <html> Hello World!!! </기호>
Arc 파일 처리 도구
Heritrix는 Arcreader라는 명령줄 도구를 포함하며, Arc 파일의 내용을 추출하는 데 사용할 수 있다. 다음 명령은 지정된 Arc 파일(CDX 형식)에 저장된 모든 URL 및 메타데이터를 나열하십시오.
아크리더 IA-2006062.arc
다음 명령은 레코드가 오프셋 140에서 시작된다고 가정하는 위의 예에서 hello.html을 추출한다.
아크레더 -o 140 -f 덤프 IA-2006062.arc
기타 도구:
명령줄 도구
Heritrix에는 다음과 같은 몇 가지 명령줄 도구가 함께 제공된다.
- htmxtractor - Hitherrix가 특정 URL에 대해 추출할 링크를 표시함
- hoppath.pl - 완료된 탐색에서 지정된 URL의 홉 경로(링크 경로)를 다시 생성
- manifest_messages.pl - 크롤 매니페스트 파일에서 참조하는 모든 리소스를 압축되지 않거나 압축된 tarball로 묶음
- cmdline-jmxclient - Heritrix의 명령줄 제어 활성화
- 아크리더 - ARC 파일의 내용 추출(위 참조)
추가 도구는 인터넷 아카이브의 warctools 프로젝트의 일부로 이용할 수 있다.[6]
참고 항목
참조
이 편집에서 이 문서는 다음 의 내용을 사용한다. "re: "disallow /"만 제외하고 인터넷 아카이브에 대한 제어?"Creative Commons Attribution-ShareAlike 3.0 Unported License에 따라 재사용을 허용하는 방식으로 라이센스가 부여되지만, GFDL에는 해당되지 않는 모든 관련 조항이 따라야 한다.
- ^ "Release 3.4.0-20210617". 17 June 2021. Retrieved 21 June 2021.
- ^ a b c d e Kris (September 6, 2011). "Re: Control over the Internet Archive besides just "Disallow /"?". Pro Webmasters Stack Exchange. Stack Exchange, Inc. Retrieved January 7, 2013.
- ^ "Wayback Machine: Now with 240,000,000,000 URLs - Internet Archive Blogs". blog.archive.org. Retrieved 11 September 2017.
- ^ "About - Web Archiving (Library of Congress)". www.loc.gov. Retrieved 2017-10-29.
- ^ "Technische aspecten bij webarchivering - Koninklijke Bibliotheek". www.kb.nl. Retrieved 11 September 2017.
- ^ "warctools". 25 August 2017. Retrieved 11 September 2017 – via GitHub.
- Burner, M. (1997). "Crawling towards eternity – building an archive of the World Wide Web". Web Techniques. 2 (5). Archived from the original on January 1, 2008.
- Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Introduction to Heritrix, an archival quality web crawler" (PDF). Proceedings of the 4th International Web Archiving Workshop (IWAW’04). Archived from the original (PDF) on 2011-06-12. Retrieved 2007-03-09.CS1 maint: 여러 이름: 작성자 목록(링크)
- Sigurðsson, K. (2005). "Incremental crawling with Heritrix" (PDF). Proceedings of the 5th International Web Archiving Workshop (IWAW’05). Archived from the original (PDF) on 2011-06-12. Retrieved 2006-06-23.
외부 링크
인터넷 보관별 도구:
- 헤리트릭스 - 공식 위키
- NutchWAX - 웹 아카이브 컬렉션 검색
- 웨이백(Open source Wayback Machine) - NutchWax를 사용하여 웹 아카이브 모음 검색 및 탐색
관련 도구에 대한 링크:
- 호 파일 형식
- Windows에서 Heritrix를 실행하는 방법
- WERA(Web ARchive Access) - Nutch를 사용하여 웹 아카이브 모음 검색 및 탐색왁스