북스캔

Book scanning
2011년 인터넷 아카이브 스크리브 책 스캐너
인터넷 아카이브 북 스캐너

북스캔이나 북디지털화(Magazine Scanning 또는 Magazine Digitization)는 이미지 스캐너를 이용하여 물리적인 이나 잡지이미지, 전자 텍스트, 전자 책(e-book)과 같은 디지털 미디어로 변환하는 과정이다.

디지털 도서는 화면에서 쉽게 배포, 복제, 읽을 수 있다. 일반적인 파일 형식은 DjVu, 휴대용 문서 형식(PDF), TIFF(Tagged Image File Format)이다. OCR(원시 이미지 광학 문자 인식)을 사용하여 북 페이지를 ASCII 또는 기타 유사한 형식과 같은 디지털 텍스트 형식으로 변환하여 파일 크기를 줄이고 다른 응용 프로그램에서 텍스트를 다시 포맷, 검색 또는 처리할 수 있다.

이미지 스캐너는 수동 또는 자동화될 수 있다. 보통의 상업용 이미지 스캐너에서는 책을 평평한 유리판(또는 평판) 위에 놓고, 유리 아래 책을 가로질러 광학 배열로 움직인다. 수동 북 스캐너에서는 유리판이 스캐너 가장자리까지 뻗어 있어 책의 척추에 줄을 설 수 있다. 다른 책 스캐너들은 책을 v자 모양의 액자에 올려놓고 위에서부터 사진을 찍는다. 페이지는 손으로 돌리거나 자동화된 종이 운반 장치로 돌릴 수 있다. 유리나 플라스틱 시트는 보통 평평하게 하기 위해 페이지에 압착된다.

스캔 후 소프트웨어는 문서 이미지를 줄지어 자르고, 그림을 편집하고, 텍스트와 최종 전자책 형태로 변환하여 조정한다. 인간 교정자는 보통 출력에 오류가 있는지 확인한다.

디지털 텍스트 출력으로 변환하기 위해서는 118 도트/cm(300 dpi)의 스캔이 적합하지만, 희귀본, 정교본 또는 삽화본의 기록 복제에는 훨씬 높은 해상도를 사용한다.[citation needed] 시간당 수천 페이지가 가능한 고급 스캐너는 수천 달러가 들 수 있지만, 시간당 1200페이지가 가능한 수동 책 스캐너인 DIY는 300달러에 만들어졌다.[1]

상업용 도서 스캐너

아티즈의 V자형 도서 스캐너 스케치
일반적인 수동 북 스캐너 스케치

상업용 북 스캐너는 보통 스캐너와 같지 않다. 이러한 북 스캐너는 보통 사람 또는 기계가 책 페이지를 넘기 쉽게 접근할 수 있도록 어떤 종류의 프레임에 장착된 카메라의 양쪽에 광원이 있는 고품질의 디지털 카메라다. 일부 모델에는 V자 모양의 책꽂이가 있어 책 가시를 지원하고 중앙 책 위치도 자동으로 지원한다.

이러한 유형의 스캐너의 장점은 오버헤드 스캐너의 생산성에 비해 매우 빠르다는 것이다.

대규모 프로젝트

프로젝트 구텐베르크 (최초 1971), 밀리언 북 프로젝트 (최초 2001), 구글 북스 (최초 2004), 오픈 콘텐츠 얼라이언스 (최초 2005)와 같은 프로젝트들은 책을 대규모로 스캔한다.

이것의 주요 난제들 중 하나는 스캔해야 하는 엄청난 양의 책들이다. 2010년 인류 역사에서 책으로 등장하는 작품은 총 1억 3천만 점 정도로 추산되었다.[2] 이 모든 것을 스캔한 다음, 대중이 보편적인 도서관으로 사용할 수 있도록 온라인으로 검색 가능하게 만들어야 한다. 현재 대기업이 의존하고 있는 방식은 아웃소싱, 상업용 도서 스캐너를 이용한 사내 스캔, 로봇 스캐닝 솔루션을 이용한 사내 스캔 등 크게 3가지다.

아웃소싱에 대해서는 저비용 출처에 의해 인도중국으로 스캔하기 위해 책을 배송하는 경우가 많다. 그 대신 편의성, 안전성, 기술 향상으로 인해 많은 조직들이 시간이 많이 걸리는 오버헤드 스캐너나 구글뿐만 아니라 인터넷 아카이브에서 사용하는 디지털 카메라 기반 스캐너를 사용하여 사내 스캔을 선택한다. 전통적인 방법에는 책의 척추를 잘라내고 페이지 자동 공급 기능을 갖춘 스캐너에서 페이지를 스캔하는 것과 느슨한 페이지를 다시 묶는 것이 포함된다.

페이지가 스캔되면 데이터는 수동으로 입력되거나 도서 스캔 프로젝트의 또 다른 주요 비용인 OCR을 통해 입력된다.[according to whom?]

저작권 문제로 인해 대부분의 스캔한 책은 저작권을 벗어난 책들이지만, 구글북스는 출판사가 이를 특별히 금지하지 않는 한 여전히 저작권으로 보호되고 있는 책을 스캔하는 것으로 알려져 있다.[citation needed]

협업 프로젝트

미국 전역에는 협력적인 디지털화 프로젝트가 많이 있다. 가장 초기 프로젝트 중 두 가지는 콜로라도의 협업 디지털화 프로젝트와 노스캐롤라이나 주립도서관에 기반을 둔 NC ECO – 노스캐롤라이나 온라인 문화유산 탐방이었다.[3]

이들 사업은 디지털화 우수사례를 수립·발표하고, 지역 파트너와 협력해 문화재 자료의 디지털화를 도모한다. Best Practice에 대한 추가 기준은 영국, 호주, 유럽연합에서 더 최근에 확립되었다.[4] 위스콘신 헤리티지 온라인[5](Wisconsin Heritage Online)은 콜로라도 협업 디지털화 프로젝트를 모델로 한 협업 디지털화 프로젝트다. 위스콘신 주에서는 위키(wiki[6])를 사용하여 협업 문서를 작성하고 배포한다. 조지아의 협업 디지털화 프로그램인 디지털 도서관 오브 조지아(Digital Library of Georgia)는 60개 기관과 100개 정부 기관에서 100개 이상의 디지털 컬렉션을 포함한 주의 역사와 삶에 대한 완벽한 가상 도서관을 선보인다.[7] 조지아 디지털 도서관은 조지아 대학 도서관(University of Georgia Libraries)에 기반을 둔 갈릴레오[8] 이니셔티브다.

20세기에 힐 박물관과 원고 도서관은 1975년 정치적 폭력 속에 뒤이어 파괴된 에티오피아의 책들을 사진으로 찍었다. 그 도서관은 그 후 중동 국가들에서 원고를 촬영하는 작업을 해왔다.[9]

남아시아에서는 나나크샤히 신탁이 구르묵흐의 원고를 디지털화하고 있다.

호주에서는, 디지털화된 정보가 저장될 리포지토리 인프라를 개선하기 위해 오스트레일리아 국립 도서관과 대학 사이에 많은 협력 프로젝트가 있었다.[10] 이러한 프로젝트로는 ARROW(Australian Research Repositorys Online to the World) 프로젝트와 APSR(Australian Partnership for Sustainable Repository) 프로젝트가 있다.

파괴적 스캔 방법

저예산 도서 스캐닝의 경우 책이나 잡지를 스캔하는 데 가장 비용이 적게 드는 방법은 제본(제본)을 끊는 것이다. 이것은 책이나 잡지를 한 무더기의 느슨한 잎 종이로 바꾸어 놓을 수 있는데, 이것은 표준 자동 문서 공급 장치(ADF)에 장착하고 저렴하고 일반적인 스캐닝 기술을 사용하여 스캔할 수 있다. 이것은 매우 오래되고 흔치 않은 책에는 바람직한 해결책은 아니지만, 책이 비싼 수집가의 물건이 아니며 스캔한 내용을 쉽게 대체할 수 있는 책과 잡지 스캔에 유용한 도구다. 이 과정에는 두 가지 기술적 어려움이 있는데 첫째는 절단 작업, 둘째는 스캔 작업이다.

언바인딩

종이 단두대나 면도나 가위로 페이지를 자르는 것보다 더 정확하고 덜 파괴적인 것은 손으로 꼼꼼하게 제본하고 도구를 보조하는 기술이다. 이 기법은 신문과 잡지, 팜플렛에서 리아자노프 도서관 디지털 아카이브 프로젝트를 위해 스캔한 수만 페이지의 아카이브 원서들을 50년에서 100년 이상이나 더 다양하고 종종 깨지기 쉬운 종이로 구성되어 성공적으로 채용되었다. 비록 일부 수집가(그리고 이러한 종류의 자료의 대부분의 판매자에 대한)의 금전적 가치는 구속력을 해제함으로써 파괴되지만, 많은 경우에 구속력을 해제하는 것은 실제로 실제적으로 물리적 페이지 자체를 보존하는 데 크게 도움이 되어 연구자들이 접근하기 쉽고 후속적으로 조사할 때 손상될 가능성이 낮다. 아래 측면은 한 묶음 없는 페이지 스택이 "풀러플업"되고, 따라서 공기 중의 산소에 더 많이 노출된다는 것인데, 경우에 따라서는 (이론적으로) 속도 저하도 있을 수 있다. 이것은 묶이지 않은 후 페이지에 무게를 두고 적절한 용기에 보관함으로써 해결할 수 있다.

손으로 제본하는 것은 바인딩의 장막에 들어가는 텍스트를 보존할 것이며, 가장 비판적으로 고품질 스캔을 중앙 만화, 그래픽 아트, 잡지의 사진과 같은 2페이지의 넓은 자료로 만들 수 있도록 한다. 1918-1924년 마르크스주의 인터넷 아카이브관한 The Liberator 1918-1924의 디지털 아카이브는 평면 침대나 다른 스캔에 앞서 조심스럽게 바인딩을 풀어서 가능한 2페이지의 넓은 그래픽 아트 스캔의 품질을 보여준다.

단순히 몇 개의 스테이플을 제거하는 것에서부터 손톱을 풀거나 제거하는 것, 책의 척추에 있는 접착제를 꼼꼼하게 갈아서 정확하게 적절한 지점을 찾는 것, 그리고 책을 함께 고정하는 데 사용되는 끈을 힘겹게 제거하는 것 등 바인딩 기술에 따라 제본 기술이 다양하다.

일부 신문(예: 노동 행동 1950-1952년)의 경우 중앙에는 페이지 사이에 바로 이어지는 페이지가 있는 열이 있다. 그러한 종이들의 묶인 책들의 척추 일부를 잘라내는 것은 이 글의 일부를 잃게 될 것이다. 심지어 이 출판물의 그린우드 재인쇄도 그 중심 열의 텍스트 내용을 보존하는 데 실패하여 거기서 상당한 양의 텍스트가 끊겼다. 원본 신문의 묶인 책을 꼼꼼하게 묶고, 편평한 침대 스캐너에서 한 페이지로 스캔한 가운데 페이지 한 쌍이 디지털로 이용할 수 있게 만든 가운데 칼럼 내용이었다. 또는 각각의 개별 페이지와 두 페이지의 가운데 위에 위치한 페이지 크기의 영역 중 하나를 세 개의 스캔으로 표시할 수 있다.

커팅

한 번에 500~1000쪽씩 쌓아올리는 한 가지 방법은 단두대 종이 절단기로 이뤄진다. 이것은 종이 바이스가 달린 큰 강철 테이블로, 종이 바이스가 나사로 고정된 후 절단한다. 컷팅은 직선으로 움직이며 각 시트의 전체 길이를 한꺼번에 자르는 큰 칼날을 이용해 이뤄진다. 날개의 레버는 날개에 수백 파운드의 힘을 가하여 빠른 원패스 컷을 가능하게 한다.

두꺼운 종이 더미를 통해 깔끔하게 자르는 것은 기존의 값싼 낫 모양의 경첩 모양의 종이 절단기로 만들 수 없다. 이 절삭기는 몇 장까지만 사용할 수 있으며, 최대 10장까지는 실질적인 절삭 한도가 된다. 큰 종이 한 무더기는 경첩에 비틀림 힘을 가해 칼날을 테이블의 절단 가장자리에서 떼어낸다. 절단은 경첩에서 멀어질수록 부정확해지고 절삭부가 경첩에서 멀어질수록 절삭 가장자리에 칼날을 고정하는 데 필요한 힘이 증가한다.

단두대를 자르는 과정은 칼날을 시간이 지남에 따라 무뎌지게 하므로 칼날을 다시 다듬어야 한다. 매거진 매거진 종이와 같은 코팅된 종이카올린나이트한 점토 코팅으로 일반 책지보다 칼날을 더 빨리 무뎌지게 한다. 또한 하드커버 책자의 결합을 완전히 제거하면 커버의 뻣뻣한 뒷면 소재를 절단하여 과도한 마모를 유발한다. 대신 겉표지를 제거할 수 있고 내부 페이지만 잘라내면 된다.

책을 묶는 다른 방법은 테이블 톱을 사용하는 것이다. 이 방법은 잠재적으로 위험할 수 있고 단두대 종이 절단법처럼 부드러운 가장자리를 남기지 않지만, 일반인이 더 쉽게 이용할 수 있다. 가장 이상적인 방법은 클램핑 힘을 제공하기 위해 무거운 기계 나사를 사용하여 두 개의 두꺼운 보드 사이에 책을 클램핑하는 것이다. 나무와 책 꾸러미 전체가 테이블 톱을 통해 갈퀴 울타리를 가이드로 삼아 먹여진다. 날카로운 미세 카바이드 톱니날은 허용 가능한 절단을 생성하는 데 이상적이다. 절단의 품질은 블레이드, 공급 속도, 용지 종류, 용지 코팅 및 결합 재료에 따라 달라진다.

스캔 중

종이가 척추에서 해방되면 기존의 평판 스캐너자동문서 공급장치(ADF)를 이용해 한 번에 한 장씩 스캔할 수 있다.

평평하지 않은 바인딩으로 인해 장식적인 리플링된 에딩이나 원호로 휘어지는 페이지는 모양과 크기가 균일한 페이지를 스캔하도록 설계되어 ADF를 사용하여 스캔하기 어려울 수 있으며, 크기가 다양하거나 모양이 다른 페이지는 부적절한 스캔으로 이어질 수 있다. 리플링된 가장자리 또는 곡선 가장자리는 단조화하여 바인딩이 절단되기 전에 바깥쪽 가장자리를 평평하고 매끄럽게 만들 수 있다.

잡지와 묶인 교과서의 코팅된 종이는 ADF의 롤러가 종이 길을 따라 그것들을 집고 안내하는 것을 어렵게 만들 수 있다. 시트를 뒤집기 위해 일련의 롤러와 채널을 사용하는 ADF는 코팅된 종이를 공급할 때 걸리거나 잘못 공급될 수 있다. 일반적으로 종이로 된 길을 최대한 직선으로 사용함으로써 문제가 적으며, 굴곡과 곡선이 거의 없다. 진흙은 또한 시간이 지남에 따라 종이를 문지르고 끈적끈적한 픽업 롤러를 코팅하여 종이를 느슨하게 잡을 수 있다. ADF 롤러는 이러한 미끄러짐을 방지하기 위해 정기적인 세척이 필요할 수 있다.

잡지는 잡지의 구독 카드와 페이지 접기 같은 작은 균일하지 않은 종이 한 장 때문에 대량 스캔에 도전할 수 있다. 대량 스캔이 시작되기 전에 제거해야 하며, 가치 있는 콘텐츠를 포함할 경우 별도로 스캔하거나 스캔 프로세스에서 제외될 수 있다.

비파괴검사

DIY 비파괴 도서 스캐너/디지타이저의 예로서, 책을 아래쪽으로 디자인하여 중력이 페이지를 평평하게 할 수 있음

소프트웨어 구동 기계와 로봇은 문서의 내용을 모두 보존하고 현 상태의 디지털 이미지 아카이브를 만들기 위해 제본 없이 책을 스캔할 수 있도록 개발되었다. 이러한 최근의 경향은 부분적으로 고품질의 디지털 아카이브 이미지를 상당히 짧은 시간 내에 거의 또는 전혀 손상 없이 캡처할 수 있게 하는 영상 기술을 개선한 데 기인한다.

최초의 완전 자동화 도서 스캐너는 스위스의 4DigitalBooks에서 제조한 DL(Digitizing Line) 스캐너였다. 첫번째로 알려진 설치는 2001년 스탠포드 대학에 있었다.[11][12] 스캐너는 2001년 비즈니스 애플리케이션 카테고리에 따라 다우존스 러너업 상을 받았다.[13]

로보틱 북 스캐너 DL mini 동영상

2007년에 트레유벤투스 회사는 60° 스캔을 위한 책꽂이 각도가 있는 자동화된 책 스캐너를 선보였다. 그것은 스캔 중 책의 보존 영역이 개선된 것이다. 이 회사는 ScanRobot을 개발한 공로로 유럽 연합 "ICT Grand Prize 2007"[14][15]을 수상했다. 이 기술은 바이에른 주립도서관의[16] 대량 디지털화 프로젝트에서도 사용되었는데, 16세기 책 8900권이 18개월 만에 이러한 v자형 스캐너 3종을 사용하여 디지털화되었다.

60° 개방 각도의 ScanRobot 자동 스캐너

위스콘신 웨스트 살렘에 본사를 둔 인더스 인터내셔널은 도서관대출과 같은 서비스를 위해 일부 미국 기업들이 구입한 스캐너를 생산하고 있다.[17]

대부분의 고급 상업용 로봇 스캐너는 전통적인 공기와 흡인 기술을 사용하는 반면, 일부 다른 로봇 스캐너는 페이지를 넘기기 위해 생체 공학 손가락과 같은 대체 접근 방식을 사용한다. 일부 스캐너는 초음파 센서광전센서를 이용해 이중 페이지를 감지해 페이지 건너뛰기를 방지하는 기능도 있다. 시간당 최대 2900페이지를 스캔할 수 있다는 보고와 함께,[18] 로봇 책 스캐너는 대규모 디지털화 프로젝트를 위해 특별히 고안되었다.

구글의 특허 7508978은 페이지의 3차원 형상을 감지하고 자동으로 조정할 수 있는 적외선 카메라 기술을 보여준다.[19][20] 도쿄대 연구진은 소프트웨어에서 곡면 페이지의 이미지를 바로 잡을 수 있도록 3D 표면 스캐너를 포함한 실험적인 비파괴 도서 스캐너를[21] 보유하고 있다. 따라서 책이나 잡지는 운영자가 1분에 약 200페이지씩 페이지를 넘기는 한 빨리 스캔될 수 있다.

참고 항목

스캔을 수행하는 사이에 페이지 전환

참조

  1. ^ "DIY High-Speed Book Scanner from Trash and Cheap Cameras". instructables.com. Retrieved 19 January 2014.
  2. ^ Taycher, Leonid (2010-08-05). "As of Aug 5, 2010, google estimates that there are 129,864,880 different books in the world". Googleblog.blogspot.co.at. Retrieved 2014-08-08.
  3. ^ "North Carolina ECHO : Exploring Cultural Heritage Online". ncecho.org.
  4. ^ Digital Librarys: Ariadne 2005년 4월 지구환경에서의 원칙과 실천.
  5. ^ "Recollection Wisconsin". 29 November 2006.
  6. ^ "Wisconsin Heritage Online [licensed for non-commercial use only] / FrontPage". pbworks.com.
  7. ^ "Welcome to the Digital Library of Georgia". usg.edu.
  8. ^ "GALILEO". usg.edu.
  9. ^ "Codices decoded". The Economist. 18 December 2010. p. 151.
  10. ^ 21세기의 도서관: 정보 서비스의 새로운 방향 도표 작성. 2007년 스튜어트 퍼거슨 편집, 페이지 84
  11. ^ Davies, John. "4DigitalBooks launches digital book scanner". PrintWeek.
  12. ^ "Stanford University Libraries (SUL) Robotic Book Scanner". Stanford University Libraries (SUL).
  13. ^ "Technology Innovation Awards: Winners 2001". Dow Jones. Archived from the original on 2015-09-23. Retrieved 2017-08-07.
  14. ^ "European Commission - PRESS RELEASES - Press release - British, Swedish and Austrian entrepreneurs win the EU's "Nobel prize" for ICT". europa.eu. Retrieved 2019-06-04.
  15. ^ "Treventus ICT Grand price 2007". Treventus.
  16. ^ "Bavarian State Library VD16 project" (PDF). Treventus. Archived from the original (PDF) on 2016-07-08. Retrieved 2019-06-04.
  17. ^ Hope College (2012-09-06). "Meet the Library's New Scanner". Retrieved 2020-05-21.
  18. ^ Rapp, David. "Product Watch: Library Scanners". Library Journal. Retrieved 11 May 2014.
  19. ^ 2009년 3월 24일 발행된 US 7508978, Lefevere, Francois-Marie & Saric, Marin, "스캔한 이미지에서 홈의 검출"은 구글에 할당되었다.
  20. ^ 2009년 4월 30일 모린 클레멘츠가 공개한 구글 스캔기의 비밀.
  21. ^ Guizzo, Erico (2010-03-17). ""Superfast Scanner Lets You Digitize Book By Flipping Pages", IEEE Spectrum, March 17, 2010". Spectrum.ieee.org. Retrieved 2014-08-08.

외부 링크