페이지 분석 및 실측 정보 요소
Page Analysis and Ground Truth ElementsPAGE(페이지 분석 및 지상 진실 요소)는 디지털화된 [1]문서를 인코딩하기 위한 XML 표준입니다.ALTO(XML)와 유사하게 페이지의 구성과 구조, 내용을 설명할 수 있습니다.
PAGE XML은 다음을 [citation needed]설명하는 데 사용할 수 있습니다.
- 페이지 내용(그림, 텍스트 줄, 단어, 글리프, 읽기 순서, 텍스트 내용 등)
- 레이아웃 분석의 평가(평가 프로파일, 평가 결과 등)
- 문서 이미지 절단(그리드 절단)
이 형식은 맨체스터에 [citation needed]있는 Salford 대학의 PRIMA(패턴 인식 및 이미지 분석 연구소)에서 개발했습니다.
자동 분할 및 전사 기술(OCR 및 HTR)과 함께 사용하도록 설계되었습니다. 실제로 PAGE는 이미지 문서 분석(이미지 향상에서 레이아웃 분석, OCR)[citation needed]을 위한 처리 체인의 각 다른 단계를 지원하는 것을 목표로 합니다.
PAGE XML 스키마는 eScriptorium[2] 및 Transkribus와 [3]같은 자동 기록 소프트웨어에서 내보내기 및 가져오기 형식으로 사용됩니다.또한 Kraken이 사용하는 내보내기 형식이며, 이는 과거 [4]및 라틴어가 아닌 스크립트의 문서에 최적화된 턴키 OCR 시스템입니다.
레퍼런스
- ^ "PAGE-XML". July 12, 2022 – via GitHub.
- ^ "eScripta – Digital Tools and Techniques for the Study of Ancient Writing".
- ^ "How To Export Documents from Transkribus". READ-COOP.
- ^ Kiessling, Benjamin (April 5, 2022). "The Kraken OCR system" – via GitHub.
외부 링크
- 문서화
- 인코딩 예제
- OCR-D 프로젝트의 페이지 내용에 대한 PAGE XML 형식 문서화, Deutsche Forschungsgemeinschaft의 자금 지원.
- 문서 "페이지 내용 - 실제 정보 및 저장"
- 문서 "평가 - 메타데이터, 프로파일 및 결과"
- 문서 "디워핑 - 접지 진실 및 저장"