페이지 분석 및 실측 정보 요소

Page Analysis and Ground Truth Elements

PAGE(페이지 분석지상 진실 요소)는 디지털화된 [1]문서를 인코딩하기 위한 XML 표준입니다.ALTO(XML)와 유사하게 페이지의 구성과 구조, 내용을 설명할 수 있습니다.

PAGE XML은 다음을 [citation needed]설명하는 데 사용할 수 있습니다.

  • 페이지 내용(그림, 텍스트 줄, 단어, 글리프, 읽기 순서, 텍스트 내용 등)
  • 레이아웃 분석의 평가(평가 프로파일, 평가 결과 등)
  • 문서 이미지 절단(그리드 절단)

이 형식은 맨체스터[citation needed]있는 Salford 대학의 PRIMA(패턴 인식 및 이미지 분석 연구소)에서 개발했습니다.

자동 분할 및 전사 기술(OCRHTR)과 함께 사용하도록 설계되었습니다. 실제로 PAGE는 이미지 문서 분석(이미지 향상에서 레이아웃 분석, OCR)[citation needed]을 위한 처리 체인의 각 다른 단계를 지원하는 것을 목표로 합니다.

PAGE XML 스키마는 eScriptorium[2] 및 Transkribus와 [3]같은 자동 기록 소프트웨어에서 내보내기 및 가져오기 형식으로 사용됩니다.또한 Kraken이 사용하는 내보내기 형식이며, 이는 과거 [4]및 라틴어가 아닌 스크립트의 문서에 최적화된 턴키 OCR 시스템입니다.

레퍼런스

  1. ^ "PAGE-XML". July 12, 2022 – via GitHub.
  2. ^ "eScripta – Digital Tools and Techniques for the Study of Ancient Writing".
  3. ^ "How To Export Documents from Transkribus". READ-COOP.
  4. ^ Kiessling, Benjamin (April 5, 2022). "The Kraken OCR system" – via GitHub.

외부 링크