문서 레이아웃 분석

Document layout analysis

컴퓨터 비전이나 자연어 처리에서 문서 레이아웃 분석은 텍스트 문서의 스캔 이미지에서 관심 영역을 식별하고 분류하는 과정이다. 읽기 시스템은 텍스트가 아닌 영역에서 텍스트 영역을 세분화하고 올바른 읽기 순서로 정렬해야 한다.[1] 문서에 포함된 텍스트 본문, 그림, 수학 기호 및 표로서 다양한 영역(또는 블록)을 탐지하고 라벨링하는 것을 기하학적 레이아웃 분석이라고 한다.[2] 그러나 텍스트 영역은 문서 내에서 서로 다른 논리적인 역할(제목, 캡션, 각주 등)을 수행하며 이러한 종류의 의미적 라벨링은 논리적 레이아웃 분석의 범위다.

문서 배치 분석은 기하학적 및 논리적 라벨링의 결합이다. 일반적으로 문서 이미지를 OCR 엔진으로 전송하기 전에 수행되지만, 대형 아카이브에서 동일한 문서의 중복 사본을 검출하거나, 구조나 그림 컨텐츠에 따라 문서를 색인하는 데도 사용할 수 있다.

문서 배치는 국제 표준 ISO 8613-1:1989에 공식적으로 정의되어 있다.

방법 개요

문서 레이아웃 분석에는 크게 두 가지 방법이 있다. 첫째, 원시 픽셀 데이터를 기반으로 문서를 반복적으로 구문 분석하는 상향식 접근법이 있다. 이러한 접근법은 일반적으로 먼저 문서를 흑백으로 연결된 영역으로 구문 분석한 다음, 이 영역들을 단어로 묶은 다음, 텍스트로 구분하고, 마지막으로 텍스트 블록으로 분류한다.[3][4] 둘째로, 백색 공간과 기하학적 정보를 바탕으로 반복적으로 문서를 열과 블록으로 자르려는 하향식 접근법이 있다.[4]

상향식 접근방식은 전통적인 접근방식으로, 문서의 전체적인 구조에 대해 추정이 필요 없다는 장점이 있다. 반면 상향식 접근법은 반복적인 분할과 군집화가 필요한데 이는 시간이 많이 소요될 수 있다.[4] 하향식 접근법은 새로운 것이며, 문서의 글로벌 구조를 직접 구문 분석하여 문서에 나타날 수 있는 수백 또는 수천 개의 문자/기호를 반복적으로 클러스터링할 필요가 없다는 장점이 있다. 그것들은 더 빠른 경향이 있지만, 그들이 강하게 작동하기 위해서는 일반적으로 문서의 레이아웃에 대해 많은 가정을 해야 한다.[4] 문서 레이아웃 분석에서 어떤 접근법에도 공통적인 두 가지 문제가 있다: 노이즈와 스큐. 노이즈는 소금과 후추 소음 또는 가우스 소음과 같은 이미지 노이즈를 가리킨다. 스큐(Skew)는 텍스트 라인이 완전히 수평이 되지 않도록 문서 이미지를 회전시킬 수 있는 것을 말한다. 문서 이미지의 문자들이 텍스트 라인이 수평이 되도록 방향을 잡는 것은 문서 레이아웃 분석 알고리즘과 광학 문자 인식 알고리즘 모두에서 일반적인 가정이다. 따라서 스큐가 있으면 문서 이미지를 제거하도록 회전하는 것이 중요하다.

문서 레이아웃 분석 코드의 첫 번째 단계는 이미지 노이즈를 제거하고 문서의 스큐 각도를 추정하는 것이다.

상향식 접근 방법의 예

이 섹션에서는 오고먼이 1993년에 개발한 상향식 문서 배치 분석 알고리즘의 단계를 살펴보기로 한다.[3] 이 접근법의 단계는 다음과 같다.

  1. 이미지를 사전 처리하여 가우스 노이즈와 소금-앤-페퍼 노이즈를 제거하십시오. 일부 소음 제거 필터는 쉼표와 기간을 소음으로 간주할 수 있으므로 주의해야 한다.
  2. 영상을 이진 영상으로 변환하십시오. 즉, 각 픽셀 값을 완전히 흰색 또는 완전히 검은색으로 변환하십시오.
  3. 영상을 검은색 픽셀의 연결된 구성 요소로 분할하십시오. 이것들은 이미지의 상징이다. 각 기호에 대해 경계 상자 및 중심을 계산하십시오.
  4. 각 기호에 대해 k가 4보다 크거나 같은 정수인 가장 가까운 이웃을 결정하십시오. 오 고먼은 자신의 논문에서 강건함과 스피드의 좋은 절충안으로 k=5를 제안한다. 적어도 k=4를 사용하는 이유는 문서의 기호에 대해서는 같은 텍스트 줄에 있는 기호 바로 옆에 2~3개의 가장 가까운 기호가 있기 때문이다. 네 번째로 가장 가까운 기호는 일반적으로 바로 위나 아래 줄에 있으며, 다음 사항에 대한 가장 가까운 이웃 계산에 이러한 기호를 포함시키는 것이 중요하다.
  5. 각각의 가장 가까운 이웃한 기호 쌍은 한 기호의 중심에서 다른 기호의 중심까지 가리키는 벡터에 의해 연관된다. 이러한 벡터가 가장 가까운 이웃 기호 쌍마다 표시되면 문서의 문서라고 하는 을 얻는다(아래 그림 참조). 또한 두 가장 가까운 이웃 기호 사이의 수평 및 거리 D에서 θ 각도를 사용하여 가장 가까운 근거리 및 가장 가까운 거리 히스토그램을 작성할 수 있다.
  6. 가장 근접한 각도 히스토그램을 사용하여 문서의 스큐를 계산할 수 있다. 스큐가 충분히 낮으면 다음 단계로 계속 진행하십시오. 그렇지 않은 경우 이미지를 돌려 스큐를 제거하고 3단계로 돌아가십시오.
  7. 가장 가까운 거리 히스토그램에는 몇 개의 피크가 있으며, 이러한 피크는 일반적으로 문자 간 간격, 단어 간 간격 및 줄 간 간격을 나타낸다. 히스토그램에서 이러한 값을 계산하여 따로 두십시오.
  8. 각 기호에 대해 가장 가까운 이웃을 보고 문자 간 간격 거리 또는 단어 간 간격 거리에 대한 공차 내에 있는 거리에 플래그를 표시하십시오. 플래그가 표시된 각 가장 가까운 이웃 기호에 대해 중심점을 연결하는 선 세그먼트를 그린다.
  9. 선 세그먼트에 의해 이웃에 연결된 기호가 텍스트 라인을 형성한다. 텍스트 라인의 모든 중심선을 사용하여 선형 회귀 분석으로 텍스트 라인을 나타내는 실제 선 세그먼트를 계산할 수 있다. 이것은 텍스트 줄에 있는 모든 기호의 중심들이 실제로 공선일 가능성이 낮기 때문에 중요하다.
  10. 각 텍스트 라인 쌍에 대해 해당 라인 세그먼트 사이의 최소 거리를 계산할 수 있다. 이 거리가 7단계에서 계산된 행간격의 어느 정도 공차 내에 있으면, 두 개의 텍스트 라인은 동일한 텍스트 블록으로 그룹화된다.
  11. 마지막으로 각 텍스트 블록에 대한 경계 상자를 계산할 수 있으며, 문서 레이아웃 분석이 완료된다.

레이아웃 분석 소프트웨어

  • OCRopus – C++ 및 Python과 FreeBSD, 리눅스 및 Mac OS X용으로 구현된 무료 문서 레이아웃 분석 및 OCR 시스템. 이 소프트웨어는 사용자가 다양한 문서 레이아웃 분석과 OCR 알고리즘 중에서 선택할 수 있는 플러그인 아키텍처를 지원한다.
  • OCRFeeder – python으로 작성된 Linux용 OCR 제품군. 문서 레이아웃 분석도 지원한다. 이 소프트웨어는 활발하게 개발되고 있으며, 무료 오픈소스다.

참고 항목

외부 링크

추가 읽기

  • O'Gorman, L. (1993). "The document spectrum for page layout analysis". IEEE Transactions on Pattern Analysis and Machine Intelligence. 15 (11): 1162–1173. doi:10.1109/34.244677.
  • Simon, A.; Pret, J.-C.; Johnson, A.P. (1997). "A fast algorithm for bottom-up document layout analysis". IEEE Transactions on Pattern Analysis and Machine Intelligence. 19 (3): 273–277. doi:10.1109/34.584106.
  • Seong-Whan Lee; Dae-Seok Ryu (2001). "Parameter-free geometric document layout analysis". IEEE Transactions on Pattern Analysis and Machine Intelligence. 23 (11): 1240–1256. doi:10.1109/34.969115.
  • Dengel, Andreas; Barth, Gerhard (1989). "ANASTASIL: hybrid knowledge-based system for document layout analysis". Ijcai'89: 1249–1254. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)

참조

  1. ^ Baird, K.S. (July 1992). "Anatomy of a versatile page reader". Proceedings of the IEEE. 80 (7): 1059–1065. CiteSeerX 10.1.1.40.8060. doi:10.1109/5.156469.
  2. ^ Cattoni, R.; Coianiz, T.; Messelodi, S.; Modena, C. M. "Geometric Layout Analysis Techniques for Document Image Understanding: a Review". {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  3. ^ a b O'Gorman, L. (1993). "The document spectrum for page layout analysis". IEEE Transactions on Pattern Analysis and Machine Intelligence. 15 (11): 1162–1173. doi:10.1109/34.244677.
  4. ^ a b c d Seong-Whan Lee; Dae-Seok Ryu (2001). "Parameter-free geometric document layout analysis". IEEE Transactions on Pattern Analysis and Machine Intelligence. 23 (11): 1240–1256. CiteSeerX 10.1.1.574.7875. doi:10.1109/34.969115.