양식 처리

Forms processing

양식 처리란 데이터 필드에 입력된 정보를 캡처해 전자 형식으로 변환할 수 있는 과정이다.이것은 수동으로 또는 자동으로 할 수 있지만, 일반적인 과정은 하드 카피 데이터를 인간이 작성한 다음 각 분야에서 "포착"하여 데이터베이스나 다른 전자 형식으로 입력하는 것이다.

개요

가장 넓은 의미에서 양식 처리 시스템은 작은 신청서 양식의 처리에서부터 여러 페이지를 가진 대규모 조사 양식에 이르기까지 다양할 수 있다.수동으로 수행할 때 양식 처리와 관련된 몇 가지 일반적인 문제가 있다.이는 많은 지루한 인간의 노력이며, 사용자가 입력한 데이터는 오타를 야기할 수 있으며, 이 긴 과정으로부터 많은 시간의 노동이 발생한다.컴퓨터 소프트웨어 중심 응용프로그램을 사용하여 양식을 처리하면 이러한 일반적인 문제를 크게 해결하고 최소화할 수 있다.양식 처리 방법은 대부분 다음과 같은 영역을 다룬다.

수동 데이터 입력

데이터 처리 방법은 인간 운영자가 양식에서 찾은 데이터를 키칭하는 것을 포함한다.데이터 입력의 수동 과정은 속도, 정확성, 비용 면에서 많은 단점이 있다.전문 타이피스트 평균 속도가 50~80wpm인 것을 기준으로 15개의 한 단어 필드가 있는 양식(읽고 분류하는 시간은 계산하지 않음)의 경우 시간당 약 200페이지를 아낌없이 추정할 수 있었다.[1]대조적으로, 현대의 상업용 스캐너분당 200페이지까지 스캔하고 디지털화할 수 있다.[2]수동 데이터 입력의 두 번째 주요 단점은 인쇄 오류의 가능성이다.인건비와 작업공간 비용을 고려할 때, 수동 데이터 입력은 매우 비효율적인 과정이다.

자동 양식 처리

이 방법은 미리 정의된 템플릿과 구성을 사용하여 데이터 처리를 자동화할 수 있다.이 경우 템플릿은 데이터 필드가 양식 또는 문서 내에 위치한 위치를 자세히 설명하는 문서의 이 될 수 있다.수동 데이터 입력 프로세스에 비해 자동 폼 입력 시스템은 수동 데이터 처리 중에 발생하는 문제를 줄이는 데 도움이 되기 때문에 더 바람직하다.

자동형 입력시스템은 기계인쇄용 광학문자인식(OCR), 체크·마크 감지박스용 광학마크판독(OMR), 바코드용 바코드인식(BCR), 핸드프린트용 지능형문자인식(ICR) 등 다양한 인식방식을 사용한다.

자동화된 양식 처리 시스템 기술을 통해 사용자는 스캔한 이미지에서 ANSI, XML, CSV, PDF 또는 데이터베이스에 직접 입력하는 것과 같은 컴퓨터 판독 가능한 형식으로 문서를 처리할 수 있다.

양식 처리는 데이터의 기본적인 수집을 넘어 발전해 왔다.양식 처리에는 인식 프로세스뿐만 아니라 문서 스캔에서 데이터 추출에 이르기까지, 그리고 종종 백엔드 시스템으로 전달되는 문서의 전체 수명 주기를 관리하는 데 도움이 된다.어떤 경우에는 계산과 분석을 통해 잘 포맷된 결과를 처리하거나 생성하는 것도 포함할 수 있다.자동화된 양식 처리 시스템은 매일 수백 또는 수천 개의 이미지를 처리해야 할 필요가 있는 경우에 유용할 수 있다.

첫 번째 단계: 양식 구조 평가

자동화된 양식 처리를 이해하는 첫 번째 단계는 데이터 추출을 원하는 형식의 유형을 분석하는 것이다.양식은 데이터 추출 목적으로 두 가지 상위 범주 중 하나로 분류할 수 있다.문서 캡처 업계가 이 두 가지를 해결했지만 네 가지 범주가 제안되었다[3].

  1. 고정 양식.이러한 형태의 형태는 추출할 데이터가 항상 페이지의 동일한 절대 위치에서 발견되는 형태로 정의된다.이것은 데이터를 추출하기 위해 문서와 이후에 발생할 때마다 렌즈 그리드의 유형을 문서에 적용할 수 있게 한다.고정형식의 예로는 대표적인 신용신청서가 있다.[4]
  2. 반구조화(또는 구조화되지 않은) 형태.이 양식은 데이터를 보관하는 데이터와 필드의 위치가 문서마다 다른 양식이다.이러한 유형의 문서는 아마도 고정된 형식이 아니라는 사실에 의해 가장 쉽게 정의된다.문서 캡처 산업에서는 반구조화 형태를 비정형 형태라고도 한다.이러한 형태의 예로는 편지, 계약서, 송장이 있다.AIIM의 연구에 따르면, 조직 내 문서의 약 80%가 반구조화 정의에 해당된다.[5]

양식의 데이터 추출에 사용되는 구성요소(아래 설명)는 동일하지만, 이러한 구성요소가 적용되는 방식은 문서 유형에 따라 상당히 다르다.

구성 요소들

자동 입력 시스템을 사용한 데이터 처리에 포함되는 다양한 구성 요소

  1. OCR – 광학 문자 인식
  2. OMR – 광학 마크 인식
  3. ICR – 지능형 문자 인식
  4. BCR – 바코드 인식
  5. MICR – 자기 잉크 문자 인식

OCR은 기계로 인쇄된 대문자/ 소문자 알파벳, 숫자, 악센트 문자, 많은 통화 기호, 숫자, 산술 기호, 확장 구두점 문자 등을 인식한다.

ICR?@{})#%은+–hand-printed 미국과 유럽의 영어 문자의 미리 정의된 문자 집합을 통한 대, 소문자, 혼합 경우 사전순, 숫자, 통화((달러달러 포함), ¢(%)€(유로)£(파운드),¥(엔화)), 산수와 문장 부호 문자(기간, 쉼표, 작은 따옴표, 큰 따옴표,!&(포함)을 인정하고 있다./:; < = >)

MICR은 수표의 MICR 글꼴 처리를 용이하게 하는 인식 기술이다.이렇게 되면 수표 청산에 오류가 발생할 가능성을 최소화할 수 있다.쉽고 빠른 자금 이체에도 유용하다.MICR은 정보를 스캔하고 처리하는 안전한 고속 방법을 제공한다.

OMR(Optical Mark Incognition)은 인쇄된 양식에서 손으로 채운 거품이나 체크박스를 식별한다.일반적으로 OMR은 단일 및 다중 마크 인식을 지원한다.인식해야 할 필드는 그리드(기둥별 행) 또는 단일 기포로 지정할 수 있다.

바코드 인식은 Code39, CODABAR, Interleaved 2 of 5, Code93 등을 포함하여 20개 이상의 산업용 1D 및 2D 바코드를 읽을 수 있다.이미지 내 또는 이미지 내 지정된 영역의 모든 바코드를 자동으로 감지한다.

과정

자동 양식 처리 프로세스는 일반적으로 다음과 같은 단계를 포함한다.

  1. 초고속 스캐너를 사용하여 완성된 서식을 일괄 처리
  2. 정확도를 높이기 위해 문서 이미지 처리 알고리즘으로 이미지를 정리함
  3. 양식은 원본 템플릿 양식에 따라 분류되며, 필드는 적절한 인식 구성요소를 사용하여 추출된다.
  4. 시스템이 낮은 신뢰도로 플래그 지정된 필드는 사용자 운영자에 의해 확인을 위해 대기열에 있음
  5. 확인된 데이터가 데이터베이스에 저장되거나 CSV, XML 또는 PDF와 같은 검색 가능한 텍스트 형식으로 내보내짐

전제조건

자동화된 양식 처리는 수동 데이터 입력에 비해 많은 장점이 있지만, 여전히 몇 가지 제약이 따른다.최상의 정확도를 얻기 위해서는 몇 가지 전제조건이 따라야 한다.

  1. 검색 형식:스캔한 파일 형식, 해상도 및 DPI, 색상 모드 포함
  2. 구성:이 자동화를 위해 스캔한 이미지 레이아웃을 구성해야 함
  3. 인식:미리 정의된 put 형식
  4. 결과 /분석:캡처 값 데이터 표시 결과의 특정 형식.

한 가지 매우 중요한 고려사항은 문서 내에 포함된 데이터를 기술하는 데 사용될 메타데이터를 결정하는 색인화다.이 속성은 아마도 양식 처리 솔루션을 다른 어떤 것보다도 더 주도할 것이다.

외부 링크

참조

  1. ^ Teresia R. Ostrach (1997), Typing Speed: How Fast is Average (PDF), archived from the original (PDF) on 2012-05-02
  2. ^ "Kodak intros 200 page-per-minute i1860 commercial scanner". Engadget. Retrieved 2011-11-04.
  3. ^ Kuznetsov, Sergei O.; Mandal, Deba P.; Kundu, Malay K.; Pal, Sankar Kumar (2011-06-25). Pattern Recognition and Machine Intelligence: 4th International Conference, PReMI 2011, Moscow, Russia, June 27 - July 1, 2011, Proceedings. Springer. ISBN 9783642217869.
  4. ^ Vassylyev, Artur (10 June 2008). "CAPTURING SEMI-STRUCTURED FORMS AND DOCUMENTS: CHALLENGES AND AVAILABLE TECHNOLOGIES" (PDF). Archived from the original (PDF) on 2017-04-28. Retrieved 4 April 2017.
  5. ^ "Forms Processing- user experiences of text and handwriting recognition (OCR/ICR)" (PDF). Retrieved 4 April 2017.