필기 인식

Handwriting recognition
컨트리 스타 텍스 윌리엄스의 서명입니다.

손으로 쓴 텍스트 인식(HTR)이라고도 하는 수기 인식(HWR)은 종이 문서, 사진, 터치 스크린 및 기타 장치와 같은 소스로부터 이해할 수 있는 으로 쓴 입력을 수신하고 해석하는 컴퓨터의 기능입니다.쓰여진 텍스트의 이미지는 광학 스캔(광학 문자 인식) 또는 지능형 단어 인식을 통해 종이 조각에서 "오프라인"으로 감지될 수 있습니다.또는 펜촉의 움직임을 예를 들어 펜 기반의 컴퓨터 화면 표면에 의해 "온라인"으로 감지할 수 있으며, 보다 많은 단서를 이용할 수 있기 때문에 일반적으로 쉬운 작업이다.필적 인식 시스템은 서식을 처리하고 문자로 올바르게 분할하여 가장 그럴듯한 단어를 찾는다.

오프라인 인식

오프라인 필기 인식은 이미지 내의 텍스트를 컴퓨터 및 텍스트 처리 응용 프로그램에서 사용할 수 있는 문자 코드로 자동 변환하는 것을 포함합니다.이 양식으로 얻은 데이터는 필적의 정적 표현으로 간주됩니다.오프라인 필기 인식은 사람마다 필기 스타일이 다르기 때문에 상대적으로 어렵습니다.그리고 현재 OCR 엔진은 주로 기계 인쇄 텍스트에 초점을 맞추고 있으며 ICR은 손으로 "인쇄"(대문자로 표기) 텍스트에 초점을 맞추고 있습니다.

종래의 기술

문자 추출

오프라인 문자 인식에는 많은 경우 양식 또는 문서를 스캔해야 합니다.즉, 스캔한 이미지에 포함된 개별 문자를 추출해야 합니다.[1]단계를 수행할 수 있는 도구가 있습니다.그러나 이 단계에는 몇 가지 공통적인 결함이 있습니다.가장 일반적인 것은 연결된 문자가 두 문자를 모두 포함하는 단일 하위 이미지로 반환되는 경우입니다.이로 인해 인식 단계에서 큰 문제가 발생합니다.그러나 연결된 문자의 위험을 줄이는 많은 알고리즘을 사용할 수 있습니다.

문자인식

개개의 문자가 추출된 후, 인식 엔진을 사용해 대응하는 컴퓨터 문자를 식별한다.현재 몇 가지 다른 인식 기법을 사용할 수 있다.

기능 추출

특징 추출은 뉴럴 네트워크 인식기와 유사한 방식으로 작동합니다.그러나 프로그래머는 자신이 중요하다고 생각하는 속성을 수동으로 결정해야 합니다.이 접근방식을 통해 인식자는 식별에 사용되는 속성을 더 잘 제어할 수 있다.그러나 이 접근방식을 사용하는 시스템은 특성이 자동으로 학습되지 않기 때문에 뉴럴 네트워크보다 훨씬 더 많은 개발 시간을 필요로 한다.

현대 기술

기존 기법이 개별 문자를 인식하기 위해 분할하는 데 초점을 맞췄던 반면, 현대 기법은 분할된 텍스트 줄의 모든 문자를 인식하는 데 초점을 맞춥니다.특히 시각적인 특징을 학습할 수 있는 머신러닝 기술에 초점을 맞추고, 이전에 사용한 기능 엔지니어링의 제한을 회피합니다.최첨단 방법은 컨볼루션 네트워크를 사용하여 반복 신경망이 문자 확률을 생성하기 위해 사용하는 텍스트 [2]라인 이미지의 여러 겹치는 창에 걸쳐 시각적 특징을 추출한다.

온라인 인식

온라인 필기 인식에는 특수 디지타이저나 PDA에 쓰여져 있는 텍스트의 자동 변환이 포함됩니다.여기서 펜 끝의 움직임과 펜 끝/펜 끝의 전환이 센서가 인식됩니다.이러한 종류의 데이터는 디지털 잉크라고 알려져 있으며, 손으로 쓴 글씨의 디지털 표현으로 간주될 수 있습니다.얻어진 신호는 컴퓨터 및 텍스트 처리 응용 프로그램에서 사용할 수 있는 문자 코드로 변환됩니다.

일반적으로 온라인 필기 인식 인터페이스의 요소는 다음과 같습니다.

  • 사용자가 쓸 수 있는 펜 또는 스타일러스.
  • 터치 감응 표면. 출력 디스플레이와 통합되어 있거나 출력 디스플레이에 인접해 있을 수 있습니다.
  • 쓰기 표면을 가로지르는 스타일러스의 움직임을 해석하여 결과적으로 발생하는 스트로크를 디지털 텍스트로 변환하는 소프트웨어 애플리케이션.

온라인 필기 인식 프로세스는 몇 가지 일반적인 단계로 나눌 수 있습니다.

  • 전처리,
  • 기능 추출 및
  • 분류

전처리의 목적은 [3]입력 데이터에서 인식에 부정적인 영향을 미칠 수 있는 관련 없는 정보를 폐기하는 것입니다.이것은 속도와 정확성에 관한 것입니다.전처리는 보통 2치화, 정규화, 샘플링, 평활화 및 노이즈 [4]제거로 구성됩니다.두 번째 단계는 피쳐 추출입니다.전처리 알고리즘으로부터 수신한 2차원 이상의 벡터 필드 중에서, 고차원 데이터를 추출한다.이 단계의 목적은 인식 모델에 대한 중요한 정보를 강조하는 것입니다.이 데이터에는 필압, 속도 또는 필기 방향의 변화와 같은 정보가 포함될 수 있습니다.마지막 큰 단계는 분류입니다.이 단계에서는 추출된 피쳐를 다른 클래스에 매핑하여 해당 피쳐가 나타내는 문자 또는 단어를 식별하기 위해 다양한 모델을 사용합니다.

하드웨어

1980년대 초에 키보드 입력을 대체하는 필기 인식을 포함하는 상용 제품이 소개되었습니다.예를 들어 Penspt[5] Penpad 및 Inforite POS([6]Point-of-Sale) 단말기와 같은 필기 단말기가 있습니다.개인용 컴퓨터의 큰 소비자 시장의 출현과 함께, Penspt,[7] CIC 및 기타의[8] 제품과 같이 PC의 키보드와 마우스를 하나의 포인팅/핸드라이팅 시스템으로 대체하기 위해 몇 가지 상용 제품이 도입되었습니다.최초의 상용 태블릿형 휴대용 컴퓨터는 1989년 9월에 출시된 GRiD Systems의 GRiDPad였다.운영체제는 MS-DOS 기반이었다.

1990년대 초, NCR, IBM, EO를 포함한 하드웨어 제조업체들은 GO사가 개발한 펜포인트 운영체제를 실행하는 태블릿 컴퓨터를 출시했다.PenPoint는 손글씨 인식과 제스처를 사용하여 서드파티 소프트웨어에 기능을 제공했습니다.IBM의 태블릿 컴퓨터는 ThinkPad라는 이름을 최초로 사용했으며 IBM의 필기 인식을 사용했다.이 인식 시스템은 나중에 Pen Computing의 경우 Microsoft Windows로, OS/2의 경우 IBM의 Pen으로 이식되었습니다.이것들 중 어느 것도 상업적으로 성공하지 못했다.

전자의 발전은 컴퓨팅 성능 태블릿 컴퓨터보다 작은 형태 인자에 맞도록 인식은 종종 휴대용 PDA에 대한 입력 방법으로 사용되는 필기 인식 필기에 필요한 허용했다.첫번째 PDA필기 입력을 제공하는 애플 뉴턴, 일사불란한 사용자 인터페이스의 이점으로 대중에 폭로했다.단, 장치가 아니었다 상업적 성공, 사용자의 글쓰기 패턴을 배우려는 소프트웨어의 신뢰 때문.뉴턴 OS2.0, 그 점에 그 필기 인식 크게 개선되었다,의 독특한 아직도 모덜 리스 오류 정정 등과 같은 최근의 인식 시스템에서 발견되지 말아야 한다 등이 방류 때, 대체로 부정적인 첫 인상은 이루어지지 않았다.애플 뉴턴의 중단 후 형상은 맥 OSX10.2에 Inkwell 후가 되었다.

팜 후 PDA의 그래피티는 인식 시스템을 바탕으로 한 성공적인 시리즈를 시작했다.낙서"unistrokes"또는 전반 형태의 각 문자에 집합을 정의함으로써 개선된 가용성.비록 뇌졸중의 패턴 암기는 사용자에 대한 학습 곡선을 증가시켜 이, 잘못된 입력 가능성을 찌푸렸다.그 그래피티는 필기 인식 특허 제록스에 의해 열리고 침해하는과 팜은, 또한unistroke 형태 지지하는 제록스의 특허 pre-dated이 헷갈려 필기 인식 사용 허가된 버전과 그래피티는 교체했다 발견되었다.침해 법원의 결과 매력에고 다시 다음 항소심을 뒤집었다 역전되었다.양 당사자를 포함했다 후속으로 합의는 이와 다른 특허에 관한 협상을 했다.

는 디지타이저 타블렛과 사용자는 장치의 화면에 있는 텍스트 handwrite 수 있는 스타일러슨 TabletPC는 노트북 컴퓨터이다.운영 체제와 텍스트로 변환합니다 필기 인식하고 있다.WindowsVista및 Windows7영어, 일본어, 중국 전통, 중국어 간체와 한국어에 대한 사용자의 작품 패턴이나 어휘를 배우고 개인 설정 기능을 포함한다.특색은 이용자의 필적을 위해 샘플과 높은 정확성을 인정을 위한 시스템의 재교육을 키를 사용하여 일으키는"개인 설정 마법사"을 포함한다.이 시스템은 후진적 필기 인식 시스템이 WindowsMobileOS에 PDA을 위해 취업과 뚜렷이 구별된다.

필기 인식은 일반 대중이 익숙해진 입력 형태이지만 데스크톱 컴퓨터나 노트북에서 널리 사용되지 않았습니다.키보드 입력이 빠르고 신뢰성이 높다는 것은 여전히 일반적으로 인정되고 있습니다.2006년 현재 많은 PDA가 필기 입력 기능을 제공하고 있으며, 때로는 자연스러운 필기 기능을 제공하기도 하지만 정확성은 여전히 문제가 되고 있으며, 일부 사람들은 단순한 화면 키보드조차도 더 효율적이라고 생각합니다.

소프트웨어

초기 소프트웨어는 글자가 구분된 곳에서 인쇄된 필체를 이해할 수 있었지만, 연결된 글자가 있는 필기체는 문자 분할과 관련된 어려움인 Sayre의 패러독스를 보여주었다.1962년 당시 모스크바에 있던 Shelia Guberman은 최초의 [9]응용 패턴 인식 프로그램을 만들었다.Communications Intelligence Corporation이나 IBM과 같은 기업으로부터 상업적 예를 들 수 있습니다.

1990년대 초 ParaGraph International과 Lexicus라는 두 회사가 필기 인식을 이해할 수 있는 시스템을 고안했습니다.ParaGraph는 러시아에서 컴퓨터 과학자인 Stephan Pachikov에 의해 설립되었으며 Lexicus는 스탠포드 대학 학생이었던 Ronjon Nag와 Chris Kortge에 의해 설립되었습니다.ParaGraph CalliGrapher 시스템은 Apple Newton 시스템에 도입되었으며 Lexicus Longhand 시스템은 PenPoint 및 Windows 운영 체제에서 상용화되었습니다.Lexicus는 1993년 Motorola에 인수되어 Motorola를 위한 중국어 필기 인식 및 예측 텍스트 시스템을 개발하였다.ParaGraph는 1997년에 SGI에 인수되어 필적 인식 팀이 P&I 부문을 결성하고, 후에 Vadem에 의해 SGI로부터 인수되었습니다.마이크로소프트는 1999년 P&I에 의해 개발된 캘리그래퍼 필기 인식 및 기타 디지털 잉크 기술을 Vadem으로부터 인수했다.

울프램 매스매티카(8.0 이상)는 필기 또는 텍스트 인식 기능도 제공한다.

조사.

Sargur Srihari와 Jonathan Hul이 개발한 최초의 수기 주소 해석 시스템에서 컨텍스트 정보를 이용하는 방법

필적 인식은 그것을 연구하는 활발한 학계 공동체를 가지고 있다.필적 인식에 관한 가장 큰 회의는 짝수 년도에 개최되는 국제 필기 인식 프론티어 회의(ICFHR)와 홀수 년도에 개최되는 국제 문서 분석 및 인식 회의(ICDAR)입니다.이들 회의는 모두 IEEE와 IAPR에 의해 승인됩니다.2021년에 ICDAR 절차는 LNCS, Springer에 의해 발행될 것이다.

활발한 연구 분야는 다음과 같습니다.

2009년 이후 실적

2009년 이후 스위스 AI 연구소 IDSIA의 위르겐 슈미드후버의 연구 그룹에서 개발된 반복 신경 네트워크와 피드포워드 신경 네트워크는 여러 국제 필기 [11]대회에서 우승했다.특히 알렉스 그레이브스의고 다차원적 양방향 긴 단기 기억(LSTM)[12][13](알. 연결된 필기 인식에 2009년 국제 회의 문서 해석 및 인식(ICDAR)에서, 3개 국어에 대한 별다른 사전 지식 없이(프랑스어, 아랍어 페르시아어)3대회에서 우승했다톤o leArned. 최근 댄 Ciresan과 IDSIA에서 동료들이 ICDAR 2011년 오프라인 중국어 필기 인식 대회에서 우승했다;그들의 신경 네트워크 또한 최초의 인공 패턴 recognizers의 유명한 MNIST 손으로 쓴 숫자 problem[15]에human-competitive performance[14]을 얻게 되었 휘드 훠워드 네트워크에 깊은 학습 방법 GPU-based.얀 르NYU의 Cun과 동료들.

「 」를 참조해 주세요.

리스트

레퍼런스

  1. ^ Java OCR, 2010년 6월 5일2010년 6월 5일 취득
  2. ^ 푸이거버, 조앤"수기 텍스트 인식에 다차원 반복 레이어가 정말 필요한가?문서 분석 및 인식(ICDAR), 2017년 제14회 IAPR 국제회의 개최.Vol. 1. IEEE, 2017.
  3. ^ Huang, B., Zhang, Y. 및 Kechadi, M., 온라인 필기 인식을 위한 사전 처리 기술. 인텔리전트 텍스트 분류클러스터링, Springer Berlin Heidelberg, 2009, Vol. 164, "계산 지능에 관한 연구" 페이지 25-45.
  4. ^ Holzinger, A.; Stocker, C.; Peishl, B. 및 Simonic, K.-M.; 수기 전처리위한 엔트로피 사용에 대하여, 엔트로피 2012, 14, 페이지 2324-2350.
  5. ^ Pencept Penpad (TM) 200 Product Literature, Pencept, Inc., 15 August 1982
  6. ^ Inforite Hand Character Recognition Terminal, Cadre Systems Limited, England, 15 August 1982
  7. ^ Users Manual for Penpad 320, Pencept, Inc., 15 June 1984
  8. ^ Handwriter (R) GrafText (TM) System Model GT-5000, Communication Intelligence Corporation, 15 January 1985
  9. ^ Guberman은 Microsoft가 현재 Windows CE에서 사용하고 있는 필기 인식 기술의 발명자입니다.출처:Q-Tel 내 통신, 2003년 6월 3일
  10. ^ S. N. Srihari와 E. J. Keubert, "수기 주소 해석 기술을 미국 우편 서비스 원격 컴퓨터 리더 시스템에 통합" Proc.내부 회의문서 분석 및 인식(ICDAR) 1997, IEEE-CS Press, 페이지 892–896
  11. ^ 2012 Kurzweil AI 인터뷰, Wyrgen Schmidhuber와 함께 Wayback Machine에서 Deep Learning 팀이 2009-2012년 8개 대회에서 우승한 2018년 8월 31일 아카이브
  12. ^ 그레이브스, 알렉스, 위르겐, 슈미드허버, 요슈아 벤조의 다차원 반복 뉴럴 네트워크를 사용한 오프라인 필기 인식, 슈어만, 데일, 라퍼티, 존, 윌리엄스, 크리스 K.I.; 및 Culotta, Aron(eds), 신경 정보 처리 시스템 22(NIPS'22), 2009년 12월 7-10일, 밴쿠버, BC, 신경 정보 처리 시스템(NIPS) 재단, 2009 페이지 545–552.
  13. ^ A. 그레이브스, M. 리위키, S. 페르난데스, R. 베르톨라미, H. 분케, J. 슈미드휴버자유로운 필기 인식을 개선하기 위한 새로운 연결주의 시스템IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, No. 5, 2009.
  14. ^ D. C. 시레산, U. 마이어, J. 슈미드허버이미지 분류를 위한 다중 열 심층 신경망.IEEE 회의컴퓨터 비전 및 패턴 인식 CVPR 2012에 관한 것입니다.
  15. ^ Le Cun, Y., Bottou, L., Bengio, Y. 및 Haffner, P. (1998).문서 인식에 적용되는 그라데이션 기반 학습.IEEE, 86, 페이지 2278-2324.

외부 링크