테서랙트(소프트웨어)

Tesseract (software)
테서랙트
Tesseractv411 light.png
테서랙트 4.1.1 이미지 읽기
원저작자Ray Smith, Hewlett-Packard[1]
개발자구글 및 기타
안정된 릴리스
5[2].2.0 / 2022년 7월 6일
저장소
기입처C 및 C++
운영 체제Linux, WindowsMacOS
이용가능기간:인터페이스: 영어
인식: 아프리칸어, 알바니아어, 아랍어, 아제르바이잔어, 바스크어, 벨라루스어, 벵갈어, 불가리아어, 카탈로니아어, 체코어, 체로키어, 크로아티아어, 덴마크어, 네덜란드어, 영어, 에스페란토어, 에스토니아어, 핀란드어, 프랑스어, 갈리시아어, 독일어, 그리스어, 힌디어, 헝가리어, 인도네시아어, 이탈리아어, 이탈리아어, 이탈리아어egian, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 세르비아어, 슬로바키아어, 슬로베니아어, 스페인어, 스와힐리어, 스웨덴어, 타갈로그어, 타밀어, 텔루구어, 태국어, 터키어, 우크라이나어, 베트남어(추가 트레이닝 파일 포함)
유형광학 문자 인식
면허증.Apache 라이센스 2.0
웹 사이트github.com/tesseract-ocr Edit this on Wikidata

테서랙트는 다양한 [3]운영체제용 광학 문자 인식 엔진입니다.Apache [1][4][5]License로 출시무료 소프트웨어입니다.1980년대에 Hewlett-Packard가 독자 소프트웨어로 개발한 이 소프트웨어는 2005년에 오픈 소스로 출시되었으며 [6]2006년부터 구글이 개발을 후원하고 있습니다.

2006년,[5][7] Teseract는 가장 정확한 오픈 소스 OCR 엔진 중 하나로 간주되었습니다.

역사

Teseract 엔진은 원래 1985년부터 1994년 사이에 영국 브리스톨과 콜로라도주 그릴리 Hewlett Packard 연구소에서 독점 소프트웨어로 개발되었으며, 1996년에 포트로 Windows로 변경되었고 1998년에 C++로 일부 마이그레이션되었습니다.많은 코드가 C로 작성되어 있고, 또 몇 개는 C++로 작성되어 있습니다.그 이후로 모든 코드는 적어도 C++ [4]컴파일러로 컴파일 되도록 변환되었다.그 후 10년 동안 거의 작업이 이루어지지 않았다.그 후 Hewlett Packard와 네바다 대학 라스베이거스(UNLV)에 의해 2005년에 오픈 소스로 출시되었습니다.테서랙트 개발은 [6]2006년부터 구글의 후원을 받아왔다.

버전 4에서는 LSTM 기반의 OCR 엔진과 모델이 추가되어 많은 언어 및 스크립트가 추가되어 합계 116개 [8]언어가 됩니다.또한 37개의 스크립트가 지원됩니다.예를 들어,[citation needed] 서유럽어와 중앙유럽어가 혼재된 텍스트를 라틴어 문자의 모델을 사용하여 인식할 수 있습니다.

버전 5는 2년 이상의 테스트와 [9]개발 끝에 2021년에 출시되었습니다.

특징들

테세락트는 1995년 [10]문자 정확도 면에서 OCR 엔진 상위 3위에 들었다.Linux, WindowsMac OS X에서 사용할 수 있지만 리소스가 한정되어 있기 때문에 Windows 및 Ubuntu에서 [4][5]개발자에 의해 엄격하게 테스트됩니다.

버전 2까지의 테서랙트는 입력으로 단순한 한 열 텍스트의 TIFF 이미지만 받아들일 수 있었습니다.이러한 초기 버전에는 레이아웃 분석이 포함되어 있지 않았기 때문에 멀티컬럼 텍스트, 이미지 또는 방정식을 입력하면 왜곡된 출력이 생성되었습니다.버전 3.00 이후 Teseract는 출력 텍스트 포맷, hOCR[11] 위치 정보 및 페이지 레이아웃 분석을 지원했습니다.Leptonica 라이브러리를 사용하여 많은 새로운 이미지 포맷에 대한 지원이 추가되었습니다.테서랙트는 텍스트가 단일 공백인지 비례 간격인지를 [5]검출할 수 있습니다.

테서랙트의 초기 버전은 영어 텍스트만 인식할 수 있었다.Teseract v2에는 6개의 서양어(프랑스어, 이탈리아어, 독일어, 스페인어, 브라질 포르투갈어, 네덜란드어)가 추가되었습니다.버전 3 에서는, 표의 문자(중국어 및 일본어)나 오른쪽에서 왼쪽으로(아랍어, 히브리어 등) 언어, 그 외의 스크립트도 큰폭으로 서포트되고 있습니다.새로운 언어에는 아랍어, 불가리아어, 카탈로니아어, 중국어(간체자, 번체자), 크로아티아어, 덴마크어, 독일어(프라크투르 문자), 그리스어, 핀란드어, 히브리어, 힌디어, 헝가리어, 인도네시아어, 일본어, 한국어, 라트비아어, 리투아니아어, 노르웨이어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 슬로바키아어(표준어)가 포함되었습니다.타갈로그어, 타밀어, 태국어, 터키어, 우크라이나어, 베트남어.2015년 7월에 출시된 V3.04에서는 39개의 언어/스크립트 조합이 추가되어 총 지원 언어 수가 100개를 넘었습니다.새로운 언어 코드: amh(암하라어), asm(아사메어), aze_cyrl(키릴 문자로 아제르바이자나어), bod(티베타어), bos(보시안어), ceb(세부아노어), cym(웰시어), dzo(종카어), gleati(페르시아어), glish(기리시어)ntral 크메르어(키르기스어), kir(쿠르디시어), kur(쿠르디시어), lat(라틴어), mar(마라티어), mya(미얀마어), nep(네팔리), ori(오리야어), pan(푼자비), pus(파슈토어), san(산스크리트어), srp_lat(신), 라틴어(라트어), serbian 문자(라어)h)[12]

게다가, 테서랙트는 다른 언어로 [5]작업하도록 훈련될 수 있다.

테세락트는 아랍어나 히브리어 같은 오른쪽에서 왼쪽으로 텍스트를 처리할 수 있고 CJK뿐만 아니라 많은 인디안 스크립트도 잘 처리할 수 있습니다.정확도는 Ray Smith의 [13]DAS 2016, Santorini의 Teseract 튜토리얼 프레젠테이션에 나와 있습니다.

Teseract는 백엔드로 사용하기에 적합하며 OCRopus[14]같은 프런트엔드를 사용하여 레이아웃 분석을 포함한 보다 복잡한 OCR 태스크에 사용할 수 있습니다.

입력 모습들인가 그것에 맞게 preprocessed지 않Tesseract의 출력:이미지(특히 스크린 샷)은 텍스트 x-height은 최소 20pixels,[15]어떤 회전이나 비대칭을 써 재조정 되야 한다 또는 전혀 텍스트 인식될, 밝기에 저주파 변화 고역, 또는 Tesserac 따라 필터링 되야 한다 수정해야 한다 매우 가난한 질 것이다.들이다2치화 단계는 페이지의 대부분을 파기하고 어두운 테두리를 수동으로 삭제해야 합니다.그렇지 않으면 문자로 [16]잘못 해석됩니다.

사용자 인터페이스

OCRFeder의 Teseract 설정창

Teseract는 명령줄 [17]인터페이스에서 실행됩니다.Teseract에는 GUI가 제공되지 않지만 [18]GUI를 제공하는 프로젝트는 많이 있습니다.일반적인 예로는 [19]OCRFeeder가 있습니다.

접수처

2007년 7월, Linux Journal의 Anthony Kay는 Tesseract에 관한 기사에서 이 툴을 "뛰어난 작업을 수행하는 기발한 명령줄 도구"라고 표현했습니다.당시 그는 "테세락트는 뼈만 앙상한 OCR 엔진이다.빌드 프로세스는 조금 변덕스럽고 엔진에는 레이아웃 검출 등 몇 가지 추가 기능이 필요하지만, 핵심 기능인 텍스트 인식은 오픈 소스 커뮤니티에서 시도한 그 어떤 것보다 훨씬 뛰어납니다.스캐너와 GIMPNetpbm같은 일부 이미지 도구만 사용하면 뛰어난 인식률을 얻을 수 있습니다."[3]

2020년 11월, 인터넷 아카이브(Internet Archive)의 Brewster Kahle은 다음과 같이 Teseract를 칭찬했다.

테서랙트는 지난 몇 년간 큰 진전을 이뤘다.마지막으로 정밀도를 평가했을 때는 독자 사양의 OCR만큼 우수하지는 않았지만, 그 점은 변했습니다.평가도 실시해 왔습니다.또한 새로운 [20]아키텍처로 인해 어플리케이션의 성능이 향상될 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b Google (2008). "tesseract-ocr". Retrieved 2016-03-08.
  2. ^ https://github.com/tesseract-ocr/tesseract/releases/tag/5.2.0 를 참조해 주세요.
  3. ^ a b Kay, Anthony (July 2007). "Tesseract: an Open-Source Optical Character Recognition Engine". Linux Journal. Retrieved 28 September 2011.
  4. ^ a b c Vincent, Luc (August 2006). "Announcing Tesseract OCR". Archived from the original on October 26, 2006. Retrieved 2008-06-26.
  5. ^ a b c d e Canonical Ltd. (February 2011). "OCR". Retrieved 2011-02-11.
  6. ^ a b Teseract OCR 발표 - 구글 공식 블로그
  7. ^ Willis, Nathan (September 2006). "Google's Tesseract OCR engine is a quantum leap forward". Archived from the original on 28 May 2022. Retrieved 2008-07-18.
  8. ^ "TESSERACT(1) Manual Page". Retrieved 15 March 2018.
  9. ^ Schmidt, Julia (2021-12-01). "OCR Engine Tesseract 5.0 converts to float for faster training and recognition • DEVCLASS". DEVCLASS. Retrieved 2021-12-20.
  10. ^ 라이스 스티븐 V., 프랭크 R. 젠킨스, 토마스 A.Nartker OCR 정확도의 4차 연례 테스트 expervision.com는 2013년 5월 21일을 취득했습니다.
  11. ^ Tesseract Project (February 2011). "Issue 263: patch to enable hOCR output". Archived from the original on November 13, 2012. Retrieved 26 February 2011.
  12. ^ "langdata - Source training data for Tesseract for lots of languages". Retrieved 6 November 2016.
  13. ^ "Training LSTM networks on 100 languages and test results" (PDF). Retrieved 18 March 2018.
  14. ^ OCRopus 오픈소스 OCR 시스템 발표(OCRopus 프로젝트 리더, Thomas Breuel).
  15. ^ "FAQ - tesseract-ocr - Frequently Asked Questions - An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google. - Google Project Hosting". Archived from the original on 23 December 2015. Retrieved 2014-05-30.
  16. ^ "ImproveQuality - tesseract-ocr - Advice on improving the quality of your output. - An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google. - Google Project Hosting". 2014-01-27. Archived from the original on 20 September 2015. Retrieved 2014-05-30.
  17. ^ 구글 코드 – Teseract Readme
  18. ^ "3rdParty - tesseract-ocr - GUIs and Other Projects using Tesseract OCR". github.com. Retrieved 2017-03-30.
  19. ^ "OCRFeeder". GNOME wiki. Retrieved 12 January 2019.
  20. ^ Brewster Kahle (November 23, 2020). "FOSS wins again: Free and Open Source Communities comes through on 19th Century Newspapers (and Books and Periodicals...) - Internet Archive Blogs". blog.archive.org. Retrieved December 1, 2020.

외부 링크