나프타 프로젝트
Project Naptha| 원저작자 | 케빈 궈 |
|---|---|
| 개발자 | 구글 크롬 |
| 초기 릴리즈 | 4월, 전( |
| 안정된 릴리스 | 크롬: 2014년 7월 7일 0.9.3, 전( |
| 기입처 | 자바스크립트 |
| 운영 체제 | 크롬 |
| 크기 | 428KB |
| 유형 | 브라우저 확장 |
| 웹 사이트 | www |
Project Naptha는 구글 크롬용 브라우저 확장 소프트웨어로 사용자가 [1]이미지 내에서 텍스트를 강조, 복사, 편집 및 번역할 수 있습니다.개발자인 Kevin Kwok에 [2]의해 개발되었으며 2014년 4월에 Chrome 애드온으로 출시되었습니다.이 소프트웨어는 처음에 Google Chrome에서만 사용 가능하며 Chrome 웹 스토어에서 다운로드할 수 있습니다.그 후 Mozilla Firefox에서 사용할 수 있게 되어 Mozilla Firefox 애드온 저장소에서 다운로드할 수 있게 되었지만 곧 제거되었습니다.제거 이유는 아직 밝혀지지 않았습니다.[3]
웹 브라우저 확장은 고급 이미징 [4]기술을 사용합니다.하드카피 아트 제작과 작품 식별에도 유사한 기술이 사용되었습니다.[5]
Microsoft Research 및 Google이 개발한 라이브러리를 포함한 몇 가지 OCR(광학식 문자 인식) 알고리즘을 채택함으로써 텍스트는 이미지에서 자동으로 식별됩니다.OCR을 사용하면 모든 [6]영상에서 텍스트 영역, 단어 및 문자의 모델을 구축할 수 있습니다.
Project Naptha가 채택하고 있는OCR 테크놀로지는 Google Drive나 Microsoft OneNote 등의 소프트웨어가 이미지 내의 텍스트를 용이하게 분석하기 위해 사용하는 테크놀로지보다 약간 차별화된 테크놀로지입니다.프로젝트 Naptha는 또한 텍스트 검출의 한 형태로 마이크로소프트 리서치에 의해 2008년에 개발된 스트로크 폭 변환(SWT)[7]이라고 불리는 방법을 사용한다.
이름 유래
나프타라는 이름은 수천 년 전에 만들어진 가연성 액체 탄화수소를 가리키는 일반적인 용어인 나프타에서 유래했다.텍스트를 강조 표시하는 과정도 프로젝트의 이름을 짓는 데 영감을 주었습니다.
이미지에서 단어를 번역하는 데 어려움이 있다
프로젝트 Naptha와 같은 소프트웨어가 도착하기 전에는 이미지 내부의 텍스트를 편집, 복사 또는 인용하는 과정이 어려웠습니다.이전에는 이미지에서 문장을 검색하거나 복사하는 유일한 방법은 수동으로 텍스트를 전사하는 것이었습니다.
역사
2012년 5월 Kevin[2] Kwok은 이미지의 왜곡이나 품질 손상 없이 이미지의 스케일을 변경할 수 있는 알고리즘인 심 조각에 대해 읽고 있었습니다.Kwok은 그들이 글자 사이의 공간을 가르는 방식으로 서로 모여 배열하는 경향이 있다는 것을 알아챘다.특히 장황한 만화는 그가 (캔버스로) 이미지를 읽고, 선과 글자의 위치를 계산하고, 광범위한 텍스트 선택 습관을 완화하기 위해 선택 오버레이를 그릴 수 있는 소프트웨어를 개발하도록 영감을 주었습니다.
Kwok의 첫 번째 시도는 간단했다.그는 영상을 측면에 투사했고 수직 픽셀 영상 히스토그램이 형성되었다.결과 히스토그램의 유의한 계곡은 텍스트 행의 끝에 대한 시그니처 역할을 했습니다.수평선이 감지되면 각 선이 자동으로 잘리고 이미지의 모든 수평선이 식별될 때까지 히스토그램 프로세스가 반복됩니다.글자 위치를 결정하기 위해 비슷한 과정을 진행했지만 이번에는 수직으로 진행되었습니다.그러나 생성된 투영도를 읽을 수 없어 수직으로 프로세스를 수행하는 데 실패했습니다.이 과정은 수평 기계 인쇄 텍스트에만 엄격하게 적용된다는 것을 증명하면서 효과가 낮았습니다.높은 기술적 어려움에 직면한 Kwok은 2012년에 이 프로젝트를 포기하기로 결정했다.
Kevin Kwok이 매사추세츠 공과대학에 진학하여 해커톤에 들어갈 때까지 그는 이 프로젝트를 다시 시작했다.이 프로젝트는 결국 그에게 2등을 안겨주었다.그에게 그림으로 된 텍스트를 고르는 것은 기술적인 차원에서 감당할 수 있는 것이었다.관련 기술은 이미 존재하고 있고, 꽤 오랫동안 쉽게 이용할 수 있었지만, 설명할 수 없는 이유로 이미지에서 텍스트를 번역하는 용도로는 확장되지 않았습니다.Kevin Kwok이 프로젝트를 다시 시작하기로 결정하자, 문자 변환, 번역, 텍스트 삭제 및 수정 기술은 자연스럽게 흘러갔습니다.
기술적 특징
OCR(광학식 문자 인식)을 적용하기 전에 먼저 이미지에 텍스트 블록이 있는지 확인해야 합니다.텍스트 블록이 식별되면 OCR을 통해 텍스트 영역, 단어 및 이미지의 [6]문자 모델을 구축할 수 있습니다.이 기능은 사용자가 모든 이미지, 실시간, Google [8]Chrome 브라우저에서 직접 텍스트를 복사, 번역 및 수정할 수 있는 옵션을 제공합니다.
Naptha 프로젝트의 주요 특징은 텍스트 감지 기능입니다.2008년 [7]마이크로소프트 리서치가 개발한 스트로크 폭 변환(Stroke Width Transform)이라는 알고리즘으로 실행되며 언어에 구애받지 않는 방식으로 텍스트 영역을 식별하고 이미지에서 각진 텍스트와 텍스트를 검출하는 기능을 제공합니다.이는 문자를 구성하는 줄의 폭을 텍스트의 마커로 미리 결정된 개별 피쳐를 찾기보다는 텍스트일 수 있는 요소를 식별하는 수단으로 사용하여 수행됩니다.
이 경우 프로그램은 인간과 유사하게 매우 직관적이 되며, 따라서 우리는 쓰여진 [9]텍스트를 인식하기 위해 언어를 이해할 필요가 없다.
Project Naptha는 웹 브라우징 시 이용 가능한 모든 이미지에 최첨단 컴퓨터 비전 알고리즘을 자동으로 적용하므로 사용자는 이전에 이미지 내에 갇혔던 텍스트를 강조 표시, 복사 및 붙여넣기, 편집 및 번역할 수 있습니다.
포토샵의 "콘텐츠 인식 채우기" 기능과[10] 유사한 기술인 "인페인팅"이 채택되었다.이러한 종류의 알고리즘은 Adobe Photoshop의 "Content-Aware Fill" 기능의 일부로 잘 알려져 있습니다.번역된 텍스트의 글꼴을 원본 이미지 스타일로 매칭하여 텍스트가 이전에 사용하던 공간을 주변 색상으로 자동으로 채우는 알고리즘을 사용합니다.이것은, 우선 텍스트를 검출해, 텍스트 주위의 영역에서 솔리드 색상을 취득하는 것으로 행해집니다.이어서 전체 영역이 채워질 때까지 색상이 주변과 안쪽으로 퍼집니다.이 기술을 사용하면 편집된 [8]텍스트 주변 영역에서 독립적인 색상을 캡처 및 처리하여 이미지를 재구성하고 이미지에서 단어를 편집 및 제거할 수 있습니다.
사용자에게 심리스하고 직관적인 경험을 제공하기 위해 확장 기술은 커서 움직임을 추적하고 그 위치와 속도에 따라 1초 전을 연속적으로 추정하여 [1]이미지에서 강조 표시가 발생할 수 있는 위치를 예측합니다.그런 다음 Project Naptha 소프트웨어는 프로세서를 많이 사용하는 문자 인식 알고리즘을 스캔하여 실행합니다.이 알고리즘은 사용자가 이미지에서 원하는 텍스트를 [11]미리 처리합니다.
어플
프로젝트 Naptha는 몇 가지 응용 프로그램에서 사용할 수 있으며, 사용자는 브라우저에 표시되는 이미지에서 텍스트를 복사할 수 있습니다.여기에는 만화, 사진, 스크린샷, 인터넷 메모, 애니메이션 GIFS, 스캔, 라벨이 있는 다이어그램 및 [12]번역과 같은 텍스트 오버레이가 있는 이미지가 포함됩니다.
만화
2013년 10월, 만화 연장의 첫 시제품이 출시되었습니다.코믹의 확장이 필요했던 것은 좀 더 캐주얼하고 격식을 차리지 않은 코믹 폰트의 사용 때문이었다.캐릭터는 연결된 것처럼 가까이 배치되는 경우가 많고 만화에서 텍스트를 복사하여 붙여넣으려고 하면 일반적으로 복사된 텍스트가 뒤섞여 불분명한 것처럼 보입니다.
사진들
Project Naptha가 사진에 사용하는 알고리즘은 Stroke Width Transform(스트로크 폭 변환)으로, 자연 장면과 사진의 텍스트를 검출하기 위해 특별히 설계되었습니다.이는 일반 이미지에 비해 사진이 일반적으로 더 어렵고 텍스트를 복사하기가 기술적으로 더 어렵기 때문입니다.
스크린샷
Screenshots의 경우 Project Naptha는 정적 스크린샷을 캡처 당시와 같이 컴퓨터의 인터랙티브 스냅샷과 더 유사한 것으로 변환합니다.커서가 다른 부분 위로 이동하면 변경되어 텍스트 블록을 선택할 수 있게 됩니다.
이미지의 텍스트 편집
프로젝트 냅타는 번역 기술을 이용해 이미지에 있는 텍스트를 지우고 편집할 수 있다.이 번역 테크놀로지는 기본적으로 "Inpainting(Inpainting)"
텍스트 변경 중에는 번역이 사용하는 트릭과 동일한 트릭을 사용합니다.[번역] 메뉴에는 영어, 스페인어, 러시아어, 프랑스어, 중국어 간체, 중국어 번체, 일본어,[8] 독일어 등 다양한 언어로 이미지 텍스트를 번역할 수 있는 기능이 있습니다.
기술적 제한
소프트웨어가 지속적으로 개선되고 있음에도 불구하고 Naptha 프로젝트가 직면한 기술적 문제가 몇 가지 있습니다.
프로젝트 Naptha의 기본 스트로크 폭 변환 알고리즘은 언어에 구애받지 않는 특성을 가지고 있기 때문에 작은 구불구불한 글자를 텍스트로 검출할 수 있습니다.사소한 디테일을 검출할 수 있기 때문에 플러스 포인트이지만, 불필요한 디테일을 너무 많이 검출해 버그로 인식될 수도 있습니다.
텍스트의 색상과 이미지의 배경이 비슷할 경우 단어와 이미지가 구별되지 않기 때문에 단어 검출이 어려워집니다.이로 인해 [12]텍스트의 탐지 및 복사가 부정확해집니다.
문자 분할로 인해 손으로 쓴 글씨는 특히 탐지가 어렵습니다.손으로 쓴 글자들은 종종 너무 가까이 쓰여져 있어서 글자를 분할하거나 구분하기가 어렵습니다.따라서, 이러한 소스로부터 텍스트를 카피하는 것은, 매우 부정확하고,[12] 문자가 혼재하는 결과를 초래합니다.
개선 기능의 일환으로서 Project Naptha는 이 기능에 대한 작업을 개시해, 회전 텍스트를 서포트할 수 있도록 했습니다.그러나 이 기능은 약 30도까지만 제한됩니다.회전이 30도 이상인 텍스트는 복사 또는 번역할 수 없습니다.
인페인팅을 이용한 기술에 대해서는 이미지가 원고를 대체하기 어렵고 편집한 흔적이 남을 수 있다는 점이 허점이 있다.그러나 멀리서 보면 이미지에서 단어가 완벽하게 제거된 것처럼 보입니다.
보안.
보안상의 우려 사항
사이트에서 사용되는 다른 소프트웨어의 경우 가장 큰 우려 사항 중 하나는 사용자 경험과 프라이버시 간의 균형에 관한 문제입니다.Project Naptha 개발자는 클라이언트 측(브라우저 내)에서 처리를 할 수 있도록 최선을 다하고 있는 것으로 알고 있습니다.그러나 이미지 추출을 위해 사용자가 선택한 텍스트는 클라우드에서 처리됩니다.즉, 번역의 정확성을 높이기 위해서는 클라우드 처리 능력의 향상과 프라이버시 [4]침해에 의존할 필요가 있습니다.
모든 기능을 사용할 수 있도록 하는 것과 사용자의 프라이버시를 존중하는 것 사이에 미묘한 균형을 맞추는 데 도움이 되는 기본 설정이 있습니다.기본적으로는 사용자가 텍스트를 선택하기 시작하면 안전한 HTTPS 요청이 전송됩니다.사용자 토큰, 웹 사이트 정보, 쿠키 또는 분석 없이 특정 이미지의 URL만 포함되며 요청은 기록되지 않습니다.서버는 이미 수행된 기존 변환 및 OCR 언어 목록으로 응답합니다.이를 통해 영상의 텍스트를 다른 방법보다 훨씬 더 정확하게 인식할 수 있습니다.
사용자의 기본 설정에 따라 옵션 메뉴에서 "검색 비활성화" 항목을 선택하여 이 기본 기능을 비활성화할 수 있습니다.
사생활
Project Naptha가 설치되면 사용자 정보에 대한 권한과 전면적인 액세스가 필요합니다.이 정보는 설치 대화 상자에서 요청됩니다.모든 이미지와의 상호작용을 허용하려면 소프트웨어가 모든 사이트에서 모든 이미지를 읽을 수 있는 사용자의 권한이 필요합니다.한편 사용자가 프로젝트 Naptha에 대한 모든 측면의 이미지에 대한 액세스를 허용하지 않으려면 설치 대화 상자에서 이 기능을 비활성화할 수도 있습니다.이 경우 Project Naptha는 매우 낮은 수준의 액세스로 동작하며 브라우저와 운영체제에 기본적으로 내장되어 있는 기능인 것이 이상적입니다.
확장은 거의 전체가 클라이언트 측 JavaScript로 작성되므로 원격 서버에 액세스하지 않고도 확장 기능을 수행할 수 있습니다.그러나 주의할 점은 오프라인에서 실행되는 온라인 번역은 모순되며 클라우드에서 실행되는 캐시된 OCR 서비스에 대한 액세스가 부족하면 성능이 저하되고 문자 변환 정확도가 저하된다는 것입니다.
마지막으로 scalability의 문제로 번역 기능은 현재 제한적으로 전개되고 있습니다.온라인 OCR 서비스에는 사용자별 측정 기능이 있으므로 고유 식별자 토큰이 필요합니다.이 토큰은 완전히 익명이며 개인 식별 가능 정보와 연결되어 있지 않습니다.
장래의 발전
이미지 안의 텍스트를 조작할 수 있는 현재의 소프트웨어와는 별도로, 소프트웨어의 기능을 넓힐 수 있는 실험적인 기능도 있다.이 실험적인 확장에 의해, 소프트웨어는 유저가 현재의 페이지의 이미지내의 텍스트를 검색할 수 있도록 하는 것을 목표로 하고 있어, 모든 [4]유저에게 있어서 큰 기능으로서 기능하고 있습니다.
Naptha 프로젝트는 또한 그 한계를 개선하기 위한 다른 방법들을 찾아왔다.현재 텍스트의 회전 각도는 30도[13] 이하입니다.그렇지 않으면 품질이 저하됩니다.프로젝트 Naptha는 더 잘 훈련된 모델과 알고리즘을 사용하여 향후 버전의 품질을 높이는 것을 목표로 할 것입니다.또한 인간이 지원하는 문자 변환 서비스를 포함할 가능성도 있다.
또, 인페인팅의 테크닉에 의해, 원래의 이미지에 자국이 남고, 편집이 끝난 것을 알 수 있습니다.이 기술은 특히 단순히 글꼴을 검출하는 것 외에 로직을 검출하는 기술로 개선될 것으로 기대된다.현재 inpainted는 이 방법으로 글꼴을 읽습니다.대문자와 초굵은 글씨일 경우 Impact 글꼴, 대문자일 경우 XKCD 글꼴, 기타 모든 것에 대해서는 Helvetica Neue입니다.
Kwok이 인정한 바와 같이, 프로젝트 Naptha는 여전히 많은 기능을 개선해야 합니다.주된 이유는 다양한 서브 컴포넌트와 알고리즘 면에서 Naptha 프로젝트는 최첨단보다 몇 년 뒤처져 있기 때문입니다.그러나 시간이 지남에 따라 텍스트 인식, 번역 및 삭제가 모두 더욱 발전할 수 있으며, 이 엄청난 가능성은 분명 흥미로울 것이라고 그는 굳게 믿고 있습니다.
「 」를 참조해 주세요.
- Copyfish - Copyfish Google Chrome 확장은 동일한 문제를 해결하지만 다른 사용자 인터페이스 접근 방식을 취합니다.
레퍼런스
- ^ a b Stu, Robarts. "New Google Chrome extension lets you copy and delete text in images". Gizmag. Retrieved 7 April 2015.
- ^ a b Kwok, Kevin. "Profile". Google+. Retrieved 7 April 2015.
- ^ Brinkmann, Martin. "Project Naptha text on image recognition technology comes to Firefox". ghacks.net. Retrieved 2 April 2015.
- ^ a b c Hoffman, Chris. "Edit Image Text With Chrome's Project Naptha: What It Is & How To Use It". Makeuseof. Retrieved 7 April 2015.
- ^ Narelle, Jarry. "Computer Imaging Technology: The Process of Identification". The Book and Paper Group. The American Institute for Conservation. Retrieved 2 April 2015.
- ^ a b Brian, Matt. "This Chrome add-on lets you copy and erase text inside any image on the web". Engadget. Retrieved 7 April 2015.
- ^ a b "Stroke Width Transform". Stroke Width Transform. Retrieved 7 April 2015.
- ^ a b c Chacos, Brad. "Meet Project Naptha, an amazing Chrome extension for modifying text in web images". PCWorld. Retrieved 7 April 2015.
- ^ Starr, Michelle. "Chrome extension lets you copy text from images". CNET. Retrieved 2 April 2015.
- ^ Wollman, Dana. "Adobe unveils Photoshop CS6 beta with redesigned UI and 65 new features, download it for free today". Engadget. Retrieved 30 March 2015.
- ^ Chan, Norman. "In Brief: Project Naptha OCRs Web Images". Tested. Retrieved 2 April 2015.
- ^ a b c "Project Naptha". Project Naptha. Retrieved 7 April 2015.
- ^ Khaw, Cassandra. "Edit Image Text with the useful Chrome extension". TheVerge. Retrieved 2 April 2015.