텍스트 정규화

Text normalization

텍스트 표준화텍스트를 이전에는 갖지 못했을 단일 표준 형태로 변환하는 과정이다.저장 또는 처리 전에 텍스트를 정규화하면 해당 텍스트에 대한 작업을 수행하기 전에 입력이 일관성이 보장되기 때문에 우려 사항의 분리가 가능하다.텍스트 표준화를 위해서는 어떤 유형의 텍스트를 표준화할지, 그리고 이후에 어떻게 처리할지를 알아야 하며, 여기에는 다목적 표준화 절차가 없다.[1]

적용들

텍스트 표준화는 텍스트를 음성으로 변환할 때 자주 사용된다.숫자, 날짜, 두문자어, 약어는 문맥에 따라 다르게 발음할 필요가 있는 비표준적인 "단어"이다.[2]예를 들면 다음과 같다.

  • "200달러"는 영어로는 "200달러"로 발음되지만, 사모아어에서는 "루아셀라우 탈라"로 발음된다.[3]
  • "vi"는 주변 단어에 따라 "vie", "ve" 또는 "6번째"로 발음될 수 있다.[4]

데이터베이스에 저장 및 검색을 위해 텍스트를 정규화할 수도 있다.예를 들어, "resume" 검색이 "résumé" 단어와 일치할 경우, 텍스트는 분음 부호를 제거하여 정규화되며, "john"이 "John"과 일치할 경우 텍스트는 단일 사례로 변환된다.또한 검색을 위한 텍스트를 준비하기 위해 줄임말(예: "flew"와 "fly"를 모두 "fly"로 변환), 표준화된 단어(예: 미국식 또는 영국식 영어 철자를 일관되게 사용) 또는 중지 단어가 제거될 수 있다.

기술

영숫자가 아닌 문자나 분음 부호를 제거하는 것과 같은 단순하고 문맥에 독립적인 정규화를 위해서는 정규식이 충분할 것이다.예를 들어, sed 대본은sed ‑e "s/\s+/ /g" inputfile공백 문자의 실행을 하나의 공백으로 정규화할 수 있다.보다 복잡한 정규화에는 언어에 대한 도메인 지식과 표준화되고 있는 어휘를 포함하여 그에 상응하는 복잡한 알고리즘이 필요하다.다른 접근법 중에서도 텍스트 정규화는 텍스트[5] 스트림을 토큰화 및 태그화하는 문제와 기계 번역의 특수한 경우로서 모델링되어 왔다.[6][7]

텍스트 장학금

본문 장학금과 역사 문헌 편집 분야에서, "정상화"라는 용어는 현대화와 표준화의 정도를 암시한다. 예를 들어, 원고 및 초기 인쇄 자료에서 전형적으로 발견되는 고어 글리프들의 번역과 약어의 연장 등에서 말이다.따라서 정상화된 판외교판(또는 준외교판)과 구별되는데, 이 판은 이러한 특징들을 보존하기 위해 어느 정도 시도된다.그 목적은 한편으로 원본 텍스트에 대한 엄격한 충실도(예를 들어 수수께끼와 모호한 요소의 보존을 포함)와 현대 독자가 이해할 수 있고 접근할 수 있는 새로운 텍스트를 생성하는 것이다.따라서 정상화의 정도는 편집자의 재량에 따라 달라진다.예를 들어, 일부 편집자들은 고어 철자법과 구두점을 현대화하기로 선택하지만, 다른 편집자들은 그렇지 않다.[8]

참고 항목

참조

  1. ^ Richard Sproat and Steven Bedrick (September 2011). "CS506/606: Txt Nrmlztn". Retrieved October 2, 2012.
  2. ^ Sproat, R.; Black, A.; Chen, S.; Kumar, S.; Ostendorf, M.; Richards, C. (2001)"비표준어 표준화"컴퓨터 음성언어 15; 287–333. doi:10.1006/csla.2001.0169.
  3. ^ "Samoan Numbers". MyLanguages.org. Retrieved October 2, 2012.
  4. ^ "Text-to-Speech Engines Text Normalization". MSDN. Retrieved October 2, 2012.
  5. ^ Zhu, C.; 탕, J.; Li, H.; Ng, H.; 자오, T. (2007)"문자 정규화를 위한 통합 태그 지정 접근 방식"제45회 연산언어학협회 연차총회 의사진행 : 688–695. doi:10.1.1.72.8138.
  6. ^ 필리핀인, G.; Krzystof, J.; Agnieszka, W.; Mikowaj, W. (2006."기계 번역의 특수한 경우로서 텍스트 표준화"컴퓨터 과학정보 기술 1에 관한 국제 다중 회의의 진행; 51–56.
  7. ^ 모기에라, A; 로레트, E.; 모레다, P. (2012)LREC 워크샵 "문자 정규화를 통한 Web 2.0 텍스트 접근성 향상" 절차: 텍스트 접근성 향상을 위한 자연 언어 처리(NLP4ITA); 9-14
  8. ^ Harvey, P. D. A. (2001). Editing Historical Records. London: British Library. pp. 40–46. ISBN 0-7123-4684-8.