캐시 언어 모델

Cache language model

캐시 언어 모델은 통계 언어 모델의 한 유형이다.이것들은 컴퓨터 과학자연 언어 처리 하위 영역에서 발생하며 확률 분포를 이용하여 주어진 단어 순서에 확률을 할당한다.통계 언어 모델은 음성 인식 시스템과 많은 기계 번역 시스템의 핵심 구성 요소들이다. 그들은 그러한 시스템들에게 가능한 출력 단어 시퀀스가 있을 가능성이 있고 있을 가능성이 없는 것을 알려준다.캐시 언어 모델의 특별한 특징은 캐시 구성요소를 포함하고 주어진 텍스트의 다른 곳에서 발생하는 단어 또는 단어 시퀀스에 상대적으로 높은 확률을 할당한다는 것이다.캐시 언어 모델의 주된 사용, 그러나 결코 유일한 사용은 음성 인식 시스템에 있다.[citation needed]null

왜 통계 언어 모델이 캐시 구성요소를 포함하는 것이 좋은지 이해하기 위해서, 사람들은 코끼리에 관한 편지를 음성 인식 시스템에 지시하는 사람을 고려할 수 있다.표준(비캐쉬) N그램 언어 모델은 영어에서 매우 희귀한 단어이기 때문에 "코끼리"라는 단어에 매우 낮은 확률을 할당할 것이다.음성 인식 시스템이 캐시 구성요소를 포함하지 않는 경우, 편지를 받아쓰는 사람은 짜증날 수 있다. "코끼리"라는 단어를 말할 때마다 N그램 언어 모델에 따라 더 높은 확률을 가진 다른 단어들이 인식될 수 있다(예: "계획을 말하라").이러한 잘못된 시퀀스는 수동으로 삭제해야 하며 "코끼리"를 말할 때마다 텍스트에서 "코끼리"로 대체해야 한다.시스템에 캐시 언어 모델이 있는 경우, "코끼리"는 처음 말할 때 여전히 잘못 인식되어 텍스트에 수동으로 입력되어야 하지만, 이 시점부터 "코끼리"가 다시 발생할 가능성이 높다는 것을 알고 있다 – "코끼리"의 발생 확률은 증가하여 더 커진다.만약 그것이 말해진다면 그것은 정확하게 인식될 것이다.일단 "코끼리"가 여러 번 발생하게 되면, 시스템은 문자가 완전히 지시될 때까지 말을 할 때마다 그것을 정확하게 인식할 가능성이 있다."코끼리"의 발생에 할당되는 확률의 이러한 증가는 기계 학습의 결과의 한 예로서 보다 구체적으로 패턴 인식에 관한 것이다.null

캐시 언어 모델에는 이전에 발생한 단어뿐만 아니라 다중 단어 시퀀스에도 더 높은 확률을 할당하는 변형들이 존재한다(예를 들어, "San Francisco"가 텍스트의 시작 근처에 발생한 경우 더 높은 확률을 할당한다).null

캐시 언어 모델은 1990년에 발표된 논문에서 처음 제안되었고,[1] 그 후 IBM 음성 인식 그룹이 이 개념을 실험했다.이 단체는 캐시 언어 모델의 구현으로 문서의 처음 수백 단어를 받아쓰게 되면 단어 오류율이 24% 감소한다는 것을 발견했다.[2]언어 모델링 기법의 상세한 조사에 따르면 캐시 언어 모델은 표준 N그램 접근법에 비해 개선된 몇 안 되는 새로운 언어 모델링 기법 중 하나라고 결론 내렸다. "우리의 캐싱 결과는 캐싱이 중소 교육 데이터 크기에서 복잡성을 줄이는 데 단연 가장 유용한 기법임을 보여준다."[3]null

캐시 언어 모델의 개발은 특히 통계적 자연 언어 처리와 관련된 컴퓨터 언어학과 관련된 사람들 사이에서 상당한 관심을 불러일으켰다. 최근 통계 기계 번역 분야에서 캐시 언어 모델을 적용하는 것에 관심이 있었다.[4]null

단어 예측을 개선하는데 있어서 캐시 언어 모델의 성공은 어떤 특정한 맥락에서 어떤 주제를 토론할 때 다른 맥락에서 다른 주제를 토론할 때 특정 단어를 사용하는 빈도는 그들의 빈도와 상당히 다를 것이라는 "버스트" 방식으로 단어를 사용하는 인간의 경향에 달려 있다.확률을 할당해야 할 단어 앞에 있는 매우 적은 수(4, 3 또는 2)의 단어로부터 온 정보에 전적으로 의존하는 기존의 N-그램 언어 모델은 이 "버스트성"을 적절하게 모형화하지 않는다.null

최근, 캐시 언어 모델 개념은 원래 N-그램 통계 언어 모델 패러다임을 위해 고안되었다.예를 들어, 반복 신경망(RNN) 설정에서 연속 캐시 언어 모델에 대한 최근 연구는 캐시 개념을 이전보다 훨씬 더 큰 맥락에 적용하여 복잡성을 크게 줄였다.[5]또 다른 최근의 연구 라인은 빠른 도메인 적응을 달성하기 위해 피드-포워드 신경 언어 모델(FN-LM)에 캐시 구성요소를 통합하는 것을 포함한다.[6]

참고 항목

참조

  1. ^ Kuhn, R.; De Mori, R. (June 1990). "A Cache-Based Natural Language Model for Speech Recognition" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 12 (6): 570–583. doi:10.1109/34.56193. ISSN 1939-3539. Archived from the original (PDF) on 2011-09-01. Retrieved 2011-09-24. (추상)
  2. ^ F. 옐리네크, BMerialdo.S.Roukos&M.스트라우스(1991년)."한 동적 언어 모델 음성 인식에"(PDF).저널지에 음향 협회. 98(2):293–295. doi:10.3115/112405.112464.S2CID 11601499.6월 14일 2006년에 있는 원본(PDF)에서 Archived.회의:워크숍 캘리포니아 PacificGrove에, 미국, 2월 19–22, 1999년에 열린 말과 자연 언어, 저자들이다.
  3. ^ Joshua T. Goodman (2001). A Bit of Progress in Language Modeling: Extended Version. Redmond, WA (US): Microsoft Research. arXiv:cs/0108005v1. Bibcode:2001cs........8005G. Technical report MSR-TR-2001-72.
  4. ^ Tiedemann, Jorg (2010). Context Adaptation in Statistical Machine Translation Using Models with Exponentially Decaying Cache (PDF). Proceedings of the 2010 Workshop on Domain Adaptation for Natural Language Processing, ACL 2010. Uppsala, Sweden: Association for Computational Linguistics. pp. 8–15.
  5. ^ Edouard Grave; Moustapha Cisse; Armand Joulin (2017). "Unbounded cache model for online language modeling with open vocabulary". NIPS'17 Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, California: Association for Computing Machinery. pp. 6044–6054. ISBN 978-1-5108-6096-4.
  6. ^ Karel Benes; Santosh Kesiraju; Lukas Burget (2018). i-Vectors in Language Modeling: An Efficient Way of Domain Adaptation for Feed-Forward Models. Interspeech 2018. Hyderabad, India: Interspeech. pp. 3383–3387. doi:10.21437/Interspeech.2018-1070. S2CID 52192034.

추가 읽기