비그람

Bigram

bigram 또는 digram은 토큰 문자열에서 인접한 두 요소의 시퀀스이며, 일반적으로 문자, 음절 또는 단어입니다.빅램은 n=2에 대한 n-그램입니다.문자열 내의 모든 빅램의 빈도 분포는 컴퓨터 언어학, 암호학, 음성 인식 등을 포함한 많은 응용 프로그램에서 텍스트의 단순한 통계 분석에 일반적으로 사용됩니다.

gappy bigrams 또는 skip bigrams는 갭을 허용하는 단어 쌍입니다(아마도 의존 문법과 같이 단어를 연결하거나 종속성을 시뮬레이션하는 것을 피합니다).

bigrams라는 단어는 명확한 의존관계를 가진 gappy bigrams입니다.

세부 사항

빅램은 조건 확률의 관계가 적용되는 경우 앞의 토큰에 대한 조건 확률을 제공하는 데 도움이 됩니다.

즉, 앞의 (\에서 P P 두 토큰 P W_의 확률 또는 두 P)의 공존 확률과 동일합니다.이전 토큰의 bability.

적용들

빅램은 음성 [1]인식을 위해 가장 성공적인 언어 모델에서 사용됩니다.그들은 N그램의 특별한 경우이다.

Bigram 주파수 공격은 암호학에서 암호문자를 해결하기 위해 사용될 수 있습니다.주파수 분석을 참조하십시오.

Bigram 빈도는 통계 언어 식별의 한 가지 방법입니다.

논리학이나 레크리에이션 언어학의 일부 활동은 빅램을 포함한다.여기에는 가능한 모든 [2]빅램으로 시작하는 영어 단어 또는 logogue[3]같이 반복되는 빅램을 포함하는 단어들을 찾는 시도가 포함됩니다.

영어의 Bigram 주파수

소규모 영어 말뭉치에서 가장 일반적인 글자 빅그램의 빈도는 다음과 같습니다.[4]

0.52 en 0.55 ng 0.18 he 1.28 ed 0.53 of 0.16 in 0.94 ~ 0.52 al 0.09 er 0.94 it 0.50 de 0.09 an 0.82 ou 0.50 se 0.08 re 0.68 ea 0.47 le 0.08 nd 0.63 hi 0.46 sa 0.05 si.ve 0.04 ha 0.56 as 0.33 ra 0.04 es 0.56 te 0.27 ld 0.02 st 0.55 et 0.19 ur 0.02

더 큰 말뭉치를 위한 완전한 빅램 주파수를 사용할 [5][6]수 있다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Collins, Michael John (1996-06-24). "A new statistical parser based on bigram lexical dependencies". Proceedings of the 34th annual meeting on Association for Computational Linguistics -. Association for Computational Linguistics. pp. 184–191. arXiv:cmp-lg/9605012. doi:10.3115/981863.981888. S2CID 12615602. Retrieved 2018-10-09.
  2. ^ Cohen, Philip M. (1975). "Initial Bigrams". Word Ways. 8 (2). Retrieved 11 September 2016.
  3. ^ Corbin, Kyle (1989). "Double, Triple, and Quadruple Bigrams". Word Ways. 22 (3). Retrieved 11 September 2016.
  4. ^ Cornell Math Explorer 프로젝트– 대체 암호
  5. ^ Jones, Michael N; D J K Mewhort (August 2004). "Case-sensitive letter and bigram frequency counts from large-scale English corpora". Behavior Research Methods, Instruments, and Computers. 36 (3): 388–396. doi:10.3758/bf03195586. ISSN 0743-3808. PMID 15641428.
  6. ^ "English Letter Frequency Counts: Mayzner Revisited or ETAOIN SRHLDCU". norvig.com. Retrieved 2019-10-28.