곤혹스러움
Perplexity
정보 이론에서 복잡도(complexity)는 확률 분포 또는 확률 모델이 표본을 얼마나 잘 예측하는지에 대한 측정값입니다.확률 모형을 비교하는 데 사용할 수 있습니다.복잡도가 낮다는 것은 확률 분포가 표본을 예측하는 데 좋다는 것을 나타냅니다.
확률 분포의 복잡성
이산 확률 분포 p의 복잡성 PP는 정보 이론, 기계 학습 및 통계 모델링에서 널리 사용되는 개념입니다.다음과 같이 정의됩니다.
여기서 H(p)는 분포의 엔트로피(비트)이며, x는 이벤트에 대한 범위입니다.로그의 기저가 2일 필요는 없습니다. 엔트로피와 지수가 동일한 기저를 사용한다는 조건에서 복잡성은 기저와 무관합니다.일부 상황에서는 이 측정값을 (1차 참) 다양성이라고도 합니다.
랜덤 변수 X의 복잡성은 가능한 값 x에 대한 분포의 복잡성으로 정의할 수 있습니다.결과와 관련된 불확실성 또는 "놀라움"의 척도로 생각할 수 있습니다.
p가 공정 k측 다이(k개의 이산 사건에 대한 균일한 분포)를 모형화하는 특수한 경우, 그 복잡성은 k입니다.난수 k를 갖는 랜덤 변수의 불확실성은 공정 k측 다이와 동일합니다.랜덤 변수의 값에 대해 "k-ways 혼란"이라고 합니다.공정 k측 다이가 아닌 한 k개 이상의 값이 가능할 수 있지만 일부 값의 확률이 1/k보다 클 수 있기 때문에 전체적인 불확실성은 더 크지 않습니다.
복잡성은 때때로 예측 문제의 난이도를 측정하는 데 사용됩니다.하지만 항상 정확한 표현은 아닙니다.예를 들어, 확률 0.9인 두 가지 선택지가 있으면 최적 전략을 사용하여 정확한 추측을 할 확률이 90%입니다.그러나 당혹감은 2−0.9 log2 0.9 - 0.1 log2 0.1=1.38입니다.복잡도의 역인 1/1.38 = 0.72는 0.9 확률에 해당하지 않습니다.
당혹스러운 것은 엔트로피의 기하급수적인 것으로, 더 간단한 양입니다.엔트로피는 최적의 가변 길이 코드를 사용하여 임의 변수의 결과를 인코딩하는 데 필요한 예상 또는 "평균" 비트 수를 측정합니다.또한 랜덤 변수의 결과를 학습하여 기본 확률 분포의 불확실성과 복잡성에 대한 통찰력을 제공하는 기대 정보 이득으로 간주될 수 있습니다.
확률 모형의 복잡성
알려지지 않은 확률 분포 p의 모형은 p에서 추출한 훈련 표본을 기반으로 제안될 수 있습니다.제안된 확률 모형 q가 주어지면 p에서 추출한 별도의 검정 표본1 x, x2, ..., x를N 얼마나 잘 예측하는지 물어봄으로써 q를 평가할 수 있습니다.모델 q의 복잡성은 다음과 같이 정의됩니다.
서 b b는 일반적으로 2입니다.알 수 없는 분포 p의 더 나은 모형 q는 검정 사건에 더 높은 확률 q(xi)를 할당하는 경향이 있습니다.따라서 난이도가 낮습니다. 즉, 검정 표본에 대한 놀라움이 적습니다.
위의 지수는 q를 기반으로 최적의 코드를 사용하는 경우 테스트i 이벤트 x를 나타내는 데 필요한 평균 비트 수로 간주될 수 있습니다. q(xi)가 높은 경향이 있기 때문에 낮은 복잡도 모델이 테스트 샘플을 더 잘 압축하여 테스트 요소당 평균 몇 비트를 필요로 합니다.
지수- N b ( x ) \ - _{i _도 교차 지수로 해석할 수 있습니다.
서p~ { {은 (는) 테스트 샘플의 경험적 분포즉p ~ ( / {\) = 크기의 테스트 샘플에 x가 n번 나타난 경우)를 나타냅니다.
KL 발산의 정의에 따르면, 그것은 또한 다음과 같습니다.
단어당 복잡도
![]() | 이 섹션을 업데이트해야 합니다.언어 모델링의 획기적인 발전에도 불구하고 2007년 이후 업데이트되지 않았기 때문입니다.(2023년 3월) 정보를 하여 이 할 수 있도록 . |
자연어 처리에서 말뭉치는 문장 또는 텍스트의 집합이고 언어 모델은 전체 문장 또는 텍스트에 대한 확률 분포입니다.따라서 NLP에서 더 일반적으로 사용되는 측정은 단어당 복잡도이며 다음과 같이 정의됩니다.
모델에 따라 말뭉치의 평균 문장i x의 이 2-가정합니다이것은 한 문장당 2의 모델190 혼란을 줄 것입니다.그러나 문장 길이에 대해 정규화하는 것이 더 일반적입니다.따라서 테스트 샘플의 문장이 총 1,000개의 단어로 구성되어 있고 단어당 7.95비트를 사용하여 코딩할 수 있다면 단어당 2 = 247의 모델7.95 복잡성을 보고할 수 있습니다.즉, 각 단어에 대한 247개의 가능성 중에서 모형이 균일하고 독립적으로 선택해야 하는 것처럼 테스트 데이터에서 혼동됩니다.
언어 모델링의 최근 발전
2007년 이후, 특히 딥 러닝 기술의 출현과 함께 언어 모델링의 상당한 발전이 나타났습니다.언어 모델의 예측력을 정량화하는 척도인 단어당 복잡성은 트랜스포머, BERT, GPT-2 등과 같은 모델을 평가하는 데 중심적으로 남아 있습니다.이 측정은 언어적 특징과 문장 [1]길이와 같은 요인에 민감하지만 동일한 데이터 세트에서 서로 다른 모델을 비교하고 하이퍼 파라미터의 최적화를 안내하는 데 사용됩니다.언어 모델 개발에서 중추적인 역할에도 불구하고, 혼란은 특히 음성 인식 성능의 부적절한 예측자로서 한계를 보여 왔으며, 여기서 [2][3]단어 오류율과 잘 상관되지 않을 수 있으므로 정확성에 대한 의문이 제기됩니다.
갈색 말뭉치
1992년 현재 브라운 코퍼스(다양한 주제와 장르의 미국 영어 100만 단어)에 게시된 가장 낮은 혼란은 실제로 단어당 약 247개이며, 이는 삼각형 모델을 사용하여 단어당 log2472 = 7.95비트 또는 문자당[4] 1.75비트의 교차 해석에 해당합니다.이 수치는 당시의 기술 상태를 나타내는 반면, 딥 러닝과 같은 기술의 발전은 10억 단어 [5]벤치마크와 같은 다른 벤치마크에서 당혹감을 크게 개선했습니다.
브라운 말뭉치의 맥락에서, 다음 단어가 "the"라고 추측하는 것만으로도 7%의 정확도를 달성할 것이며, 이는 단순한 당혹감의 사용에서 예상될 수 있는 1/247 = 0.4%와 대조적입니다.이러한 차이는 사용된 통계 [6]모델의 중요성과 예측성의 척도로서 복잡성의 미묘한 특성을 강조합니다.추측은 247의 혼란을 초래한 삼각형 통계가 아니라 유니그램 통계를 기반으로 하며, 삼각형 통계를 활용하면 예측을 더욱 정교화할 수 있습니다.
참고 항목
레퍼런스
- ^ Miaschi, Alessio; Brunato, Dominique; Dell'Orletta, Felice; Venturi, Giulia (2021). "What Makes My Model Perplexed? A Linguistic Investigation on Neural Language Models Perplexity". Proceedings of Deep Learning Inside Out (DeeLIO): The 2nd Workshop on Knowledge Extraction and Integration for Deep Learning Architectures. pp. 40--47. doi:10.18653/v1/2021.deelio-1.5.
- ^ Klakow, Dietrich; Peters, Jochen (2002). "Testing the correlation of word error rate and perplexity". Speech Communication. 38 (1–2): 19–28. doi:10.1016/S0167-6393(01)00041-3. ISSN 0167-6393.
- ^ Chen, Stanley F; Beeferman, Douglas; Rosenfeld, Roni (2018). "Evaluation Metrics For Language Models". Carnegie Mellon University.
- ^ Brown, Peter F.; et al. (March 1992). "An Estimate of an Upper Bound for the Entropy of English" (PDF). Computational Linguistics. 18 (1). Retrieved 2007-02-07.
- ^ Jozefowicz, Rafal 등, "언어 모델링의 한계 탐구" arXiv preprint arXiv:1602.02410 (2016). [1]
- ^ 윌콕스, 에단 고틀립 등."인간 실시간 이해 행동을 위한 신경 언어 모델의 예측력에 관한 연구" arXiv preprint arXiv:2006.01912 (2020). [2]