크네저-니 스무딩
Kneser–Ney smoothingKneser-Ney 스무딩은 주로 그 이력을 바탕으로 문서에서 n그램의 확률 분포를 계산하는 데 사용되는 방법이다.[1]주파수가 낮은 n그램은 생략하기 위해 확률의 낮은 순서 항에서 고정값을 빼서 절대할인하는 방식을 사용했기 때문에 가장 효과적인 평활법으로 널리 알려져 있다.이 접근방식은 상위 및 하위 n그램 모두에 대해 동등하게 효과적인 것으로 간주되어 왔다.이 방법은 1994년 라인하르트 크네세르, 우트 에센, 헤르만 네이[2]에 의해 제안되었다.
이 방법의 개념을 잘 보여주는 일반적인 예는 빅램 '샌프란시스코'의 빈도수다.훈련 말뭉치에 여러 번 등장하면 유니그램 '프랜시스코'의 빈도도 높아진다.n그램의 빈도를 예측하기 위해 단일한 주파수에만 의존하면 왜곡된 결과가 나타나지만,[3] Kneser-Ney 스무딩은 단어에 앞서 가능한 단어에 대한 단어의 빈도를 고려하여 이를 수정한다.
방법
, ) 를 단어 에 이어 말뭉치에서 의 발생 횟수로 한다.
빅그램 확률에 대한 방정식은 다음과 같다.
여기서 유니그램 확률 ) 은 낯선 맥락에서 i 라는 단어를 볼 확률을 결정하는 것으로, 다른 단어 뒤에 나타나는 횟수를 말뭉치에서 구별되는 연속 단어 쌍 수로 나눈 값으로 추정한다.
은(는) 위의 방법으로 정의한 값이 음수가 아니고 합이 1이므로 적절한 분포라는 점에 유의한다.
매개 변수 은(는) 각 n그램의 카운트(일반적으로 0과 1 사이)에서 차감된 할인 값을 나타내는 상수다.
정규화 상수 - 값은 모든 에대해 조건부 확률 w - 을 1과 같게 만들기 위해 계산된다.나는{\displaystyle w_{나는}는 w의 나는}이 말뭉치에서 1{\displaystyle w_{i-1}− 컨텍스트에 적어도 한번은 우리는 정확히 동일한 상수 양 δ/(∑ w′ c(나는 − w1, 아니 ′)){\disp에 의해 확률은 할인 요금 발생한다 각 w}그(제공되 δ>1{\displaystyle \delta<1})를 관찰한다.을 낳i-1 따라서 총 은 w - 이후에 발생할 수 있는 고유 단어 에 따라 선형적으로 달라진다This total discount is a budget we can spread over all proportionally to . As the values of sum to one, we can simply define 은(는) 이 총 할인액과 같아야 한다.
이 방정식은 n그램까지 확장할 수 있다. -n + i - 1 은(는) - {\ n-1 단어로 하고 :
이 모델은 상위 및 하위 순서 언어 모델의 정보를 통합하는 절대 할인 보간 개념을 사용한다.낮은 순서의 n그램에 대한 용어를 추가하면 높은 순서의 n그램에 대한 카운트가 0일 때 전체 확률에 가중치가 더해진다.[6]마찬가지로, n그램의 카운트가 0이 아닐 때 하위 순서 모델의 무게는 감소한다.
수정된 크네저-니 스무딩
이 방법의 수정도 존재한다.[7]
참조
- ^ '보간 Kneser-Ney NUS 학교 전산기술보고서 TRA2/06 베이지안 해석'
- ^ Ney, Hermann; Essen, Ute; Kneser, Reinhard (January 1994). "On structuring probabilistic dependences in stochastic language modelling". Computer Speech & Language. 8 (1): 1–38. doi:10.1006/csla.1994.1001.
- ^ '브라운 대학교:연산언어학 소개 '
- ^ 'Kneser Ney 스무딩 설명'
- ^ 'NLP 자습서:스무딩'
- ^ '언어 모델링의 평활화 기법에 관한 실증적 연구'
- ^ 언어모델링을 위한 평활기법에 관한 실험적 연구