발산-랜덤성 모형
Divergence-from-randomness model정보 검색 분야에서 첫 모델 중 하나인 무작위성과의 차이는 확률론적 모델의 한 유형이다.기본적으로 문서에 실려 있는 정보의 양을 시험하는 데 사용된다.그것은 하터의 2-포아송 인덱싱 모델을 기반으로 한다.2-포아송 모형은 문서의 수준이 문서의 나머지 부분보다 상대적으로 큰 단어를 포함하는 문서 집합과 관련이 있다는 가설을 가지고 있다.'모형'이 아니라 확률론적 방법을 이용한 용어 가중치 부여의 틀이며, 엘리트성 개념에 기초한 용어 가중치 부여에 특별한 관계가 있다.null
용어 가중치는 특정 단어가 해당 집합에 있는지 여부에 대한 표준으로 취급되고 있다.항 가중치는 랜덤 공정에서 생성된 항 분포와 실제 항 분포 간의 차이를 측정하여 계산한다.null
프레임워크의 세 가지 주요 구성요소를 인스턴스화하여 설정된 랜덤성 모델과의 차이: 먼저 기본 랜덤성 모델을 선택한 다음 첫 번째 정규화를 적용하고 마지막으로 항 빈도를 정규화하는 것.기본 모델은 다음 표에 수록되어 있다.null
정의
무작위성으로부터의 차이는 이러한 생각에 근거한다: "문서 내 용어 빈도와 수집 내 빈도의 차이가 클수록 문서 d에서 t라는 단어가 전달하는 정보도 많아진다.즉, 용어 가중치는 랜덤성의 모델 M에 의해 얻은 문서 d 내의 항 빈도 확률과 반비례한다."[1](terrier.org 기준)
)= k d ) d d 공식 1)
- M은 확률을 계산하기 위해 사용하는 랜덤성의 모델 유형을 나타낸다.
- d는 문서의 총 단어 수입니다.
- t는 d의 특정 단어의 수입니다.
- k는 M으로 정의된다.
다른 항아리 모형을 사용하여 적절한 임의성 모델 M을 선택할 수 있다.정보검색에서는 항아리 대신 문서, 색상 대신 용어가 있다.M을 선택하는 방법에는 여러 가지가 있는데, 이들 각각은 그것을 뒷받침하기 위해 랜덤성 모델에서 기본적인 차이를 가진다.null
모델
기본 모델
D 이항 BE 보스-아인슈타인 분포의 이항 P 근사치 G 보세아인슈타인 I(n) 역 문서 주파수 모델 I(F) 역기 주파수 모델 I(ne) 역 기대 문서 주파수 모델의 기하학적 근사치
DFR 모델
BB2 베르누이-아인슈타인 모델(버누이 사후 효과 및 정상화 2).버누이 사후 효과와 정규화 2를 사용한 IFB2 역항 주파수 모델버누이 사후 효과와 정규화 2를 사용한 확장 B2 역 기대 문서 주파수 모델.로그는 기본 2이다.이 모델은 고전적인 애드호크 작업에 사용될 수 있다.버누이 사후 효과와 정규화 2를 사용한 in-expC2 기대 반 문서 주파수 모델로그는 base e이다.이 모델은 고전적인 애드호크 작업에 사용될 수 있다.LP2 Laplace 사후 효과 및 정규화 2가 있는 역 문서 주파수 모델이 모델은 초기 정밀도가 필요한 작업에 사용할 수 있다.Laplace 사후 효과와 정규화 2를 포함한 PL2 Poisson 모형.이 모델은 조기정밀[7,8]이 요구되는 작업에 사용할 수 있다.null
첫 번째 정규화
문서에서 특정 희귀 용어를 찾을 수 없는 경우, 해당 문서에서 해당 용어는 정보 제공 가능성이 거의 0이다.반면에, 문서에서 드문 용어가 자주 발생하는 경우, 문서에서 언급한 주제에 대해 정보를 제공할 확률이 매우 높고 거의 100%에 이를 수 있다.폰테와 크로프트의 언어 모델에 적용하는 것도 좋은 생각이 될 수 있다.위험 구성요소는 DFR에서 고려된다는 점에 유의하십시오.논리적으로 말하면, 문서의 용어 빈도가 상대적으로 높다면, 반대로 정보를 제공하지 않는 용어에 대한 위험은 상대적으로 작다.우리가 높은 가치를 제공하는 포뮬러 1을 가지고 있다고 가정하면, 최소한의 위험은 작은 정보 이득을 보여주는 부정적인 효과를 가진다.그래서 우리는 포뮬러 1의 가중치를 체계화하여 그 부분만이 용어로 얻은 정보의 양이라는 것을 고려하기로 한다.엘리트 집합에서 용어가 많이 발생할수록 무작위성으로 인한 기간 빈도가 줄어들어 관련 위험도 작아진다.기본적으로 문서 내의 용어로 정보 이득을 계산하기 위해 두 가지 모델을 적용한다.
두 개의 베르누이의 공정 B의 비율인 라플라스 L 모델null
용어 주파수 정규화
용어의 문서 내 주파수 tf를 사용하기 전에 문서 길이 dl은 표준 길이 sl로 정규화된다.따라서 용어 빈도 tf는 표준 문서 길이와 관련하여 다시 계산한다. 즉, 다음과 같다.
tfn = tf * log(1+ sl/dl) (문서 1)
tfn은 정규화된 항 빈도를 나타낸다.표준화 공식의 다른 버전은 다음과 같다.
tfn = tf * log(1 + c*(sl/dl)) (문서 2)
정규화 2는 c에 대한 고정값이 없기 때문에 일반적으로 더 유연한 것으로 간주된다.
- tf는 문서 d에서 t라는 용어의 용어 빈도수다.
- dl은 문서 길이 입니다.
- sl은 표준 길이다.
수학 및 통계 도구
확률공간
샘플링 공간 V
쿠퍼와 마론이 개발한 효용-이론적 인덱싱은 효용 이론에 기초한 지수화 이론이다.사용자가 기대하는 문서의 값을 반영하기 위해 색인 용어를 문서에 할당한다.또한 효용-이론적 인덱싱은 통계 단어에서 "이벤트 공간"과 관련이 있다.정보 검색에는 몇 개의 기본 공간 Ω이 있다.정말 간단한 기본 공간 Ω은 문서 모음의 어휘라고 불리는 t 용어의 V 설정일 수 있다.Ω=V는 모든 상호 배타적 이벤트의 집합이기 때문에 Ω은 다음과 같은 확률을 가진 특정 이벤트가 될 수도 있다.
P(V)= σ(tv)P(t)=1
따라서 확률 분포인 P는 어휘에 대한 모든 항 집합에 확률을 할당한다.정보 검색의 기본적인 문제는 P(t)에 대한 견적을 찾는 것이다.견적은 표본 추출에 기초하여 계산되며 실험 텍스트 수집은 견적에 필요한 표본을 제공한다.이제 우리는 두 개의 임의적이면서도 이질적인 텍스트들을 어떻게 적절하게 취급할 것인가 하는 중요한 문제에 직면하게 되었다.패러곤은 과학 잡지의 한 장과 스포츠 신문의 기사를 좋아한다.다른 모집단을 목표로 하는 표본들이기 때문에 두 개의 다른 표본으로 간주될 수 있다.null
문서를 사용한 샘플링
문서와 실험의 관계는 표본 공간을 선택하는 방법에 의해 이루어진다.IR에서는 실험이라는 용어, 즉 시험이라는 용어를 상식보다 기술적인 의미로 여기서 사용한다.예를 들어, 문서는 결과 t∈V의 순서 또는 모집단의 표본이라는 것을 의미하는 실험일 수 있다.우리는 일련의 실험에서 주어진 단어 t의 발생 횟수 Xt=tf를 관찰하는 사건에 대해 이야기 할 것이다.이 사건 공간을 도입하기 위해서는 시퀀스의 실험과 관련된 확률 공간의 산물을 도입해야 한다.우리는 어떤 점을 결과의 가능한 구성과 연결하기 위해 우리의 샘플 공간을 소개할 수 있다.표본 공간에 대한 일대일 대응은 다음과 같이 정의할 수 있다.
Ω=Vld
여기서 ld는 실험의 시행 횟수 또는 이 예에서 문서의 길이입니다.우리는 각각의 결과가 이전 실험의 결과에 따라 달라질 수도 있고 아닐 수도 있다고 가정할 수 있다.결과가 다음 결과에 영향을 미치도록 실험이 설계된 경우 V의 확률 분포는 각 시행에서 다르다.그러나, 더 일반적으로 IR에서 확률 공간이 불변할 때 더 간단한 경우를 설정하기 위해 자주 독립성 가정이라는 용어가 만들어진다.따라서 OHM=Vld의 모든 가능한 구성은 장착 가능한 것으로 간주된다.이러한 가정을 고려해 볼 때, 우리는 각 문서를 베르누이 과정으로 고려할 수 있다.제품의 확률 공간은 불변하며 주어진 시퀀스의 확률은 각 시험에서 확률의 산물이다.따라서 p=P(t)가 결과가 t이고 실험 횟수가 ld일 경우 Xt=tf의 확률은 다음과 같다.
P(Xt=tf p)=(ld pick tf)ptfqld-tf
이 값은 ld에서 tf 결과를 얻을 수 있는 모든 가능한 구성의 확률의 합이다.P(Xt=tf p)는 다음과 같은 이유로 확률분포다.
σ(t∈V)P(Xt=tf p)=(p+q)=ld1
- ld 문서의 길이 d.
- tf 문서 d에서 t의 용어 빈도.
- Xt 한 목록에 있는 특정 단어의 발생 수입니다.
다중 샘플링
이미 단일 표본을 갖는다는 가설을 고려해 볼 때, 예를 들어 문서 모음 D와 같은 여러 표본을 보유하고 있다는 점을 고려할 필요가 있다.N문서의 컬렉션을 갖는 상황은 일정 수의 V 컬러의 공의 토트를 N 셀 컬렉션에 배치하는 구도와 추상적으로 동일하다.각 용어 t∈V에 대해 가능한 볼 배치 구성은 다음 방정식을 만족한다.
tf1+...+tfN=Ft
그리고 조건은
F1+...+FV=토트
여기서 Ft는 N 셀에 분포할 동일한 색상의 볼 수입니다.그래서 우리는 기본적인 공간을 바꾸었다.우리의 실험 결과는 공이 놓일 문서 d가 될 것이다.또한 컬러 볼의 수와 일치하는 가능한 구성이 많이 있을 것이다.null
- Ft 컬렉션에서 t의 총 토큰 수입니다.
- 합계 D 컬렉션의 총 토큰 수
분포
이항 분포
초기하 분포
보스아인슈타인 통계
지방꼬리분포
결론
랜덤성 모델과의 차이는 베르누이 모델과 그 제한 형태, 초기하 분포, 보스-아인슈타인 통계와 그 제한 형태, 베타 분포와 함께 이항 분포의 화합물, 그리고 지방-꼬리 분포에 기초한다.랜덤성 모델과의 차이는 IR의 많은 다른 유효 모델을 구성할 수 있는 가능성을 가진 통일된 프레임워크를 보여준다.null
적용들
응용 프로그램 및 특성
- 임의성으로부터의 다이버전스 모델은 정보 검색의 자동 인덱싱에 적용할 수 있다.이것들은 문서 내에서 한 용어의 유익한 내용의 개념을 논문의 엘리트성으로 설명할 수 있다.
- BM25와 언어 모델에 비해 랜덤성과의 차이를 기반으로 한 모델의 효과는 매우 높다.짧은 질의의 경우, 랜덤성과의 차이점 모델의 성능이 BM25 모델보다 확실히 우수하며, 1994년부터는 모델 비교의 표준 기준선으로 사용되어 왔다.
- 랜덤성으로부터의 다이버전스 모델은 다른 쿼리 확장 기술에 비해 몇 개의 문서만으로 최고의 성능을 보여줄 수 있다.
- 랜덤성 모델로부터의 다이버전스의 프레임워크는 매우 일반적이고 유연하다.각 컴포넌트에 제공되는 쿼리 확대로, 우리는 최상의 성능을 얻기 위해 다른 기술을 적용할 수 있다.
근접성
근접성은 사전 정의된 크기의 창 내에서 한 쌍의 쿼리 용어의 발생 횟수를 고려하는 임의성과의 차이에서 처리할 수 있다.지정하기 위해, DFR 의존성 점수 수정자 DSM은 말뭉치에 있는 쌍의 통계 대신 문서의 길이로 랜덤성을 나눈 값을 계산하는 pBiL과 pBiL2 모델을 모두 구현한다.null
랜덤성으로부터의 차이 예제
용어가 되고 c가 집합이 되게 하자.tfc=nL(t,c)=200개소, df(t,c)=nL(t,c)=100개 문서에서 이 용어를 사용하도록 한다.기대 평균 기간 빈도는 avgtf(t,c)=200/100=2이며, 이는 용어가 발생하는 문서에 대한 평균이다.N.D(c)=1000을 문서의 총량으로 하자.용어 발생률은 서류상으로는 10%이다.D(t c)=100/1000.예상 평균 기간 빈도는 200/1000=1/5이며, 이는 모든 문서에 대한 평균이다.주파수는 kt=0, ..., 6으로 표시된다.
다음 표는 nD 열이 nD(t,c,kt)로 표시된 t의 kt 발생을 포함하는 문서 수입니다.또 다른 열 nL은 항이 발생하는 위치의 수로서, nL=kt*nD.오른쪽 열은 관측된 확률과 포아송 확률을 나타낸다.P ops,elite(Kt)는 모든 문서에 대해 관측된 확률이다.P poisson,all,lambda(Kt)는 포아송 확률로, 여기서 람다(t,c)=nL(t,c)/N D(c)=0.20은 포아송 매개변수다.표는 관측된 확률이 포아송 확률과 어떻게 다른지를 보여준다.P poisson(1)은 P robs(1)보다 큰 반면, kt>1. 관측된 확률은 Poisson 확률보다 크다.관측된 분포의 꼬리에 포아송 분포가 가정하는 것보다 더 많은 질량이 있다.게다가 오른쪽의 열은 모든 문서 대신에 엘리트 문서의 사용을 보여준다.여기서 단일 사건 확률은 엘리트 문서의 위치에만 기초한다.null
예에 대한 추가 관심
참조
- ^ "Divergence From Randomness (DFR) Framework". Terrier Team, University of Glasgow.
- 아마티, G. (n.d.)무작위성으로부터의 차이를 측정하는 것에 기초한 정보 검색의 확률론적 모델 [추상]글래스고 대학, 폰다지오네 우고 보르도니, 글래스고 대학 코넬리스 주스트 반 리즈베르겐 대학.http://theses.gla.ac.uk/1570/1/2003amatiphd.pdf에서 검색됨
- 그는 B.(2005년, 4월 27일)이다.DiscoveryFromRandomness.http://ir.dcs.gla.ac.uk/wiki/DivergenceFromRandomness에서 검색됨