이진 독립성 모델
Binary Independence Model컴퓨팅과 정보과학의 BIM(Binary Independent Model)[1][2]은 확률론적 정보 검색 기법이다.모델은 문서/쿼리 유사성 추정을 가능하고 실현 가능하도록 하기 위해 몇 가지 간단한 가정을 한다.null
정의들
이진 독립성 가정은 문서가 이진 벡터라는 것이다.즉, 문서에 용어의 유무만 기록된다.용어는 관련 문서 집합에서 독립적으로 배포되며 관련 문서 집합에서도 독립적으로 배포된다.표현은 순서형 부울 변수 집합이다.즉, 문서나 질의의 표현은 고려 중인 각 용어에 대해 하나의 부울 요소를 갖는 벡터다.좀 더 구체적으로 설명하면, 문서는 벡터 d1 = (xm, ..., x)로 표시되는데, 여기서 t 용어가 문서 d에 있으면t x=1이고, 그렇지 않으면t x=0이다.많은 문서들이 이러한 단순화로 동일한 벡터 표현을 할 수 있다.쿼리는 비슷한 방식으로 표현된다."독립성"은 문서의 용어가 서로 독립적으로 고려되고 용어 간의 연관성이 없음을 의미한다.이러한 가정은 매우 제한적이지만, 많은 상황에서 충분한 결과를 주는 것으로 나타났다.이러한 독립성은 순진한 베이즈 분류자의 "생동적인" 가정으로, 그럼에도 불구하고 서로를 암시하는 성질은 단순성을 위해 독립된 것으로 취급된다.이 가정은 각 항을 다른 항에 사용되는 치수와 직교하는 치수를 따라 0 또는 1의 값으로 간주함으로써 벡터 공간 모델의 한 예로 취급할 수 있도록 한다.null
문서가 관련될 확률 , ) 은(는) 해당 문서 의 용어 벡터 관련 확률에서 도출된다 베이즈 규칙을 사용함으로써 다음과 같은 결과를 얻는다.
여기서 R= ,) 및 = ) 은 각각 관련 문서 또는 관련 없는 문서를 검색할 확률이다.만약 그렇다면, 그 문서의 표현은 x이다.정확한 확률은 사전에 알 수 없으므로, 문서수집에 관한 통계자료의 추정을 이용해야 한다.null
= ) 및 = 는 질의 q에 대해 각각 관련 문서 또는 관련 없는 를 검색할 이전 확률을 나타낸다 예를 들어, 수집에서 관련 문서의 비율을 알고 있다면, 이 확률들을 추정하는 데 사용할 수 있다.s. 문서가 질의와 관련되거나 관련되지 않기 때문에 다음과 같은 사항을 제공한다.
질의 용어 가중치
문서와 질의의 유사함수로서 이진 질의와 도트 산출물이 주어진다면, 문제는 조회효율이 높을 수 있도록 질의의 용어에 가중치를 부여하는 것이다. 와 를 각각 ith 용어로 한다.BIM을 처음 도입한 [1]Yu와 Salton은 ith 용어의 무게가 = - i)(- ) i}*(의 증가함수라고 제안한다따라서 가 보다 높으면 용어 i의 무게가 j보다 높아진다Yu와 Salton은[1] 질의 조건에 대한 그러한 가중치 배정은 질의어 조건이 동등하게 가중되는 경우보다 더 나은 검색 효과를 산출한다는 것을 보여주었다. 로버트슨과 스페르크 존스는[2] ith 용어에 의 가중치가 할당될 경우 가정에 따라 최적의 검색 효과를 얻는다null
바이너리 독립 모델은 유와 살튼이 도입했다.[1]Binary Independent Model이라는 이름은 Robertson과 Spérck Jones에 의해 만들어졌다.[2]null
참고 항목
추가 읽기
- Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008), Introduction to Information Retrieval, Cambridge University Press
- Stefan Büttcher; Charles L. A. Clarke; Gordon V. Cormack (2010), Information Retrieval: Implementing and Evaluating Search Engines, MIT Press
참조
- ^ a b c d Yu, C. T.; Salton, G. (1976). "Precision Weighting – An Effective Automatic Indexing Method" (PDF). Journal of the ACM. 23: 76. doi:10.1145/321921.321930. hdl:1813/7313.
- ^ a b c Robertson, S. E.; Spärck Jones, K. (1976). "Relevance weighting of search terms". Journal of the American Society for Information Science. 27 (3): 129. doi:10.1002/asi.4630270302.