일반화 벡터 공간 모형

Generalized vector space model

일반화된 벡터 공간 모델정보 검색에 사용되는 벡터 공간 모델을 일반화한 것이다. Wong 연구진은 벡터 공간 모델(VSM)의 쌍방향 직교성 가정이 생성하는 문제에 대한 분석을 제시했다.[1] 여기서부터 그들은 VSM을 일반화된 벡터 공간 모델(GVSM)까지 확장했다.

정의들

GVSM은 항 대 항 상관 관계를 도입하며, 이는 쌍방향 직교성 가정을 부정한다. 좀 더 구체적으로, 인수는 새로운 공간을 고려했는데, 여기서 각 용어 벡터i tn 2 벡터r m의 선형 조합으로 표현되었다. 여기서 r = 1...2n.

문서 dk 및 질의 q의 경우 유사성 함수는 이제 다음과 같이 된다.

여기서 ti tj 2차원n 공간의 벡터가 된다.

용어상관 는 여러 가지 방법으로 구현할 수 있다. 예를 들어, Wong 등. 자동 인덱싱에서 얻은 발생 빈도 매트릭스라는 용어를 알고리즘에 대한 입력으로 사용한다. 발생과 산출물은 모든 지수 항 쌍 간의 상관 관계 용어다.

GVSM의 의미 정보

검색 모델에 용어 대 용어 관련성을 포함하려면 정확한 키워드 일치 이외의 두 가지 기본 방향이 있다.

  1. 용어들 간의 의미상 상관관계를 계산하다.
  2. 대규모 기업에서 공동으로 작성한 통계를 계산한다.

최근 차타로니스는[2] 첫 번째 접근법에 초점을 맞췄다.

워드넷과 같은 saurus(O)를 사용하여 의미 관련성(SR)을 측정한다. 콤팩트(SCM)에 의해 포착된 경로 길이와 의미 경로 정교화(SPE)에 의해 포착된 경로 깊이를 고려한다. 그들은 t 이너 제품을 다음과 같이 추정한다.

여기서 si sj 각각 ti t 용어j 감각으로, P 을 최대화한다

또한 첫 번째 접근법을 기반으로 구축된 Waitelonis 등에서는 YAGO 분류법뿐만 아니라 DBpedia를 포함한 Linked Open Data 자원에서 의미 관련성을 계산했다.[3] 따라서 그들은 문서와 질의에서 의미론적 실체들 사이의 분류학적 관계를 명명된 실체 링크 후에 이용한다.



참조

  1. ^ Wong, S. K. M.; Ziarko, Wojciech; Wong, Patrick C. N. (1985-06-05), "Generalized vector spaces model in information retrieval", Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR '85, SIGIR ACM, pp. 18–25, doi:10.1145/253495.253506, ISBN 0897911598
  2. ^ Tsatsaronis, George; Panagiotopoulou, Vicky (2009-04-02), A Generalized Vector Space Model for Text Retrieval Based on Semantic Relatedness (PDF), EACL ACM
  3. ^ Waitelonis, Jörg; Exeler, Claudia; Sack, Harald (2015-09-11), Linked Data enabled Generalized Vector Space Model to improve document retrieval (PDF), ISWC 2015, CEUR-WS 1581