일반화 벡터 공간 모형
Generalized vector space model![]() | 이 글은 독자들에게 혼란스럽거나 불명확할 수 있다. (2010년 1월) (이 과 시기 |
일반화된 벡터 공간 모델은 정보 검색에 사용되는 벡터 공간 모델을 일반화한 것이다. Wong 외 연구진은 벡터 공간 모델(VSM)의 쌍방향 직교성 가정이 생성하는 문제에 대한 분석을 제시했다.[1] 여기서부터 그들은 VSM을 일반화된 벡터 공간 모델(GVSM)까지 확장했다.
정의들
GVSM은 항 대 항 상관 관계를 도입하며, 이는 쌍방향 직교성 가정을 부정한다. 좀 더 구체적으로, 인수는 새로운 공간을 고려했는데, 여기서 각 용어 벡터i t는n 2 벡터r m의 선형 조합으로 표현되었다. 여기서 r = 1...2n.
문서 dk 및 질의 q의 경우 유사성 함수는 이제 다음과 같이 된다.
여기서 t와i t는j 2차원n 공간의 벡터가 된다.
용어상관 는 여러 가지 방법으로 구현할 수 있다. 예를 들어, Wong 등. 자동 인덱싱에서 얻은 발생 빈도 매트릭스라는 용어를 알고리즘에 대한 입력으로 사용한다. 발생과 산출물은 모든 지수 항 쌍 간의 상관 관계 용어다.
GVSM의 의미 정보
검색 모델에 용어 대 용어 관련성을 포함하려면 정확한 키워드 일치 이외의 두 가지 기본 방향이 있다.
- 용어들 간의 의미상 상관관계를 계산하다.
- 대규모 기업에서 공동으로 작성한 통계를 계산한다.
최근 차타로니스는[2] 첫 번째 접근법에 초점을 맞췄다.
워드넷과 같은 saurus(O)를 사용하여 의미 관련성(SR)을 측정한다. 콤팩트(SCM)에 의해 포착된 경로 길이와 의미 경로 정교화(SPE)에 의해 포착된 경로 깊이를 고려한다. 그들은 t 이너 제품을 다음과 같이 추정한다.
여기서 s와i s는j 각각 t와i t 용어의j 감각으로, P 을 최대화한다
또한 첫 번째 접근법을 기반으로 구축된 Waitelonis 등에서는 YAGO 분류법뿐만 아니라 DBpedia를 포함한 Linked Open Data 자원에서 의미 관련성을 계산했다.[3] 따라서 그들은 문서와 질의에서 의미론적 실체들 사이의 분류학적 관계를 명명된 실체 링크 후에 이용한다.
참조
- ^ Wong, S. K. M.; Ziarko, Wojciech; Wong, Patrick C. N. (1985-06-05), "Generalized vector spaces model in information retrieval", Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR '85, SIGIR ACM, pp. 18–25, doi:10.1145/253495.253506, ISBN 0897911598
- ^ Tsatsaronis, George; Panagiotopoulou, Vicky (2009-04-02), A Generalized Vector Space Model for Text Retrieval Based on Semantic Relatedness (PDF), EACL ACM
- ^ Waitelonis, Jörg; Exeler, Claudia; Sack, Harald (2015-09-11), Linked Data enabled Generalized Vector Space Model to improve document retrieval (PDF), ISWC 2015, CEUR-WS 1581