랜덤 인덱싱

Random indexing

무작위 인덱싱은 매우 고차원 벡터 공간 모델 구현이 비실용적이며, 새로운 항목(예: 새로운 용어)을 접했을 때 모델이 차원성에서 성장할 필요가 없으며, 고차원 모델이 될 수 있다는 통찰에 기초하여 분포 의미론을 위한 차원성 감소 방법 및 연산 프레임워크다.결과 치수가 적절하게 선택될 경우 L2 거리 지표를 손상시키지 않고 더 낮은 치수 공간에 투영된다.

이것은 치수 축소에 대한 무작위 투영 접근법의 원래 지점으로 존슨-린덴스트라우스 보조정리법으로 처음 공식화되었으며, 국소 민감 해싱은 몇 가지 출발점이 동일하다.언어의 표현에 사용되는 임의 인덱싱은 희박한 분산 메모리에 관한 펜티 카네르바[1][2][3][4][5] 작업에서 비롯되며, 무작위 투영의 증분적 공식으로 설명할 수 있다.[6]

또한 무작위 인덱싱이 유클리드 공간(즉, 유클리드 공간)의 구성을 위한 무작위 투영 기법인지 확인할 수 있다.L2 표준 벡터 공간.[7]유클리드 공간에서는 존슨-린덴스트라우스 보조정리기를 사용하여 무작위 투영을 설명한다.[8]

TopSig 기법은[9] 무작위 인덱싱 모델을 확장하여 해밍 거리 유사성 함수와 비교하기 위한 비트 벡터를 만든다.정보 검색문서 클러스터링의 성능 향상에 이용된다.유사한 연구 라인에서, 텍스트 단위 사이의 맨해튼 거리를 사용하는 방법의 성능을 개선하기 위해 RMII(Random Manhattan Integer Indexing, RMII)[10]가 제안되었다.많은 무작위 인덱싱 방법은 주로 말뭉치에 있는 항목의 공동 발생으로부터 유사성을 생성한다.반사적 무작위 인덱싱([11]RRI)은 공동 발생과 다른 항목과의 공유 발생으로부터 유사성을 생성한다.

외부 링크

참조

  1. ^ 카네르바, 펜티, 크리스토퍼슨, 잔과 홀스트, 앤더슨(2000):잠재 의미 분석을 위한 텍스트 샘플의 무작위 색인화, 제22회 인지과학회 연례 회의의 진행, 페이지 1036.뉴저지 주 마화: 엘바움, 2000년.
  2. ^ Sahlgren, Magnus (2005) 2005년 8월 16일 코펜하겐에서 열린 제7회 용어 및 지식 엔지니어링 국제 컨퍼런스에서 랜덤 인덱싱, 의미론 인덱싱 방법 및 적용 절차 소개
  3. ^ Sahlgren, Magnus, Holst, Anders 및 Pentti Kanerva(2008) 인지과학회 제30차 연례회의 의사록: 1300-1305.
  4. ^ Kanerva, Pentti(2009) Hyperdimension Computing: 고차원 무작위 벡터, 인지 연산, 제1권 제2, 페이지 139–159를 이용한 분산형 표현에서의 컴퓨팅에 대한 소개
  5. ^ 조시, 아 디트, 요한 할셋, 펜티 카네르바."임의 인덱싱을 사용한 언어 인식." arXiv 사전 인쇄 arXiv:1412.7026(2014년)
  6. ^ 레키아, 가브리엘 등"시맨틱스의 벡터 공간 모델에서 순차 정보 인코딩: 홀로그래픽 감소된 표현과 무작위 순열 비교."(2010): 865-870.
  7. ^ 카세미 자데, 베랑 & 핸즈추, 지그프리드.(2014) 제25회 데이터베이스 및 전문가 시스템 응용 국제 워크숍의 진행 중, 무작위 맨해튼 인덱싱.
  8. ^ 존슨, W.와 린덴스트라우스, J. (1984) 현대 수학에서 립스치츠가 힐버트 공간에 매핑되는 확장.미국수학협회, 제26권, 페이지 189–206.
  9. ^ Geva, S. & De Vries, C.M. (2011) TopSig: 2011년 10월 24일–28일 스코틀랜드 글래스고에서 열린 정보 및 지식 관리 컨퍼런스(Conference of Information and Know Management 2011)에서 문서 서명을 보존하는 토폴로지
  10. ^ 카세미 자데, 베랑& Handschuh, 지그프리드.(2014) 임의의 맨해튼 정수 색인: 점증적 L1 표준 벡터 공간 구축, 2014년 EMNLP(Materal Language Processional Methods in Natural Language Processing, EMNLP), 1713–1723페이지, 2014년 10월 25-29페이지, 카타르 도하.
  11. ^ Cohen T, Schvaneldt Roger & Widdows Dominic(2009) 반사 랜덤 인덱싱 간접 추론: 암묵적 연결의 발견을 위한 확장 가능한 방법, Journal of Biomedical Informatics, 43(2):240-56.