랜덤 인덱싱

무작위 인덱싱은 매우 고차원 벡터 공간 모델 구현이 비실용적이며, 새로운 항목(예: 새로운 용어)을 접했을 때 모델이 차원성에서 성장할 필요가 없으며, 고차원 모델이 될 수 있다는 통찰에 기초하여 분포 의미론을 위한 차원성 감소 방법 및 연산 프레임워크다.결과 치수가 적절하게 선택될 경우 L2 거리 지표를 손상시키지 않고 더 낮은 치수 공간에 투영된다.

이것은 치수 축소에 대한 무작위 투영 접근법의 원래 지점으로 존슨-린덴스트라우스 보조정리법으로 처음 공식화되었으며, 국소 민감 해싱은 몇 가지 출발점이 동일하다.언어의 표현에 사용되는 임의 인덱싱은 희박한 분산 메모리에 관한 펜티 카네르바의^[1]^[2]^[3]^[4]^[5] 작업에서 비롯되며, 무작위 투영의 증분적 공식으로 설명할 수 있다.^[6]

또한 무작위 인덱싱이 유클리드 공간(즉, 유클리드 공간)의 구성을 위한 무작위 투영 기법인지 확인할 수 있다.L2 표준 벡터 공간.^[7]유클리드 공간에서는 존슨-린덴스트라우스 보조정리기를 사용하여 무작위 투영을 설명한다.^[8]

TopSig 기법은^[9] 무작위 인덱싱 모델을 확장하여 해밍 거리 유사성 함수와 비교하기 위한 비트 벡터를 만든다.정보 검색 및 문서 클러스터링의 성능 향상에 이용된다.유사한 연구 라인에서, 텍스트 단위 사이의 맨해튼 거리를 사용하는 방법의 성능을 개선하기 위해 RMII(Random Manhattan Integer Indexing, RMII)^[10]가 제안되었다.많은 무작위 인덱싱 방법은 주로 말뭉치에 있는 항목의 공동 발생으로부터 유사성을 생성한다.반사적 무작위 인덱싱(^[11]RRI)은 공동 발생과 다른 항목과의 공유 발생으로부터 유사성을 생성한다.

외부 링크

자데 베랑 카세미, 핸즈추 지그프리드.(2015) 확률 높은 무작위 인덱싱, TSD.

참조

^ 카네르바, 펜티, 크리스토퍼슨, 잔과 홀스트, 앤더슨(2000):잠재 의미 분석을 위한 텍스트 샘플의 무작위 색인화, 제22회 인지과학회 연례 회의의 진행, 페이지 1036.뉴저지 주 마화: 엘바움, 2000년.
^ Sahlgren, Magnus (2005) 2005년 8월 16일 코펜하겐에서 열린 제7회 용어 및 지식 엔지니어링 국제 컨퍼런스에서 랜덤 인덱싱, 의미론 인덱싱 방법 및 적용 절차 소개
^ Sahlgren, Magnus, Holst, Anders 및 Pentti Kanerva(2008) 인지과학회 제30차 연례회의 의사록: 1300-1305.
^ Kanerva, Pentti(2009) Hyperdimension Computing: 고차원 무작위 벡터, 인지 연산, 제1권 제2, 페이지 139–159를 이용한 분산형 표현에서의 컴퓨팅에 대한 소개
^ 조시, 아 디트, 요한 할셋, 펜티 카네르바."임의 인덱싱을 사용한 언어 인식." arXiv 사전 인쇄 arXiv:1412.7026(2014년)
^ 레키아, 가브리엘 등"시맨틱스의 벡터 공간 모델에서 순차 정보 인코딩: 홀로그래픽 감소된 표현과 무작위 순열 비교."(2010): 865-870.
^ 카세미 자데, 베랑 & 핸즈추, 지그프리드.(2014) 제25회 데이터베이스 및 전문가 시스템 응용 국제 워크숍의 진행 중, 무작위 맨해튼 인덱싱.
^ 존슨, W.와 린덴스트라우스, J. (1984) 현대 수학에서 립스치츠가 힐버트 공간에 매핑되는 확장.미국수학협회, 제26권, 페이지 189–206.
^ Geva, S. & De Vries, C.M. (2011) TopSig: 2011년 10월 24일–28일 스코틀랜드 글래스고에서 열린 정보 및 지식 관리 컨퍼런스(Conference of Information and Know Management 2011)에서 문서 서명을 보존하는 토폴로지
^ 카세미 자데, 베랑& Handschuh, 지그프리드.(2014) 임의의 맨해튼 정수 색인: 점증적 L1 표준 벡터 공간 구축, 2014년 EMNLP(Materal Language Processional Methods in Natural Language Processing, EMNLP), 1713–1723페이지, 2014년 10월 25-29페이지, 카타르 도하.
^ Cohen T, Schvaneldt Roger & Widdows Dominic(2009) 반사 랜덤 인덱싱 및 간접 추론: 암묵적 연결의 발견을 위한 확장 가능한 방법, Journal of Biomedical Informatics, 43(2):240-56.

[1] 카네르바, 펜티, 크리스토퍼슨, 잔과 홀스트, 앤더슨(2000):잠재 의미 분석을 위한 텍스트 샘플의 무작위 색인화, 제22회 인지과학회 연례 회의의 진행, 페이지 1036.뉴저지 주 마화: 엘바움, 2000년.

[2] Sahlgren, Magnus (2005) 2005년 8월 16일 코펜하겐에서 열린 제7회 용어 및 지식 엔지니어링 국제 컨퍼런스에서 랜덤 인덱싱, 의미론 인덱싱 방법 및 적용 절차 소개

[3] Sahlgren, Magnus, Holst, Anders 및 Pentti Kanerva(2008) 인지과학회 제30차 연례회의 의사록: 1300-1305.

[4] Kanerva, Pentti(2009) Hyperdimension Computing: 고차원 무작위 벡터, 인지 연산, 제1권 제2, 페이지 139–159를 이용한 분산형 표현에서의 컴퓨팅에 대한 소개

[5] 조시, 아 디트, 요한 할셋, 펜티 카네르바."임의 인덱싱을 사용한 언어 인식." arXiv 사전 인쇄 arXiv:1412.7026(2014년)

[6] 레키아, 가브리엘 등"시맨틱스의 벡터 공간 모델에서 순차 정보 인코딩: 홀로그래픽 감소된 표현과 무작위 순열 비교."(2010): 865-870.

[7] 카세미 자데, 베랑 & 핸즈추, 지그프리드.(2014) 제25회 데이터베이스 및 전문가 시스템 응용 국제 워크숍의 진행 중, 무작위 맨해튼 인덱싱.

[8] 존슨, W.와 린덴스트라우스, J. (1984) 현대 수학에서 립스치츠가 힐버트 공간에 매핑되는 확장.미국수학협회, 제26권, 페이지 189–206.

[9] Geva, S. & De Vries, C.M. (2011) TopSig: 2011년 10월 24일–28일 스코틀랜드 글래스고에서 열린 정보 및 지식 관리 컨퍼런스(Conference of Information and Know Management 2011)에서 문서 서명을 보존하는 토폴로지

[10] 카세미 자데, 베랑& Handschuh, 지그프리드.(2014) 임의의 맨해튼 정수 색인: 점증적 L1 표준 벡터 공간 구축, 2014년 EMNLP(Materal Language Processional Methods in Natural Language Processing, EMNLP), 1713–1723페이지, 2014년 10월 25-29페이지, 카타르 도하.

[11] Cohen T, Schvaneldt Roger & Widdows Dominic(2009) 반사 랜덤 인덱싱 및 간접 추론: 암묵적 연결의 발견을 위한 확장 가능한 방법, Journal of Biomedical Informatics, 43(2):240-56.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Search

랜덤 인덱싱

네임스페이스

더

외부 링크

참조