심랭크
SimRankSimLrank는 단순하고 직관적인 그래프-이론적 모델을 바탕으로 한 일반적인 유사성 측도다.SimLrank는 다른 개체와의 관계를 기반으로 객체가 발생하는 구조적 맥락의 유사성을 측정하는 객체 대 객체 관계가 있는 모든 영역에 적용할 수 있다.효과적으로 SimLrank는 "두 개의 물체가 유사한 물체가 참조될 경우 유사하다고 간주된다"고 하는 조치다.심랭크가 널리 채택되고 있지만, 서로 다른 요인에 의해 영향을 받는 불합리한 유사성 점수를 산출할 수 있으며, 증거 가중치 도입,[1] 심랭크가[2] 무시하는 추가 용어 삽입, 페이지랭크 기반의 대안 활용 등 여러 가지 방법으로 해결할 수 있다.[3]
소개
많은 애플리케이션은 객체 간의 "유사성"을 측정해야 한다.한 가지 분명한 예가 전통적인 텍스트 기업이나 월드 와이드 웹에서 "찾아가는 유사 문서" 질의다.보다 일반적으로 유사성 측정은 사용자 선호도에 따라 "비슷한" 사용자와 항목을 그룹화하는 추천자 시스템에서 협업 필터링과 같은 개체 군집화에 사용할 수 있다.
일반적으로 그 영역에 대한 유사성의 적절한 정의와 도메인에 따라 개체의 다양한 측면을 사용하여 유사성을 결정할 수 있다.문서 말뭉치에서는 일치하는 텍스트를 사용할 수 있으며, 협업 필터링을 위해 유사한 사용자를 공통 환경설정으로 식별할 수 있다.SimLrank는 많은 관심 영역에서 발견되는 객체 대 객체 관계를 이용하는 일반적인 접근방식이다.예를 들어, 웹에서는 두 페이지 사이에 하이퍼링크가 있으면 두 페이지가 연관되어 있다.유사한 접근방식은 과학 논문과 인용문 또는 상호 참조 정보가 있는 다른 문서 말뭉치에 적용될 수 있다.추천인 시스템의 경우, 사용자가 항목을 선호하는 것은 사용자와 항목의 관계를 구성한다.이러한 도메인은 자연스럽게 그래프로 모델링되며, 노드는 객체를 나타내고 가장자리는 관계를 나타낸다.
SimRrank 알고리즘 뒤에 숨겨진 직관은 많은 도메인에서 유사한 물체가 유사한 물체에 의해 참조된다는 것이다.보다 정확히 말하면, 개체 과 b 이가) 각각 개체 과 에서 가리키는 경우, 개체 가 유사한 것으로 간주된다.기본적인 사례는 물체가 자신과 최대적으로 유사하다는 것이다.[4]
SimLrank는 구조적인 맥락의 유사성만을 결정하는 일반적인 알고리즘이라는 점에 유의해야 한다.SimRrank는 최소한 관계 유사성의 개념에 기초하기 위해 개체 사이에 충분한 관련 관계가 있는 모든 영역에 적용된다.분명히, 다른 영역별 측면의 유사성도 중요하다. 이러한 유사성 측정은 전체 유사성 측도를 위해 관계 구조-컨텍스트 유사성과 결합될 수 있고, 결합되어야 한다.예를 들어, 웹 페이지의 경우 SimLrank는 전통적인 텍스트 유사성과 결합될 수 있다; 같은 생각이 과학 논문이나 다른 문서 회사에 적용된다.추천 시스템의 경우, 사용자 간의 유사성(예: 동일한 성별, 동일한 지출 수준)뿐만 아니라 품목 간(예: 양쪽 컴퓨터, 양쪽 의류 등)에 대해 알려진 유사성이 내장되어 있을 수 있다.다시 말하지만, 이러한 유사성은 전체적인 유사성 측정을 생성하기 위해 선호도 패턴을 기반으로 계산된 유사성 점수와 결합될 수 있다.
기본 심랭크 방정식
지시된 그래프에서 v{\}의 경우 v {\displaystyle 과(와) I 및 ) 을(와 각각 v 의 인접 및 아웃네이버 으로 나타낸다.Individual in-neighbors are denoted as , for , and individual out-neighbors are denoted as , for .
Let us denote the similarity between objects and by . Following the earlier motivation, a recursive equation is written for . If then 는 {\ 1}(로 정의된다 그렇지 않으면
여기서 은(는) 과(와) 1) 사이의 상수 여기서 약간 기술적으로 볼 {\} b{\은(는) 인접하지 않을 수 있다.Since there is no way to infer any similarity between and in this case, similarity is set to , so the summation in the above equation is defined to be when or )=
SimLrank의 행렬 표현
Let be the similarity matrix whose entry denotes the similarity score , and be the column normalized adjacency matrix whose entry () tfrac {1 그 밖의 경우 0그 다음, 매트릭스 표기법에서 SimLrank는 다음과 같이 공식화될 수 있다.
여기서 은는) ID 행렬이다.
SimLrank 계산
그래프 에 대한 SimRrank 방정식의 해법은 고정점까지 반복하여 얻을 수 있다.Let be the number of nodes in . For each iteration , we can keep entries , where gives the score between and on iteration . We successively compute based on . We start with where each 은(는) 실제 SimRrank 점수 ) 에 대한 하한이다
,)에서 + 1( , ) 을(를 계산하려면 기본 SimLrank 방정식을 사용하여 다음을 얻는다
= b의 경우 k+ a,) = 의 경우 a =b 즉, 각 + 1 에서 기본 SimRrank 방정식에 따라 반복 에서 b )의 인접성 점수를 사용하여 ) k의 유사성을 업데이트한다 s , ) 은(는 k {\이(가) 증가함에 따라 감소하지 않는다.It was shown in [4] that the values converge to limits satisfying the basic SimRank equation, the SimRank scores , i.e., for all , .
원래의 SimLrank 제안에서는 수행할 붕괴 C= 0 과 고정 숫자 = 을(를) 선택할 것을 제안했다.그러나, 최근의 는 C 과 K{\의 주어진 값이 일반적으로 반복적으로 계산된 SimLank 점수의 상대적으로 낮은 정확도를 암시한다는 것을 보여주었다.보다 정확한 연산 결과를 보장하기 위해 후자 논문은 더 작은 붕괴 계수( C= 0 를 사용하거나 더 많은 반복을 취할 것을 제안한다.
코심랭크
CoSimLrank는 SimLrank의 변종이며, 로컬 공식도 가지고 있다는 장점이 있다. 즉, CoSimLrank는 단일 노드 쌍에 대해 계산될 수 있다.[6] 을(를) 유사성 매트릭스로 하고[ b {\ [\ {{ 항목이 유사성 점수 b 를 나타내고 ) 열 정규화 매트릭스탠리듬)로 표시한다.그 다음, 행렬 표기에서 CoSimLrank는 다음과 같이 공식화될 수 있다.
여기서 은는) ID 행렬이다.단일 노드 쌍의 유사성 점수만 계산하려면 ( )( i)= e {\ p}를 표준 기준의 벡터(즉, 로 하고 다른 모든 항목은 0으로 한다.그러면 CoSimLrank는 두 단계로 계산할 수 있다.
1단계는 개인화된 PageLack의 단순화된 버전을 볼 수 있다.2단계는 각 반복의 벡터 유사성을 요약한다.행렬과 로컬 표현 둘 다 동일한 유사성 점수를 계산한다. CoSimLrank는 p( )( ) 을(를) 수정하여 노드 집합의 유사성을 계산하는 데도 사용할 수 있다
심랭크에 대한 추가 연구
- 포가라스와 라츠는 몬테카를로 방법을 사용한 확률론적 계산을 통해 심랭크 연산 속도를 높일 것을 제안했다.
- 안토넬리스 외 [8]연구진확장된 SimRrank 방정식은 (i) 사건 노드에 대한 증거 인자 및 (ii) 연결 가중치를 고려한다.
- Yu 등은 [9]미세한 메모화 방법을 통해 SimLrank 연산을 더욱 개선하여 서로 다른 부분 합계의 작은 공통 부분을 공유했다.
- Chen과 Giles는 SimRrank의 한계와 적절한 사용 사례를 논의했다.[3]
부분 합계 메모화
Lizorkin 외.[5]는 SimLrank의 연산 속도를 높이기 위한 세 가지 최적화 기법을 제안했다.
- 필수 노드를 선택하면 a-priori 영점수를 갖는 노드 쌍의 일부 계산이 제거될 수 있다.
- 부분 합계 메모는 유사성 합계의 일부를 나중에 재사용할 수 있도록 캐싱함으로써 서로 다른 노드 쌍 사이의 유사성에 대한 반복적인 계산을 효과적으로 줄일 수 있다.
- 유사성에 대한 임계값 설정은 계산할 노드 쌍의 수를 더 줄일 수 있다.
In particular, the second observation of partial sums memoization plays a paramount role in greatly speeding up the computation of SimRank from to , where is the number of iterrations, 은(는) 그래프의 평균 수준이고 은(는) 그래프에 있는 노드 수입니다.부분 합계 메모화의 중심 개념은 다음 두 단계로 구성된다.
첫째, () 에 대한 부분 합계는 다음과 같이 메모된다.
+ (,b) 은(는) () ( )에서 반복적으로 계산된다.
Consequently, the results of , , can be reused later when we compute the similarities for a given vertex as the제1논쟁
참고 항목
인용구
- ^ I. 안토넬리스, H. 가르시아 몰리나, C.Chang. Simrank++: 클릭 그래프의 링크 분석을 통해 다시 쓰기 쿼리.VLDB '08: 초대형 데이터 베이스에 관한 제34차 국제 회의의 진행 내용, 408-421페이지. [1]
- ^ W. Yu, X. Lin, W. Zhang, L. Chang, J. Pei.더 단순하다: 하이퍼링크를 기반으로 노드-페어 유사성을 효과적이고 효율적으로 평가한다.VLDB '13: 초대형 데이터 베이스에 관한 제39차 국제 회의의 진행, 13-24페이지.[2]
- ^ a b H. Chen, C. L. Giles. "ASCOS++: SimLrank의 문제를 해결하기 위한 가중 네트워크에 대한 비대칭 유사성 측정" ACM 데이터(TKDD) 10.2 2015[3]
- ^ a b G. 제와 J. 위덤.SimLrank: 구조-콘텍스트 유사성의 측정.KDD'02: 지식 검색 및 데이터 마이닝에 관한 제8차 ACM SIGKDD 국제 회의의 진행, 538-543페이지.ACM Press, 2002. "Archived copy" (PDF). Archived from the original (PDF) on 2008-05-12. Retrieved 2008-10-02.
{{cite web}}: CS1 maint: 타이틀로 보관된 사본(링크) - ^ a b D. 리조르킨, P. 벨리호프, M. 그리네프, D.터르다코프.SimRrank 계산을 위한 정확도 추정 및 최적화 기법.VLDB '08: 초대형 데이터 베이스에 관한 제34차 국제 회의의 진행, 422--433페이지 : CS1 maint: 제목으로 보관된 복사본(링크)
- ^ S. 로스와 H.슈트체CoSimLrank: 유연하고 효율적인 그래프-이론적 유사성 측정.ACL '14: 제52회 연산언어학협회 연차총회(제1권: 장편지)에서 1392-1402페이지. [4]
- ^ D. 포가라스와 B.Racz. 링크 기반 유사성 검색 확장.WW '05: 제14차 월드 와이드 웹 국제 회의의 진행, 641-650페이지, 뉴욕, 뉴욕, 미국, 2005페이지.ACM. [5]
- ^ 안토넬리스, 요안니스, 헥터 가르시아 몰리나, 치차오창."Simrank++: 클릭 그래프의 링크 분석을 통한 쿼리 다시 쓰기." VLDB Endowment 1.1(2008) 절차: 408-421. arXiv:0712.0499
- ^ W. 유, X. 린, W. 장.대형 네트워크에서의 효율적인 SimLrank 연산을 지향한다.ICDE '13: 제29회 IEEE 국제 데이터 엔지니어링 회의의 진행, 601페이지 – 612페이지 : CS1 maint: 제목(링크)으로 보관 사본
원천
- Cai, Y.; Cong, G.; Jia, X.; Liu, H.; He, J.; Lu, J.; Du, X. (2009-12-01). "Efficient Algorithm for Computing Link-Based Similarity in Real World Networks". 2009 Ninth IEEE International Conference on Data Mining: 734–739. doi:10.1109/ICDM.2009.136. ISBN 978-1-4244-5242-2.