확산 지도

Diffusion map
트로이덜 나선(위)에서 균일하지 않게 표본 추출된 데이터 점이 주어진 경우, 라플라스-벨트라미 정규화를 사용한 처음 두 확산 지도 좌표가(아래) 표시된다.확산 지도는 데이터의 기본 고유 원형 형상을 복구하는 트로이덜 나선을 풀어줍니다.

확산 맵은 Coifman과 Lafon에[1][2][3][4] 의해 도입된 차원 축소 또는 특징 추출 알고리즘으로, 데이터에 대한 확산 연산자의 고유 벡터와 고유 값으로부터 좌표를 계산할 수 있는 유클리드 공간(종종 저차원)에 있는 데이터 세트의 임베딩 패밀리를 계산합니다.내장된 공간의 점들 사이의 유클리드 거리는 그 점들을 중심으로 한 확률 분포들 사이의 "확산 거리"와 같다.주성분 분석(PCA)과 같은 선형 차원 축소 방법과는 달리 확산 맵은 데이터가 샘플링된 기본 다지관 발견에 초점을 맞춘 비선형 차원 축소 방법군의 일부이다.확산 지도는 서로 다른 척도의 국소 유사성을 통합함으로써 데이터 세트에 대한 전체적인 설명을 제공한다.다른 방법에 비해 확산 지도 알고리즘은 노이즈 섭동에 강하고 계산적으로 저렴하다.

확산 지도의 정의

[5]후 확산 지도는 4단계로 정의할 수 있다.

접속성

확산 지도는 확산과 무작위 보행 마르코프 사슬 사이의 관계를 이용한다.기본적으로 데이터에 대해 무작위로 걸으면 가까운 데이터 지점까지 걸어가는 것이 멀리 있는 다른 지점까지 걸어가는 것보다 더 가능성이 높다는 것을 알 수 있습니다. , , ){ ( X , { \ {} , \ ) } be{ X}는 데이터 이고μ { \ \}는의 점 를 나타냅니다.

이를 바탕으로두 데이터 포인트(\ )와yy 의 연결성k는 한 단계에서 x x에서 yy까지 걸을 확률로 정의할 수 있습니다.일반적으로 이 확률은k:X × {\ X의 커널 함수로 지정됩니다. 예를 들어 일반적인 가우스 커널은 다음과 같습니다.

보다 일반적으로 커널 함수는 다음과 같은 속성을 가집니다.

( k 대칭입니다.)

( k positivity를 유지합니다).

커널은 데이터 세트의 로컬 지오메트리의 사전 정의를 구성합니다.주어진 커널은 데이터 세트의 특정 기능을 캡처하기 때문에, 그 선택은 자신이 염두에 둔 애플리케이션에 따라 결정되어야 합니다.이는 모든 데이터 점 간의 상관 관계를 한 번에 고려하는 주성분 분석과 같은 방법과의 큰 차이입니다.

( ,) { style ( , ) }( 、 X{ X} ( 정규화된 그래프 라플라시안 구조라고 알려진 프로세스)에 가역 이산 시간 마르코프 체인을 구축할 수 있습니다.

및 정의:

새로운 정규화된 커널은 대칭 속성을 상속하지 않지만 긍정 보존 속성을 상속하고 보존 속성을 얻습니다.

확산 과정

p 에서 X(\ X마르코프 M의 이행 매트릭스를 구성할 수 있습니다. 즉, p y에서 yx, y)는 x(x y)에서 , y)로 이행할 . M t-step 트랜지션 매트릭스를 제공합니다.

L { L을 정의합니다(그래프 라플라시안 매트릭스의 버전이기도 합니다).

그런 다음 새로운 커널을 정의합니다.

또는 동등하게

여기서 D는 이고 j . { }=\ _입니다.

이 새로운 커널에는 그래프 Laplacian 정규화를 적용합니다.

D () {\D^{(\ 대각행렬이며 , (α ) L , (α . { {, i , i ) = \_ { i , j }^{ i , j }^{ ( \ alpha) ) 。

확산 프레임워크의 주요 아이디어 중 하나는 체인을 앞으로 이동시키면를 점점 더 크게), X의 구조를 점점 더 크게( 프로세스) 드러낸다는 것입니다.특히 데이터 집합의 군집 개념은 이 영역을 벗어날 확률이 낮은 영역(특정 시간 t 이내)으로 정량화됩니다.따라서 시간 모수 역할을 할 뿐만 아니라 척도 모수의 이중 역할도 합니다.

M t{ M^ { }의 eigendecomposition은 다음과 같습니다.

여기서{ l { \ { \ _ { } } where M { \ { \ { l}}{ { l { values values values values values values where where where where where where where where where where where where where where where where where where where where where where where where where wherevaluesvaluesvaluesvaluesvaluesvaluesvaluesvaluesvaluesvaluesvaluesvaluesvaluesvaluesvalues고유값의 스펙트럼 붕괴로 인해 이 합계에서 주어진 상대적 정확도를 달성하기 위해 필요한 항은 몇 개뿐입니다.

파라미터α 및 확산 연산자

α 하는 정규화 단계를 도입하는 이유는 확산의 극소 전이에 대한 데이터 포인트 밀도의 영향을 조정하기 위해서입니다.일부 애플리케이션에서 데이터 샘플링은 일반적으로 설명하고자 하는 다지관의 형상과 관련이 없습니다.이 경우 α )을 할 수 있으며 확산 연산자는 라플라스-벨트라미 연산자와 근사합니다.그런 다음 점의 분포에 관계없이 데이터 세트의 리만 기하학을 복구한다.확률 미분 방정식 시스템의 점 분포의 장기적 거동을 설명하기 위해, 우리는 0.(\.5 할 수 있으며, 결과 마르코프 사슬은 포커-플랑크 확산에 근접한다. 0(\이면 고전 그래프 라플라시안 정규화로 감소합니다.

확산 거리

두 지점 사이의 확산 t\t는 관측 공간 내 두 지점 간의 연결성과 유사성으로 측정할 수 있다.에 의해 주어집니다.

여기서 0 { _은 M의 번째 왼쪽 고유 벡터에 의해 주어진 마르코프 체인의 정적 분포입니다. 으로:

으로 {displaystyle j})는 xi(\displaystyle })와 를 연결하는 짧은 경로가 경우 작습니다.tt가 스케일 파라미터로도 기능한다는 이전 을 바탕으로 확산 거리와 관련된 몇 가지 흥미로운 특징이 있습니다.

  1. 점들이 그래프에서 고도로 연결되어 있는 경우, 점들은 ( ( i , j) { i ,j )에서 지정된 축척에서 더 가깝기 때문에 클러스터의 개념을 강조합니다.
  2. 두 점 사이의 거리는 점 사이의 길이 t의 가능한 모든 경로에 따라 달라지기 때문에 이 거리는 소음에 강합니다.
  3. 기계 학습의 관점에서 거리는 {\x j {\displaystyle x_ 하는 모든 증거를 고려하므로 이 거리가 우세도에 [3]기초한 추론 알고리즘 설계에 적합하다는 결론을 내릴 수 있다.

확산과정 및 저차원 매립

확산 거리는 다음과 같이 고유 벡터를 사용하여 계산할 수 있습니다.

따라서 고유 벡터는 데이터의 새로운 좌표 집합으로 사용할 수 있습니다.확산 지도는 다음과 같이 정의됩니다.

스펙트럼 붕괴로 인해 첫 번째 k개의 고유 벡터와 고유 값만 사용해도 충분하다.따라서 원본 데이터에서 원본 공간에 내장된 k차원 공간으로의 확산 지도를 얻을 수 있습니다.

그 안에서 는 증명되고 있다

그래서 확산 좌표의 유클리드 거리는 확산 거리에 근접한다.

알고리즘.

확산 지도의 기본 알고리즘 프레임워크는 다음과 같다.

1단계. 유사도 행렬 L이 주어집니다.

스텝 2. : ( = - α D - α (\ ) Dalpha^{-\alpha에 따라 행렬을 정규화한다.

스텝 3. 정규화 M (() - 1 L () {{ M =}^{ ( ( ( ( alpha을 형성한다.

스텝 4. t{\M^{ 가장 k개의 고유값과 대응하는 고유 벡터를 계산한다.

5단계. 확산맵을 사용하여 t _를 얻습니다.

어플

논문에서 Nadler 등은 포커-플랑크 방정식에 의해 유도된 확산을 재현하는 커널을 설계하는 방법을 보여주었다.또한 데이터가 다양체에 근접할 때 라플라스-벨트라미 연산자의 근사치를 계산하여 다양체의 형상을 복구할 수 있다고 설명했다.이 계산은 점의 분포에 전혀 영향을 받지 않으므로 통계와 데이터의 형상을 분리할 수 있습니다.확산 지도는 데이터 세트에 대한 전체적인 설명을 제공하기 때문에 데이터가 내장된 다지관의 샘플 포인트 쌍 사이의 거리를 측정할 수 있습니다.응용 프로그램 확산 지도에 따라 얼굴 recognition,[7]스펙트럼 군집 영상을 낮은 치수 표현, manifolds에 이미지 segmentation,[8]3D모델 segmentation,[9]스피커 verification[10]과 identification,[11]채취 이상 detection,[12][13]이미지 inpainting,[14]을 드러내는 뇌 휴식 상태 네트워크 기구를 포함한다.[15]등등.

또한, 확산 지도 프레임워크는 생산적으로 복잡한 [16]네트워크로 확장되어 순수한 토폴로지 또는 구조적인 것과는 다른 네트워크의 기능적 조직을 드러내고 있다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Coifman, R.R.; Lafon, S; Lee, A B; Maggioni, M; Nadler, B; Warner, F; Zucker, S W (2005). "Geometric diffusions as a tool for harmonic analysis and structure definition of data: Diffusion maps". PNAS. 102 (21): 7426–7431. Bibcode:2005PNAS..102.7426C. doi:10.1073/pnas.0500334102. PMC 1140422. PMID 15899970.
  2. ^ Coifman, R.R.; Lafon, S; Lee, A B; Maggioni, M; Nadler, B; Warner, F; Zucker, S W (2005). "Geometric diffusions as a tool for harmonic analysis and structure definition of data: Multiscale methods". PNAS. 102 (21): 7432–7437. Bibcode:2005PNAS..102.7432C. doi:10.1073/pnas.0500896102. PMC 1140426. PMID 15899969.
  3. ^ a b c Coifman, R.R.; S. Lafon. (2006). "Diffusion maps". Applied and Computational Harmonic Analysis. 21: 5–30. doi:10.1016/j.acha.2006.04.006.
  4. ^ Lafon, S.S. (2004). Diffusion Maps and Geometric Harmonics (PDF) (PhD). Yale University.
  5. ^ De la Porte, J.; Herbst, B M; Hereman, W; Van der Walt, S J (2008). "An Introduction to Diffusion Maps". Proceedings of the Nineteenth Annual Symposium of the Pattern Recognition Association of South Africa (PRASA). CiteSeerX 10.1.1.309.674.
  6. ^ a b Nadler, Boaz; Stéphane Lafon; Ronald R. Coifman; Ioannis G. Kevrekidis (2005). "Diffusion Maps, Spectral Clustering and Eigenfunctions of Fokker–Planck Operators" (PDF). Advances in Neural Information Processing Systems. 18. arXiv:math/0506090. Bibcode:2005math......6090N.
  7. ^ Barkan, Oren; Weill, Jonathan; Wolf, Lior; Aronowitz, Hagai. "Fast high dimensional vector multiplication face recognition" (PDF). Proceedings of the IEEE International Conference on Computer Vision 2013: 1960–1967.
  8. ^ Zeev, Farbman; Fattal Raanan; Lischinski Dani (2010). "Diffusion maps for edge-aware image editing". ACM Trans. Graph. 29 (6): 145:1–145:10. doi:10.1145/1882261.1866171.
  9. ^ Oana, Sidi; van Kaick, Oliver; Kleiman, Yanir; Zhang, Hao; Cohen-Or, Daniel (2011). Unsupervised Co-Segmentation of a Set of Shapes via Descriptor-Space Spectral Clustering (PDF). ACM Transactions on Graphics.
  10. ^ Barkan, Oren; Aronowitz, Hagai (2013). "Diffusion maps for PLDA-based speaker verification" (PDF). Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 7639–7643.
  11. ^ Michalevsky, Yan; Talmon, Ronen; Cohen, Israel (2011). Speaker Identification Using Diffusion Maps (PDF). European signal processing conference 2011.
  12. ^ Mishne, Gal; Cohen, Israel (2013). "Multiscale Anomaly Detection Using Diffusion Maps". IEEE Selected Topics in Signal Processing. 7 (1): 111–123. Bibcode:2013ISTSP...7..111M. doi:10.1109/jstsp.2012.2232279. S2CID 1954466.
  13. ^ Shabat, Gil; Segev, David; Averbuch, Amir (2018-01-07). "Uncovering Unknown Unknowns in Financial Services Big Data by Unsupervised Methodologies: Present and Future trends". KDD 2017 Workshop on Anomaly Detection in Finance. 71: 8–19.
  14. ^ Gepshtein, Shai; Keller, Yosi (2013). "Image Completion by Diffusion Maps and Spectral Relaxation". IEEE Transactions on Image Processing. 22 (8): 2983–2994. Bibcode:2013ITIP...22.2983G. doi:10.1109/tip.2013.2237916. PMID 23322762. S2CID 14375333.
  15. ^ Margulies, Daniel S.; Ghosh, Satrajit S.; Goulas, Alexandros; Falkiewicz, Marcel; Huntenburg, Julia M.; Langs, Georg; Bezgin, Gleb; Eickhoff, Simon B.; Castellanos, F. Xavier; Petrides, Michael; Jefferies, Elizabeth; Smallwood, Jonathan (2016). "Situating the default-mode network along a principal gradient of macroscale cortical organization". Proceedings of the National Academy of Sciences. 113 (44): 12574–12579. doi:10.1073/pnas.1608282113. PMID 27791099.
  16. ^ De Domenico, Manlio (2017). "Diffusion geometry unravels the emergence of functional clusters in collective phenomena". Physical Review Letters. 118 (16): 168301. arXiv:1704.07068. Bibcode:2017PhRvL.118p8301D. doi:10.1103/PhysRevLett.118.168301. PMID 28474920. S2CID 2638868.