대응 분석

Correspondence analysis

대응 분석(CA)은 Herman Otto Hartley(Hirschfeld)[2]제안한 다변량 통계 기법이며[1], 이후 Jean-Paul Benzécri[3]개발했다.방법은 개념적으로는 주성분 분석과 유사하지만 연속형 데이터가 아닌 범주형 데이터에 적용됩니다.주성분 분석과 유사한 방법으로 데이터 세트를 2차원 그래픽 형태로 표시하거나 요약하는 방법을 제공합니다.이 값의 목적은 데이터 표의 다변량 설정에 숨겨져 있는 모든 구조를 이표도에 표시하는 것입니다.따라서 다변수 서수 분야의 기술이다.여기서 설명하는 CA의 변형은 행 또는 열에 초점을 두고 적용할 수 있으므로 실제로는 단순(대칭) 대응 분석이라고 [4]불려야 한다.

전통적으로 각 셀에 카운트 또는 0 값이 포함되어 있는 명목 변수 의 분할표에 적용됩니다.세 개 이상의 범주형 변수를 요약하려면 다중 대응 분석이라는 변형을 선택해야 합니다.존재/부재 부호화가 단순화된 카운트 데이터를 나타내는 경우 CA는 이진 데이터에도 적용될 수 있다. 즉, 1은 양의 카운트를 나타내고 0은 0의 카운트를 나타낸다.사용된 점수에 따라 CA는 표의 행 또는 열 사이의 카이-제곱[5][6] 거리를 유지합니다.CA는 설명적 기술이기 때문에 유의한 끌 깎기 [7][8]검정에 관계없이 표에 적용할 수 있습니다.§ ^{ 통계량은 계산상 관련이 있지만, 2 \chi2}) 통계량측정기준이 아닌 스칼라이므로 혼동해서는 안 된다.를 클릭합니다.[9]

세부 사항

주성분 분석과 마찬가지로 대응 분석은 직교 성분(또는 축)을 생성하고 표의 각 항목에 대해 각 행에 대한 점수 집합(인자 점수라고도 함)을 생성합니다.m × n 크기행렬 C로 간주되는 데이터 테이블에 대해 대응분석을 실시한다.여기서 m은 행수, n은 열수이다.이탤릭체로 된 메서드 대문자는 행렬을 참조하고, 이탤릭체로 된 문자는 벡터를 참조합니다.다음 계산을 이해하려면 행렬 대수에 대한 지식이 필요합니다.

전처리

알고리즘의 중앙 계산 단계로 진행하기 전에 행렬 C의 값을 [10]변환해야 합니다.먼저 열과 행([11][12]질량이라고도 )에 대한 가중치 집합을 계산합니다. 여기서 행과 열 가중치는 각각 행과 열 벡터에 의해 지정됩니다.

C i n j C { n { C } = \ _ { i=}^{ \ _ { j=}^{ mij}}는 행렬 C의 모든 셀 값의 합계 또는 C의 을 짧게 하고 displaystyle \1}})은 적절한 치수의 1의 열 벡터이다

말하면 w { w _ { } just C sums C of C of C of C sums C sums C sums is w { } are whose C whose C sums C of C of C of C of の whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose whose put whose whose whose whose whose whose whose put put whose whose whose

가중치는 대각 행렬로 변환됩니다.

그리고.

서 Wn 대각선 요소는 1/ 1 {n}}})이고 Wmm}}}})의 대각선 요소는각각 1/ m 1m}}}}}}})이다.엇대각선 요소는 모두 0입니다.

다음으로 C C 합계로 P(\ P 계산합니다.

간단히 말해서 P(\ P 데이터 매트릭스(컨피턴시 테이블 또는 바이너리 테이블)로 변환됩니다.즉, 각 셀 값은 테이블 전체의 합계의 셀 부분일 뿐입니다.

마지막으로 행렬 곱셈을 통해 표준화된 잔차의 [13]행렬이라 불리는 S(\ S를 다음과 같이 계산합니다.

조합하여 P P같은 치수의 매트릭스가 됩니다.단어로 outer ( w, w , ) \ } ( w m , w _ w _ w _ w _ w _ { n} { n )는 frter } fr }를 뺀 값입니다.om P P 결과 행렬에 대각 m 을 곱하면 행렬의 i번째 행(또는 열)에 의 대각 요소를 곱하는 것과 같습니다.[14]{\m}} n{\을 각각 지정합니다.

전처리의 해석

m{\m} 및 {\ 각각 행과 열의 질량 또는 한계 확률입니다. P P에서 외측θ , n)(\ 뺀 것이 데이터를 이중으로 중심화하는 행렬 대수판이다.이 차이에 대각 가중치 행렬을 곱하면 벡터 공간원점으로부터 가중치 편차를 포함하는 행렬이 된다.이 발신지는 아우터( w ,w \} ( w { , _ { n 에 의해 정의됩니다.

행렬 외부δ ( m , ){ 카이 제곱 테스트의 예상 주파수 행렬과 동일합니다. SS는 해당 테스트에 사용된 독립성 모델과 계산적으로 관련이 있습니다.그러나 CA는 추론적인 방법이 아니기 때문에 여기서 독립성 모델은 부적절하다.

직교 성분

으로[10] 테이블 S S 다음과 같이 특이값 분해에 의해 분해됩니다.

U(\ U V V S S 좌우 단수 벡터이고,(\ S S 단수 값 i 대각행렬로 합니다.{ \ Sigma 는 치수 (,n)- 1 { displaystyle \ ( m , )이므로 U {\ displaystyleU }는 치수 m×p, {V}는 n×p입니다. 직교 정규 U(\ U V V 충족됨

V { { * } U=V = }

즉, C C S S 된 다변량 정보가 2개의 () U(\ U V V 대각(스케일) 행렬(\displaystyle 에 의해 정의된 벡터 공간에 분산됩니다.차원수 p로서 행 수와 열 수에서 1을 뺀 두 값 중 작은 값입니다.

관성

주성분 분석은 (co)분산을 분해한다고 할 수 있으며, 따라서 성공 척도는 처음 몇 개의 PCA 축에 포함된 (co)분산의 양(고유값으로 측정됨)이지만 CA는 [15]관성이라고 하는 가중(co)분산을 사용하여 작동합니다.제곱 단수값의 합계는 데이터 테이블의 I이며, 다음과 같이 계산됩니다.

데이터 테이블의 I 다음과같이 S(\ S에서 직접 계산할 수도 있습니다.

i번째 단수 벡터 집합에서 다루는 관성의 양은 관성인 i \ _이다.처음 몇 개의 단수 벡터로 커버되는 관성의 부분이 높을수록, 즉 전체 관성에 비해 주요 관성의 합이 클수록 CA는 더 성공적이다.[15]따라서 모든 주요 관성 값은 전체 관성의 부분 i _ 표현됩니다.

스크리 플롯 형태로 표시됩니다.사실 스크리 플롯은 모든 주요 관성 부분의 막대 플롯일 뿐입니다. i \ _ { } 。

좌표

단일 벡터를 행 또는 열 사이의 끌이 있는 거리를 보존하는 좌표로 변환하려면 추가 가중치 부여 단계가 필요합니다.결과 좌표를 CA 교재에서는 주좌표라고[10] 합니다.행에 주좌표를 사용하는 경우, 이러한 시각화를 계량경제학에서는 행 등축척[16], 생태학에서는 척도[17] 1이라고 합니다.가중치에는 표준화 S 의 특이값(\ 포함되므로 이러한 좌표를 특이값 스케일링 특이벡터 또는 약간 오해의 소지가 있는 고유벡터라고 부르기도 한다. S { SS^ { * } vectors vectors vectors vectors vectors vectors \ U S S s of S vectors vectors vectors vectorsvectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors vectors 이러한 행렬은 특이값제곱입니다 그러나 CA에 대한 모든 최신 알고리즘은 특이값 분해에 기초하므로 이 용어는 피해야 합니다.CA의 프랑스 전통에서는 좌표를 (요인) 점수라고 부르기도 합니다.

행렬 C의 행에 대한 요인 점수 또는 주좌표는 다음과 같이 계산됩니다.

즉, 왼쪽 특이 벡터는 행 질량의 제곱근의 역 및 특이값으로 스케일링된다.주좌표는 단수 값을 사용하여 계산되므로 원래 표의 행(또는 열) 사이의 산포에 대한 정보가 포함됩니다.주좌표에서 실체 사이의 유클리드 거리를 계산하면 끌과 거리가 같은 값이 나오므로 CA가 "끌과 거리를 보존한다"고 하는 이유가 여기에 있다.

열의 주좌표 계산 방법


적절한 쌍곡도에서 CA의 결과를 나타내려면 주 좌표, 즉 끌 거리 보존 좌표에서 표시되지 않는 범주를 표준 [10]좌표라고 하는 위치에 표시해야 한다.표준 좌표의 각 벡터가 평균 0과 분산 [18]1을 나타내도록 표준화되었기 때문에 표준 좌표라고 합니다.표준 좌표를 계산할 때, 단수 벡터 행렬의 두 세트 중 한 세트가 0의 거듭제곱으로 증가된 단수 값으로 스케일링되어야 하는 바이플롯 규칙을 적용한 직접적인 결과인 단수 값은 생략된다. 즉, 다른 단수 벡터 세트가 제외된 경우 단수 값을 곱하여 계산한다.singuar 값에 따라 조정되었습니다.이는 두 좌표 집합 사이의 내부 산물의 존재를 보증한다. 즉, 쌍곡도에서 공간 관계에 대한 의미 있는 해석으로 이어진다.

실용적으로 표준 좌표는 주좌표 집합(즉, 각 점)이 "외부"[19]하는 벡터 공간의 꼭지점이라고 생각할 수 있다.행의 표준 좌표는 다음과 같습니다.

그리고 컬럼에 대한 것은

생태학에서 척도[17] 조정 1 비도는 행이 주좌표에 있고 열이 표준좌표에 있음을 의미하며 척도 조정 2는 행이 표준좌표에 있음을 의미합니다.즉, 스케일 1은 F_ 바이플롯을 의미하며 스케일 2는 G_과 함께 스타일 바이플롯을 의미합니다.

결과의 그래픽 표현

CA 결과의 시각화는 항상 처음 몇 개의 단수 벡터로 산포를 요약하는 데 성공했는지 평가하기 위해 주요 관성 값의 스크리 플롯을 표시하는 것으로 시작합니다.

실제 서수는 처음에는 복잡한 산란도와 혼동될 수 있는 그래프로 표시됩니다.실제로 두 개의 산점도, 즉 행에 대한 점 세트와 열에 대한 점 세트로 구성됩니다.그러나 명확한 해석 규칙은 사용된 두 좌표 행렬과 관련이 있습니다.

일반적으로 CA 솔루션의 처음 두 차원은 2D로 표시할 수 있는 데이터 테이블에 대한 최대 정보를 포함하기 때문에 플롯됩니다. 단, 다른 차원 조합은 바이플롯으로 조사할 수 있습니다.바이플롯은 원래 표에 포함된 정보의 일부대한 저차원 매핑입니다.

다른 세트에 의해 측정된 구성과 관련하여 분석되어야 하는 설정(행 또는 열)은 기본 좌표에 표시되고 다른 집합은 표준 좌표에 표시됩니다.예를 들어, 개표된 투표가 포함된 셀과 함께 투표구를 열로 표시하는 표는 유사한 투표에 따라 선거구를 정렬하는 데 초점이 맞춰진 경우 주요 좌표의 선거구(열)와 함께 표시할 수 있다.

전통적으로, CA,[20]초 CAbiplots의 프랑스 전통에서 발생한 같은 좌표 버전, 주로 좌표에 있지만, 디스플레이의 이 종류는 브라이언으로"비록 이것은 biplot라고 불린다, 행 및 열 점수 사이에 다른어떤 유용한 내적 관계를 갖지 않는다":오해의 소지가 있으며 두 단체의 지도를 제작했다. Ripley, R 패키지 MASS의 유지관리자가 정확하게 [21]지적합니다.오늘날에는 평신도들은 보통 두 점 집합 사이의 관계가 부족하다는 것을 알지 못하기 때문에 그러한 종류의 표시를 피해야 한다.

척도화[17] 1 점도(주좌표 행, 표준 좌표 열)는 다음과 [22]같이 해석됩니다.

  • 행 점 사이의 거리는 카이-제곱 거리에 가깝습니다.서로 가까운 점은 원래 데이터 표에서 값이 매우 유사한 행을 나타냅니다.즉, 카운트 데이터의 경우 유사한 빈도를 나타내거나 유무 데이터의 경우 밀접하게 관련된 이진수 값을 나타낼 수 있다.
  • (컬럼) 표준 좌표의 점은 벡터 공간의 꼭지점, 즉 다차원 공간에서 불규칙한 다면체 모양을 가진 무언가의 바깥쪽 모서리를 나타낸다.투영 행은 원점과 열의 표준 좌표를 연결하는 선을 가리킵니다. 해당 연결 선을 따라 사전 투영된 위치가 표준 좌표의 위치에 가까울 경우 해당 행 포인트는 이 열과 강하게 관련됩니다. 즉, 카운트 데이터의 경우 행은 해당 범주의 높은 빈도를 가지며, pres의 경우 행이 있습니다.행이 해당 열에 1을 나타낼 가능성이 높습니다.연결 선을 원점을 초과하여 연장해야 하는 투영 행 점이 해당 열의 평균 값보다 낮습니다.

확장 및 응용 프로그램

디트렌드 대응 분석(DCA)과 표준 대응 분석(CCA)을 포함한 CA의 여러 변형을 사용할 수 있습니다.조사 대상 기업 간의 유사성에 대한 가능한 원인에 대한 정보가 있을 때 사용하는 방법이 후자(CCA)이다.대응 분석을 여러 범주형 변수로 확장하는 것을 다중 대응 분석이라고 합니다.질적 변수에 기초한 차별 문제에 대한 대응 분석의 적응(즉, 질적 데이터에 대한 판별 분석과 동등한 것)을 판별 대응 분석 또는 중심 판별 분석이라고 한다.

사회과학에서 대응분석, 특히 그 확장 다중 대응분석은 프랑스 사회학자 피에르 부르디에의 [23]응용을 통해 프랑스 밖에서 알려졌다.

실장

  • Orange 데이터 시각화 시스템에는 orngCA 모듈이 포함되어 있습니다.
  • 통계 프로그래밍 언어 R은 (단순 대칭) 대응 분석을 위한 기능을 제공하는 여러 패키지를 포함한다.R 표기법 [http_name::function_name]을 사용하면 패키지와 각 함수는 다음과 같습니다.ade4::dudi.coa(),ca::ca(),ExPosition::epCA(),FactoMineR::CA(),MASS::corresp(),vegan::cca()초심자에게 가장 쉬운 접근법은ca::ca()그 패키지에 동봉된 방대한 교재가 있기[24] 때문입니다.
  • Freeware PAST(PAleontological STatistics)[25]는 "다변수/정렬/상응(CA)" 메뉴를 통해 (단순 대칭) 대응 분석을 제공합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Dodge, Y. (2003) 옥스퍼드 통계 용어 사전, OUP ISBN0-19-850994-4
  2. ^ Hirschfeld, H.O. (1935) "상관성과 우발성의 연관성", Proc. 케임브리지 철학회, 31, 520~524
  3. ^ Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondances. Paris, France: Dunod.
  4. ^ Beh, Eric; Lombardo, Rosaria (2014). Correspondence Analysis. Theory, Practice and New Strategies. Chichester: Wiley. p. 120. ISBN 978-1-119-95324-1.
  5. ^ Greenacre, Michael (2007). Correspondence Analysis in Practice. Boca Raton: CRC Press. p. 204. ISBN 9781584886167.
  6. ^ Legendre, Pierre; Legendre, Louis (2012). Numerical Ecology. Amsterdam: Elsevier. p. 465. ISBN 978-0-444-53868-0.
  7. ^ Greenacre, Michael (1983). Theory and Applications of Correspondence Analysis. London: Academic Press. ISBN 0-12-299050-1.
  8. ^ Greenacre, Michael (2007). Correspondence Analysis in Practice, Second Edition. London: Chapman & Hall/CRC.
  9. ^ Greenacre, Michael (2017). Correspondence Analysis in Practice (3rd ed.). Boca Raton: CRC Press. pp. 26–29. ISBN 9781498731775.
  10. ^ a b c d Greenacre, Michael (2007). Correspondence Analysis in Practice. Boca Raton: CRC Press. p. 202. ISBN 9781584886167.
  11. ^ Greenacre, Michael (1983). Theory and Applications of Correspondence Analysis. London: Academic Press. ISBN 0-12-299050-1.
  12. ^ Greenacre, Michael (2007). Correspondence Analysis in Practice, Second Edition. London: Chapman & Hall/CRC. p. 202.
  13. ^ Greenacre, Michael (2007). Correspondence Analysis in Practice. Boca Raton: CRC Press. p. 202. ISBN 9781584886167.
  14. ^ Abadir, Karim; Magnus, Jan (2005). Matrix algebra. Cambridge: Cambridge University Press. p. 24. ISBN 9786612394256.
  15. ^ a b Beh, Eric; Lombardo, Rosaria (2014). Correspondence Analysis. Theory, Practice and New Strategies. Chichester: Wiley. pp. 87, 129. ISBN 978-1-119-95324-1.
  16. ^ Beh, Eric; Lombardo, Rosaria (2014). Correspondence Analysis. Theory, Practice and New Strategies. Chichester: Wiley. pp. 132–134. ISBN 978-1-119-95324-1.
  17. ^ a b c Legendre, Pierre; Legendre, Louis (2012). Numerical Ecology. Amsterdam: Elsevier. p. 470. ISBN 978-0-444-53868-0.
  18. ^ Greenacre, Michael (2017). Correspondence Analysis in Practice (3rd ed.). Boca Raton: CRC Press. p. 62. ISBN 9781498731775.
  19. ^ Blasius, Jörg (2001). Korrespondenzanalyse (in German). Berlin: Walter de Gruyter. pp. 40, 60. ISBN 9783486257304.
  20. ^ Greenacre, Michael (2017). Correspondence Analysis in Practice (3rd ed.). Boca Raton: CRC Press. p. 70. doi:10.1201/9781315369983. ISBN 9781498731775.
  21. ^ Ripley, Brian (2022-01-13). "MASS R package manual". R Package Documentation (rdrr.io). Details. Retrieved 2022-03-17.
  22. ^ Borcard, Daniel; Gillet, Francois; Legendre, Pierre (2018). Numerical Ecology with R (2nd ed.). Cham: Springer. p. 175. doi:10.1007/978-3-319-71404-2. ISBN 9783319714042.
  23. ^ Bourdieu, Pierre (1984). Distinction. Routledge. pp. 41. ISBN 0674212770.
  24. ^ Greenacre, Michael (2021). Correspondence Analysis in Practice (third ed.). London: CRC PRESS. ISBN 9780367782511.
  25. ^ Hammer, Øyvind. "Past 4 - the Past of the Future". Archived from the original on 2020-11-01. Retrieved 2021-09-14.

외부 링크

  • Greenacre, Michael (2008), La Pravictia del Analis de Corponcentencias, BBVA Foundation, 마드리드, 대응 분석의 스페인어 번역본, BBVA Foundation 출판물에서 무료로 다운로드 가능
  • Greenacre, Michael (2010), Bipplots in Practice, BBVA Foundation, 마드리드, multivariatestatistics.org에서 무료로 다운로드 가능