혼합 데이터의 인자 분석

Factor analysis of mixed data

통계에서 혼합 데이터의 요인 분석 또는 혼합 데이터의 요인 분석(FAMD, 프랑스 원본: AFDM 또는 Analyze Factorielle de Données Mixtes)은 정량적 및 정성적 변수에 의해 개인 그룹이 설명되는 데이터 표에 할당된 요인 방법이다.장폴 벤제크리가 창시한 프랑스 학파 애널리스도네(데이터 분석)가 개발한 탐색적 방법에 속한다.

혼합이라는 용어는 양적 변수와 질적 변수를 모두 사용하는 것을 말한다.대략적으로 FAMD는 정량적 변수에 대한 주성분 분석(PCA)과 정성적 변수에 대한 다중 대응 분석(MCA)으로 작용한다고 말할 수 있다.

범위

데이터가 두 유형의 변수를 모두 포함하지만 활성 변수가 동질인 경우 PCA 또는 MCA를 사용할 수 있다.

실제로 개인에 대한 변수와 인자 사이의 상관 계수에 의해 MCA에 보충 정량 변수를 포함시키는 것은 쉽다(개인의 요인은 요인 축에 있는 개인의 좌표를 수집하는 벡터이다). 얻어진 표현은 (PCA에서와 같이) 상관 원이다.

마찬가지로 PCA에도 보조 범주형 변수를 포함시키는 것이 쉽다.[1]이를 위해, 각 범주는 그것을 가진 개인의 무게중심으로 표현된다(MCA로).

활성 변수가 혼합된 경우 일반적인 관행은 정량적 변수에 대한 탈부착을 수행하는 것이다(예를 들어, 조사에서는 보통 연령층에서 나이가 변형된다).이렇게 얻은 데이터는 MCA가 처리할 수 있다.

이 관행은 한계에 도달한다.

  • 개인이 거의 없을 때(이러한 아이디어를 고치는 데 백 명도 안 될 때), MCA가 불안정할 때;
  • 양적 변수와 관련하여 질적 변수가 거의 없는 경우(단일 질적 변수를 고려하기 위해 20개의 양적 변수의 디크립트를 꺼릴 수 있다).

기준

데이터에는 정량 k= 1,…, {\,\dots{\ 정성 변수 , Q 등이 된다.

(는) 양적 변수다.주의할 점은 다음과 같다.

  • ( , ) 변수 z 사이의 계수;
  • ( z ,) z 사이의 제곱 상관 비율.

의 PCA에서 우리는 다음과 같은 에서모든 K {\ 변수와 가장 상관성이 높은 I {\displaystyle 의 함수( 의 함수가 각 에게 값을 할당하며 초기 변수 및 주성분의 경우)를 찾는다

( z, ) 최대값.

Q의 MCA에서는 다음과 같은 의미에서 변수와 더 관련이 있는 I 에서 함수를 찾는다.

( z ,) 최대값.

FAMD{ , Q 에서 다음과 같은 의미로 K + {\K+ 변수와 더 관련이 있는 을 I I}에서

( , k)+ 2( z ,) \sum 최대값.

이 기준에서 두 유형의 변수는 동일한 역할을 한다.이 기준에서 각 변수의 기여도는 1로 제한된다.

플롯

개인의 표현은 요인 에서 직접 이루어진다.

양적 변수의 표현은 PCA(상관원)와 같이 구성된다.

질적 변수의 범주의 표현은 MCA와 같다: 범주는 그것을 소유한 개인의 중심에 있다.MCA에서는 관례대로 축에 의존하는 계수까지 중심(MCA에서는 이 계수가 고유값의 제곱근의 역행과 같으며 FAMD에서는 불충분할 수 있음)을 정확히 중심(centroid)으로 삼지 않는다는 점에 유의한다.

변수의 표현을 관계 제곱이라고 한다. 을(를) 따르는 정성적 변수 j}의 좌표는 j j 순위 사이의 제곱 상관 비율과 같다( oted 2(, s) 을(를) 따라가는 정량적 k k의 좌표는 k{\ s 사이의 제곱 상관 계수(r 2 (, ) r

해석에 도움

초기 변수 간의 관계 지표는 의 교차점에서 다음을 포함하는 소위 관계 행렬로 결합된다

  • 변수 c 이(가) 양적인 경우 변수 사이의 제곱 상관 계수;
  • 변수 이(가) 질적이고 변수 이(가) 양적인 경우 (와) c의 제곱 상관 비율
  • 변수 c 이(가) 질적인 경우 l () c{\ 사이의 표시자 2{\^{

매우 작은 데이터 세트(표 1)는 FAMD의 작동과 출력을 보여준다. 6명의 개인은 3개의 정량적 변수와 3개의 자격적 변수에 의해 설명된다.데이터는 R 패키지 함수 FAMD 사실적MineR 을 사용하여 분석되었다.

표 1.
2 4.5 4 1 -A 2 }} -B 3 -C
5 4.5 4 1 -C 2 }} -B 3 -C
3 1 2 1 -B 2 }} -B 3 -B
4 1 2 1 -B 2 }} -B 3 -B
1 1 1 1 -A 2 }} -A 3 -A
6 1 2 1 -C 2 }} -A 3 -A
표 2.
1 0.00 0.05 0.91 0.00 0.00
0.00 1 0.90 0.25 0.25 1.00
0.05 0.90 1 0.13 0.40 0.93
0.91 0.25 0.13 2 0.25 1.00
0.00 0.25 0.40 0.25 1 1.00
0.00 1.00 0.93 1.00 1.00 2

관계행렬에서 계수는 R양적 변수), 2 정량 변수) 또는 각 유형의 변수 1개)와 같다.

행렬은 두 유형의 변수들 사이의 관계의 얽힘을 보여준다.

개인의 표현(그림 1)은 세 그룹의 개인을 명확하게 보여준다.첫 번째 축은 개인 1과 2를 다른 모든 축에 반대한다.두 번째 축은 개인 3과 4를 개인 5와 6에 반대한다.

그림 1.FAMD. 테스트 예제.개인의 대표성.
그림2.FAMD. 테스트 예제.관계 사각형.
그림 3.FAMD. 테스트 예제.상관 원.
그림 4.FAMD. 테스트 예제.정성적 변수의 범주 표현.

변수(관계 사각형, 그림 2)의 표현을 보면 첫 번째 축 k 이 변수 2 displaystystyle Q_{와 밀접하게 연결되어 있음을 알 수 있다.상관관계 원(그림 3)은 k }} 및 3{\ 사이의 상관관계의 부호를 명시한다그림 4)는 F 3 사이의 관계의 성격을 명확히 한다. 마지막으로 첫 번째 축에 의해 개별화된 개인 1과 2 }} 및 {\의 높은 3{\ c 도 특징지어진다.

이 예는 FAMD가 양적 변수와 질적 변수를 동시에 분석하는 방법을 보여준다.따라서 이 예에서는 두 가지 유형의 변수를 기반으로 한 첫 번째 차원을 보여준다.

역사

FAMD의 원작은 브리짓 에스코피어와[2] 길버트 사포르타 덕분이다.[3]이 작업은 제롬 파게스에 의해 2002년에 재개되었다.[4]영어로 된 FAMD의 가장 완벽한 프레젠테이션은 제롬 파게스의 책에 포함되어 있다.[5]

소프트웨어

이 방법은 R 패키지 팩토리MineR에서 구현된다.그 방법은 파이톤 도서관 왕자에서 시행된다.

참조

  1. ^ Escofier, Brigitte; Pagès, Jérôme (2016). Analyses factorielles simples et multiples : cours et études de cas (PDF) (in French). Paris: Dunod. ISBN 978-2-10-074144-1. OCLC 951230297.
  2. ^ Escofier Brigitte (1979). "Traitement simultané de variables quantitatives et qualitatives en analyse factorielle" (PDF). Les cahiers de l’analyse des données. 4 (2): 137–146.
  3. ^ 사포르타 길버트(1990).정성적 및 정량적 데이터의 동시 분석.Atti 델라 XXXV Riunione Scientifica; 이탈리아어 di Statistica, 63–72. http://cedric.cnam.fr/~사포르타/SAQQD.pdf
  4. ^ Pagès Jérôme (2002). "Analyse factorielle de données mixtes" (PDF). Revue de Statistique appliquée. 52 (4): 93–111.
  5. ^ Pagès, Jérôme (2015). Multiple factor analysis by example using R. Boca Raton: CRC Press. ISBN 978-1-4822-0547-3. OCLC 894169715.