다중 인자 분석

Multiple factor analysis

다중 인자 분석(MFA)은 개인 그룹이 집단으로 구성된 변수 집합(양적 및/또는 질적)에 의해 설명되는 표의 연구에 전념하는 요인 방법이다[1].그것은 다음의 연장선으로 볼 수 있다.

소개 예

동일한 요인 분석에서 여러 개의 활성 변수 그룹을 도입하는 이유는?

자료

PCA의 프레임워크 내에서 정량적 변수의 경우를 고려한다.생태학적 연구에서 나온 자료의 예는 유용한 예시를 제공한다.72개 스테이션에 대해 두 가지 유형의 측정이 있다.

  1. 50종의 식물 종의 풍요-도계수(0 = 식물이 존재하지 않음, 9 = 종은 표면의 4분의 3 이상을 차지한다).50개의 계수의 전체 집합은 스테이션의 플로리스트적 프로파일을 정의한다.
  2. 11가지 페달론적 측정(페달론=토양과학): 입자 크기, 물리, 화학 등이 11가지 조치의 집합은 방송국의 페달론적 프로파일을 규정한다.

세 가지 분석이 가능하다.

  1. 식물군의 PCA(보완물로서의 식물학): 이 분석은 플로리스트 프로파일의 가변성에 초점을 맞춘다.두 정거장이 비슷한 꽃밭 프로파일을 가지고 있다면 서로 가까워질 것이다.두 번째 단계에서는 이 변동성의 주요 치수(즉, 주요 성분)가 보조 요소로서 도입된 페달 변수와 관련된다.
  2. 페달학의 PCA(보완물로써 flora): 이 분석은 토양 프로파일의 변동성에 초점을 맞춘다.두 정거장이 동일한 토양 프로파일을 가지고 있으면 가까운 곳에 있다.이 변동성의 주요 치수(즉, 주요 성분)는 식물의 풍부함과 관련이 있다.
  3. 활성 상태인 두 변수 그룹의 PCA: 식물과 토양의 관점에서 관측소의 변동성을 연구하고자 할 수 있다.이 접근방식에서 두 스테이션이 유사한 식물성 토양과 유사한 토양을 모두 가지고 있다면 두 스테이션은 가까이 있어야 한다.

변수 그룹 간의 균형

방법론

도입 사례의 세 번째 분석은 식물과 토양 사이의 균형을 암시적으로 가정한다.그러나, 이 예에서, 식물군이 50개의 변수에 의해 대표되고 토양 11개의 변수에 의해 대표된다는 사실만으로도 61개의 활성 변수를 가진 PCA가 적어도 첫 번째 축에 있는 식물군에 주로 영향을 받을 것임을 암시한다.)이것은 바람직하지 않다: 한 그룹이 분석에서 더 중요한 역할을 하기를 바랄 이유가 없다.

MFA의 핵심은 변수가 가중되는 요인 분석(양적 변수의 경우 PCA, 질적 변수의 경우 MCA)을 기반으로 한다.이러한 가중치는 같은 그룹의 변수에 대해 동일하며(그리고 각 그룹마다 다름)즉, PCA(또는 해당되는 경우 MCA)를 이 가중치를 가진 한 그룹에 적용함으로써 1과 같은 첫 번째 고유값을 얻는다.이 속성을 얻기 위해 MFA는 의 각 변수에 그룹 j 의 첫 번째 고유값(변수의 유형에 따른 PCA 또는 MCA)의 역방향과 동일한 가중치를 할당한다

정식으로 그룹에 대한 요인 분석의 첫 번째 고유값을 적어 MFA는 그룹 의 각 변수에 가중치 / 1 1 을 할당한다

총 관성(=표준 PCA의 변수 수)이 아닌 최대 축 관성의 균형을 유지하면 MFA는 사용자에게 몇 가지 중요한 속성을 제공한다.보다 직접적으로, 그것의 관심은 다음의 예에 나타난다.

두 그룹의 변수를 동일한 개인 집합에 정의하도록 두십시오.

  1. 그룹 1은 두 개의 상관없는 변수 A와 B로 구성되어 있다.
  2. 그룹 2는 첫 번째 두 변수와 상관없는 동일한 변수 C와 동일한 두 변수 {C1, C2}로 구성된다.

이 예가 완전히 비현실적인 것은 아니다.다차원 그룹과 (quite) 1차원 그룹을 동시에 분석할 필요가 있는 경우가 많다.

변수 개수가 같은 각 그룹은 총 관성이 동일하다.

이 예에서 PCA의 첫 번째 축은 거의 C와 일치한다.실제로 변수의 공간에서는 C의 방향에는 그룹 2라는 두 가지 변수가 있는데, 그룹 2의 모든 관성이 한 방향으로 집중되어 첫 번째 축에 주로 영향을 미친다.그 부분의 경우, 그룹 1은 두 개의 직교 변수(= 무관)로 구성되며, 관성이 평면에 균일하게 분포되어 있고(두 변수에 의해 생성된 평면) 첫 번째 축에 거의 무게가 실리지 않는다.

숫자 예제

표 1. MFA. 테스트 데이터
1 1 1 1
2 3 4 4
3 5 2 2
4 5 2 2
5 3 4 4
6 1 2 2
표 2
PCA
관성 2.14 (100%) 1
그룹 1 0.24(11%) 1
그룹 2 1.91(89%) 0
MFA
관성 1.28(100%) 1
그룹 1 0.64(50%) 1
그룹 2 0.64(50%) 0

표 2는 PCA의 처음 두 축과 표 1에 적용된 MFA의 관성을 요약한 것이다.

그룹 2 변수는 PCA 축 1의 관성의 88.95%에 기여한다.첫 번째 축( 은 C와 거의 일치한다: C와 의 상관관계}는 .976이다.

MFA의 첫 번째 축(표 1 데이터)은 두 변수 그룹 간의 균형을 보여준다: 각 그룹의 이 축의 관성에 대한 기여도는 엄격히 50%와 동일하다.

한편 두 번째 축은 그룹 1에만 의존한다.이 그룹은 2차원인 반면, 1차원인 두 번째 그룹은 한 축(여기서 첫 번째 축)에만 높은 연관성을 가질 수 있기 때문에 이것은 자연스러운 것이다.

그룹 간 균형에 대한 결론

요인 분석에서 몇 개의 활성 변수 그룹을 도입하는 것은 암묵적으로 이들 그룹 간의 균형을 가정한다.

이 균형은 다차원 집단이 1차원 집단이 하는 것보다 더 많은 축에 자연적으로 영향을 미친다는 것을 고려해야 한다(하나의 축과 밀접하게 관련되지 않을 수 있음).

각 그룹의 최대 축 관성을 1로 하는 MFA의 가중치가 이 역할을 한다.

적용 예

설문조사 설문지는 항상 다른 주제에 따라 구성된다.각 테마는 예를 들어, 행동에 대한 의견과 질문에 대한 변수 그룹이다.따라서 이 예에서는 두 개인이 모두 동일한 의견과 동일한 행동을 표명한 경우 가까운 요인 분석을 수행하고자 할 수 있다.

감각 분석 같은 제품 세트는 전문가 패널과 소비자 패널에 의해 평가되었다.그 평가를 위해 각 배심원단은 설명자 목록(sour, sweet 등)을 사용한다.각 심판은 각 제품의 설명자를 예를 들어 0 = null 또는 매우 낮음 - 10 = 매우 강한 강도 척도로 채점한다.배심원과 연관된 표에서 행과 k 의 교차점에서 설명자 k 제품 에 할당된 평균 점수다

개인은 상품이다.각 배심원단은 변수들의 그룹이다.우리는 두 제품이 양쪽 배심원들에 의해 동일한 방식으로 평가된다면 유사한 요인 분석을 달성하고자 한다.

다차원 시계열 변수는 개인을 대상으로 측정된다. 측정은 J 날짜에 수행된다.그러한 데이터 세트를 분석하는 방법은 여러 가지가 있다.MFA가 제안하는 한 가지 방법은 각 표(각 표는 한 날짜에 해당함)와 나란히 배열된 표(된 표에는 I 행과 K 열이 있음)의 분석에서 각 날을 변수 그룹으로 간주하는 것이다.

결론:이러한 예는 실제로 변수가 매우 자주 그룹으로 구성된다는 것을 보여준다.

MFA의 그래픽

변수의 가중치를 넘어, MFA에 대한 관심은 컬럼이 그룹으로 정리된 표의 분석에 가치 있는 일련의 그래픽과 지표에 있다.

모든 단순 요인 분석에 공통적인 그래픽(PCA, MCA)

MFA의 핵심은 가중 요인 분석: MFA는 먼저 요인 분석의 고전적 결과를 제공한다.

1. 두 개인이 모든 그룹의 모든 변수에 대해 유사한 값을 갖는 것보다 훨씬 더 가까운 개인의 표현; 실제로 사용자는 특히 첫 번째 요인 평면을 연구한다.

2.PCA(상관원)와 같은 정량적 변수의 표현

그림 1.MFA. 테스트 데이터.첫 번째 평면에 있는 개인의 표현.
그림2.MFA. 테스트 데이터.첫 번째 평면에서 변수의 표현.

예에서:

  • 첫 번째 축은 주로 개인 1과 5에 반대한다(그림 1).
  • 네 개의 변수는 양의 좌표를 가지고 있다(그림 2). 첫 번째 축은 크기 효과다.따라서 개별 1은 모든 변수에 대해 낮은 값을 가지며, 개별 5는 모든 변수에 대해 높은 값을 가진다.

3. 지표 보조적 해석: 투영된 관성, 기여도 및 표현 품질.이 예에서 첫 번째 축의 관성에 대한 개인 1과 5의 기여도는 45.7% + 31.5% = 77.2%로 이 두 점에 초점을 맞춘 해석을 정당화한다.

4. MCA에서와 같이 질적 변수의 범주를 나타낸다(범주는 그것을 소유한 개인의 중심에 있다).예제에 질적 변수가 없음.

이와 같은 종류의 다중 테이블 관련 그래픽

5. 개인에 대한 중복 표현 » 각 그룹별 »단일 집단의 관점에서 고찰한 개인을 부분 개인이라고 한다(동행적으로 모든 변수의 관점에서 고찰한 개인은 그 부분 점의 무게중심에 놓여 있기 때문에 평균 개개인이라고 한다).Partial cloud gathers the individuals from the perspective of the single group (ie ): that is the cloud analysed in the separate factorial analysis (PCA or MCA) of the group MFA가 제공하는 의 중첩된 표현은 그 목적이 Procrustes 분석에서 제공하는 것과 유사하다.

그림 3. MFA. 테스트 데이터평균 구름과 부분 구름의 중첩된 표현.

예제(그림 3)에서, 개별 1은 그룹 1과 그룹 2의 측면에서 모두 작은 크기(즉, 작은 값)로 특징지어진다(개별 1의 부분적인 점은 음의 좌표를 가지며 서로 가까이 있다).반대로, 개별 5는 그룹 1의 변수보다 그룹 2의 변수에 대해 높은 값으로 특징지어진다(개별 5의 경우 그룹 2의 부분 점은 그룹 1 부분 점보다 원점에서 더 멀리 있다).이 그래프의 판독치는 데이터에서 직접 확인할 수 있다.

6. 변수의 그룹 표시와 같은 것.이 그래프에서 각 변수 그룹은 단일 점으로 표현된다.두 변수 그룹은 개인에 대해 동일한 구조를 정의할 때 서로 가까워진다.극단적인 경우: N i 의 동질적 구름을 정의하는 두 변수 그룹이 일치한다. 을(를) 따라 있는 j 의 좌표는 MFA 의 관성에 대한 그룹 j {\displaystyle j의 기여와 같다이러한 기여는 ( j s s 사이의 지표로 해석될 수 있으며 따라서 이러한 유형의 표현에 주어진 이름 관계 사각형).이 표현은 또한 다른 요인 방법(특히 MCA와 FAMD)에도 존재하며, 이 경우 변수 그룹은 각각 단일 변수로 축소된다.

그림 4.MFA. 테스트 데이터.변수 그룹의 표현.

예제(그림 4)에서, 이 표현은 첫 번째 축이 두 변수 그룹과 관련이 있는 반면, 두 번째 축은 첫 번째 그룹과 관련이 있다는 것을 보여준다.이것은 변수의 표현과 일치한다(그림 2).실제로 이 표현은 집단이 많고 변수가 많을 때 특히 소중하다.

기타 판독 그리드.두 변수 그룹은 크기 효과(첫 번째 축)의 공통점을 가지고 있으며, 이 축은 그룹 1에 특정되기 때문에 축 2에 따라 다르다(그는 변수 A와 B에 반대한다).

7. 서로 다른 그룹에 대한 개별 분석 요인의 표현.이러한 요인은 보조 양적 변수(상관원)로 표현된다.

그림 5. MFA. 테스트 데이터각 그룹의 개별 PCA의 주요 구성요소의 표현.

예제(그림 5)에서, MFA의 첫 번째 축은 그룹 2의 첫 번째 구성 요소와 상대적으로 강하게 상관된다(r = .80).이 그룹은 두 개의 동일한 변수로 구성되며 하나의 주성분(변수와 혼동)만 가지고 있다.그룹 1은 두 개의 직교 변수로 구성된다. 즉, 이 두 변수에 의해 생성된 하위 공간의 모든 방향은 동일한 관성(1과 동일)을 갖는다.따라서 주성분 선택에는 불확실성이 존재하며 그 중 하나에 특별히 관심을 가질 이유가 없다.그러나 프로그램에 의해 제공되는 두 가지 구성요소는 잘 표현된다: MFA의 평면은 그룹 1의 두 변수에 의해 확장된 평면에 가깝다.

결론

숫자 예는 MFA의 출력을 보여준다.MFA는 변수 그룹과 PCA(질적 변수의 경우 MCA의 경우)의 일반적인 그래픽 외에 변수 집합의 그룹 구조, 특히 다음과 같은 특정 결과를 제공한다.

  • 데이터의 상세 분석을 위해 부분 개인을 중첩한 표현
  • 데이터가 많은 그룹을 포함하기 때문에 합성 이미지를 제공하는 변수 그룹의 표현
  • 개별 분석에서 인자의 표현.

사례의 작은 크기와 단순성은 해석 규칙에 대한 간단한 검증을 가능하게 한다.그러나 이 방법은 데이터 세트가 크고 복잡할 때 더 가치가 있을 것이다.이러한 유형의 데이터에 적합한 다른 방법을 사용할 수 있다.Procrustes 분석은 MFA in과 비교된다.[2]

역사

MFA는 1980년대에 브리짓 에스코피에르와 제롬 파게스에 의해 개발되었다.이 책은 이 작가들에 의해 쓰여진 두 권의 책의 핵심이다.[3][4]MFA와 그 연장선(상호 MFA, 보정표 등에 관한 MFA)은 탐구 다변량 분석의 기본 방법을 제시하는 책을 펴낸 응용수학실험실 아그로캄푸스(LMA ²)[5]의 연구 주제다.

소프트웨어

MFA는 두 개의 R 패키지(FactoMineRADE4)와 SPAD, Uniwin, XLSTAT 등을 포함한 많은 소프트웨어 패키지로 제공된다.또한[permanent dead link] SAS라는 기능도 있다. 이 글의 그래프는 R 패키지 팩토릭MineR에서 나온 것이다.

참조

  1. ^ Greenacre, Michael; Blasius, Jorg (2006-06-23). Multiple Correspondence Analysis and Related Methods. CRC Press. pp. 352–. ISBN 9781420011319. Retrieved 11 June 2014.
  2. ^ 파게스 제롬(2014년).R을 사용한 예제별 다중 인자 분석.Chapman & Hall/CRC The R Series, London.272p
  3. ^ 이비뎀
  4. ^ 에스코피어 브리짓트 & 파게스 제롬(2008)분석 팩토리오엘은 여러 개의 배와 같은 역할을 한다; 목적어, 메소드 등 상호작용을 한다.파리 두노드. 318 페이지 ISBN 978-2-10-051932-3
  5. ^ Husson F, Lé S. & Pagés J. (2009년).R을 사용한 예에 의한 탐색적 다변량 분석Chapman & Hall/CRC The R Series, London.ISBN 978-2-7535-0938-2

외부 링크

  • 사실적 MineR은 탐색적 데이터 분석을 위한 R 소프트웨어.