구성자료

Compositional data

통계에서 구성 데이터는 전체 부분의 정량적 설명으로 상대적 정보를 전달한다.수학적으로 구성 데이터는 심플렉스 상의 점으로 표현된다.확률, 비율, 백분율 및 ppm을 포함하는 측정은 모두 합성 데이터로 생각할 수 있다.

3차 플롯

세 변수의 합성 데이터는 3차 그래프를 통해 표시할 수 있다.세 변수에 이변성 그림을 사용하면 세 변수의 등변성 삼각형 위치의 비율을 그래픽으로 나타낸다.

단순 검체 공간

일반적으로, John Aitchison은 1982년에 구성 데이터를 일부 전체의 비율로 정의했다.[1]특히, 합성 데이터 포인트(또는 짧은 에 대한 구성)는 양의 구성요소를 가진 실제 벡터로 나타낼 수 있다.합성 데이터의 샘플 공간은 단순함:

애치슨 심플렉스 삽화.여기서는 다른 비율의 값을 나타내는 세 부분으로, , , 가 있다.A, B, C, D, E는 심플렉스 내에서 5개의 다른 구성이다.A, B, C는 모두 등가, D와 E는 등가.

유일한 정보는 성분들 사이의 비율에 의해 주어지기 때문에, 구성의 정보는 어떤 양의 상수에 의해서도 곱셈으로 보존된다.따라서 합성 데이터의 샘플 공간은 항상 표준 심플렉스(simplex)로 가정할 수 있다 즉, = 1 이 맥락에서 표준 심플렉스(simplex)에 대한 정규화를 closure라고 하며 [ ] {\ {C}{Ccale},\ \cdot \, \,\cdot\cdata.

여기서 D는 부품(구성요소)의 수이고 [ [\]}은 행 벡터를 나타낸다.

애치슨 기하학

심플렉스에는 여러 가지 다른 방법으로 실제 벡터 공간의 구조가 주어질 수 있다.다음의 벡터 공간 구조는 Aitchison 기하학 또는 Aitchison simplex라고 불리며 다음과 같은 연산을 한다.

섭동
전원 공급
이너 제품

이러한 작업에서만 Aitchison simplex가 a( - ) 차원 유클리드 벡터 공간을 형성한다는 것을 보여주면 충분하다.

직교기초

아이치슨 심플렉스(Aitchison simplex)는 유한 치수 힐버트 공간을 형성하기 때문에 심플렉스(Simplex)에 정형근거(Octonormal base)를 구성하는 것이 가능하다.모든 구성 은(는) 다음과 같이 분해할 수 있다.

여기서 ,… ,e - 은 심플렉스 내에서 정형근위를 형성한다.[2] , = ,,D- 값은 주어진 기준에 대한 의 (정관 및 데카르트) 좌표다.이러한 좌표를 등축 로그 비율 좌표) 이라고 한다

선형 변환

아이치슨 심플렉스(Aitchison simplex)에서 실제 공간으로 변신하는 세 가지 성격이 잘 맞는 이소모르프(Isomorphism)가 있다.이러한 모든 변환은 선형성을 만족하며 다음과 같다.

가법 로그라티오

가법 로그 비율(alr) 변환은 : → R - 화살표 .이것은 에 의해 주어진다.

분모 구성요소의 선택은 임의적이며 지정된 구성요소가 될 수 있다.이 변환은 일반적으로 pH와 같은 측정과 함께 화학에서 사용된다.또한 다항 로지스틱 회귀 분석에 가장 일반적으로 사용되는 변환이다.alr 변환은 등측도가 아니며, 변환된 값의 거리는 단순화에서 원래 구성의 거리와 동등하지 않다는 것을 의미한다.

중심 로그라티오 변환

중앙 로그 비율(clr) 변환은 : → U, D UU\mathb ^{DD}}}}}}}}인 이형성 및 등측량법이다.

여기서 ( ) (는) 의 기하학적 평균이다이 함수의 역은 소프트맥스 함수로도 알려져 있다.


등축 로그률 변환

등축 로그 비율(ilr) 변환은 이소모르프(Isomorphism와 이소미터(Isomethymetric) 둘 다이며, 여기서 : D - 1 {ilrS^{오른쪽 화살표 \{R}^{D-1}:{D-1}:{D-1}:{D-1}

그람-슈미트 직교화 또는 clr 변환 데이터의 단수분해를 사용하는 등 여러 가지 방법으로 직교 기준을 구성할 수 있다.또 다른 대안은 분기 트리에서 로그 대비를 생성하는 것이다.우리에게 분기 트리가 주어진다면, 우리는 트리의 내부 노드로부터 기초를 구축할 수 있다.

직교 구성요소에 대한 트리의 표현.l는 내부 노드를 나타내며, 정형외과적 기준의 요소를 나타낸다.이것은 나무를 일러스 변환의 발판으로 삼기 위한 전조다.

기초의 각 벡터는 다음과 같이 결정된다.

각 벡터 내의 원소는 다음과 같이 주어진다.

여기서 , , , t 그림에 표시된 해당 하위 트리의 각 팁 수입니다.그 결과의 기초가 직교라는[3] 것을 알 수 있다.

기본 (가) 구축되면 다음과 같이 ilr 변환을 계산할 수 있다.

변환된 데이터의 각 요소가 다음 형식인 경우

여기서 는 하위 트리 의 팁에 해당하는 값 집합이다.

  • 화학에서 구성은 각 성분의 어금니 농도로 표현할 수 있다.모든 농도의 합이 결정되지 않기 때문에 D 부품의 전체 구성이 필요하므로 D 어금니 농도의 벡터로 표현해야 한다.이러한 구성은 각 구성 요소에 전용 상수를 곱한 백분율로 환산할 수 있다.
  • 인구통계학에서, 한 마을은 마을 표본의 구성 데이터 지점일 수 있다; 인구의 35%가 기독교인, 55%가 무슬림, 6%가 유대인, 나머지 4%는 4배[0.35, 0.55, 0.06, 0.04]에 해당된다.데이터 집합은 마을 리스트에 해당될 것이다.
  • 지질학에서, 다른 미네랄로 구성된 암석은 암석 표본의 구성 데이터 지점일 수 있다. 10%의 암석은 첫 번째 미네랄이고, 30%는 두 번째 미네랄이며, 나머지 60%는 세 번째 미네랄과 일치한다[0.1, 0.3, 0.6].데이터 집합은 암석 표본의 각 암석에 대해 그러한 세 배의 데이터를 포함할 것이다.
  • 높은 처리량 시퀀싱에서 얻은 데이터는 일반적으로 상대적 여유로 변환되어 구성적으로 나타난다.
  • 확률통계에서, 표본 추출 공간을 분리 이벤트로 분할하는 것은 그러한 이벤트에 할당된 확률로 설명된다.D 확률의 벡터는 D 부품의 구성으로 간주할 수 있다.그들이 1을 더하면 하나의 확률을 억제할 수 있고 구성이 완전히 결정된다.
  • 화학측정학에서 석유유 분류를 위해.[4]
  • 조사에서, 몇몇 다른 항목에 긍정적인 대답을 하는 사람들의 비율은 백분율로 표현될 수 있다.총량이 100으로 확인됨에 따라 나머지 성분이 전체 벡터가 100에 더해지는 데 필요한 백분율이라고 가정할 D - 1 성분만을 사용하여 D 성분의 합성 벡터를 정의할 수 있다.

참고 항목

메모들

  1. ^ Aitchison, John (1982). "The Statistical Analysis of Compositional Data". Journal of the Royal Statistical Society. Series B (Methodological). 44 (2): 139–177. doi:10.1111/j.2517-6161.1982.tb01195.x.
  2. ^ 에고즈큐 외
  3. ^ 에고즈큐 & 폴로우스키-글란 2005
  4. ^ Olea, Ricardo A.; Martín-Fernández, Josep A.; Craddock, William H. (2021). "Multivariate classification of the crude oil petroleum systems in southeast Texas, USA, using conventional and compositional analysis of biomarkers". In Advances in Compositional Data Analysis—Festschrift in honor of Vera-Pawlowsky-Glahn, Filzmoser, P., Hron, K., Palarea-Albaladejo, J., Martín-Fernández, J.A., editors. Springer: 303−327.

참조

외부 링크