Hoteling의 T-제곱 분포

Hotelling's T-squared distribution
Hoteling의 T 분포2
확률밀도함수
Hotelling-pdf.png
누적분포함수
Hotelling-cdf.png
매개변수 p - 랜덤 변수의 치수
m - 표본 크기와 관련됨
지원 ( ,+ ) p= }
[ ,+ ) 이(가) 그렇지 않으면.

통계에서 가설 검증은 꼭 F-distribution 가장은 통계의 자연 일반화 샘플 통계의 세트의 분포는 발생하는으로 유명하다 연관되어 있다., Hotelling의T-squared 분포(T2), 해럴드 Hotelling,[1]이 제안한는 다변수의 확률 분포.운트학생의 t-분배를 방해하는 것.

Hoteling의 t-제곱 통계량(t2)은 다변량 가설 검정에서 사용되는 학생의 t-통계학을 일반화한 것이다.[2]

동기

분포는 (다변량) 모집단의 (다변량) 평균 간의 차이를 검정할 다변량 통계량에서 발생하며, 여기서 일변량 문제에 대한 검정에서는 t-검정을 사용할 수 있다. 이 분포는 학생 t 분포의 일반화로 개발한 Harold Hoteling의 이름을 따서 명명되었다.[1]

정의

If the vector is Gaussian multivariate-distributed with zero mean and unit covariance matrix and is a matrix with unit scale matrix and m degrees of freed( W( I , , ) 이(가) 있는 경우, 2차 X{\ Hoteling 분포( p m가 있음):[3]

또한 임의 변수 X에 Hoteling의 T-제곱 분포 ~ p, m X다음이 있는 경우:[1]

여기서 , - + 1 매개변수 p와 m-p+1이 있는 F-분포다.

핫텔링 t-제곱 통계량

^ 을(를) 샘플 공분산이 되도록 두십시오.

아포스트로피에 의해 전치된다는 뜻이지 ^ {\{\{\은(는)[4] 양의 (세미) 한정 행렬이며,(- )^ {\{\은 p-barique-barique-bargat Wishart wishart wishart wishart wishart의 의 표본 공분산 행렬은 ^ ¯ = ^/ n {\)로 표시한다

Hoteling의 t-제곱 통계량은 다음과 같이 정의된다.[5]

표본 평균과 사이의 거리에 비례하는 값인 이 때문에 cH00의 경우 통계량이 낮을 가정해야 한다.

분포로 봤을 때.

여기서 , - 매개변수 p와 n - p를 갖는 F-분포다.

p-값(여기서 p 변수와 무관함)을 계산하려면 t 2}의 분포가 동등하게 다음을 함축한다는 점에 유의하십시오.

그런 다음 왼쪽의 수량을 사용하여 F-분포에서 나오는 표본에 해당하는 p-값을 평가한다. 신뢰 영역도 유사한 논리를 사용하여 결정할 수 있다.

동기

Let denote a p-variate normal distribution with location and known covariance . Let

n개의 독립적으로 분포된 (iid) 랜덤 변수가 있으며, 이는 실제 의 p× p\ 벡터로 나타낼 수 있다. 정의

공분산 = / n {\표본 평균임을 나타낼 수 있다

여기서 은 자유도가 p인 카이 제곱 분포.[6]

증명
증명

To show this use the fact that and derive the characteristic function of the random variable 평소와 같이{\이(가) 에서와 같이 인수의 결정자를 나타내도록 한다

특성 함수의 정의에 따라 다음이 있다.[7]

적분 안에는 두 개의 지수(expective)가 있으므로 지수(expector)를 곱하여 다음과 같은 것을 얻는다.

Now take the term off the integral, and multiply everything by an identity , bringing one of them inside the integral:

But the term inside the integral is precisely the probability density function of a multivariate normal distribution with covariance matrix and mean , so when integrating over all , it must yield per the probability axioms.[clarification needed] 따라서 다음과 같은 결과를 얻는다.

여기서 p 의 ID 행렬이다 마지막으로 결정 인자를 계산하여 다음을 얻는다.

p {\p}인 카이-제곱 분포의 특성 함수.

2-표본 통계량

If and 표본이 같은 평균과 공분산을 가진 두 개의 독립적다변량 정규 분포로부터 독립적으로 추출된 표본으로, 를) 정의하고,

표본의 평균으로,

각 표본 공분산 행렬로서. 그러면

편향되지 않은 합동 공분산 행렬 추정치(풀링된 분산 확장).

마지막으로 Hoteling의 2-표본 t-제곱 통계량은

관련개념

[4] 의해 F-분포와 관련될 수 있다.

이 통계량의 Null이 아닌 분포는 중심 F-분포(비중심 카이-제곱 랜덤 변수와 독립적인 중심 카이-제곱 랜덤 변수의 비율)이다.

와 함께

여기서 = x " - - 는) 모집단 평균 간의 차이 벡터다.

2변수의 경우, 공식은 변수들 사이의 , 를) t 에 어떻게 영향을 미치는지 이해할 수 있도록 좋게 단순화된다

그리고

그때

Thus, if the differences in the two rows of the vector are of the same sign, in general, becomes smaller as becomes more positive. 반대 기호 t의 차이가 있는 경우 (가) 양성이 될수록 더 커진다.

일변량 특례는 웰치의 t-테스트에서 찾을 수 있다.

Hoteling의 2-표본 테스트보다 강력하고 강력한 테스트가 문헌에서 제안되었다. 예를 들어, 변수의 수가 피험자의 수와 비슷하거나 심지어 더 큰 경우에도 적용할 수 있는 중간 거리 기반 테스트를 참조하라.[8][9]

참고 항목

참조

  1. ^ a b c Hotelling, H. (1931). "The generalization of Student's ratio". Annals of Mathematical Statistics. 2 (3): 360–378. doi:10.1214/aoms/1177732979.
  2. ^ Johnson, R.A.; Wichern, D.W. (2002). Applied multivariate statistical analysis. 5. Prentice hall.
  3. ^ 에릭 W. 와이스슈타인, 수학월드
  4. ^ a b Mardia, K. V.; Kent, J. T.; Bibby, J. M. (1979). Multivariate Analysis. Academic Press. ISBN 978-0-12-471250-8.
  5. ^ "6.5.4.3. Hotelling's T squared".
  6. ^ 존슨, R.A. & Wichern, D.W. (2002) 제4.2장 끝
  7. ^ Billingsley, P. (1995). "26. Characteristic Functions". Probability and measure (3rd ed.). Wiley. ISBN 978-0-471-00710-4.
  8. ^ Marozzi, M. (2016). "Multivariate tests based on interpoint distances with application to magnetic resonance imaging". Statistical Methods in Medical Research. 25 (6): 2593–2610. doi:10.1177/0962280214529104. PMID 24740998.
  9. ^ Marozzi, M. (2015). "Multivariate multidistance tests for high-dimensional low sample size case-control studies". Statistics in Medicine. 34 (9): 1511–1526. doi:10.1002/sim.6418. PMID 25630579.

외부 링크