Anderson-Darling 검정
Anderson–Darling testAnderson-Darling 검정은 주어진 확률 분포에서 주어진 데이터 표본이 추출되는지 여부에 대한 통계적 검정입니다. 기본 형태에서 검정은 검정할 분포에 추정할 모수가 없다고 가정합니다. 이 경우 검정 및 검정의 임계 값 집합은 분포가 없습니다. 그러나 검정은 분포 계열이 검정되는 상황에서 가장 많이 사용되며, 이 경우 검정 통계량이나 임계 값을 조정할 때 해당 계열의 모수를 추정하고 이를 고려해야 합니다. 정규 분포가 데이터 집합을 적절하게 설명하는지 여부를 검정하는 데 적용될 때 정규 분포에서 대부분의 이탈을 탐지하는 가장 강력한 통계 도구 중 하나입니다.[1][2] K-표본 Anderson-Darling 검정은 분포 함수를 지정할 필요가 없는 경우 여러 관측치 집합을 단일 모집단에서 가져온 것으로 모델링할 수 있는지 여부를 검정하는 데 사용할 수 있습니다.
분포에 대한 적합도 검정으로 사용할 뿐만 아니라 최소 거리 추정 절차의 한 형태의 기초로 모수 추정에 사용할 수 있습니다.
이 테스트는 Theodore Wilber Anderson (1918–2016)과 Donald A의 이름을 따서 지어졌습니다. 1952년에 발명한 달링 (1915–2014).[3]
단일 표본 검정
Anderson-Darling 및 Cramér-von Mises 통계는 2차 EDF 통계(경험적 분포 함수에 기초한 검정) 클래스에 속합니다.[2] 가설 가 F F이고 경험적(표본) 누적 분포 함수가 인 경우 EDF 통계는 F F와 사이의 거리를 다음과 같이 측정합니다.
여기서 은 샘플의 요소 수이고 w( w는 가중치 함수입니다. 가중 함수가 = 1displaystyle w(x) = 1}인 경우 통계량은 Cramér–von Mises 통계량입니다. Anderson-Darling(1954) 검정은[4] 거리에 기초합니다.
가중치 함수가 ) =[F ( x ) ( 1 - F ( x ) ] - 1 {\displaystyle w(x) = [F(x)\; (1 - F(x))^{-1} 일 때 얻어집니다. 따라서 Cramér–von Mises 거리와 비교하여 Anderson–Darling 거리는 분포의 꼬리 부분에 있는 관측치에 더 많은 비중을 둡니다.
기초시험통계
Anderson-Darling 검정은 표본이 특정 분포에서 나오는지 여부를 평가합니다. 가정된 기본 분포가 주어지고 데이터가 이 분포에서 발생한다고 가정할 때 데이터의 누적 분포 함수(CDF)가 균일 분포를 따른다고 가정할 수 있다는 점을 이용합니다. 그런 다음 거리 테스트를 통해 데이터의 균일성을 테스트할 수 있습니다(Shapiro 1980). 데이터{ 1< ⋯< Y n } {1Y_{n}\}}(데이터를 순서대로 입력해야 함에 유의)가 F}에서 나오는지 평가하기 위한 검정 통계량 A은 다음과 같습니다.
어디에
그런 다음 검정 통계량을 이론적 분포의 임계 값과 비교할 수 있습니다. 이 경우 누적 분포 F 와 관련된 파라미터는 추정되지 않습니다
분포 패밀리에 대한 검정
기본적으로 동일한 검정 통계량을 분포 계열의 적합도 검정에 사용할 수 있지만, 이 검정 통계량은 해당 이론적 분포 계열에 적합한 임계값과 비교해야 하며 모수 추정에 사용되는 방법에도 의존해야 합니다.
정규성 검정
경험적 테스트 결과 앤더슨-달링 테스트는 샤피로 테스트만큼 좋지 않은 것으로 나타났습니다[5].Wilk test 하지만 다른 test보다 낫습니다. 스티븐스는[1] 가 정규성에서 대부분의 이탈을 감지하는 가장 좋은 경험적 분포 함수 통계 중 하나임을 발견했습니다.
계산은 분포에 대해 알려진 것에 따라 다릅니다.[6]
- 사례 0: 평균 및 분산σ 2 {\displaystyle 2}}가 모두 알려져 있습니다.
- 사례 1: 분산σ 2 {\displaystyle 2}}는 알려져 있지만 μ mu}는 알려져 있지 않습니다.
- 사례 2: μ 는 알려져 있지만 분산σ 2 {\displaystyle 2}}는 알 수 없습니다.
- 사례 3: 평균 와 분산σ 2 {\displaystyle 2}}가 모두 알려지지 않았습니다.
그런 다음 변수 X {\displaystyle X_ {\ X_{i = … ndisplaystyle i=1,\ldots n에 대해 X 1 ≤ X 2 ≤ ≤ X n {\displaystyle X_{1}\leq X_{2}\leq ...가 정렬되어야 합니다.와 다음의 표기법은 X가i 순서 관측치를 나타낸다고 가정합니다. 허락하다
값은 다음과 같이 표준화되어 새 값 를 만듭니다
표준 정상 CDFφPhi에서는 A^{2}}을(를) 사용하여 계산합니다.
합산의 각 단계에서 단일 관측치만 처리되는 대안적인 표현식은 다음과 같습니다.
수정된 통계량은 다음을 사용하여 계산할 수 있습니다.
또는 ∗ 2 {\A^{*2}}가 지정된 임계값을 초과하면 어느 정도 유의 수준에서 정규성 가설이 기각됩니다. ∗ 2 {\A^{*2}}의 값에 대한 임계값은 아래 표에 나와 있습니다.
참고 1:σ ^ {\{\sigma }} = 0의φYi) = \Y_{i}) =}( 또는 1)인 경우 2 {\displaystyle A^{2}}를 계산할 수 없고 정의되지 않습니다.
주 2: 상기 조정식은 Shorack & Wellner(1986, p239)에서 가져온 것입니다. 특정 조정 공식이 명시되지 않은 경우가 많기 때문에 여러 출처를 비교할 때 주의가 필요합니다.
참고 3: Stephens는[1] 알려진 파라미터라도 데이터에서 파라미터를 계산할 때 테스트가 더 우수하다는 점에 주목합니다.
참고 4: Marsaglia & Marsaglia는[7] 사례 0에 대해 85%와 99%로 보다 정확한 결과를 제공합니다.
사례. | n | 15% | 10% | 5% | 2.5% | 1% |
---|---|---|---|---|---|---|
0 | ≥ 5 | 1.621 | 1.933 | 2.492 | 3.070 | 3.878 |
1 | 0.908 | 1.105 | 1.304 | 1.573 | ||
2 | ≥ 5 | 1.760 | 2.323 | 2.904 | 3.690 | |
3 | 10 | 0.514 | 0.578 | 0.683 | 0.779 | 0.926 |
20 | 0.528 | 0.591 | 0.704 | 0.815 | 0.969 | |
50 | 0.546 | 0.616 | 0.735 | 0.861 | 1.021 | |
100 | 0.559 | 0.631 | 0.754 | 0.884 | 1.047 | |
0.576 | 0.656 | 0.787 | 0.918 | 1.092 |
또는 위의 사례 3(평균과 분산 모두 알려지지 않음)의 경우, D'Agostino(1986)는 표 4.7(123쪽)과 372-373쪽에서 조정된 통계량을 제공합니다.
∗ 2 {\ A^{*2}}가 각각 10%, 5%, 2.5%, 1% 및 0.5% 유의 수준에서 0.631, 0.754, 0.884, 1.047 또는 1.159를 초과하면 정규성이 거부됩니다. 이 절차는 n=8 이상의 표본 크기에 대해 유효합니다. ∗ 2 {\A^{*2}}의 다른 값에 대한 p-값을 계산하는 공식은 같은 책의 페이지 127의 표 4.9에 나와 있습니다.
다른 분포에 대한 검정
위에서 변수 가 정규 분포에 대해 테스트되고 있다고 가정했습니다. 다른 모든 분포 계열을 검정할 수 있지만 각 계열에 대한 검정은 기본 검정 통계량을 다른 수정을 사용하여 구현되며 이는 해당 분포 계열에 고유한 임계값을 참조합니다. 지수, 극값, 베이불, 감마, 로지스틱, 코시 및 폰 미제 분포에 대한 임계값의 통계량 및 표의 수정은 Stephens(1986)[2]에 의해 제공됩니다. (2-모수) 로그 정규 분포에 대한 검정은 로그를 사용하여 데이터를 변환하고 정규성에 대한 위의 검정을 사용하여 구현할 수 있습니다. Pearson & Hartley(1972, 표 54)는 검정 통계량에 필요한 수정 사항과 정규 분포 및 지수 분포에 대한 임계값에 대한 세부 정보를 발표했습니다. Gumbel 분포를 추가하여 이러한 분포에 대한 자세한 내용은 Shorack & Wellner(1986, p239)에서도 확인할 수 있습니다. 로지스틱 분포에 대한 자세한 내용은 Stephens(1979)에 의해 제공됩니다. (두 개의 모수) Weibull 분포에 대한 검정은 Weibull 변수의 로그가 Gumbel 분포를 갖는다는 사실을 이용하여 얻을 수 있습니다.
비모수 k-표본 검정
프리츠 숄츠와 마이클 A. Stephens(1987)는 Anderson-Darling 분포 일치 척도에 기초하여 표본 크기가 다를 수 있는 다수의 임의 표본이 동일한 분포에서 발생했을 수 있는지 여부에 대한 검정을 논의합니다.[8] R 패키지 kSample과 Python 패키지 Scipy는 k 샘플을 여러 다른 순위 테스트 간에 비교하기 위해 이 순위 테스트를 구현합니다.[9][10]
샘플의 경우 번째 샘플의 분포 함수 가 연속이라는 가정 하에 다음과 같이 통계량을 계산할 수 있습니다.
어디에
- 에서 i i번째 샘플의 관측치 수
- 은 (는) 모든 표본의 총 관측치 수입니다.
- < < Z N {\Z_{1< Z_{N}}는 풀링된 주문 샘플입니다.
- 는 번째 샘플에서 보다 크지 않은 관측치 수입니다[8]
참고 항목
참고문헌
- ^ a b c d Stephens, M. A. (1974). "EDF Statistics for Goodness of Fit and Some Comparisons". Journal of the American Statistical Association. 69 (347): 730–737. doi:10.2307/2286009. JSTOR 2286009.
- ^ a b c M. A. Stephens (1986). "Tests Based on EDF Statistics". In D'Agostino, R. B.; Stephens, M. A. (eds.). Goodness-of-Fit Techniques. New York: Marcel Dekker. ISBN 0-8247-7487-6.
- ^ Anderson, T. W.; Darling, D. A. (1952). "Asymptotic theory of certain "goodness-of-fit" criteria based on stochastic processes". Annals of Mathematical Statistics. 23 (2): 193–212. doi:10.1214/aoms/1177729437.
- ^ Anderson, T.W.; Darling, D.A. (1954). "A Test of Goodness-of-Fit". Journal of the American Statistical Association. 49 (268): 765–769. doi:10.2307/2281537. JSTOR 2281537.
- ^ Razali, Nornadiah; Wah, Yap Bee (2011). "Power comparisons of Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors and Anderson–Darling tests". Journal of Statistical Modeling and Analytics. 2 (1): 21–33.
- ^ a b Ralph B. D'Agostino (1986). "Tests for the Normal Distribution". In D'Agostino, R.B.; Stephens, M.A. (eds.). Goodness-of-Fit Techniques. New York: Marcel Dekker. ISBN 0-8247-7487-6.
- ^ a b Marsaglia, G. (2004). "Evaluating the Anderson-Darling Distribution". Journal of Statistical Software. 9 (2): 730–737. doi:10.18637/jss.v009.i02.
- ^ a b Scholz, F. W.; Stephens, M. A. (1987). "K-sample Anderson–Darling Tests". Journal of the American Statistical Association. 82 (399): 918–924. doi:10.1080/01621459.1987.10478517.
- ^ "kSamples: K-Sample Rank Tests and their Combinations". R Project.
- ^ "The Anderson-Darling test for k-samples. Scipy package".
더보기
- 코더, G.W., 포맨, D.I. (2009)비통계학자에 대한 비모수 통계량: 단계적 접근 Wiley, ISBN 978-0-470-45461-9
- 메타, S. (2014) 통계 항목 ISBN 978-1499273533
- 피어슨 E.S., 하틀리, H.O. (편집자) (1972) 통계학자를 위한 바이오메트리카 테이블, Volume II. CUP. ISBN 0-521-06937-8
- Shapiro, S.S. (1980) 정규성 및 기타 분포 가정을 검정하는 방법 In: ASQC 품질관리의 기본 참조사항: 통계기법 3, pp. 1–78.
- Shorack, G.R., Wellner, J.A. (1986) 통계에 적용된 경험적 과정, Wiley. ISBN 0-471-86725-X.
- Stephens, M.A. (1979) 경험적 분포 함수에 기초한 로지스틱 분포에 대한 적합도 검정, Biometrika, 66(3), 591–5.