Anderson-Darling 검정

Anderson–Darling test

Anderson-Darling 검정은 주어진 확률 분포에서 주어진 데이터 표본이 추출되는지 여부에 대한 통계적 검정입니다. 기본 형태에서 검정은 검정할 분포에 추정할 모수가 없다고 가정합니다. 이 경우 검정 및 검정의 임계 값 집합은 분포가 없습니다. 그러나 검정은 분포 계열이 검정되는 상황에서 가장 많이 사용되며, 이 경우 검정 통계량이나 임계 값을 조정할 때 해당 계열의 모수를 추정하고 이를 고려해야 합니다. 정규 분포가 데이터 집합을 적절하게 설명하는지 여부를 검정하는 데 적용될 때 정규 분포에서 대부분의 이탈을 탐지하는 가장 강력한 통계 도구 중 하나입니다.[1][2] K-표본 Anderson-Darling 검정분포 함수를 지정할 필요가 없는 경우 여러 관측치 집합을 단일 모집단에서 가져온 것으로 모델링할 수 있는지 여부를 검정하는 데 사용할 수 있습니다.

분포에 대한 적합도 검정으로 사용할 뿐만 아니라 최소 거리 추정 절차의 한 형태의 기초로 모수 추정에 사용할 수 있습니다.

이 테스트는 Theodore Wilber Anderson (1918–2016)과 Donald A의 이름을 따서 지어졌습니다. 1952년에 발명한 달링 (1915–2014).[3]

단일 표본 검정

Anderson-Darling 및 Cramér-von Mises 통계는 2차 EDF 통계(경험적 분포 함수에 기초한 검정) 클래스에 속합니다.[2] 가설 가 F F이고 경험적(표본) 누적 분포 함수가 인 경우 EDF 통계는 F F 사이의 거리를 다음과 같이 측정합니다.

여기서 샘플의 요소 수이고 w( w 가중치 함수입니다. 가중 함수가 = 1displaystyle w(x) = 1}인 경우 통계량은 Cramér–von Mises 통계량입니다. Anderson-Darling(1954) 검정은[4] 거리에 기초합니다.

가중치 함수가 ) =[F ( x ) ( 1 - F ( x ) ] - 1 {\displaystyle w(x) = [F(x)\; (1 - F(x))^{-1} 일 때 얻어집니다. 따라서 Cramér–von Mises 거리와 비교하여 Anderson–Darling 거리는 분포의 꼬리 부분에 있는 관측치에 더 많은 비중을 둡니다.

기초시험통계

Anderson-Darling 검정은 표본이 특정 분포에서 나오는지 여부를 평가합니다. 가정된 기본 분포가 주어지고 데이터가 이 분포에서 발생한다고 가정할 때 데이터의 누적 분포 함수(CDF)가 균일 분포를 따른다고 가정할 수 있다는 점을 이용합니다. 그런 다음 거리 테스트를 통해 데이터의 균일성을 테스트할 수 있습니다(Shapiro 1980). 데이터{ 1< ⋯< Y n } {1Y_{n}\}}(데이터를 순서대로 입력해야 함에 유의)가 F}에서 나오는지 평가하기 위한 검정 통계량 A은 다음과 같습니다.

어디에

그런 다음 검정 통계량을 이론적 분포의 임계 값과 비교할 수 있습니다. 이 경우 누적 분포 F 와 관련된 파라미터는 추정되지 않습니다

분포 패밀리에 대한 검정

기본적으로 동일한 검정 통계량을 분포 계열의 적합도 검정에 사용할 수 있지만, 이 검정 통계량은 해당 이론적 분포 계열에 적합한 임계값과 비교해야 하며 모수 추정에 사용되는 방법에도 의존해야 합니다.

정규성 검정

경험적 테스트 결과 앤더슨-달링 테스트는 샤피로 테스트만큼 좋지 않은 것으로 나타났습니다[5].Wilk test 하지만 다른 test보다 낫습니다. 스티븐스는[1] 가 정규성에서 대부분의 이탈을 감지하는 가장 좋은 경험적 분포 함수 통계 중 하나임을 발견했습니다.

계산은 분포에 대해 알려진 것에 따라 다릅니다.[6]

  • 사례 0: 평균 및 분산σ 2 {\displaystyle 2}}가 모두 알려져 있습니다.
  • 사례 1: 분산σ 2 {\displaystyle 2}}는 알려져 있지만 μ mu}는 알려져 있지 않습니다.
  • 사례 2: μ 는 알려져 있지만 분산σ 2 {\displaystyle 2}}는 알 수 없습니다.
  • 사례 3: 평균 와 분산σ 2 {\displaystyle 2}}가 모두 알려지지 않았습니다.

그런 다음 변수 X {\displaystyle X_ {\ X_{i = … ndisplaystyle i=1,\ldots n에 대해 X 1 ≤ X 2 ≤ ≤ X n {\displaystyle X_{1}\leq X_{2}\leq ...가 정렬되어야 합니다. 다음의 표기법은 Xi 순서 관측치를 나타낸다고 가정합니다. 허락하다

값은 다음과 같이 표준화되어 새 값 를 만듭니다

표준 정상 CDFφPhi에서는 A^{2}}을(를) 사용하여 계산합니다.

합산의 각 단계에서 단일 관측치만 처리되는 대안적인 표현식은 다음과 같습니다.

수정된 통계량은 다음을 사용하여 계산할 수 있습니다.

또는 ∗ 2 {\A^{*2}}가 지정된 임계값을 초과하면 어느 정도 유의 수준에서 정규성 가설이 기각됩니다. ∗ 2 {\A^{*2}}의 값에 대한 임계값은 아래 표에 나와 있습니다.

참고 1:σ ^ {\{\sigma }} = 0φYi) = \Y_{i}) =}( 또는 1)인 경우 2 {\displaystyle A^{2}}를 계산할 수 없고 정의되지 않습니다.

주 2: 상기 조정식은 Shorack & Wellner(1986, p239)에서 가져온 것입니다. 특정 조정 공식이 명시되지 않은 경우가 많기 때문에 여러 출처를 비교할 때 주의가 필요합니다.

참고 3: Stephens는[1] 알려진 파라미터라도 데이터에서 파라미터를 계산할 때 테스트가 더 우수하다는 점에 주목합니다.

참고 4: Marsaglia & Marsaglia는[7] 사례 0에 대해 85%와 99%로 보다 정확한 결과를 제공합니다.

사례. n 15% 10% 5% 2.5% 1%
0 ≥ 5 1.621 1.933 2.492 3.070 3.878
1 0.908 1.105 1.304 1.573
2 ≥ 5 1.760 2.323 2.904 3.690
3 10 0.514 0.578 0.683 0.779 0.926
20 0.528 0.591 0.704 0.815 0.969
50 0.546 0.616 0.735 0.861 1.021
100 0.559 0.631 0.754 0.884 1.047
0.576 0.656 0.787 0.918 1.092

또는 위의 사례 3(평균과 분산 모두 알려지지 않음)의 경우, D'Agostino(1986)는 표 4.7(123쪽)과 372-373쪽에서 조정된 통계량을 제공합니다.

∗ 2 {\ A^{*2}}가 각각 10%, 5%, 2.5%, 1% 및 0.5% 유의 수준에서 0.631, 0.754, 0.884, 1.047 또는 1.159를 초과하면 정규성이 거부됩니다. 이 절차는 n=8 이상의 표본 크기에 대해 유효합니다. ∗ 2 {\A^{*2}}의 다른 값에 대한 p-값을 계산하는 공식은 같은 책의 페이지 127의 표 4.9에 나와 있습니다.

다른 분포에 대한 검정

위에서 변수 가 정규 분포에 대해 테스트되고 있다고 가정했습니다. 다른 모든 분포 계열을 검정할 수 있지만 각 계열에 대한 검정은 기본 검정 통계량을 다른 수정을 사용하여 구현되며 이는 해당 분포 계열에 고유한 임계값을 참조합니다. 지수, 극값, 베이불, 감마, 로지스틱, 코시 및 폰 미제 분포에 대한 임계값의 통계량 및 표의 수정은 Stephens(1986)[2]에 의해 제공됩니다. (2-모수) 로그 정규 분포에 대한 검정은 로그를 사용하여 데이터를 변환하고 정규성에 대한 위의 검정을 사용하여 구현할 수 있습니다. Pearson & Hartley(1972, 표 54)는 검정 통계량에 필요한 수정 사항과 정규 분포지수 분포에 대한 임계값에 대한 세부 정보를 발표했습니다. Gumbel 분포를 추가하여 이러한 분포에 대한 자세한 내용은 Shorack & Wellner(1986, p239)에서도 확인할 수 있습니다. 로지스틱 분포에 대한 자세한 내용은 Stephens(1979)에 의해 제공됩니다. (두 개의 모수) Weibull 분포에 대한 검정은 Weibull 변수의 로그가 Gumbel 분포를 갖는다는 사실을 이용하여 얻을 수 있습니다.

비모수 k-표본 검정

프리츠 숄츠와 마이클 A. Stephens(1987)는 Anderson-Darling 분포 일치 척도에 기초하여 표본 크기가 다를 수 있는 다수의 임의 표본이 동일한 분포에서 발생했을 수 있는지 여부에 대한 검정을 논의합니다.[8] R 패키지 kSample과 Python 패키지 Scipy는 k 샘플을 여러 다른 순위 테스트 간에 비교하기 위해 이 순위 테스트를 구현합니다.[9][10]

샘플의 경우 번째 샘플의 분포 함수 가 연속이라는 가정 하에 다음과 같이 통계량을 계산할 수 있습니다.

어디에

  • 에서 i i번째 샘플의 관측치 수
  • (는) 모든 표본의 총 관측치 수입니다.
  • < < Z N {\Z_{1< Z_{N}}는 풀링된 주문 샘플입니다.
  • 번째 샘플에서 보다 크지 않은 관측치 수입니다[8]

참고 항목

참고문헌

  1. ^ a b c d Stephens, M. A. (1974). "EDF Statistics for Goodness of Fit and Some Comparisons". Journal of the American Statistical Association. 69 (347): 730–737. doi:10.2307/2286009. JSTOR 2286009.
  2. ^ a b c M. A. Stephens (1986). "Tests Based on EDF Statistics". In D'Agostino, R. B.; Stephens, M. A. (eds.). Goodness-of-Fit Techniques. New York: Marcel Dekker. ISBN 0-8247-7487-6.
  3. ^ Anderson, T. W.; Darling, D. A. (1952). "Asymptotic theory of certain "goodness-of-fit" criteria based on stochastic processes". Annals of Mathematical Statistics. 23 (2): 193–212. doi:10.1214/aoms/1177729437.
  4. ^ Anderson, T.W.; Darling, D.A. (1954). "A Test of Goodness-of-Fit". Journal of the American Statistical Association. 49 (268): 765–769. doi:10.2307/2281537. JSTOR 2281537.
  5. ^ Razali, Nornadiah; Wah, Yap Bee (2011). "Power comparisons of Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors and Anderson–Darling tests". Journal of Statistical Modeling and Analytics. 2 (1): 21–33.
  6. ^ a b Ralph B. D'Agostino (1986). "Tests for the Normal Distribution". In D'Agostino, R.B.; Stephens, M.A. (eds.). Goodness-of-Fit Techniques. New York: Marcel Dekker. ISBN 0-8247-7487-6.
  7. ^ a b Marsaglia, G. (2004). "Evaluating the Anderson-Darling Distribution". Journal of Statistical Software. 9 (2): 730–737. doi:10.18637/jss.v009.i02.
  8. ^ a b Scholz, F. W.; Stephens, M. A. (1987). "K-sample Anderson–Darling Tests". Journal of the American Statistical Association. 82 (399): 918–924. doi:10.1080/01621459.1987.10478517.
  9. ^ "kSamples: K-Sample Rank Tests and their Combinations". R Project.
  10. ^ "The Anderson-Darling test for k-samples. Scipy package".

더보기

  • 코더, G.W., 포맨, D.I. (2009)비통계학자에 대한 비모수 통계량: 단계적 접근 Wiley, ISBN 978-0-470-45461-9
  • 메타, S. (2014) 통계 항목 ISBN 978-1499273533
  • 피어슨 E.S., 하틀리, H.O. (편집자) (1972) 통계학자를 위한 바이오메트리카 테이블, Volume II. CUP. ISBN 0-521-06937-8
  • Shapiro, S.S. (1980) 정규성 및 기타 분포 가정을 검정하는 방법 In: ASQC 품질관리의 기본 참조사항: 통계기법 3, pp. 1–78.
  • Shorack, G.R., Wellner, J.A. (1986) 통계에 적용된 경험적 과정, Wiley. ISBN 0-471-86725-X.
  • Stephens, M.A. (1979) 경험적 분포 함수에 기초한 로지스틱 분포에 대한 적합도 검정, Biometrika, 66(3), 591–5.

외부 링크