적합도

Goodness of fit

통계 모형의 적합도는 관측치 집합을 얼마나 잘 적합시키는지를 나타냅니다.적합도의 측도는 일반적으로 관측된 값과 해당 모형에서 예상되는 값 사이의 불일치를 요약합니다.이러한 척도는 통계 가설 검정(예: 잔차의 정규성 검정, 두 표본이 동일한 분포에서 추출되는지 여부(콜모고로프-스미르노프 검정 참조) 또는 결과 빈도가 지정된 분포를 따르는지(Pearson의 카이-제곱 검정 참조)에 사용할 수 있습니다.분산 분석에서 분산을 분할하는 성분 중 하나가 적합치 결여 제곱합일 수 있습니다.

분포의 적합도

주어진 분포가 데이터 세트에 적합한지 여부를 평가할 때 다음과 같은 검정과 기본 적합 측정을 사용할 수 있습니다.

회귀 분석

회귀 분석에서 다음 항목은 적합도와 관련이 있습니다.

범주형 데이터

다음은 범주형 데이터의 맥락에서 발생하는 예입니다.

피어슨의 카이-제곱 검정

Pearson의 카이-제곱 검정에서는 관측 결과 빈도(즉, 관측치 카운트)와 관측 결과 빈도 간의 차이를 합한 값인 적합도의 측도를 사용합니다. 각 값은 제곱하고 기대치로 나눕니다.

여기서:

  • Oi = bin i의 관측 카운트
  • Ei = 귀무 가설에 의해 주장되는 bin i에 대한 기대 카운트입니다.

예상되는 주파수는 다음과 같이 계산됩니다.

여기서:

  • F = 검정할 확률 분포에 대한 누적 분포 함수입니다.
  • Yu = 클래스 i의 상한,
  • Yl = 클래스 i의 하한 및
  • N = 표본 크기

결과 값을 카이-제곱 분포와 비교하여 적합도를 확인할 수 있습니다.카이-제곱 분포에는 (k - c) 자유도가 있습니다. 여기서 k는 비어 있지 않은 셀의 수이고 c는 분포에 대한 추정된 모수(위치 및 척도 모수 및 형상 모수 포함)의 수 + 1입니다.예를 들어 3-모수 Weibull 분포의 경우 c = 4입니다.

예: 남성과 여성의 동일한 주파수

예를 들어, 남성과 여성의 빈도가 동일한 모집단에서 100명의 랜덤 표본을 추출했다는 가설을 검정하기 위해, 관측된 남성과 여성의 수는 남성 50명과 여성 50명의 이론적 빈도와 비교될 것이다.만약 표본에 44명의 남자와 56명의 여자가 있었다면

귀무 가설이 참인 경우(예: 표본에서 남성과 여성이 동일한 확률로 선택됨) 검정 통계량은 자유도가 1개인 카이-제곱 분포에서 추출됩니다.2개의 자유도(남녀 각 1개)를 기대할 수 있지만, 남성과 여성의 총수가 제한되고(100개), 따라서 자유도는 1개(2-1개)밖에 없다는 것을 고려해야 한다.즉, 남성 카운트를 알 수 있는 경우 여성 카운트가 결정되며, 그 반대도 마찬가지입니다.

1 자유도에 대한 카이-제곱 분포의 자문 결과 모집단에서 남성과 여성의 수가 같을 경우 § { 스타일 } 이상의 차이를 관측할 누적 확률은 약 0.23이다.이 확률은 통계적 유의성에 대해 일반적으로 인정되는 기준(.001-.05)보다 높으므로, 일반적으로 모집단의 남성 수가 여성의 수와 같다는 귀무 가설을 거부하지 않는다(즉, 우리는 50/50 남성/여성에게 기대하는 범위 내에서 표본을 고려한다).e 비율)

샘플을 생성한 메커니즘이 남성과 여성 모두에 대해 0.5의 동일한 확률로 독립적 무작위 선택이라는 점에서 무작위라는 가정에 주목한다.예를 들어, 선택된 44명의 남성이 각각 남자 친구를 데려오고 56명의 여성이 각각 여자 친구를 데려왔을 경우 각각 ( - i 4배로 증가하는 반면, 각 E_})는 2배로 증가합니다.통계 값은 2.88로 두 배가 됩니다.이 기본 메커니즘을 알고 있기 때문에 당연히 짝을 세어야 합니다.일반적으로 메커니즘은 방어할 수 있는 랜덤이 아니더라도 알려지지 않습니다.따라서 검정 통계량을 참조해야 하는 분포는 카이-제곱과 매우 다를 수 있습니다.[5]

이항 케이스

이항 실험은 성공 또는 실패의 두 가지 결과 중 하나를 얻을 수 있는 일련의 독립적 시행입니다.성공 확률이 p로 표시되는 n개의 시행이 있습니다.모든i i(여기서 i = 1, 2, ..., k)에 대해 np 1 1이라고 가정하면,

이 값의 자유도는 k - 1인 카이-제곱 분포입니다.k - 1 자유도가 있다는 사실은 제한 {\ N_}=의 결과이다. 그러나 k - 1이 알려지면 나머지 세포 수는 고유하게 결정된다.기본적으로 자유롭게 결정되는 세포 수는 k - 1뿐이므로 k - 1 자유도라고 할 수 있다.

G테스트

G-검정은 이전에 Pearson의 카이-제곱 검정을 [6]권장한 상황에서 점점 더 많이 사용되는 통계적 유의성우도 비율 검정입니다.

G의 일반적인 공식은 다음과 같다.

})와textstyle E_{는 카이-제곱 테스트와 같으며 (\ 자연 로그를 나타내며, 합계는 비어 있지 않은 모든 셀에 대해 계산됩니다.또한 총 관측 카운트는 총 예상 카운트와 같아야 합니다.

서 N N 총 관측치 수입니다.

G-검정은 로버트 R.의 1981년판 통계교과서 이후 권장되고 있다. 소칼과 F. 제임스 롤프.[7]

「 」를 참조해 주세요.

레퍼런스

  1. ^ Liu, Qiang; Lee, Jason; Jordan, Michael (20 June 2016). "A Kernelized Stein Discrepancy for Goodness-of-fit Tests". Proceedings of the 33rd International Conference on Machine Learning. The 33rd International Conference on Machine Learning. New York, New York, USA: Proceedings of Machine Learning Research. pp. 276–284.
  2. ^ Chwialkowski, Kacper; Strathmann, Heiko; Gretton, Arthur (20 June 2016). "A Kernel Test of Goodness of Fit". Proceedings of the 33rd International Conference on Machine Learning. The 33rd International Conference on Machine Learning. New York, New York, USA: Proceedings of Machine Learning Research. pp. 2606–2615.
  3. ^ Zhang, Jin (2002). "Powerful goodness-of-fit tests based on the likelihood ratio" (PDF). J. R. Stat. Soc. B. 64 (2): 281–294. doi:10.1111/1467-9868.00337. Retrieved 5 November 2018.
  4. ^ Vexler, Albert; Gurevich, Gregory (2010). "Empirical Likelihood Ratios Applied to Goodness-of-Fit Tests Based on Sample Entropy". Computational Statistics and Data Analysis. 54 (2): 531–545. doi:10.1016/j.csda.2009.09.025.
  5. ^ Maindonald, J. H.; Braun, W. J. (2010). Data Analysis and Graphics Using R. An Example-Based Approach (Third ed.). New York: Cambridge University Press. pp. 116-118. ISBN 978-0-521-76293-9.
  6. ^ McDonald, J.H. (2014). "G–test of goodness-of-fit". Handbook of Biological Statistics (Third ed.). Baltimore, Maryland: Sparky House Publishing. pp. 53–58.
  7. ^ Sokal, R. R.; Rohlf, F. J. (1981). Biometry: The Principles and Practice of Statistics in Biological Research (Second ed.). W. H. Freeman. ISBN 0-7167-2411-1.

추가 정보

  • Huber-Carol, C.; Balakrishnan, N.; Nikulin, M. S.; Mesbah, M., eds. (2002), Goodness-of-Fit Tests and Model Validity, Springer
  • Ingster, Yu. I.; Suslina, I. A. (2003), Nonparametric Goodness-of-Fit Testing Under Gaussian Models, Springer
  • Rayner, J. C. W.; Thas, O.; Best, D. J. (2009), Smooth Tests of Goodness of Fit (2nd ed.), Wiley
  • Vexler, Albert; Gurevich, Gregory (2010), "Empirical likelihood ratios applied to goodness-of-fit tests based on sample entropy", Computational Statistics & Data Analysis, 54 (2): 531–545, doi:10.1016/j.csda.2009.09.025