경험적 분포 함수

Empirical distribution function
The green curve, which asymptotically approaches heights of 0 and 1 without reaching them, is the true cumulative distribution function of the standard normal distribution. The grey hash marks represent the observations in a particular sample drawn from that distribution, and the horizontal steps of the blue step function (including the leftmost point in each step but not including the rightmost point) form the empirical distribution function of that sample. (Click here to load a new graph.)
0과 1의 높이에 도달하지 않고 점근적으로 접근하는 녹색 곡선은 표준 정규 분포의 진정한 누적 분포 함수입니다.회색 해시 마크는 해당 분포에서 도출된 특정 샘플의 관측치를 나타내며 파란색 스텝 함수의 수평 스텝(각 스텝의 왼쪽 끝 점을 포함하지만 오른쪽 끝 점을 포함하지 않음)은 해당 샘플의 경험적 분포 함수를 형성합니다(새 그래프를 로드하려면 여기를 클릭하십시오).

통계학에서 경험적 분포 함수(일반적으로 경험적 누적 분포 함수, eCDF라고도 함)는 [1]표본경험적 측정과 관련된 분포 함수입니다.누적 분포 함수는 n개의 각 데이터 지점에서 1/n씩 증가하는 단계 함수입니다.측정 변수의 지정된 값에서 값은 지정된 값보다 작거나 같은 측정 변수의 관측치 비율입니다.

경험적 분포 함수는 표본에서 점을 생성한 누적 분포 함수의 추정치입니다.글리벤코-칸텔리 정리에 따르면, 이것은 확률 1과 함께 기본 분포로 수렴된다.기본 누적 분포 함수에 대한 경험적 분포 함수의 수렴 속도를 정량화하기 위한 많은 결과가 존재한다.

정의.

(X1, …, Xn)가 공통 누적 분포 함수 F(t)와 함께 독립적이고 동일한 분포의 실제 랜덤 변수라고 가정하자.그러면 경험적 분포 함수는 다음과 같이 정의된다[2][3].

서 1 A1 이벤트 A의 표시기입니다.고정 t의 경우 i t _ t 파라미터 p = F(t)의 베르누이 랜덤 변수이므로 F^ () {hat {)}이항 평균 NF의 이항 변수이다.즉, F( t)}이 F(t)의 바이어스 없는 추정치임을 합니다.

단, 일부 교과서에서는 정의가F ^ t ) n + 1 n 1 t { { { displaystyle {)= { 있습니다

의미하다

경험적 분포의 평균은 모집단 분포의 평균에 대한 편향되지 않은 추정치입니다.

으로 x로표시됨(\

분산

경험적 의 분산 -(\ 분산이 유한한 X 분포에 대해 모집단 분포의 편차를 추정하는 비편향적 지표이다.

평균 제곱 오차

경험 분포의 평균 제곱 오차는 다음과 같습니다.

추정치이고 알 수 없는 파라미터입니다.

분위수

에서 표기법 a ( " ceiling of a " ) \ \ } \ } ( " a" 로 읽음)는{ a 이상의 최소 정수를 나타냅니다. 임의의 실수 a 에 대해 표기법a a {\ \ { a ( " 로 읽음)는 "가장 큰 바닥" 로 읽음)를 나타냅니다.a보다 작거나 .

q { }가 정수가 아닌 q { q } - n ( ((\ _ { } )} if if if if if if if if if if if 。

정수인 q(\q) -번째 분위는 하지 않으며 다음과 같은 임의의 x(\x)입니다.

경험적 중위수

n n 홀수인 경험적 중위수는 다음과 같습니다.

n n 짝수인 경험적 중위수는 숫자입니다.

점근 특성

n이 무한대로 진행됨 따라 비(n + 1)/n이 1에 접근하기 때문에 위에 주어진 두 정의의 점근 특성은 동일합니다.

숫자의 법칙에 따라 ^(t ) \ \[2]t의 모든 값에 대해 거의 확실하게 n µ으로 F(t)로 수렴한다.

따라서 F^ () \ 일치한다.이 식은 경험적 분포 함수의 점별 수렴을 참 누적 분포 함수로 주장합니다.글리벤코-칸텔리 정리라고 불리는 더 강력한 결과가 있는데, 이것은 사실상 수렴이 [6]t에 걸쳐 균일하게 일어난다는 것을 말한다.

이 식에서 sup-norm은 경험적 F^ ( {과 가정된 진정한 누적 분포 함수 F 사이의 적합도를 테스트하기 위한 콜모고로프-스미르노프 통계량이라고 불린다.여기서는 sup-norm 대신 다른 norm 함수를 합리적으로 사용할 수 있습니다.예를 들어 L-노름2 Cramér-von Mises 통계량을 발생시킨다.

점근 분포는 몇 가지 다른 방법으로 더욱 특징지을 수 있습니다.첫째, 중심 한계 정리에 따르면 F^ () { 표준 [2]{ 수렴 속도로 점근 정규 분포를 가진다.

이 결과는 정리에 의해 확대됩니다 이 정리는 {\_{}{\}}n}-F은 수렴 분포에서 t 색인화된 함수로 간주되며, \t\{n에 의해 정의됩니다. + [ \ D [ - \ , + \ 0의 가우스 F F \ } = F여기서 B는 표준 Brownian [6]브리지입니다.이 가우스 과정의 공분산 구조는

돈스커 정리의 균일한 수렴 속도는 헝가리 [7]매립으로 알려진 결과로 수량화할 수 있다.

또는 n ^ - \ 수렴률도 이 식의 sup-norm의 점근 거동에 따라 정량화할 수 있다.이 장소에는 다수의 결과가 존재합니다.예를 들어 드보레츠키-키퍼-울포위츠 부등식은 provides F ^ - \ displaystyle \sqrt [7] 확률에 대한 경계를 제공합니다.

실제로 Kolmogorov는 누적분포함수 F가 연속적인 경우 F - F \ { n \ \ \{ F { } - \ { \ } B scriptstylestylestylestyle script \ \ \ \ \ \ script \ \ \ \ \ \ \ script \ \ \ \script \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \F의 형태에 의존하지 않는 orov 분포.

반복 로그의 법칙에 따른 또 다른 결과는 다음과 같다.

그리고.

신뢰 구간

정규 분포의 다양한 표본 크기에 대한 경험적 누적분포함수, 누적분포함수 및 신뢰 구간 그림

드보레츠키-키퍼-울포위츠 부등식에 따라 참 CDF { 포함하는 간격은 다음과 같이 지정된다

코시 분포의 다양한 표본 크기에 대한 경험적 누적분포함수, 누적분포함수 및 신뢰 구간 그림

위의 한계에 따라 통계적 구현 중 하나를 사용하여 다양한 분포에 대한 경험적 누적분포함수, 누적분포함수 및 신뢰 구간을 표시할 수 있습니다.다음은 경험적 분포를 그리기 위한 Statsmodel의 구문입니다.

삼각 분포의 다양한 표본 크기에 대한 경험적 누적분포함수, 누적분포함수 및 신뢰 구간 그림

통계적 구현

경험적 배포 기능의 소프트웨어 구현 목록은 다음과 같습니다.

  • R 소프트웨어에서는 이러한 "ecdf" 객체를 사용하여 플롯, 인쇄 및 계산하는 여러 방법을 사용하여 경험적 누적 분포 함수를 계산합니다.
  • 산술에서는 경험적 누적분포함수(cdf) 그림을 사용할 수 있습니다.
  • 누적분포함수 그림은 SAS의 jmp를 사용하여 경험적 누적분포함수의 그림을 생성합니다.
  • Minitab, 경험적 누적분포함수 생성
  • 산술파, 데이터에 확률 분포를 적합시킬 수 있습니다.
  • 데이터 플롯, 경험적 누적분포함수 그림을 그릴 수 있습니다.
  • Scipy, scipy.stats를 사용하여 분포를 표시할 수 있습니다.
  • Statsmodels, statsmodels.distributions.emirical_distribution을 사용할 수 있습니다.ECDF
  • Matplotlib, 히스토그램을 사용하여 누적 분포를 표시할 수 있습니다.
  • Seaborn, seaborn.ecdfplot 함수 사용
  • 플롯리, plotly.express.ecdf 함수 사용
  • Excel, 경험적 누적분포함수 그림을 그릴 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ A modern introduction to probability and statistics : understanding why and how. Michel Dekking. London: Springer. 2005. p. 219. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 유지보수: 기타 (링크)
  2. ^ a b c van der Vaart, A.W. (1998). Asymptotic statistics. Cambridge University Press. p. 265. ISBN 0-521-78450-6.
  3. ^ PlanetMath 2013년 5월 9일 Wayback Machine에서 아카이브
  4. ^ Coles, S. (2001) 극한값의 통계 모델링 입문.Springer, 36페이지, 정의 2.4.ISBN 978-1-4471-3675-0.
  5. ^ Madsen, H.O., Krenk, S., Lind, S.C. (2006) 구조 안전 방법.도버 출판사, 페이지 148-149ISBN 0486445976
  6. ^ a b van der Vaart, A.W. (1998). Asymptotic statistics. Cambridge University Press. p. 266. ISBN 0-521-78450-6.
  7. ^ a b c van der Vaart, A.W. (1998). Asymptotic statistics. Cambridge University Press. p. 268. ISBN 0-521-78450-6.

추가 정보

  • Shorack, G.R.; Wellner, J.A. (1986). Empirical Processes with Applications to Statistics. New York: Wiley. ISBN 0-471-86725-X.

외부 링크