Null 분포
Null distribution통계 가설 검정에서 귀무 분포는 귀무 가설이 참일 때 검정 통계량의 확률 분포다.[1]예를 들어, F-검정에서 null 분포는 F-분포다.[2]null 분포는 과학자들이 실험을 수행할 때 자주 사용하는 도구다.귀무 분포는 귀무 가설에서 두 데이터 집합의 분포다.두 데이터 집합의 결과가 기대 결과의 모수를 벗어나 있지 않으면 귀무 가설은 참이라고 한다.
적용 예
귀무 가설은 종종 실험의 일부분이다.귀무 가설은 두 가지 데이터 집합 중에서 다른 일을 하는 것과 반대로 한 가지 일을 한 결과 사이에 통계적 차이가 없음을 나타내려고 한다.예를 들어, 한 과학자는 하루에 2마일을 걷는 사람들이 하루에 2마일 미만을 걷는 사람들보다 건강한 심장을 가지고 있다는 것을 증명하려고 노력할 것이다.그 과학자는 이 귀무 가설을 이용하여 하루에 2마일을 걷는 사람들의 심장 건강을 시험해 보곤 했다.만약 그들의 심박수 사이에 차이가 없다면, 그 과학자는 시험 통계가 무효 분포를 따를 것이라고 말할 수 있을 것이다.그런 다음, 과학자들은 시험이 대체 분포를 따른다는 의미인 유의한 차이가 있는지 여부를 판단할 수 있었다.
null 배포 가져오기
가설 검정 절차에서 시험 통계량의 공동 분포를 형성하여 시험 및 관리 유형 I 오류를 수행할 필요가 있다.그러나 실제 분포는 종종 알려져 있지 않으며 데이터를 나타내기 위해 적절한 null 분포를 사용해야 한다.예를 들어, 1개의 표본과 2개의 표본 평균 시험은 가우스 null 분포를 갖는 t 통계량을 사용할 수 있고, F 통계량은 가우스 2차 분포를 갖는 모집단 평균의 k 그룹을 검정할 수 있다.[3]null 분포는 한계 null 분포에 기초하여 null 정량 변환 시험 통계량의 점증적 분포로 정의된다.[4]연습 중에 null 분포의 검정 통계량은 분포를 생성하는 알 수 없는 데이터에 의존하기 때문에 종종 알 수 없다.비모수 또는 모델 기반 부트스트랩과 같은 재샘플링 절차는 null 분포에 대한 일관된 추정기를 제공할 수 있다.무효 분포의 부적절한 선택은 시험 프로세스에서 타입 I 오류와 전력 특성에 상당한 영향을 미친다.시험 통계량 null 분포를 얻기 위한 또 다른 접근법은 null 분포 추정 생성 데이터를 사용하는 것이다.
표본 크기가 큰 Null 분포
null 분포는 대규모 시험에서 중요한 역할을 한다.표본 크기가 크면 좀 더 현실적인 경험적 null 분포를 구현할 수 있다.MLE 피팅 알고리즘을 사용하여 경험적 null을 생성할 수 있다.[5]베이지안 틀에서, 대규모 연구는 null 분포가 null이 아닌 상대방과 확률론적 맥락에 놓일 수 있도록 한다.표본 크기 n이 10,000개 이상과 같이 크면 경험적 null은 연구 자체의 데이터를 활용하여 적절한 null 분포를 추정한다.중요한 가정은 null 사례의 큰 비율( > 0.9) 때문에 데이터가 null 분포 자체를 나타낼 수 있다는 것이다.이론적인 null은 경우에 따라 실패할 수 있는데, 완전히 틀린 것은 아니지만 그에 따른 조정이 필요하다.대규모 데이터 세트에서는 이상적인 수학적 프레임워크로부터 데이터의 편차를 쉽게 찾을 수 있다. 예를 들어, 독립적이고 동일하게 분포된 (i.d.) 샘플.또한 샘플링 단위와 관찰되지 않은 공변량 사이의 상관관계는 이론적인 null 분포를 잘못 초래할 수 있다.[6]데이터에서 생성된 경험적 null 분포를 얻기 위해 다중 시험에서 순열법을 자주 사용한다.경험적 null 방법은 에프론 논문에서 중앙 매칭 알고리즘으로 도입되었다.[7]
순열법을 사용하여 몇 가지 점을 고려해야 한다.순열 방법은 순열의 표본 추출 과정이 독립성을 의미하고 I.d 가정을 요구하기 때문에 상관된 표본 추출 단위에 적합하지 않다.더욱이 문헌은 n이 커짐에 따라 순열 분포가 N(0,1)으로 빠르게 수렴된다는 것을 보여주었다.어떤 경우에는 경험 알고리즘에서 순열 null 대체 N(0,1)을 사용하여 순열 기법과 경험적 방법을 결합할 수 있다.[8]
참조
- ^ Staley, Kent W. An Introduction to the Philosophy of Science. 2014. p. 142. ISBN 9780521112499.
- ^ Jackson, Sally Ann. Random Factors in ANOVA. 1994. p. 38. ISBN 9780803950900.
- ^ 두도릿, S, M. J. 반 데어 라안."게노믹스에 응용하는 여러 가지 테스트 절차.2008."
- ^ 반 데르 라안, 마크 J, 앨런 E.허바드"재샘플링 기반 다중 시험에서의 수량 함수 기반 null 분포."유전학 및 분자생물학 5.1의 통계적 적용: 1199.
- ^ 에프론, 브래들리, 트레버 헤스티.컴퓨터 시대 통계 추론.케임브리지 대학 출판부, 2016.
- ^ 에프론, 브래들리대규모 추론: 추정, 시험 및 예측에 대한 경험적 베이즈 방법.케임브리지 대학 출판부, 2012.
- ^ 에프론, 브래들리"대규모 동시 가설 검정: 귀무 가설의 선택"미국통계협회지 제99.465호(2004) : 96-104.
- ^ 에프론, 브래들리대규모 추론: 추정, 시험 및 예측에 대한 경험적 베이즈 방법.케임브리지 대학 출판부, 2012.