재샘플링(통계)

Resampling (statistics)

통계정보에서 재샘플링은 다음 중 하나를 수행하기 위한 다양한 방법입니다.

  1. 사용 가능한 데이터의 하위 집합을 사용하거나(재킹), 데이터 점 집합에서 교체를 통해 랜덤으로 그려서(부트스트랩) 표본 통계의 정밀도(중간수, 분산, 백분위수) 추정
  2. 치환 테스트(재랜덤화 테스트)는 정확한 테스트입니다.유의성 검정을 수행할 때 데이터 점에 대한 레이블 교환
  3. 랜덤 서브셋을 사용한 모델 검증(부트스트래핑, 교차 검증)

부트스트랩

플러그인 원칙의 가장 좋은 예로서 부트스트랩 방식을 들 수 있습니다.

부트스트랩은 원래 표본에서 대체하여 표본 추출하여 추정기표본 분포를 추정하는 통계적 방법이며, 대부분의 경우 평균, 중위수, 비율, 오즈비, 상관 계수 또는 r과 같은 모집단 모수의 표준 오차신뢰 구간에 대한 강력한 추정치를 도출하는 것을 목적으로 한다.유출 계수표본에 기초한 경험적 분포에서 동일한 함수를 평가하여 모집단 분포의 함수를 추정하는 방법이라 하여 플러그인 [1]원리라고 불린다.

예를 들어,[1] 방법은 모집단 평균을 추정할 때 표본 평균을 사용하고, 모집단 중위수를 추정하기 위해 표본 중위수를 사용하며, 모집단 회귀선을 추정하기 위해 표본 회귀선을 사용합니다.

가설 검정 구성에도 사용할 수 있습니다.이러한 가정이 의심스럽거나 표준 오차 계산을 위해 파라메트릭 추론이 불가능하거나 매우 복잡한 공식이 필요한 경우 파라메트릭 가정에 기초한 추론의 강력한 대안으로 자주 사용된다.부트스트랩 기술은 또한 입자 필터, 유전자 유형 알고리즘계산 [2][3]물리학에서 사용되는 관련 재샘플/재구성 몬테카를로 방법의 업데이트-선택 전환에도 사용된다.이러한 맥락에서 부트스트랩은 순차적 경험적 가중 확률 측정을 경험적 측정으로 대체하기 위해 사용된다.부트스트랩을 사용하면 무게가 작은 샘플을 무게가 큰 샘플의 복사본으로 대체할 수 있습니다.

잭나이프

잭나이핑(Jackknifing)은 통계적 추론에 사용되며 랜덤 관측치 표본을 사용하여 통계량의 치우침과 표준 오차(분산)를 추정할 때 사용됩니다.역사적으로 이 방법은 1949년 퀴누이(Quenouille)가 이 방법을 발명하고 1958년 [4][5]Tukey가 이를 확장하면서 부트스트랩의 발명에 선행했다.이 방법은 1946년 무작위로 [6]선택한 표본의 절반을 사용하여 관심 통계의 반복 추정치를 제안한 Mahalanobis에 의해 암시되었다.그는 이 방법을 위해 '간섭 샘플'이라는 이름을 만들었다.

Quenouille은 표본 추정의 편향을 줄이기 위해 이 방법을 발명했습니다.Tukey는 반복실험을 동일하고 독립적으로 분포할 수 있는 경우 표본 모수의 분산에 대한 추정치를 작성할 수 있으며 자유도가 n-1인 t 변량(n은 표본 크기)으로 근사적으로 분포한다고 가정하여 이 방법을 확장했습니다.

잭나이프 분산 추정기의 기본 개념은 표본 집합에서 한 번에 하나 이상의 관측치를 제외하고 통계 추정치를 체계적으로 다시 계산하는 것입니다.이 통계량의 새로운 반복실험으로부터 치우침에 대한 추정치와 통계량의 분산에 대한 추정치를 계산할 수 있습니다.

잭나이프를 사용하여 분산을 추정하는 대신 분산 로그에 적용할 수 있습니다.이러한 변환을 통해 특히 분산 분포 자체가 정규 분포를 따르지 않을 경우 더 나은 추정치를 얻을 수 있습니다.

많은 통계 모수의 경우 잭나이프 분산 추정치는 거의 확실하게 실제 값에 점근적으로 도달하는 경향이 있습니다.기술적인 용어로 잭나이프 견적이 일치한다고 말한다.잭나이프는 표본 평균, 표본 분산, 중심 및 비중심 t-통계량(비정규 모집단일 수 있음), 표본 변동 계수, 최대우도 추정기, 최소 제곱 추정기, 상관 계수회귀 계수에 대해 일관됩니다.

표본 중위수에 대해 일관성이 없습니다.단일 변형의 경우 표본 분산에 대한 잭나이프 분산의 비율은 자유도가 두 인 카이 제곱 분포의 절반으로 분포되는 경향이 있습니다.

잭나이프는 원래 부트스트랩과 마찬가지로 데이터의 독립성에 의존합니다.데이터에 의존할 수 있도록 잭나이프의 확장이 제안되었습니다.

또 다른 확장으로는 포아송 표본 추출과 관련하여 사용되는 그룹 삭제 방법이 있습니다.

Jackknife는 아래에 설명된 랜덤(하위 표본 추출) 탈퇴-원아웃 교차 검증과 동일하며,[7] 목표만 다릅니다.

부트스트랩과 잭나이프의 비교

부트스트랩과 잭나이프 두 가지 방법 모두 모수적 가정이 아닌 하위표본 간 통계의 변동성으로부터 통계의 변동성을 추정한다.보다 일반적인 잭나이프(delete-m observations 잭나이프)의 경우 부트스트랩은 랜덤 근사치로 볼 수 있습니다.둘 다 유사한 수치 결과를 산출하기 때문에 각각은 다른 것에 대한 근사치로 볼 수 있다.수학적 통찰력에는 이론적인 차이가 크지만 통계 사용자의 주된 실질적인 차이는 부트스트랩이 동일한 데이터에 반복될 때 다른 결과를 제공하는 반면 잭나이프는 매번 정확히 동일한 결과를 제공한다는 것이다.이 때문에 잭나이프는 공식 통계 기관(예: 공식 통계 기관)을 발표하기 전에 추정치를 여러 번 검증해야 할 때 인기가 있다.한편, 이 검증 기능이 중요하지 않고 숫자가 아닌 분포의 개념에 관심이 있는 경우에는 부트스트랩이 선호된다(예: 물리학, 경제, 생물과학 연구).

부트스트랩과 잭나이프 중 어느 쪽을 사용할지는 설문조사의 통계적 우려보다는 운영적 측면에 따라 달라질 수 있습니다.잭나이프는 원래 치우침 감소에 사용되었으며, 특수 방법에 가까우며 점 추정기의 분산만 추정합니다.이는 기본적인 통계적 추론(예: 가설 검정, 신뢰 구간)에 충분할 수 있다.반면 부트스트랩은 먼저 (점 추정기의) 전체 분포를 추정하고 나서 분산을 계산합니다.파워풀하고 간단하지만 계산 부하가 높을 수 있습니다.

"부트스트랩은 분산 및 분산 추정 문제에 모두 적용할 수 있습니다.그러나 경험적 결과 측면에서 부트스트랩 분산 추정기는 잭나이프 또는 BRR(Balanced Repeated Replication) 분산 추정기만큼 좋지 않습니다.또한 부트스트랩 분산 추정기는 보통 잭나이프나 BRR보다 더 많은 계산이 필요합니다.따라서 부트스트랩은 주로 배포 [8]추정에 권장됩니다."

잭나이프, 특히 delete-1 관찰 잭나이프에는 특별한 고려사항이 있습니다.매끄럽고 구별 가능한 통계량(예: 총계, 평균, 비율, 홀수 비율, 회귀 계수 등)에만 사용해야 합니다. 중위수나 분위수와 함께 사용하면 안 됩니다.이것은 실질적인 단점이 될 수 있습니다.이 단점은 보통 잭나이핑보다 부트스트래핑을 선호하는 인수입니다.delete-m 잭나이프나 delete-all-but-2 Hodges delete-1보다 일반적인 잭나이프:Lehmann 추정기, 일관된 분산 추정에 대한 평활도 요구 사항을 완화하여 중위수 및 분위수에 대한 이 문제를 해결합니다.

일반적으로 잭나이프는 부트스트랩보다 복잡한 샘플링 방식에 쉽게 적용할 수 있습니다.복잡한 표본 추출 방식에는 계층화, 다단계(클러스터링), 다양한 표본 가중치(무응답 조정, 교정, 사후 계층화) 및 불평등 확률 표본 설계가 포함될 수 있다.부트스트랩과 잭나이프의 이론적인 측면은 Shao와 Tu(1995)[9]에서 볼 수 있으며, 기본적인 소개는 Wolter(2007)[10]에서 설명된다.모형 예측 편향의 부트스트랩 추정치는 선형 판별 함수 또는 다중 [11]회귀와 같은 선형 모형을 사용하는 잭나이프 추정치보다 정확합니다.

교차 검증

교차 검증은 예측 모형을 검증하기 위한 통계 방법입니다.데이터의 서브셋은 검증 세트로 사용할 수 있도록 보류됩니다.모델은 나머지 데이터(훈련 세트)에 적합하며 검증 세트의 예측에 사용됩니다.검증 세트 전체에서 예측 품질을 평균화하면 예측 정확도에 대한 전반적인 측정값이 산출됩니다.교차 검증은 의사결정 트리를 구축하는 데 반복적으로 사용됩니다.

교차 검증의 한 형태에서는 한 번에 하나의 관측치가 제외됩니다. 이는 잭나이프와 유사합니다.또 다른 K-폴드 교차 검증은 데이터를 K개의 서브셋으로 분할합니다.각 서브셋은 차례로 검증 세트로 제공됩니다.

이렇게 하면 "자기 영향"을 피할 수 있습니다.비교를 위해 선형 회귀 분석과 같은 회귀 분석 방법에서는 각 y 값이 회귀선을 자신 쪽으로 끌어당겨 해당 값의 예측이 실제보다 더 정확해 보입니다.선형 회귀 분석에 적용된 교차 검증은 해당 관측치를 사용하지 않고 각 관측치에 대한 y 값을 예측합니다.

이 값은 회귀 분석에서 사용할 예측 변수의 수를 결정하는 데 자주 사용됩니다.교차 검증을 사용하지 않을 경우 예측 변수를 추가하면 잔차 제곱합이 항상 감소하거나 변경되지 않을 수 있습니다.반면, 값진 예측 변수가 추가되면 교차 검증된 평균-제곱 오차는 감소하는 경향이 있지만 값 없는 예측 변수가 [12]추가되면 증가합니다.

서브샘플링

부분 표본 추출은 추정기의 표본 분포를 근사하기 위한 대체 방법입니다.부트스트랩과의 2가지 주요 차이점은 (i) 재샘플링 크기가 샘플사이즈보다 작다는 것과 (ii) 교환 없이 재샘플링을 한다는 것입니다.서브샘플링의 장점은 부트스트랩에 비해 훨씬 약한 조건에서도 유효하다는 것입니다.특히, 추정기의 수렴 속도가 알려져 있고 한계 분포가 연속적이라는 것이 일련의 충분한 조건이다. 또한, 재표본(또는 하위표본) 크기는 표본 크기와 함께 무한대인 경향이 있지만 비율이 0으로 수렴되도록 해야 한다.서브샘플링은 원래 독립적이고 균등하게 분포된(iid) 데이터의 경우에만 제안되었지만, 방법론은 시계열 데이터도 포함하도록 확장되었다. 이 경우 개별 데이터 지점이 아닌 후속 데이터의 블록을 다시 샘플링한다.서브샘플링이 유효한 추론을 이끌어내는 반면 부트스트래핑은 그렇지 않은 경우 많은 응용 사례가 있다. 예를 들어, 추정기의 수렴률이 표본 크기의 제곱근이 아니거나 한계 분포가 비정규적인 경우를 포함한다.서브샘플링과 부트스트랩이 모두 일치할 경우 일반적으로 부트스트랩이 더 정확합니다.LANSAC은 서브샘플링을 사용하는 일반적인 알고리즘입니다.

치환 테스트

치환 검정은 귀무 가설을 가정하여 원래 데이터를 다시 표본 추출하는 데 의존합니다.재샘플링된 데이터를 바탕으로 귀무 가설에서 원본 데이터가 발생할 가능성을 결론을 내릴 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b 로건, J. 데이비드와 월센스키, 윌리안 R.생물학에서의 수학적 방법.순수 및 응용 수학: Wiley-InterScience Texts, Monographes, Tracts 시리즈.John Wiley & Sons, Inc. 20096장: 통계적 추론.섹션 6.6: 부트스트랩 방식
  2. ^ Del Moral, Pierre (2004). Feynman-Kac formulae. Genealogical and interacting particle approximations. Probability and its Applications. Springer. p. 575. doi:10.1007/978-1-4684-9393-1. ISBN 978-1-4419-1902-1. Series: Probability and Applications
  3. ^ Del Moral, Pierre (2013). Mean field simulation for Monte Carlo integration. Chapman & Hall/CRC Press. p. 626. Monographs on Statistics & Applied Probability
  4. ^ Quenouille, M. H. (1949). "Approximate Tests of Correlation in Time-Series". Journal of the Royal Statistical Society, Series B. 11 (1): 68–84. doi:10.1111/j.2517-6161.1949.tb00023.x. JSTOR 2983696.
  5. ^ Tukey, J. W. (1958). "Bias and Confidence in Not-quite Large Samples (Preliminary Report)". Annals of Mathematical Statistics. 29 (2): 614. JSTOR 2237363.
  6. ^ Mahalanobis, P. C. (1946). "Proceedings of a Meeting of the Royal Statistical Society held on July 16th, 1946". Journal of the Royal Statistical Society. 109 (4): 325–370. JSTOR 2981330.
  7. ^ Encyclopedia of Bioinformatics and Computational Biology: ABC of Bioinformatics. Elsevier. 2018-08-21. p. 544. ISBN 978-0-12-811432-2.
  8. ^ 샤오, J.와 투, D.(1995).잭나이프와 부트스트랩.Springer-Verlag, Inc., 페이지 281
  9. ^ Shao, J.; Tu, D. (1995). The Jackknife and Bootstrap. Springer.
  10. ^ Wolter, K. M. (2007). Introduction to Variance Estimation (Second ed.). Springer.
  11. ^ Verbyla, D.; Litvaitis, J. (1989). "Resampling methods for evaluating classification accuracy of wildlife habitat models". Environmental Management. 13 (6): 783–787. Bibcode:1989EnMan..13..783V. doi:10.1007/bf01868317. S2CID 153448048.
  12. ^ Verbyla, D. (1986). "Potential prediction bias in regression and discriminant analysis". Canadian Journal of Forest Research. 16 (6): 1255–1257. doi:10.1139/x86-222.

참고 문헌

  • 좋습니다, P. (2006) 재샘플링 방법.제3판Birkhauser.
  • 월터, K.M. (2007)분산 추정 소개제2판스프링거 주식회사
  • 피에르 델 모랄(2004).파인만-카크의 공식응용 프로그램, 스프링어, 직렬 확률 및 응용 프로그램을 포함한 계보 및 상호작용 입자 시스템.ISBN 978-0-387-20268-6
  • 피에르 델 모럴(2013).델 모럴, 피에르(2013).몬테카를로 통합을 위한 평균 필드 시뮬레이션.Chapman & Hall / CRC Press, 통계 및 적용 확률에 관한 모노그래프.ISBN 9781466504059

외부 링크

소프트웨어