다중 비교 문제

Multiple comparisons problem
데이터 준설로 생성된 우연의 예(스펠링 비 우승 단어의 글자 수와 독거미에 의해 죽은 미국 내 사람 수 사이의 상관관계를 보여준다). 같은 기간 동안 충분히 큰 변수 풀을 제공하면 인과관계가 없는 상관관계를 보여주는 그래프 쌍을 찾을 수 있다.

통계에서 다중 비교, 다중성 또는 다중 시험 문제통계적 추론을 동시에[1] 고려하거나 관측된 값에 기초하여 선택한 매개변수의 하위 집합을 주입할 때 발생한다.[2] 특정 분야에서는 룩엘세어 효과라고 알려져 있다.

추론이 많아질수록 잘못된 추론이 될 가능성이 크다. 이러한 문제를 해결하기 위해 여러 통계적 기법이 개발되었으며, 일반적으로 개별 비교를 위해 더 엄격한 유의성 임계값을 요구하여 추론 횟수를 보상한다.

역사

다중 비교의 문제는 1950년대에 투키셰페와 같은 통계학자들의 연구로 더 많은 관심을 받았다. 이후 수십 년 동안, 이 문제를 해결하기 위해 많은 절차가 개발되었다. 1996년 이스라엘에서 다중 비교 절차에 관한 첫 국제회의가 열렸다.[3]

정의

다중 비교는 통계 분석이 여러 개의 동시 통계 시험을 포함할 때 발생하며, 각 시험에는 "발견"을 산출할 가능성이 있다. 명시된 신뢰 수준은 일반적으로 개별적으로 고려되는 각 시험에만 적용되지만, 종종 동시 시험의 전체 가족에 대한 신뢰 수준을 갖는 것이 바람직하다.[4] 다중 비교를 보상하지 못하면 다음과 같은 예에서 예시한 바와 같이 중요한 실제 결과를 초래할 수 있다.

  • 그 치료가 학생들에게 글쓰기를 가르치는 새로운 방법이고, 통제력이 글쓰기를 가르치는 표준 방법이라고 가정해 보자. 두 그룹의 학생들은 문법, 철자법, 조직, 내용 등의 면에서 비교될 수 있다. 더 많은 속성이 비교될수록 랜덤 표본 추출 오류만으로 인해 처리 그룹과 대조군 그룹이 적어도 하나의 속성에 대해 서로 다른 것처럼 보일 가능성이 점점 높아진다.
  • 여러 가지 질병 증상 중 하나를 줄이는 측면에서 의 효능을 고려한다고 가정합시다. 더 많은 증상을 고려할수록 최소 한 가지 증상 측면에서 기존 약물보다 개선된 약물로 보일 가능성이 점점 높아지고 있다.

두 예제에서 비교 횟수가 증가함에 따라 비교 대상 집단이 적어도 하나의 속성 측면에서 서로 다른 것처럼 보일 가능성이 높아진다. 하나의 비교만을 수반하는 분석이 아니라 다중 비교를 수반하는 분석의 일부로 관찰되는 결과가 독립 데이터에 일반화될 것이라는 우리의 신뢰는 일반적으로 약해야 한다.

예를 들어, 한 번의 시험을 5% 수준에서 수행하고 해당 귀무 가설이 참인 경우 귀무 가설을 잘못 기각할 확률은 5%에 불과하다. 그러나 각각 100개의 시험을 5% 수준에서 수행하고 모든 해당 귀무 가설이 참일 경우 예상되는 부정확한 기각 횟수(오류 긍정 또는 유형 I 오류라고도 함)는 5이다. 검정이 통계적으로 서로 독립되어 있는 경우, 적어도 하나의 부정확한 기각이 발생할 확률은 약 99.4%이다.

다중 비교 문제는 신뢰 구간에도 적용된다. 95% 범위 확률 수준을 가진 단일 신뢰 구간은 표본의 95%에 있는 모수의 실제 값을 포함할 것이다. 그러나 100개의 신뢰 구간을 동시에 고려할 경우 각각 95%의 보장 확률을 갖는 경우 기대되는 비포장 구간 수는 5가 된다. 구간이 통계적으로 서로 독립되어 있는 경우, 적어도 하나의 구간이 모집단 모수를 포함하지 않을 확률은 99.4%이다.

복수의 통계적 시험에서 발생하는 거짓 양성률과 비 탐지권 비율의 인플레이션을 방지하기 위한 기법이 개발되었다.

다중 가설 검정 분류

다음 표는 여러 귀무 가설을 검정할 때 가능한 결과를 정의한다. H1, H2, ..., Hm 표시된 귀무 가설의 숫자 m이 있다고 가정합시다. 통계적 테스트를 사용하여 해당 검정이 유의하다고 선언되면 귀무 가설을 기각한다. 만약 검정이 중요하지 않다면 우리는 귀무 가설을 기각하지 않는다. 모든 Hi 걸쳐 각 유형의 결과를 합산하면 다음과 같은 랜덤 변수가 발생한다.

귀무 가설 참(H0) 대립 가설 참(HA) 합계
테스트가 유의하다고 선언됨 V S R
검정이 중요하지 않은 것으로 선언됨 U T
합계 m
  • m은 가설을 검정한 총 수입니다.
  • (는) 알 수 없는 모수인 참 귀무 가설의 수입니다.
  • - (는) 진정한 대립 가설의 수입니다.
  • V잘못된 긍정(Type I error)의 수입니다("허위 검색"이라고도 함).
  • S는 참 긍정("참 발견"이라고도 함)의 수입니다.
  • T거짓 부정의 수입니다(타입 II 오류).
  • U진정한 부정의 수입니다.
  • = + (는) 거부된 귀무 가설의 수입니다(참 또는 거짓이라고도 함).

참 귀무 가설인 m 가설 검정에서 R은 관측 가능한 랜덤 변수, S, T, U, V는 관측할 수 없는 랜덤 변수다.

제어 절차

m 독립적 비교가 수행되는 경우, 다음과 같이 FWER(군별 오류율)가 주어진다.

따라서 테스트가 완전히 양적으로 의존하지 않는 한즉, 동일) 비교 횟수가 증가함에 따라 증가한다. 만약 우리가 그 비교가 독립적이라고 가정하지 않는다면, 우리는 여전히 다음과 같이 말할 수 있다.

부울의 불평등에서 비롯된다. 예:.= - (1- 0.) 6= 00. 6

가족 단위 오류율이 최대 임을 확인하는 방법은 다양하다 의존성과 분포적 가정이 없는 가장 보수적인 방법은 본페로니 보정 e p = / 가족위 방정식을 풀면 보수적인 보정을 얻을 수 있다.{ e o o o o {\ \에 대한 m 독립 비교 per comparison}}\}}}}{{{\을 산출하는데, 이를 시다크 보정이라고 한다 또 다른 절차는 Holm-Bonferroni 방식으로, 가장 엄격한 기준에 대해 최저 p-값(= 1 i만을 시험하고, 점진적으로 덜 엄격한 기준에 대해 높은 p-값(> i>만을 시험함으로써 단순한 Bonferroni 교정보다 더 많은 전력을 균일하게 전달한다.[5] { e r i = / ( m - i+ ) {\1

지속적인 문제의 경우 베이지안 논리를 사용하여 이전-후기 볼륨 비율에서 을(를) 계산할 수 있다. 본페로니 및 시다크 교정에 대한 지속적인 일반화가 제시되어 있다.[6]

다중시험수정

다중 시험 교정은 다중 시험 문제에 대응하기 위해 통계 시험을 보다 엄격하게 하는 것을 말한다. 그러한 조정으로 가장 잘 알려진 것은 본페로니 교정법이지만, 다른 방법들이 개발되었다. 이러한 방법은 일반적으로 가족 단위 오류율 또는 잘못된 발견률을 제어하기 위해 설계된다.

대규모 다중 테스트

다중 비교 조정을 위한 기존 방법은 종종 분산 분석에서 비교 횟수를 적당히 수정하는 데 초점을 맞추고 있다. 수천 개 이상의 시험을 수행하는 "대규모 다중 시험"을 위한 다른 기법이 개발되었다. 예를 들어 유전체학에서는 마이크로레이와 같은 기술을 사용할 때 수만 개의 유전자의 발현 수준을 측정할 수 있고, 수백만 개의 유전자 표지에 대한 유전자형을 측정할 수 있다. 특히 유전적 연관성 연구 분야에서 비복제에는 심각한 문제가 있었다. 그 결과는 한 연구에서 통계적으로 매우 유의하지만 후속 연구에서는 복제되지 않았다. 이러한 비복제는 여러 가지 원인이 있을 수 있지만, 다중 비교의 결과를 충분히 설명하지 못하는 것이 원인 중 하나라는 것이 널리 검토되고 있다.[7] 측정정보 기술의 발전으로 탐구 분석을 위한 대규모 데이터셋 생성이 훨씬 쉬워졌고, 종종 많은 가설들이 사실일 것으로 예상할 수 있는 사전 근거가 없는 다수의 가설들을 시험하게 되었다고 주장되어 왔다. 이러한 상황에서는 다중 비교 조정이 이루어지지 않는 한 매우 높은 거짓 양성률이 예상된다.

최종 결과를 제공하는 것이 목표인 대규모 시험 문제의 경우, 가족 단위 오류율은 유의 수준을 통계적 시험에 인용하기 위해 가장 많이 수용되는 매개변수로 남아 있다. 또는 어떤 연구를 탐색적 연구로 보거나, 독립적 연구에서 유의미한 결과를 쉽게 재시험할 수 있다면, 종종 잘못된 발견 비율(FDR)[8][9][10]에 대한 통제를 선호한다. FDR은 모든 유의한 시험 중 예상되는 거짓 양성 비율로 느슨하게 정의되어 후속 연구에서 더 엄격하게 평가할 수 있는 일련의 "잠재적 양성"을 확인할 수 있다.[11]

의미 있는 것을 찾기를 바라며 조정되지 않은 비교를 많이 시도하는 관행을, 본의 아니게 적용하든 고의적으로 적용하든 알려진 문제라 할 수 있는 경우가 종종 "p-hacking"이라고 부른다.[12][13]

대체 가설의 사실 여부 평가

귀무 가설에서 Z-점수로 표준화되어 있는 시뮬레이션된 검정 통계량에 대한 정규 분량 그림. 대각선을 따라 예상되는 추세에서 분포의 위쪽 꼬리가 벗어나는 것은 모든 귀무 가설이 사실인 경우 예상되는 것보다 훨씬 더 큰 시험 통계값이 존재하기 때문이다. 빨간색 점은 관측된 네 번째로 큰 검정 통계량인 3.13과 기대값인 2.06에 해당한다. 파란색 점은 다섯 번째로 작은 검정 통계량인 -1.75와 기대값인 -1.96에 해당한다. 그래프는 모든 귀무 가설들이 사실일 가능성은 낮으며, 진정한 대립 가설의 대부분의 또는 모든 예들은 긍정적인 방향으로의 편차에서 기인한다는 것을 암시한다.

많은 시험 결과를 분석하기 시작할 때 직면하는 기본적인 질문은 대안 가설 중 어느 것이 진실인지에 대한 증거가 있느냐 하는 것이다. 시험이 서로 독립적이라고 가정했을 때 적용할 수 있는 한 가지 간단한 메타 테스트는 모든 귀무 가설이 참일 때 발견될 특정 수준 α에서 유의한 결과의 수에 대한 모델로 포아송 분포를 사용하는 것이다.[citation needed] 관측된 양의 수가 예상해야 하는 것보다 상당히 많은 경우, 이는 유의한 결과들 사이에 진정한 양의 일부가 존재할 가능성이 있음을 시사한다. 예를 들어, 수준 α = 0.05에서 각각 1000개의 독립 시험을 수행할 경우, 모든 귀무 가설이 참일 때 0.05 × 1000 = 50개의 유의한 시험이 발생할 것으로 예상한다. 평균 50을 가진 포아송 분포를 기초로 61개 이상의 유의성 검정을 관측할 확률은 0.05보다 작으므로 61개 이상의 유의성 결과가 관측될 경우, 이들 중 일부는 대립 가설의 근거가 되는 상황에 해당할 가능성이 매우 높다. 이 접근법의 단점은 시험 통계가 실제로 흔히 발생하는 양적으로 상관되어 있을 때 일부 대안 가설들이 사실이라는 증거를 과장한다는 것이다.[citation needed] 한편, 포아송 분포가 유의한 결과 수에 대한 좋은 근사치를 제공할 수 있다는 것을 보여줄 수 있는 한, 이 접근법은 시험 통계량 사이의 상관관계가 있는 경우에도 유효하다. 예를 들어, 이 시나리오는 트랜잭션 데이터 집합에서 중요한 빈번한 항목 집합을 채굴할 때 발생한다. 또한, 신중한 2단계 분석은 사전 지정된 수준에서 FDR을 구속할 수 있다.[14]

시험 통계Z-점수로 표준화할 수 있는 상황에서 사용할 수 있는 또 다른 일반적인 접근법은 시험 통계량의 정규 분량 그림을 만드는 것이다. 관측된 분량이 정규 분량보다 현저히 더 분산된 경우, 이는 유의한 결과 중 일부가 참 양수일 수 있음을 시사한다.[citation needed]

참고 항목

주요개념
다중 비교를 위한 알파 조정의 일반 방법
관련개념

참조

  1. ^ Miller, R.G. (1981). Simultaneous Statistical Inference 2nd Ed. Springer Verlag New York. ISBN 978-0-387-90548-8.
  2. ^ Benjamini, Y. (2010). "Simultaneous and selective inference: Current successes and future challenges". Biometrical Journal. 52 (6): 708–721. doi:10.1002/bimj.200900299. PMID 21154895.
  3. ^ [1]
  4. ^ Kutner, Michael; Nachtsheim, Christopher; Neter, John; Li, William (2005). Applied Linear Statistical Models. pp. 744–745.
  5. ^ Aickin, M; Gensler, H (May 1996). "Adjusting for multiple testing when reporting research results: the Bonferroni vs Holm methods". Am J Public Health. 86 (5): 726–728. doi:10.2105/ajph.86.5.726. PMC 1380484. PMID 8629727.
  6. ^ Bayer, Adrian E.; Seljak, Uroš (2020). "The look-elsewhere effect from a unified Bayesian and frequentist perspective". Journal of Cosmology and Astroparticle Physics. 2020 (10): 009. arXiv:2007.13821. Bibcode:2020JCAP...10..009B. doi:10.1088/1475-7516/2020/10/009. S2CID 220830693.
  7. ^ Qu, Hui-Qi; Tien, Matthew; Polychronakos, Constantin (2010-10-01). "Statistical significance in genetic association studies". Clinical and Investigative Medicine. 33 (5): E266–E270. ISSN 0147-958X. PMC 3270946. PMID 20926032.
  8. ^ Benjamini, Yoav; Hochberg, Yosef (1995). "Controlling the false discovery rate: a practical and powerful approach to multiple testing". Journal of the Royal Statistical Society, Series B. 57 (1): 125–133. JSTOR 2346101.
  9. ^ Storey, JD; Tibshirani, Robert (2003). "Statistical significance for genome-wide studies". PNAS. 100 (16): 9440–9445. Bibcode:2003PNAS..100.9440S. doi:10.1073/pnas.1530509100. JSTOR 3144228. PMC 170937. PMID 12883005.
  10. ^ Efron, Bradley; Tibshirani, Robert; Storey, John D.; Tusher, Virginia (2001). "Empirical Bayes analysis of a microarray experiment". Journal of the American Statistical Association. 96 (456): 1151–1160. doi:10.1198/016214501753382129. JSTOR 3085878. S2CID 9076863.
  11. ^ Noble, William S. (2009-12-01). "How does multiple testing correction work?". Nature Biotechnology. 27 (12): 1135–1137. doi:10.1038/nbt1209-1135. ISSN 1087-0156. PMC 2907892. PMID 20010596.
  12. ^ Young, S. S., Karr, A. (2011). "Deming, data and observational studies" (PDF). Significance. 8 (3): 116–120. doi:10.1111/j.1740-9713.2011.00506.x.CS1 maint: 여러 이름: 작성자 목록(링크)
  13. ^ Smith, G. D., Shah, E. (2002). "Data dredging, bias, or confounding". BMJ. 325 (7378): 1437–1438. doi:10.1136/bmj.325.7378.1437. PMC 1124898. PMID 12493654.CS1 maint: 여러 이름: 작성자 목록(링크)
  14. ^ Kirsch, A; Mitzenmacher, M; Pietracaprina, A; Pucci, G; Upfal, E; Vandin, F (June 2012). "An Efficient Rigorous Approach for Identifying Statistically Significant Frequent Itemsets". Journal of the ACM. 59 (3): 12:1–12:22. arXiv:1002.1104. doi:10.1145/2220357.2220359.

추가 읽기

  • F. 베츠, T. 호톤, P. Westfall(2010), R, CRC 프레스를 사용한 다중 비교
  • S. Dudoit와 M. J. van der Laan(2008), Genomics에 적용되는 다중 시험 절차, 스프링거
  • Farcomeni, A. (2008). "A Review of Modern Multiple Hypothesis Testing, with particular attention to the false discovery proportion". Statistical Methods in Medical Research. 17 (4): 347–388. doi:10.1177/0962280206079046. PMID 17698936. S2CID 12777404.
  • Phipson, B.; Smyth, G. K. (2010). "Permutation P-values Should Never Be Zero: Calculating Exact P-values when Permutations are Randomly Drawn". Statistical Applications in Genetics and Molecular Biology. 9: Article39. arXiv:1603.05766. doi:10.2202/1544-6115.1585. PMID 21044043. S2CID 10735784.
  • P. H. Westfall 및 S. Young(1993), 재샘플링 기반 다중 시험: p-값 조정 예제방법, Wiley
  • P. 웨스트폴, R. Tobias, R. Wolfinger(2011) SAS, 2ed Edn, SAS Institute를 사용한 다중 비교다중 테스트
  • 데이터 준설로 얻을 수 없는 상관관계의 예시 갤러리