시험의 힘
Power of a test![]() |
이항 가설 검정의 통계적 힘은 특정 대립 가설( 이 참일 때 검정에서 귀무 가설( 을 정확하게 기각할 확률이다.일반적으로 - 로 표시되며, 탐지할 효과의 실제 존재를 조건으로 하는 "진정한 양성" 검출 가능성을 나타낸다.통계적 검정력은 0부터 1까지이며, 검정력이 증가함에 따라 귀무 가설을 기각하지 않음으로써 유형 II 오류를 범할 확률 이 감소한다.null
표기법
이 글은 다음과 같은 표기법을 사용한다.
- β = 유형 II 오류의 확률, "거짓 음성"으로 알려져 있음
- 1-β = "진정한 양의" 확률, 즉 귀무 가설을 올바르게 기각하는 확률."1-β"는 시험의 힘으로도 알려져 있다.
- α = "허위 양성"으로 알려진 제1종 오류의 확률
- 1-α = "진정한 음수"의 확률, 즉 귀무 가설을 올바르게 거부하지 않음
설명
타입 II 오류 확률 β의 경우 해당 통계적 힘은 1 - β이다.예를 들어 실험 E의 통계적 검정력이 0.7이고 실험 F의 통계적 검정력이 0.95라면 실험 F보다 실험 E의 유형 II 오류가 있을 확률이 더 높다.이것은 중요한 효과를 감지하기 위한 실험 E의 민감도를 감소시킨다.그러나 실험 E는 유형 I 오류의 확률이 낮기 때문에 결과적으로 실험 F보다 더 신뢰할 수 있다.그것은 사실일 때 대립 가설( 의 수용 확률, 즉 특정 효과를 탐지하는 시험의 능력(특정 효과가 실제로 존재하는 경우)으로 동등하게 생각할 수 있다.그러므로,
If is not an equality but rather simply the negation of (so for example with for some unobserved population parameter we have simply ) 그러면 귀무 가설을 위반하는 모수의 가능한 모든 값에 대해 확률을 알 수 없는 한 검정력을 계산할 수 없다.따라서 일반적으로 특정 대립 가설에 대한 검정력을 가리킨다.null
검정력이 증가하면 1 - β에 해당하므로 거짓 음률(β)이라고도 하는 II형 오차의 확률이 감소한다. 유사한 개념은 I형 오차 확률로, 귀무 가설에서 거짓 양률 또는 검정 수준이라고도 한다.null
이항 분류의 맥락에서, 시험의 검정력을 통계 민감도, 진정한 양성 비율 또는 검출 확률이라고 한다.null
전력분석
관련 개념은 "전력 분석"이다.전력 분석은 특정 크기의 효과를 탐지할 가능성이 합리적으로 있을 수 있도록 필요한 최소 표본 크기를 계산하는 데 사용할 수 있다.예를 들어, "동전을 몇 번이나 던져야 어느 정도 조작되었다고 결론을 내릴 수 있는가?"[1]검정력 분석은 주어진 표본 크기를 사용하여 연구에서 검출될 가능성이 있는 최소 효과 크기를 계산하는 데도 사용할 수 있다.또한 검정력의 개념은 서로 다른 통계적 시험 절차(예: 동일한 가설에 대한 모수 검정과 비모수 검정)를 비교하는 데 사용된다.null
경험 법칙
Lehr의[2][3] (경계) 엄지손가락 규칙은 전력 80%( 0.{\=2 및 유의 0.{\= 0.05인 양면 2-표본 t 의 표본크기 n {\은 다음과 같아야 한다고 말한다.
여기서 은 모집단 분산과 d = 1 - {\d=\ 두 표본의 평균값에서 측정될 차이.하나의 샘플 t-테스트 16을 8로 교체해야 한다.경험치 법칙의 장점은 쉽게 외울 수 있고 을(를) 위해 재배열할 수 있다는 것이다 항상 엄격한 분석을 위해 풀 파워 분석을 수행해야 한다.null
배경
통계적 테스트는 통계 모집단을 평가하거나 추론하기 위해 표본의 데이터를 사용한다.2-표본 비교의 구체적인 설정에서 목표는 두 하위 항목에서 개인에 대해 얻은 일부 속성의 평균 값이 다른지 여부를 평가하는 것이다.예를 들어, 시험에서 남성과 여성의 평균 점수가 다르지 않다는 귀무 가설을 시험하기 위해, 남성과 여성의 표본이 그려지고, 그들에게 시험을 시행하며, 한 그룹의 평균 점수를 2-표본 z-검정과 같은 통계적 시험을 사용하여 다른 그룹의 평균 점수와 비교한다.검정의 검정력은 검정이 남성과 여성 사이에 통계적으로 유의한 차이를 발견할 확률을 두 모집단 사이의 실제 차이 크기의 함수로 나타낸다.null
전력에 영향을 미치는 요인
통계적 힘은 여러 요인에 따라 달라질 수 있다.일부 요인은 특정 시험 상황에 특수할 수 있지만 최소한 힘은 다음 세 가지 요인에 거의 항상 의존한다.
유의성 기준은 효과가 없다는 귀무 가설이 참일 경우 귀무 가설을 기각하기 위해 양성 결과가 얼마나 가능성이 낮아야 하는지에 대한 진술이다.가장 일반적으로 사용되는 기준은 0.05(5%, 20명 중 1), 0.01(1%, 100명 중 1), 0.001(0.1%, 1000명 중 1)의 확률이다.기준이 0.05인 경우, 귀무 가설이 참일 때 적어도 관측된 효과만큼의 영향을 암시하는 데이터의 확률은 0.05보다 작아야 효과가 없다는 귀무 가설을 기각할 수 있다.시험의 검정력을 증가시키는 한 가지 쉬운 방법은 더 큰 유의성 기준(예: 0.05 대신 0.10)을 사용하여 덜 보수적인 시험을 수행하는 것이다.이것은 귀무 가설이 거짓일 때 귀무 가설을 기각할 확률을 증가시킨다. 즉, 유형 II 오류의 위험을 감소시킨다(효과 존재 여부에 대한 거짓 음성).그러나 그것은 또한 귀무 가설이 거짓이 아닐 때 통계적으로 유의한 결과를 얻을 위험도 증가시킨다. 즉, 유형 I 오류의 위험도 증가시킨다(거짓 긍정).null
모집단에 대한 관심 효과의 크기는 더 큰 효과를 탐지할 수 있는 더 큰 힘이 있는 경우 효과 크기의 관점에서 정량화할 수 있다.효과 크기는 관심 수량의 직접적인 값이 될 수도 있고, 모집단의 변동성도 설명하는 표준화된 척도가 될 수도 있다.For example, in an analysis comparing outcomes in a treated and control population, the difference of outcome means would be a direct estimate of the effect size, whereas would be an estimated 표준화된 효과 크기, 여기서 σ }은는) 처리 그룹 및 제어 그룹에 있는 결과의 공통 표준 편차다.적절히 구성하면 표본 크기와 함께 표준화된 효과 크기가 검정력을 완전히 결정한다.표준화되지 않은(직접) 효과 크기는 측정값의 변동성에 대한 정보를 포함하지 않기 때문에 검정력을 결정하기에 충분하지 않다.null
표본 크기는 시험 결과에 내재된 표본오차의 양을 결정한다.다른 것들은 동일하지만, 작은 표본에서는 효과를 발견하기가 더 어렵다.표본 크기를 늘리는 것이 종종 시험의 통계적 힘을 증가시키는 가장 쉬운 방법이다.표본 크기가 증가하여 검정력이 높아지는 것은 예를 들어 주어진 검정력에 필요한 표본 크기 등 시험 효율의 척도다.[4]null
데이터가 측정되는 정밀도는 통계적 힘에도 영향을 미친다.따라서 데이터의 측정 오차를 줄임으로써 전력을 개선할 수 있는 경우가 많다.관련 개념은 (심리학적 신뢰도와 마찬가지로) 평가되고 있는 측정치의 "신뢰성"을 개선하는 것이다.null
실험이나 관찰 연구의 설계는 종종 힘에 영향을 미친다.예를 들어, 주어진 총 표본 크기가 n인 2-표본 검정 상황에서는 비교되는 두 모집단의 관측치 수가 같은 것이 가장 좋다(두 모집단의 분산이 동일한 한).회귀 분석과 분산 분석에는 모형의 독립 변수 값을 최적으로 설정하여 검정력을 향상시키기 위한 광범위한 이론과 실용적인 전략이 있다.null
해석
전력에 대한 공식적인 표준은 없지만(때로는 π라고도[citation needed] 함) 대부분의 연구자들은 적정성의 표준으로 π = 0.80을 사용하여 시험의 검정력을 평가한다.이 협약은 β-위험과 α-위험 사이의 4대1 교환을 의미한다.(β는 타입 II 오류의 확률이고, α는 타입 I 오류의 확률이며, 0.2와 0.05는 β와 α의 재래식 값이다.)그러나 이 4대 1의 가중치가 부적절할 때가 있을 것이다.예를 들어 의학에서 시험은 종종 거짓 부정(타입 II 오류)이 발생하지 않는 방식으로 설계된다.그러나 이는 필연적으로 거짓 양성(타입 I 오류)을 얻을 위험을 높인다.그 근거는 건강한 환자에게 "모든 것이 잘 되어 있다"고 말하는 것보다 "우리가 뭔가를 발견했을지도 몰라. 더 자세히 테스트해보자"고 말하는 것이 낫다는 것이다.[5]
전력 분석은 잘못된 귀무 가설을 올바르게 기각하는 것에 대한 우려일 때 적절하다.많은 맥락에서, 이 문제는 차이가 있는지 없는지를 결정하는 것이 아니라 오히려 인구 효과 크기에 대한 더 정교한 추정치를 얻는 것이다.예를 들어 지능과 직무 수행 사이의 모집단 상관관계가 0.50 정도일 것으로 예상했다면, 표본 크기가 20이면 0 상관이라는 귀무 가설을 기각할 수 있는 검정력(α = 0.05, 양꼬리)이 대략 80%에 이를 것이다.그러나, 이 연구를 수행함에 있어서 우리는 아마도 상관관계가 0.30인지 0.60인지 0.50인지를 아는 데 더 관심이 있을 것이다. 이러한 맥락에서 우리는 우리의 추정치의 신뢰 구간을 우리의 목적에 허용되는 범위로 줄이기 위해 훨씬 더 큰 표본 크기를 필요로 할 것이다.기존의 검정력 분석에서 사용된 것과 유사한 기법을 사용하여 신뢰 구간의 폭이 주어진 값보다 작도록 필요한 표본 크기를 결정할 수 있다.null
많은 통계적 분석은 미지의 수량의 추정을 포함한다.간단히 말해서, 이 수량들 중 하나를 제외한 모든 것이 성가신 매개변수들이다.이 설정에서 유일한 관련 힘은 공식적인 통계 추론을 거치게 될 단일 수량에 관한 것이다.일부 설정에서, 특히 목표가 더 "설명적"인 경우, 분석에 많은 양의 관심이 있을 수 있다.예를 들어 다중 회귀 분석에서는 잠재적 관심 공변량을 여러 개 포함할 수 있다.이와 같이 여러 가지 가설이 고려되고 있는 상황에서는, 다른 가설에 관련된 힘이 다른 것이 일반적이다.예를 들어, 다중 회귀 분석에서 주어진 크기의 효과를 탐지하는 힘은 공변량의 분산과 관련이 있다.공변량마다 분산이 다르기 때문에 힘도 다를 것이다.null
여러 가지 가설을 포함하는 모든 통계적 분석은 적절한 조치를 취하지 않을 경우 제1종 오류율의 인플레이션에 노출된다.그러한 측정에는 일반적으로 시행 중인 다중 비교(예: Bonferroni 방법에서와 같이)를 보상하기 위해 가설을 기각하기 위해 높은 수준의 엄격성 임계값을 적용하는 것이 포함된다.이러한 상황에서 전력 분석에는 사용할 다중 시험 접근법이 반영되어야 한다.따라서 예를 들어, 주어진 연구는 한 번의 시험만 수행될 때 특정 효과 크기를 감지하기 위해 잘 동력을 공급받을 수 있지만, 여러 번의 시험을 수행할 경우 동일한 효과 크기가 훨씬 더 낮은 전력을 가질 수 있다.null
가설 검정의 결과를 해석할 때는 가설 검정의 통계적 검정력을 고려하는 것도 중요하다.검정력은 귀무 가설이 거짓일 때 올바르게 기각될 확률이며, 검정력은 검정에 대한 유의 수준 선택, 측정되는 효과의 크기 및 사용 가능한 데이터의 양에 의해 영향을 받는다.예를 들어 t-검정으로 비교되는 두 모집단 사이에 실제 차이가 존재하지만 효과가 작고 표본 크기가 너무 작아서 효과를 무작위 찬스와 구별할 수 없는 경우 가설 검정은 귀무선을 기각하지 못할 수 있다.[6]예를 들어, 많은 임상 실험은 치료의 부작용의 차이를 탐지할 수 있는 낮은 통계적 힘을 가지고 있다. 왜냐하면 그러한 영향은 드물 수 있고 영향을 받는 환자의 수는 적기 때문이다.[7]null
사전 분석 vs 임시 분석
전력 분석은 (사전 전력 분석 또는 전진 전력 분석) 또는 (사후 전력 분석 또는 소급 전력 분석) 데이터가 수집되기 전에 수행될 수 있다.선행 전력 분석은 연구 이전에 수행되며, 일반적으로 적절한 전력을 얻기 위한 충분한 표본 크기를 추정하는 데 사용된다."관찰력"의 사후 분석은 연구가 완료된 후에 수행되며, 표본의 효과 크기가 모집단의 효과 크기와 동일하다고 가정하여 얻은 표본 크기와 효과 크기를 사용하여 연구에 사용된 검정력을 결정한다.실험 설계에서 전진 전력 분석의 효용은 보편적으로 수용되는 반면에, 임시 전력 분석 후의 전력 분석은 근본적으로 결함이 있다.[8][9]힘을 추정하기 위해 수집된 데이터의 통계적 분석을 사용하려는 유혹에 빠지는 것은 비정보적이고 오해의 소지가 있는 값을 초래할 것이다.특히 포스트호크 '관찰력'은 획득한 p-값의 일대일 함수인 것으로 나타났다.[8]이는 모든 후기 전력 분석이 소위 "전력 접근 역설"(PAP)로 고통받고 있음을 보여주기 위해 확장되었는데, 이 연구는 실제 효과를 탐지할 수 있는 겉보기 힘이 더 높기 때문에 p-값이 작을 때 귀무 가설이 실제로 사실이라는 증거를 더 많이 보여주는 것으로 간주된다.[8]사실, 더 작은 p-값은 귀무 가설을 상대적으로 진실일 가능성이 덜하도록 적절하게 이해된다.[citation needed]null
적용
기금 조달 기관, 윤리 위원회 및 연구 검토 패널은 예를 들어 실험이 정보를 제공하는 데 필요한 동물 시험 대상의 최소 수를 결정하기 위해 연구자에게 전력 분석을 수행할 것을 자주 요청한다.빈번한 통계학에서, 저전력 연구는 원하는 유의 수준에서 가설들 중에서 선택할 수 있는 것을 허용하지 않는다.베이지안 통계에서 고전적 전력 분석에 사용된 유형의 가설 검정은 수행되지 않는다.베이지안 프레임워크에서는 주어진 연구에서 얻은 데이터를 사용하여 이전의 신념을 갱신한다.원칙적으로 가설 검사의 관점에서 저전력이라고 간주될 수 있는 연구는 그러한 갱신 과정에 여전히 사용될 수 있다.그러나 힘은 주어진 실험 크기가 얼마나 자신의 신념을 다듬을 것으로 기대할 수 있는지를 보여주는 유용한 척도로 남아 있다.저력을 가진 연구는 신념의 큰 변화를 이끌어낼 것 같지 않다.null
예
다음은 무작위 실험에 대한 검정력을 계산하는 방법을 보여 주는 예다.실험의 목적은 어떤 양에 대한 치료의 효과를 연구하고, 치료 전후의 양을 측정하여 연구 대상을 비교하고, 쌍체 t-검정을 사용하여 데이터를 분석하는 것이라고 가정합시다. A 와 는 각각 대상 에 대한 전처리 및 후처리 조치를 나타낸다치료의 가능한 효과는 모두 동일한 기대 평균 값과 분산을 가지고 독립적으로 분포한다고 가정하는 = - , 의 차이에서 볼 수 있어야 한다.null
치료의 효과는 단측 t-검정을 사용하여 분석할 수 있다.효과가 없다는 귀무 가설은 평균 차이가 0이 된다는 것이다. : = 이 경우 대립 가설은 H : > 테스트 통계량은 다음과 같다.
어디에
n은 표본 크기이고 / 이(가) 표준 오차입니다.귀무 가설에 따른 시험 통계량은 데이터가 동일하게 되어 있다는 추가적인 가정과 함께 학생 t-분포를 따르며 데이터가 하게 분포되어 인 은 과 D}^{ 나아가 귀무 가설이 유의 수준 = }에서 기각된다고 가정한다05 n은 크기 때문에 정규 분포의 누적 분포 함수의 역행인- 1 를 사용하여 t-분포를 대략적으로 계산할 수 있다.이 경우 귀무 가설은 기각되는 것으로 나타났다.
이제 대립 가설이 참이고 = =\D}=\ 라고 가정해 보자. 그러면 그 힘은
large 의 , D -^ / 는 대체 가설이 참일 때 대략 표준 정규 분포를 따를 수 있다.
이 공식에 따르면 . 매개 변수의 값에 따라 검정력이 증가함 의 특정 값은 표본 크기 n을 증가시켜 더 높은 검정력을 얻을 수 있다.
, 의 모든 값에 대해 충분한 큰 전력을 보장할 수 없기 때문에 은(는) 0에 매우 근접할 수 있다.전력의 최소(최소) 값은 이 예 0.05의 α, 의 신뢰 수준과 동일하지만, ∆= 과 () 작은 양의 값을 구별하는 것은 중요하지 않다. 검정력을 갖는 것이 바람직하다면(예: 0.90 이상) values> , 스타일 의 값을 검출하기 위해 필요한 표본 크기를 대략적으로 계산할 수 있다.
그 다음이 그것이다.
따라서, 퀀텀 함수 사용
여기서 . 은 (는) 표준 정규 분량이다. 과 (와) z 값 사이의 관계에 대한 설명은 Probit 문서를 참조하십시오.null
확장
베이지안 권력
빈도수 설정에서 매개변수는 사실일 가능성이 없는 특정 값을 갖는 것으로 가정한다.이 문제는 모수에 분포가 있다고 가정하여 해결할 수 있다.그 결과 발생하는 힘을 임상시험 설계에서 흔히 사용되는 베이시안 파워라고 부르기도 한다.null
성공의 예측 확률
빈번한 권력과 베이지안 권력은 모두 통계적 중요성을 성공 기준으로 사용한다.그러나 통계적 중요성이 성공을 정의하기에는 충분하지 않은 경우가 많다.이 문제를 해결하기 위해 전력 개념을 성공 예측 확률(PPOS) 개념으로 확장할 수 있다.PPOS의 성공 기준은 통계적 유의성에 국한되지 않으며 임상시험 설계에 일반적으로 사용된다.null
검정력 및 표본 크기 계산을 위한 소프트웨어
전력 및 표본 크기 계산을 수행하기 위해 수많은 자유 및/또는 오픈 소스 프로그램을 이용할 수 있다.여기에는 다음이 포함된다.
- G*파워(https://www.gpower.hhu.de/)
- WebPower Free 온라인 통계 전력 분석(https://webpower.psychstat.org)
- 무료 오픈 소스 온라인 계산기(https://powerandsamplesize.com)
- PowerUp!은 다양한 실험 및 준 실험 설계에 필요한 최소 검출 가능 효과 크기와 최소 필요 샘플 크기를 결정할 수 있는 편리한 엑셀 기반 기능을 제공한다.
- PowerUpR은 PowerUp!의 R 패키지 버전으로, 예산 제약이 있거나 없는 다양한 다단계 무작위 실험의 표본 크기를 결정하는 기능을 추가로 포함하고 있다.
- R 패키지 pwr
- R 패키지 WebPower
- Python 패키지 statsmodels(https://www.statsmodels.org/)
참고 항목
참조
- ^ "Statistical power and underpowered statistics — Statistics Done Wrong". www.statisticsdonewrong.com. Retrieved 30 September 2019.
- ^ Robert Lehr (1992), "SixteenS-squared overD-squared: A relation for crude sample size estimates", Statistics in Medicine (in German), vol. 11, no. 8, pp. 1099–1102, doi:10.1002/sim.4780110811, ISSN 0277-6715
- ^ van Belle, Gerald (2008-08-18). Statistical Rules of Thumb, Second Edition. Wiley Series in Probability and Statistics. Hoboken, NJ, USA: John Wiley & Sons, Inc. ISBN 978-0-470-37796-3.
- ^ Everitt, Brian S. (2002). The Cambridge Dictionary of Statistics. Cambridge University Press. p. 321. ISBN 0-521-81099-X.
- ^ Ellis, Paul D. (2010). The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results. United Kingdom: Cambridge University Press.
- ^ Ellis, Paul (2010). The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. Cambridge University Press. p. 52. ISBN 978-0521142465.
- ^ Tsang, R.; Colley, L.; Lynd, L.D. (2009). "Inadequate statistical power to detect clinically significant differences in adverse event rates in randomized controlled trials". Journal of Clinical Epidemiology. 62 (6): 609–616. doi:10.1016/j.jclinepi.2008.08.005. PMID 19013761.
- ^ a b c Hoenig; Heisey (2001). "The Abuse of Power". The American Statistician. 55 (1): 19–24. doi:10.1198/000313001300339897.
- ^ Thomas, L. (1997). "Retrospective power analysis" (PDF). Conservation Biology. 11 (1): 276–280.
원천
- Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). ISBN 0-8058-0283-5.
- Aberson, C.L. (2010). Applied Power Analysis for the Behavioral Science. ISBN 1-84872-835-2.