효율성(통계)
Efficiency (statistics)다양한 통계 절차 비교에서 효율은 추정기, 실험 [1]설계 또는 가설 검정 [2]절차의 품질 척도입니다.기본적으로 주어진 오차 성능을 달성하기 위해 더 효율적인 추정기, 실험 또는 검정은 덜 효율적인 관측치보다 더 적은 수의 관측치를 필요로 합니다.효율적인 추정기는 작은 분산 또는 평균 제곱 오차로 특징지어 추정된 값과 "참" 값 사이에 작은 편차가 있음을 나타냅니다.[1]
두 절차의 상대적 효율성은 효율성의 비율이지만, 이 개념은 종종 주어진 절차와 "가능한 최선의" 절차 간에 비교가 이루어지는 경우에 사용됩니다.두 절차의 효율성과 상대적 효율성은 이론적으로 주어진 절차에 사용할 수 있는 표본 크기에 따라 달라지지만, 종종 점근적 상대 효율성(표본 크기가 커질수록 상대 효율의 한계로 정의됨)을 주요 비교 척도로 사용할 수 있다.
견적자
매개변수 θ의 편향되지 않은 추정기 T의 효율은 다음과 같이 정의된다.
서I( )({는 샘플의 Fisher 정보입니다.따라서 e(T)는 편향되지 않은 추정치에 대해 가능한 최소 분산을 실제 분산으로 나눈 값입니다.Cramér-Rao 바운드를 사용하여 e(T) 1 1을 증명할 수 있습니다.
효율적인 평가기
효율적인 추정기는 "가능한 최선의" 방법으로 관심의 양을 추정하는 추정기입니다."최상의 가능성"의 개념은 다른 규모의 추정 오류의 상대적인 바람직하지 않은 정도를 수량화하는 함수인 특정 손실 함수의 선택에 의존한다.손실 함수의 가장 일반적인 선택은 2차이므로 최적성의 [4]평균 제곱 오차 기준이 됩니다.
일반적으로 파라미터 θ 주위에 추정기가 퍼지는 것은 추정기의 효율과 성능을 측정하는 척도이다.이 성능은 평균 제곱 오차를 찾아 계산할 수 있습니다.좀 더 형식적으로 T를 모수 θ의 추정기로 한다.T의 평균 제곱 오차는 µ ( ) [ ( - ) {{ \} (T) =E [ ( - \) ^{2 } 값이며, 분산과 바이어스의 합으로 분해할 수 있습니다.
추정기1 T는 ( ) < ( T) \ \} ( ) <\} (2} [5]의 경우 추정기212 T보다 성능이 좋다.이 경우 T의2 분산이 T의 분산보다1 작을 경우2 T가 T보다1 효율적입니다., 모든 값에 대해 var ( 1) > ) \ style {1입니다.이 관계는 위의 평균 제곱 오차에 대한 보다 일반적인 경우를 단순화함으로써 결정할 수 있습니다. 비편향 추정기의 기대값은 값과 같기 때문에 E [ ] { } [ T ] = \ 입니다. 따라서 비편향 추정기, ( )= = ) = = = = = = = = = = ( )( [ - ) [ - \ 용어가 0과 [5]같기 때문에 드롭됩니다.
파라미터 θ의 비바이어스 추정치가 파라미터의 모든 값에 대해e ( { e)=에 도달하면 추정치는 [3]효율적이라고 불립니다.
마찬가지로 추정기는 모든 θ에 대해 크라메르-라오 부등식을 동일하게 한다.크라메르-라오 하한은 편향되지 않은 추정치의 분산의 하한으로, 편향되지 않은 추정치가 될 수 있는 "최선"을 나타냅니다.
효율적인 추정기는 또한 최소 분산 불편 추정기(MVUE)이기도 합니다.이는 효율적인 추정치가 모든 모수 값에 대해 크라메르-라오 부등식에 대한 평등을 유지하므로, 이는 모든 모수(MVUE의 정의)에 대한 최소 분산에 도달한다는 것을 의미한다.MVUE 추정치는 존재하더라도 반드시 효율적인 것은 아니다. 왜냐하면 "최소"는 크라메르-라오 부등식에 평등이 유지된다는 것을 의미하지 않기 때문이다.
따라서 효율적인 추정기가 존재할 필요는 없지만 존재한다면 MVUE입니다.
유한 표본 효율
{ Pθ θ ∈ ∈ θ } }이(가) 모수 모형이고 X = (X1, …, Xn)가 이 모형에서 샘플링된 데이터라고 가정합니다.T = T(X)를 모수 θ의 추정치로 한다.이 추정치가 편향되지 않은 경우(즉, E[ T ] = δ), 크라메르-라오 부등식은 이 추정치의 분산이 아래에서 경계가 있다고 기술한다.
서 I는 ① 지점의 모델의 피셔 정보 매트릭스입니다.일반적으로 분산은 평균 주위에 있는 랜덤 변수의 분산 정도를 측정합니다.따라서 분산이 작은 추정기는 더 집중되어 모수를 더 정확하게 추정합니다.우리는 모든 δ δ에 대해 위의 크라메르-라오 부등식의 하한에 도달하는 경우 추정기는 유한 표본 효율적 추정기(편향되지 않은 추정기 클래스)라고 말한다. 효율적인 추정기는 항상 최소 분산 편향되지 않은 추정기이다.단, 그 반대는 false입니다.최소-분산 평균-편향되지 않은 추정기가 [6]비효율적인 점 추정 문제가 있습니다.
역사적으로 유한 표본 효율성은 초기 최적성 기준이었다.단, 이 기준에는 몇 가지 제한이 있습니다.
- 유한 표본 효율적인 추정치는 매우 희귀합니다.사실, 효율적인 추정이 지수 계열에서만 가능하고, 그 [citation needed]계열의 자연 매개변수에 대해서만 가능하다는 것이 입증되었다.
- 효율에 대한 이러한 개념은 때때로 편향되지 않은 추정치의 클래스로 제한됩니다(대부분 그렇지 않습니다).[7]추정치가 편중되지 않도록 요구하는 좋은 이론적 이유가 없기 때문에, 이 제한은 불편하다.실제로 평균 제곱 오차를 선택 기준으로 사용하는 경우, 많은 편향된 추정치가 "최고" 편향되지 않은 추정치를 약간 능가할 것입니다.예를 들어, 3차원 이상의 다변량 통계량에서 평균-편향 추정기, 표본 평균은 허용되지 않습니다. 결과에 관계없이 James보다 성능이 더 나쁩니다.– Stein Estimstator.[citation needed]
- 유한 표본 효율성은 추정치를 판단하는 기준으로서 분산을 기반으로 합니다.보다 일반적인 접근법은 2차 함수 이외의 손실 함수를 사용하는 것이며, 이 경우 유한 표본 효율성을 [citation needed][dubious ]더 이상 공식화할 수 없습니다.
예를 들어, 실제로 접하는 모형 중에는 정규 분포의 평균 μ(분산 δ가2 아님), 포아송 분포의 모수 θ, 이항 분포 또는 다항 분포의 확률 p에 대한 효율적인 추정기가 있습니다.
평균은 알 수 없지만 분산이 알려진 정규 분포의 모형을 고려합니다. { Pθ = N(θ, θ2) δ R }.데이터는 X = (x1, …, xn)의 이 모형에서 n개의 독립적이고 동일한 분포의 관측치로 구성됩니다.모든 관측치의 표본 평균을 사용하여 모수 θ를 추정합니다.
이 추정기의 평균 θ 및 분산은 표본의 Fisher 정보의 역수와 같은 θ2 / n입니다.따라서 표본 평균은 정규 분포의 평균에 대한 유한 표본 효율적인 추정기입니다.
점근 효율
일부 추정기는 점근적으로 효율성을 얻을 수 있으므로 점근적으로 효율적인 추정기라고 합니다.이는 일부 최대우도 추정치 또는 점근적으로 크라메르-라오 경계의 동일성에 도달하는 추정치의 경우일 수 있다.
예:중위수
displaystyle 의 샘플은 평균μ({ \mu})와 단위 분산()의 정규 분포에서 추출됩니다{})({mu)
, 은 다음과 같이 정의됩니다.
평균 1/N(표준 오차의 제곱)의 분산은 표본의 피셔 정보의 역수와 같으며, 따라서 크라메르-라오 부등식에 의해 표본 평균은 효율이 단일성(100%)이라는 점에서 효율적이다.
이제 샘플 X {X을를) 생각해 보겠습니다.이것은 μ {\에 치우침이 없고 일관된 추정값입니다.N(\\mu의 경우 샘플 중앙값은 μ(\}) 및 / N)으로 대략적으로 정규 분포되어 있습니다.
N(\ N의 중앙값 효율은 다음과 같습니다.
즉, 중위수의 상대적인 분산은 / 2 1.57 스타일 /1. 즉 평균의 분산보다 57% 더 크며, 중위수의 표준 오차는 [9]평균보다 25% 더 커집니다.
이것이 점근 효율, 즉 샘플 N(\ N의 한계 효율이 무한대에 이르는 경향이 있습니다.NN의 유한값의 효율이 보다 높습니다(예를 들어 샘플 크기가 3이면 효율이 약 74%[citation needed]입니다).
따라서 이 예제에서는 표본 평균이 표본 중위수보다 효율적입니다.그러나 중위수가 더 나은 성능을 발휘하는 측도가 있을 수 있습니다.예를 들어, 중위수는 특이치에 대해 훨씬 강력하므로 가우스 모델이 의심스럽거나 근사치인 경우 중위수를 사용하는 것이 유리할 수 있습니다(강력 통계 참조).
주요 추정치
가 {\({의 추정치인 ({1}})은 다음과 같은 T2({를 한다고 합니다.
- 평균 제곱 오차(MSE)가 최소 일부 인†(\ \보다 작습니다.
- MSE는 값 of에 대해 를 초과하지 .
정식적으로는 이 를 하고 .
한 불평등과 함께 모든 것을하고 있습니다
상대 효율
두 개의 편향되지 않은 추정치의 상대적 효율은 다음과 같이[10] 정의된다.
일반적으로\e는 \의 함수이지만 의 경우 종속성이 떨어집니다.이 경우 ee가 1보다 t1})의 참값에 관계없이 (\ 이 바람직함을 .
추정치를 비교하기 위한 상대적 효율의 대안으로 피트만 근접성 기준이 있다.이는 평균 제곱 오차의 비교를 한 추정치가 다른 추정치보다 실제 값에 가까운 추정치를 생성하는 빈도와 대체합니다.
가 {\({의 추정치인 ({1}})은 다음과 같은 T2({를 한다고 합니다.
- 평균 제곱 오차(MSE)가 최소 일부 인†(\ \보다 작습니다.
- MSE는 값 of에 대해 를 초과하지 .
정식적으로는 이 를 하고 .
한 불평등과 함께 모든 것을하고 있습니다
U.I.D. 변수 평균 추정기
상관 관계가 없는 동일한 분포 변수의 평균을 추정할 때, 합계의 분산이 분산의 합이라는 사실을 이용할 수 있습니다.이 경우 효율은 변동 계수의 제곱으로 정의할 수 있다.[11]
따라서 이러한 두 추정치의 상대적 효율성은 다른 추정치의 확실성을 달성하기 위해 필요한 표본의 상대적 크기로 해석할 수 있다.실증:
1 1 2 , 2 22 2 { { } = { s _ { } = 2}\ { 2 } n 2( style = { { } { { 2 } } { 2 }}추정기가 두 번째 분산과 일치해야 합니다.
견고성
분포가 변경되거나 종종 떨어지면 추정기의 효율성이 유의하게 변할 수 있습니다.예를 들어 표본 평균과 같은 추정기는 정규 분포의 모집단 평균에 대한 효율적인 추정기이지만, 분산이 같고 동일한 두 정규 분포의 혼합물 분포에 대한 비효율적인 추정기가 될 수 있습니다.예를 들어 분포가 98% N(μ, θ)과 2% N(μ, 10µ)의 조합인 경우, 후자의 분포에서 극단값(종종 "이상값 일치")이 존재하면 표본 평균의 효율성이 μ의 추정치로서 유의하게 감소한다.반면, 잘라낸 평균은 정규 분포에서는 덜 효율적이지만 분포의 변화에 따라 더 견고하므로(즉, 덜 영향을 받음) 혼합물 분포에서는 더 효율적일 수 있습니다.마찬가지로 왜도 또는 두꺼운 꼬리와 같은 분포의 모양은 대칭 분포 또는 얇은 꼬리를 가정하는 추정기의 효율성을 유의하게 떨어뜨릴 수 있습니다.
비효율적인 추정치의 사용
효율성은 추정치의 바람직한 품질이지만 다른 고려 사항과 비교해야 하며 특정 분포에 효율적인 추정치는 다른 분포에 대해 비효율적일 수 있습니다.가장 유의하게, 정규 분포(대칭, 단일 모형, 얇은 꼬리가 있음)와 같이 단순한 분포의 깨끗한 데이터에 효율적인 추정치는 특이치에 의한 오염에 강하지 않을 수 있으며 더 복잡한 분포에 대해서는 비효율적일 수 있습니다.견고한 통계에서는 단일 분포의 효율성보다 다양한 분포에 대한 견고성과 적용 가능성을 더 중요하게 생각합니다.M-추정기는 이러한 우려에 의해 동기부여된 일반적인 솔루션 클래스이며, 경우에 따라서는 기존 추정기보다 효율성이 낮을 수 있지만 견고성과 높은 상대적 효율성을 모두 산출한다.그러나 이것들은 잠재적으로 매우 계산적으로 복잡합니다.
보다 전통적인 대안은 L-추정기로, 이는 계산과 해석이 쉽고, 많은 경우 견고하며, 종종 초기 추정에 충분히 효율적인 매우 단순한 통계이다.자세한 내용은 L-Estimator의 응용 프로그램을 참조하십시오.
통계의 효율성
통계량의 효율성은 다양한 추정치의 성능을 비교할 수 있기 때문에 중요합니다.일반적으로 편향되지 않은 추정치가 편향된 추정치보다 선호되지만, 더 효율적인 편향된 추정치가 덜 효율적인 편향되지 않은 추정치보다 더 가치가 있을 수 있다.예를 들어, 편향된 추정기의 값이 참 값에 가까운 숫자 주위에 모이면 이러한 현상이 발생할 수 있습니다.따라서 평균 제곱 오차 또는 분산을 비교하여 추정기 성능을 쉽게 예측할 수 있습니다.
가설 검정
유의성 검정을 비교하기 위해, 주어진 태스크 파워를 [12]달성하기 위해 테스트에 필요한 표본 크기를 바탕으로 유의미한 효율성 측정을 정의할 수 있다.
Pitman 효율성[13] 및 Bahadur 효율성(또는 Hodges-)레만 효율성)[14][15]은 통계 가설 테스트 절차의 성능 비교와 관련이 있다.수학 백과사전은 이 세 가지 기준에 대한 간략한 설명을 제공한다.
실험 설계
실험 설계의 경우, 효율성은 시간과 돈과 같은 최소한의 자원 지출로 연구의 목적을 달성할 수 있는 설계의 능력과 관련이 있다.단순한 경우 설계의 상대적 효율은 주어진 [16]목적을 달성하기 위해 필요한 표본 크기의 비율로 표현될 수 있다.
「 」를 참조해 주세요.
메모들
- ^ a b 2002년, 페이지 128
- ^ Nikulin, M.S. (2001) [1994], "Efficiency of a statistical procedure", Encyclopedia of Mathematics, EMS Press
- ^ a b Fisher, R (1921). "On the Mathematical Foundations of Theoretical Statistics". Philosophical Transactions of the Royal Society of London A. 222: 309–368. JSTOR 91208.
- ^ 2002년, 페이지 128
- ^ a b Dekking, F.M. (2007). A Modern Introduction to Probability and Statistics: Understanding Why and How. Springer. pp. 303–305. ISBN 978-1852338961.
- ^ Romano, Joseph P.; Siegel, Andrew F. (1986). Counterexamples in Probability and Statistics. Chapman and Hall. p. 194.
- ^ DeGroot; Schervish (2002). Probability and Statistics (3rd ed.). pp. 440–441.
- ^ Williams, D. (2001). Weighing the Odds. Cambridge University Press. p. 165. ISBN 052100618X.
- ^ Maindonald, John; Braun, W. John (2010-05-06). Data Analysis and Graphics Using R: An Example-Based Approach. Cambridge University Press. p. 104. ISBN 978-1-139-48667-5.
- ^ Wackerly, Dennis D.; Mendenhall, William; Scheaffer, Richard L. (2008). Mathematical statistics with applications (Seventh ed.). Belmont, CA: Thomson Brooks/Cole. p. 445. ISBN 9780495110811. OCLC 183886598.
- ^ Grubbs, Frank (1965). Statistical Measures of Accuracy for Riflemen and Missile Engineers. pp. 26–27.
- ^ 2002년, 페이지 321
- ^ Nikitin, Ya.Yu. (2001) [1994], "Efficiency, asymptotic", Encyclopedia of Mathematics, EMS Press
- ^ Arcones M. A. "우도비 검정의 바하두르 효율" 프리프린트
- ^ 카네이 I.A. & Otsu, T. "Hodges-"모멘트 조건 모델을 테스트하기 위한 레만 최적성"
- ^ Dodge, Y. (2006). The Oxford Dictionary of Statistical Terms. Oxford University Press. ISBN 0-19-920613-9.
레퍼런스
- Everitt, Brian S. (2002). The Cambridge Dictionary of Statistics. Cambridge University Press. ISBN 0-521-81099-X.
- Lehmann, Erich L. (1998). Elements of Large-Sample Theory. New York: Springer Verlag. ISBN 978-0-387-98595-4.
추가 정보
- Lehmann, E.L.; Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer. ISBN 0-387-98502-6.
- Pfanzagl, Johann; with the assistance of R. Hamböker (1994). Parametric Statistical Theory. Berlin: Walter de Gruyter. ISBN 3-11-013863-8. MR 1291393.