강력한 규모의 척도

Robust measures of scale

통계에서 강력한 척도의 척도특이치에 저항하면서 수치 데이터 표본통계 산포를 정량화하는 방법이다.그러한 강력한 통계량사분위간 범위(IQR)와 중위수 절대 편차(MAD)이다.표본 분산 또는 표준 편차와 같이 특이치의 영향을 크게 받는 재래식 또는 비-robust 척도 척도와 대비된다.

이러한 강력한 통계량은 특히 척도 모수추정기로 사용되며, 정규 분포와 같은 청정 데이터의 낮은 효율성으로 인한 비용에서 오염된 데이터에 대한 건전성과 우수한 효율성의 장점을 모두 가지고 있다.건전성을 예증하기 위해, 표준 편차는 정확히 하나의 관측치(단일 점으로 오염될 수 있으므로 분해점 0을 가지고 있음)를 증가시켜 임의로 크게 만들 수 있으며, 이는 견고한 통계에 의해 공유되지 않는 결점이다.

IQR과 MAD

가장 일반적인 견실한 척도 중 하나는 표본의 75번째 백분위수와 25번째 백분위수 사이의 차이인 사분위간 범위(IQR)이다. 이것은 L-estimator의 예인 25% 절삭 범위다.십분위간 범위(10% 절삭 범위)와 같은 다른 절삭 범위도 사용할 수 있다.

잘 알려진 또 다른 강력한 척도의 척도는 중위수 절대 편차(MAD)로, 데이터 값 간 차이의 절대값과 데이터 집합의 전체 중위수의 중간값이다. 가우스 분포의 경우 MAD는 과(와 )와 관련이 있다여기서 파생어를 찾을 수 있음).

추정

강력한 척도의 척도는 모수 추정에 대한 모집단 특성 추정기 또는 모수 자체의 기대값 추정기로 사용될 수 있다.

예를 들어, 강력한 척도 추정기는 모집단 분산 또는 모집단 표준 편차를 추정하는 데 사용되며, 일반적으로 척도 계수를 곱하여 편향되지 않은 일관성 추정기로 만든다. 척도 모수: 추정을 참조하십시오.예를 들어 IQR을 22 erf−1(1/2)로 나누면(약 1.349), 데이터가 정규 분포를 따를 경우 모집단 표준 편차에 대한 편향되지 않고 일관된 추정기가 된다.

다른 상황에서는 척도의 견실한 척도를 모집단 분산 또는 표준 편차의 대안으로 해석하여 자체 기대치를 추정하는 것으로 생각하는 이 더 타당하다.예를 들어, 표준 Cauchy 분포에서 추출한 표본의 MAD는 모집단 MAD의 추정치로, 이 경우 모집단 분산이 1인 반면 모집단 분산은 존재하지 않는다.

효율성

이러한 견실한 추정기는 일반적으로 특이치가 없는 분포에서 추출한 데이터의 경우(예: 정규 분포) 기존 추정치에 비해 통계 효율성이 낮지만, 혼합물 분포 또는 두꺼운 꼬리 분포에서 추출한 데이터의 경우 효율성이 우수하며, 이 경우 스탠더와 같은 비-로브성 측정이 가능하다.d 편차를 사용하면 안 된다.

예를 들어 정규 분포에서 추출한 데이터의 경우 MAD는 표본 표준 편차만큼 37% 효율적이고, 호슈-크루스의 추정기 Qn 표본 표준 편차보다 88% 효율적이다.

절대 쌍별 차이

Rousseeuw와 Crowx는[1] MAD의 두 가지 약점에 의해 동기 부여된 대안을 제안한다.

  1. 가우스 분포에서는 비효율적이다(37% 효율성).
  2. 위치 추정치에 대한 대칭 통계량을 계산하여 왜도를 처리하지 않는다.

그들은 다음과 같이 정의되는 Snn Q라는 쌍의 차이를 기초로 한 두 가지 대안 통계량을 제안한다.

은(는 n {\에 따라 상수임

이러한 값은 O(n log n) 시간O(n) 공간으로 계산할 수 있다.

이 둘 중 어느 것도 위치 추정을 요구하지 않는다. 왜냐하면 그것들은 값들 사이의 차이에만 기초하기 때문이다.가우스 분포에서는 둘 다 MAD보다 효율이 높다. Sn 58% 효율이고 Qn 82% 효율이다.

정규 분포에서 추출한 표본의 경우 Sn 모집단 표준 편차에 대해 매우 작은 표본 크기(<1% n = 10의 치우침)까지 거의 치우치지 않는다.정규 분포에서 추출한 큰 표본의 경우 2.219144465985075864722Q는n 모집단 표준 편차에 대해 거의 불편하다.작은 표본이나 중간 표본의 경우 정규 분포에서 Qn 기대값은 표본 크기에 따라 현저하게 달라지기 때문에 유한 표본 보정 계수(표 또는 시뮬레이션에서 관측됨)를 사용하여n Q의 척도를 보정한다.

비급 중간분산

Sn Qn 마찬가지로, 비급중분산도 효율을 너무 많이 희생하지 않고 견고함을 목표로 한다.로 정의된다.

여기서 I지시함수, QXi 표본 중위수,

그것의 제곱근은 데이터 점들이 중앙값으로부터의 거리가 증가함에 따라 가중치가 낮아지고 중앙값에서 9 MAD 단위 이상의 점이 전혀 영향을 받지 않기 때문에 강력한 척도 추정기이다.

확장

미자 & 뮐러(2004)는 위치와 규모에 대해 동시에 강력한 깊이 기반 추정기를 제안한다.[2]

신뢰구간

신뢰 구간이 견고하다는 것은 신뢰 구간의 강력한 수정이며, 이는 신뢰 구간이 데이터 집합의 외부 또는 일탈 관측치에 의해 크게 영향을 받지 않도록 신뢰 구간의 비역량 계산을 수정한다는 것을 의미한다.

1000개의 물체를 무게를 재는 과정에서, 실제적인 조건 하에서, 운영자가 절차상 실수를 해서 잘못된 질량을 보고할 수 있다고 생각하기 쉽다(그러므로 한 가지 유형의 체계적 오류를 범함).100개의 물체가 있고 조작자가 한 번에 하나씩 모두 무게를 재서 전체 과정을 10번 반복했다고 가정해보자.그런 다음 운영자는 각 물체에 대한 표본 표준 편차를 계산하고 특이치를 찾을 수 있다.표준 편차가 비정상적으로 큰 물체는 데이터에 특이치가 있을 수 있다.이것들은 다양한 비모수 기법에 의해 제거될 수 있다.조작자가 공정을 3회만 반복했을 경우 3회 측정값의 중간값만 취하고 σ을 사용하면 신뢰 구간이 주어진다.200개의 추가 중량은 측정 시스템 오류를 감지하고 수정하는 데만 사용되었고 신뢰 구간을 개선하는 데는 아무런 도움이 되지 않았다.반복이 많으면 잘린 평균을 사용하여 가장 크고 작은 값을 버리고 나머지를 평균화할 수 있다.부트스트랩 계산을 사용하여 σ에서 계산한 신뢰 구간보다 좁은 신뢰 구간을 결정할 수 있으므로, 대량의 추가 작업으로부터 어느 정도 이익을 얻을 수 있다.

이러한 절차는 균형에 고정된 알려진 표준 편차 σ이 있다는 가정으로 모델링되지 않은 절차적 오류에 대해 강력하다.간혹 오차가 발생하거나 잔액이 오작동할 수 있는 실제 적용에서는 단순한 통계적 계산 뒤에 숨겨진 가정을 당연하게 여길 수 없다.σ에서 계산된 신뢰구간을 갖기 위해 각각 3회만 무게가 나가는 100개의 물체의 결과를 신뢰하기 전에, 적절한 수의 특이치를 시험하고 제거하는 것(작업자가 주의하고 완벽하지 않다는 가정을 시험하고, 자신이 완벽하지 않다는 사실을 정정하는 것)과 데이터가 실제로 ha라는 가정을 시험하는 것이 필요하다.표준 편차 σ의 정규 분포

컴퓨터 시뮬레이션

이러한 실험의 이론적 분석은 복잡하지만, 표준 편차 σ으로 정규 분포로부터 무작위 숫자를 끌어내는 스프레드시트를 설정해 상황을 시뮬레이션하는 것이 용이하다. 이는 마이크로소프트 엑셀에서 다음과 같이 할 수 있다.=NORMINV(RAND(),0,σ))에서 논의된 것과 동일한 기법을 OpenOffice.org Calcgnumeric과 같은 다른 스프레드시트 프로그램에서 사용할 수 있다.

분명한 특이치를 제거한 후 각 물체에 대한 다른 두 값에서 중위수를 뺀 다음 200개의 결과 숫자의 분포를 조사할 수 있다.평균이 0에 가깝고 표준 편차가 σ보다 약간 큰 정상이어야 한다.단순한 몬테카를로 스프레드시트 계산을 통해 표준 편차에 대한 일반적인 값(σ의 약 105~115%)을 확인할 수 있다.또는 각 세 쌍둥이 평균을 값에서 뺄 수도 있고, 300개의 값의 분포를 조사할 수도 있다.평균은 동일하게 0이지만 표준 편차는 다소 작아야 한다(약 75~85% of).

참고 항목

참조

  1. ^ Rousseeuw, Peter J.; Croux, Christophe (December 1993), "Alternatives to the Median Absolute Deviation", Journal of the American Statistical Association, American Statistical Association, 88 (424): 1273–1283, doi:10.2307/2291267, JSTOR 2291267
  2. ^ Mizera, I.; Müller, C. H. (2004), "Location-scale depth", Journal of the American Statistical Association, 99 (468): 949–966, doi:10.1198/016214504000001312.
  3. ^ J.W. W. Wittwer, "Monte Carlo Simulation in Excel: A Practical Guide", 2004년 6월 1일