윈소라이징
Winsorizing윈소라이징 또는 윈소라이징은 통계 데이터의 극단값을 제한하여 통계의 변환으로, 유사 특이치의 영향을 줄입니다.그것은 엔지니어가 된 생물학자 찰스 P.의 이름을 따서 지어졌다. 윈저(1895~1951)이 효과는 신호 처리에서의 클리핑과 동일합니다.
많은 통계량의 분포는 특이치의 영향을 크게 받을 수 있습니다.일반적인 전략은 모든 특이치를 데이터의 지정된 백분위수로 설정하는 것입니다. 예를 들어 90% 승산에서는 5번째 백분위수 이하의 모든 데이터가 5번째 백분위수로 설정되고 95번째 백분위수 이상의 데이터가 95번째 백분위수로 설정됩니다.윈저라이즈된 추정치는 일반적으로 더 표준적인 형태보다 특이치에 더 강력하지만 트리밍과 같은 유사한 효과를 얻을 수 있는 대안이 있습니다.
예
다음으로 구성된 데이터 세트를 고려합니다.
- {92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41) (N = 20, 평균 = 101.5)
5백분위수 이하의 데이터는 -40과 -5 사이에 있고 95백분위수 이상의 데이터는 101과 1053 사이에 있습니다(굵은 글씨로 표시).따라서 90%의 승압은 다음과 같습니다.
- {92, 19, 101, 58, 91, 26, 78, 10, 13, -5, 101, 86, 85, 15, 89, 89, 28, -5, 41) (N = 20, 평균 = 55.65)
윈소라이제이션 후 평균은 이전 값의 거의 절반으로 떨어졌고, 결과적으로 평균이 나타내는 데이터에 더 부합합니다.
Python은 SciPy 라이브러리를 사용하여 데이터를 윈소라이징할 수 있습니다.
부터 scipy.mats 수입품 윈소라이즈 윈소라이즈([92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41], 한계=[0.05, 0.05])
R은 DescTools [1]패키지를 사용하여 데이터를 윈소라이징할 수 있습니다.
도서관(설명 도구) a<->c(92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, -40, 101, 86, 85, 15, 89, 89, 28, -5, 41) 설명 도구::윈저라이즈(a, 검사하다 = c(0.05, 0.95))
트리밍과의 구별
윈소라이징은 단순히 데이터를 제외하는 것과 동일하지 않으며, 이는 트리밍 또는 잘라내기라고 하는 더 간단한 절차이지만 데이터를 중도 절단하는 방법입니다.
잘린 추정기에서는 극단값이 폐기되고, 대신 유리화 추정기에서는 극단값이 특정 백분위수(잘린 최소값 및 최대값)로 대체됩니다.
따라서 윈저화 평균은 잘린 평균과 같지 않습니다.예를 들어, 10% 잘라낸 평균은 데이터의 5~95번째 백분위수의 평균이고 90% 유리 평균은 하위 5%를 5번째 백분위수로 설정하고 상위 5%를 95번째 백분위수로 설정한 다음 데이터를 평균화합니다.이전 예제에서는 절사 평균을 더 작은 집합에서 구합니다.
- {92, 19, 101, 58, 91, 26, 78, 10, 13, 101, 86, 85, 15, 89, 89, 28, -5, 41) (N = 18, 평균 = 56.5)
이 경우, 윈저라이즈 평균은 잘린 평균과 5번째 및 95번째 백분위수의 가중 평균(10% 윈저라이즈 평균, 5번째 백분위수의 0.05배, 10% 트리밍 평균의 0.9배, 95번째 백분위수의 0.05배)의 가중 평균으로 동등하게 표현될 수 있지만 일반적으로 윈저라이즈 통계량은 다음과 같은 용어로 표현될 필요가 없습니다.해당 트리밍 통계량.
순서 통계량이 독립적이지 않기 때문에 더 형식적으로 구별됩니다.
사용하다
윈저라이제이션은 극단적인 조사 무응답 [2]가중치를 "트라이밍"하기 위해 조사 방법론 맥락에서 사용된다.
또한 특정 [3]종목의 특정 요소(예: 성장 및 가치)의 범위를 볼 때 일부 주가지수 구축에도 사용됩니다.
「 」를 참조해 주세요.
레퍼런스
- Hastings, Jr., Cecil; Mosteller, Frederick; Tukey, John W.; Winsor, Charles P. (1947). "Low moments for small samples: a comparative study of order statistics". Annals of Mathematical Statistics. 18 (3): 413–426. doi:10.1214/aoms/1177730388.
- Dixon, W. J. (1960). "Simplified Estimation from Censored Normal Samples". Annals of Mathematical Statistics. 31 (2): 385–391. doi:10.1214/aoms/1177705900.
- Tukey, J. W. (1962). "The Future of Data Analysis". Annals of Mathematical Statistics. 33 (1): 1–67 [p. 18]. doi:10.1214/aoms/1177704711. JSTOR 2237638.
외부 링크
- "Winsorization". R-bloggers. June 30, 2011.