호지스–레만 추정기
Hodges–통계학에서는 호지스-Lehmann 추정기는 모집단의 위치 매개변수에 대한 강력하고 비모수적인 추정기입니다. 가우스 분포 또는 학생 t-분포와 같이 하나의 중앙값에 대해 대칭인 모집단의 경우 호지스-Lehmann 추정량은 모집단 중위수의 일관되고 중위수 편향되지 않은 추정치입니다. 비대칭 모집단의 경우 호지스-Lehmann 추정량은 모집단 중위수와 밀접한 관련이 있는 "pseudo-median"을 추정합니다.
호지스-Lehmann 추정기는 원래 1차원 모집단의 위치 매개변수를 추정하기 위해 제안되었지만 더 많은 목적으로 사용되었습니다. 두 모집단의 구성원 간의 차이를 추정하는 데 사용되었습니다. 일변량 모집단에서 벡터 표본을 생성하는 다변량 모집단으로 일반화되었습니다.
이 값은 Wilcoxon 부호 순위 통계량을 기반으로 합니다. 통계 이론에서, 그것은 비모수 통계와 강건 통계 모두에서 중요한 추정기 클래스인 순위 기반 추정기의 초기 예였습니다. 호지스-1963년 Pranab Kumar Sen과 Joseph Hodges, Erich Lehmann이 각각 독립적으로 레만 추정기를 제안하여 "호지스–"라고도 불립니다.Lehmann–Sen 추정치".[1]
정의.
가장 간단한 경우, "호지스-"Lehmann" 통계량은 일변량 모집단의 위치 모수를 추정합니다.[2][3] 계산은 빠르게 설명할 수 있습니다. n개의 측정값을 갖는 데이터 집합의 경우, 가능한 모든 2요소 부분집합의 집합은 n(n - 1)/2개의 요소를 갖습니다. 각 부분 집합에 대해 평균이 계산됩니다. 마지막으로 n(n - 1)/2 평균의 중앙값은 호지스-로 정의됩니다.위치 추정기 레만입니다
호지스-Lehmann 통계량 역시 두 모집단 사이의 차이를 추정합니다. m개와 n개의 관측치가 있는 두 개의 데이터 집합의 경우, 이들로 구성된 두 요소 집합의 집합은 점의 m × n 쌍(각 집합에서 하나씩)을 포함하는 데카르트 곱입니다. 이러한 쌍은 각각 하나의 값 차이를 정의합니다. 호지스-Lehmann 통계량은 m × n 차이의 중위수입니다.[4]
대칭 모집단의 모집단 중위수 추정
대칭인 모집단의 경우 호지스-Lehmann 통계량은 모집단의 중위수를 추정합니다. 이는 0.29의 분해점을 갖는 강력한 통계량으로, 데이터의 거의 30%가 오염된 경우에도 통계량이 경계를 유지한다는 것을 의미합니다. 이러한 견고성은 0의 분해점을 갖는 표본 평균에 비해 중요한 이점이며, 단일 관측치에 비례하므로 하나의 이상치에 의해 오도되기 쉽습니다. 표본 중위수는 0.50의 분해점을 가지므로 더욱 강건합니다.[5] 호지스-Lehmann 추정기는 정규 분포의 혼합물을 추정할 때에도 표본 평균보다 훨씬 좋습니다.[6]
대칭 분포의 경우 호지스-Lehmann 통계량은 표본 중위수보다 효율성이 더 높습니다. 정규 분포의 경우 호지스-레만 통계량은 표본 평균과 거의 동일하게 효율적입니다. 코시 분포(자유도가 1개인 학생 t-분포)의 경우 호지스-레만은 중위수의 일관된 추정치가 아닌 표본 평균보다 무한히 효율적입니다.[5]
비대칭 모집단의 경우 Hodges-Lehmann 통계량은 중위수와 밀접한 관련이 [7]있는 위치 모수인 모집단의 "pseudo-median"을 추정합니다. 중위수와 의사중위수의 차이가 상대적으로 작아 초등 논의에서 이러한 구분은 소홀히 다루어지고 있습니다. 공간 중앙값과 마찬가지로 [8]유사-중앙값은 차원이 2 이상인 랜덤 변수의 모든 분포에 대해 잘 정의됩니다. 1차원 분포의 경우 일부 유사-중앙값이 존재하지만 고유할 필요는 없습니다. 중위수와 마찬가지로 의사-중위수는 (무한) 평균이 없는 꼬리가 무거운 분포에 대해서도 정의됩니다.[9]
일표본 호지스 –Lehmann 통계량은 많은 분포에서 존재하지 않는 모집단 평균을 추정할 필요가 없습니다. 2-표본 호지스 –Lehmann 추정기는 두 평균의 차이 또는 두 (유사) 중앙값의 차이를 추정할 필요가 없으며, 오히려 모집단에서 각각 추출한 쌍을 이룬 랜덤 변수의 모집단 간의 차이를 추정합니다.[4]
일반통계량
호지스-Lehmann 일변량 통계량은 다변량 통계량에서 다음과 같은 몇 가지 일반화를 가지고 있습니다.[10]
참고 항목
메모들
- ^ Lehmann (2006, pp. 176 및 200–201)
- ^ Dodge, Y. (2003) 옥스포드 통계용어사전, OOP. ISBN0-19-850994-4 "호지스-레만 단일 표본 추정기" 항목
- ^ 호지스 & 레만 (1963)
- ^ a b Everitt (2002) "Hodges-Lemann 추정기" 항목
- ^ a b 마일스 홀랜더. 더글러스 A. 울프. 비모수 통계 방법. 두 번째. 존 와일리.
- ^ 주레코바 센. 강력한 통계 절차.
- ^ Hettmansperger & McKean (1998, 2-4쪽)
- ^ a b 오자 (2010, 71쪽)
- ^ Hettmansperger & McKean (1998, 2-4쪽 및 355-356쪽)
- ^ Oja (2010, pp. 2–3)
- ^ 오자 (2010, 34쪽)
- ^ 오자 (2010, pp. 83–94)
- ^ 오자 (2010, pp. 98–102)
- ^ 오자 (2010, pp. 160, 162, 167–169)
참고문헌
- Everitt, B.S. (2002) 캠브리지 통계사전, CUP. ISBN 0-521-81099-X
- Hettmansperger, T. P.; McKean, J. W. (1998). Robust nonparametric statistical methods. Kendall's Library of Statistics. Vol. 5 (First ed., rather than Taylor and Francis (2010) second ed.). London; New York: Edward Arnold; John Wiley and Sons, Inc. pp. xiv+467. ISBN 0-340-54937-8. MR 1604954.
- Hodges, J. L.; Lehmann, E. L. (1963). "Estimation of location based on ranks". Annals of Mathematical Statistics. 34 (2): 598–611. doi:10.1214/aoms/1177704172. JSTOR 2238406. MR 0152070. Zbl 0203.21105. PE euclid.aoms/1177704172.
- Lehmann, Erich L. (2006). Nonparametrics: Statistical methods based on ranks. With the special assistance of H. J. M. D'Abrera (Reprinting of 1988 revision of 1975 Holden-Day ed.). New York: Springer. pp. xvi+463. ISBN 978-0-387-35212-1. MR 0395032.
- Oja, Hannu (2010). Multivariate nonparametric methods with R: An approach based on spatial signs and ranks. Lecture Notes in Statistics. Vol. 199. New York: Springer. pp. xiv+232. doi:10.1007/978-1-4419-0468-3. ISBN 978-1-4419-0467-6. MR 2598854.
- Sen, Pranab Kumar (December 1963). "On the estimation of relative potency in dilution(-direct) assays by distribution-free methods". Biometrics. 19 (4): 532–552. doi:10.2307/2527532. JSTOR 2527532. Zbl 0119.15604.