L-시뮬레이터
L-estimator통계에서 L-예측기는 측정값의 순서 통계량의 선형 결합(L-통계학이라고도 함)인 추정기다.이 값은 단일 점, 중위수(홀수 값)에서처럼 작거나 평균에서와 같이 모든 점만큼 작을 수 있다.
L-추정기의 주요 장점은 매우 단순하고 종종 강력한 통계량이라는 것이다. 정렬된 데이터를 가정하면 계산하고 해석하기 매우 쉬우며 특이치에 저항하는 경우가 많다.따라서 기술 통계량, 통계 교육 및 계산이 어려울 때 기술 통계량으로서 강력한 통계량에 유용하다.그러나, 그것들은 비효율적이며, 현대에는 견실한 통계 M-추적자가 선호된다. 비록 이것들은 계산적으로 훨씬 더 어렵지만 말이다.많은 상황에서 L-추정자는 합리적으로 효율적이며 따라서 초기 추정에 적합하다.
예
기본적인 예는 중앙값이다.Given n values , if is odd, the median equals , the -th order statistic; if is even, it is the average of two 순서 통계:( ( k)+ x( + )/ 둘 다 순서 통계량의 선형 결합이며, 따라서 중위수는 L-estimator의 단순한 예다.
보다 자세한 예 목록에는 단일 점, 최대점, 최소점 또는 임의의 단일 순서 통계량 또는 계량형, 1, 2개의 점, 중위수, 중간점, 범위, 중간점(중간점 포함, 중간점 포함) 및 잘린 범위(사분위간 범위 및 십분위간 범위 포함)가 포함된다.); 3점, 3점, 점의 고정 부분, 절삭 평균(사분위간 평균 포함) 및 Winsorized 평균; 모든 점, 평균.
이 중 일부는 중심 경향의 측정값이며, 정규 분포의 평균과 같은 위치 모수의 추정치로 사용되는 반면, 다른 일부는 통계적 분산 측정값이며, 표준 편차와 같은 척도 모수의 추정치로 사용된다.정규 분포의
또한 L-추적기는 위치 및 척도를 넘어 분포의 모양을 측정할 수 있다.예를 들어 중위수를 뺀 중간점은 왜도를 측정하는 3항 L-추정기로, 중간합계의 다른 차이점은 꼬리의 서로 다른 지점에서 비대칭의 측도를 한다.[1]
표본 L-모멘트는 모집단 L-모멘트의 L-모멘터로서 다소 복잡한 식을 가지고 있다.L-모멘트는 일반적으로 별도로 취급된다. 자세한 내용은 해당 기사를 참조하십시오.
강건함
L-추정기는 종종 통계적으로 내성이 있어 분해점이 높다.이는 결과적인 추정이 무한대에 치우치지 않고 임의로 변경할 수 있는 측정값의 일부로 정의된다(즉, "분산").L-추적기의 분해점은 최소 또는 최대값에 가장 가까운 순서 통계량에 의해 주어진다. 예를 들어, 중위수는 분해점이 50%(가능성이 가장 높음)이고, N% 절삭 또는 Winsorized 평균은 분해점이 n%이다.
모든 L-estimator가 견고한 것은 아니다. 최소값 또는 최대값을 포함하면 분해점이 0이다.이러한 비-로봇 L-estimator에는 최소, 최대, 평균 및 중간 범위가 포함된다.그러나 다듬어진 등가물은 튼튼하다.
IQR과 같이 산포를 측정하는 데 사용되는 강력한 L-추정기는 강력한 척도의 척도를 제공한다.
적용들
견실한 통계에서 실제 사용 시 L-추적기는 훨씬 더 계산적으로 복잡하고 불투명해지는 비용으로 상대적 효율도 높은 견실한 통계를 제공하는 M-추적기로 대체되었다.
그러나 L-추적기의 단순성은 쉽게 해석되고 시각화되어 기술 통계학 및 통계 교육에 적합하다는 것을 의미한다. 많은 것은 심지어 5자리 요약이나 7자리 요약으로 정신적으로 계산하거나 상자 그림에서 시각화할 수 있다.L-추정자는 비모수 통계에 대한 많은 접근방식에서 근본적인 역할을 한다.
L-추정기는 비모수적이긴 하지만 이름에서 알 수 있듯이 모수 추정에 자주 사용되지만 편향되지 않은 일관된 추정기를 산출하기 위해 조정해야 하는 경우가 많다.L-estimator와 조정의 선택은 모수를 추정하는 분포에 따라 달라진다.
예를 들어 위치 모수를 추정할 때 대칭 분포의 경우 대칭 L-추정기(예: 중위수 또는 중간값)가 치우쳐지지 않는다.그러나 분포에 치우침이 있으면 대칭 L-추정자는 일반적으로 치우쳐 조정이 필요하다.예를 들어, 치우친 분포에서 비모수 스큐(및 Pearson의 왜도 계수)는 평균의 추정기로서 중위수의 치우침을 측정한다.
모집단 분산 또는 모집단 표준 편차 추정과 같이 L-추정기를 강력한 척도로 사용하는 경우와 같이 척도 모수를 추정할 때는 일반적으로 척도 인수에 곱하여 편중되지 않은 일관성 추정기로 만들어야 한다. 척도 모수: 추정치를 참조하십시오.
예를 들어 IQR을 - / 2) 2}}\약 1오류 함수를 사용하여)로 나누면 데이터가 정규 분포를 따를 경우 모집단 표준 편차에 대해 일관된 추정기가 된다.
L-추정기는 또한 그들 자신의 권리에서 통계로 사용될 수 있다. 예를 들어, 중앙값은 위치의 척도, IQR은 산포의 척도다.이러한 경우 표본 통계량은 자체 기대값의 추정기 역할을 할 수 있다. 예를 들어 표본 중위수는 모집단 중위수의 추정기일 수 있다.
이점
단순성을 넘어 L-추정기도 계산하기 쉽고 견고할 때가 많다.
정렬된 데이터를 가정할 때, 소수점만을 포함하는 L-추정기는 효율적인 추정치보다 훨씬 적은 수학적 연산으로 계산할 수 있다.[2][3]전자 계산기와 컴퓨터가 등장하기 전에, 이것들은 최소한의 노동력으로 표본으로부터 많은 정보를 추출할 수 있는 유용한 방법을 제공했다.이것들은 펀치 카드 데이터의 자동 정렬이 가능했던 20세기 초와 중반까지 실용적으로 사용되었지만, 계산은 여전히 어려웠고,[2] 데이터 입력이 수동 정렬보다 더 비용이 많이 드는 비 기계 판독형 형태의 수치 값 목록을 주어진 추정치에 대해 오늘날에도 여전히 사용되고 있다.그들은 또한 빠른 추정을 허용한다.
L-추정기는 종종 최대 효율의 기존 방법보다 훨씬 강력하다. 중위수는 통계적으로 최대 내성을 가지며 50%의 분해점을 가지며 X% 절삭된 중간 범위는 X% 분해점을 가지며 표본 평균(최대 효율)은 최소 강성으로 단일 특이치에 대해 분해된다.
효율성
L-추정자는 다른 통계에 비해 효율성이 떨어지지만 상대적 효율성이 상당히 높은 경우가 많으며, 추정에 사용되는 정보의 상당 부분은 1점, 2점, 3점 등 소수점만 사용하여 얻을 수 있다는 것을 보여준다.또는 그들은 주문 통계량에 상당한 양의 정보가 포함되어 있음을 보여준다.
예를 들어, 효율 측면에서, 정규 분포 수치 매개변수의 표본이 주어진 경우, 표본 평균을 계산하여 모집단의 산술 평균(평균)을 최대 효율로 추정할 수 있다. – 표본의 모든 구성원을 추가하고 구성원 수로 나눈다.
그러나 대칭 모집단의 대규모 데이터 집합(100점 이상)의 경우 평균은 L-추정자에 의한 최선의 추정치에 비해 합리적으로 효율적으로 추정할 수 있다.단일 점을 사용하면 (정렬 제외) 계산이 필요 없이 표본의 중위수를 취함으로써 수행되며, 이는 (모든 n에 대해) 64% 이상의 효율을 산출한다.두 점을 사용하면 단순 추정치가 중간점(25% 절삭)이지만, 더 효율적인 추정치는 29% 절삭된 중간점, 즉 가장 작은 값과 가장 큰 값인 29%와 71%의 값에서 평균 29%를 얻는데, 이는 약 81%[3]의 효율을 가진다.세 점의 경우, 20, 50, 80 백분위수의 평균이 88%의 효율을 내지만, 삼위일체(중위·중위 평균)를 사용할 수 있다.추가 포인트를 사용하면 효율성이 높아지지만, 매우 높은 효율을 위해서는 3점 만이 필요하다는 점이 눈에 띈다.
정규 분포의 표준 편차를 추정할 때, 스케일링된 십분위간 범위는 7% 절삭 범위(7번째 백분위수와 93번째 백분위수의 차이)를 취하고 3(일반 분포 데이터의 86%에 대응)를 t의 1.5 표준 편차에 해당하는 것으로 나눈 값이지만 상당히 효율적인 추정치를 제공한다.그는 평균) 약 65%의 효율을 추정한다.[3]
작은 표본의 경우 L-추적기도 비교적 효율적이다. 각 끝에서 3번째 점의 중간 요점은 크기가 약 10인 표본의 경우 약 84%의 효율을 가지며, 를 n 로 나눈 범위는 최대 20인 크기에 대해 효율이 상당히 양호하지만, 이는 n이 증가함에 따라 감소하고 스케일 계수가 될 수 있다.개선(10점 대비 효율성 85%).작은 표본에 대한 다른 경험적 추정기에는 n 이상의 범위(표준 오차의 경우)와 중위수 위로 제곱된 범위(포아송 분포의 카이-제곱의 경우)가 포함된다.[3]
참고 항목
참조
![]() |
- Evans, Robley Dunglison (1955). The Atomic Nucleus. International series in pure and applied physics. McGraw-Hill. pp. 972. ISBN 0-89874414-8.
- Fraiman, R.; Meloche, J.; García-Escudero, L. A.; Gordaliza, A.; He, X.; Maronna, R.; Yohai, V. C. J.; Sheather, S. J.; McKean, J. W.; Small, C. G.; Wood, A.; Fraiman, R.; Meloche, J. (1999). "Multivariate L-estimation". Test. 8 (2): 255–317. doi:10.1007/BF02595872.
- Huber, Peter J. (2004). Robust statistics. New York: Wiley-Interscience. ISBN 0-471-65072-2.
- Mosteller, Frederick (2006) [1946]. "On Some Useful "Inefficient" Statistics". In Fienberg, Stephen; Hoaglin, David (eds.). Selected Papers of Frederick Mosteller. Springer Series in Statistics. New York: Springer. pp. 69–100. doi:10.1007/978-0-387-44956-2_4. ISBN 978-0-387-20271-6.
- Shao, Jun (2003). Mathematical statistics. Berlin: Springer-Verlag. ISBN 0-387-95382-5. – 5.2.2항
- Velleman, P. F.; Hoaglin, D. C. (1981). Applications, Basics and Computing of Exploratory Data Analysis. ISBN 0-87150-409-X.