비모수 스큐
Nonparametric skew통계학 및 확률론에서 비모수적 왜곡은 실제 값을 갖는 랜덤 변수와 함께 가끔 사용되는 통계량이다.[1][2] 랜덤 변수의 분포의 왜도, 즉 분포가 한쪽으로 또는 다른 평균으로 "울어"지는 경향에 대한 측도다. 그 계산에는 기초 분포의 형태에 대한 지식이 필요하지 않다. 즉, 비모수라는 이름을 정의한다. 그것은 바람직한 특성들을 가지고 있다: 모든 대칭 분포에 대해 0이다; 그것은 척도 이동에 영향을 받지 않는다; 그리고 그것은 왼쪽과 오른쪽의 동전을 똑같이 잘 드러낸다. 일부 통계 표본에서, 정규성에서 모집단의 이탈을 탐지하는 데 있어 왜도의 일반적인 척도보다 덜 강력한[3] 것으로 나타났다.[4]
특성.
정의
비모수 스큐는 다음과 같이 정의된다.
여기서 모집단의 평균(µ), 중위수(μ), 표준 편차(μ)는 통상적인 의미를 갖는다.
특성.
비모수 스큐는 Pearson 2 왜도 계수의 3분의 1이며 모든 분포에 대해 -1과 +1 사이에 있다.[5][6] 이 범위는 평균이 중위수의 한 표준 편차 내에 있다는 사실에 의해 암시된다.[7]
변수(X)의 부호 변환에서 S 값은 부호 변경 가능성을 제외하고는 변경되지 않는다. 기호로
여기서 ≠ 0과 b는 상수이고 S( X )는 변수 X의 비모수적 왜곡이다.
샤퍼 한계
이 통계량의 한계(±1 )는 절대값이 다음 범위로 제한된다는 것을 보여준 마진다르에[8] 의해 날카로워졌다.
와 함께
그리고
여기서 X는 분산이 유한한 랜덤 변수, E()는 기대 연산자, Pr()는 사건이 발생할 확률이다.
p = q = 0.5인 경우 이 통계량의 절대값은 1로 제한된다. p = 0.1과 p = 0.01로, 통계량의 절대값은 각각 0.6과 0.199로 경계를 이룬다.
확장
라고도[9] 알려져 있다.
여기서 ν은0 중위수이고 E(.)는 기대 연산자다.
라는 것이 증명되었다.
여기서 x는q qth 퀀텀이다.[7] 분량은 0과 1 사이에 위치한다: 중위수(0.5분위수)는 q = 0.5이다. 이 불평등은 또한 왜도의 척도를 정의하는 데 사용되었다.[10]
이 후자의 불평등은 더욱 날카로워졌다.[11]
유한 평균을 갖는 분포에 대한 또 다른 확장이 발표되었다.[12]
이 마지막 불평등 쌍의 한계는 = )= = q 및 = b)= - = 1 - q 일 때 달성된다.
유한표본
표본 크기가 n finite 2인 유한 표본에 대해 x인r 경우th r 순서 통계량, m 표본 평균 및 s 자유도에 대해 보정된 표본 표준 편차,[13]
r을 n / 2로 교체하면 표본 중위수에 적절한 결과가 나온다.[14]
여기서 a는 표본 중앙값이다.
통계적 시험
핫텔링과 솔로몬은 시험 통계량의[5] 분포를 고려했다.
여기서 n은 표본 크기, m은 표본 평균, a는 표본 중위수, s는 표본의 표준 편차다.
D의 통계적 검정에서는 시험 중인 귀무 가설은 분포가 대칭적이라는 것을 가정했다.
Gastwirth는 nD의−1/2 점근 분산을 추정했다.[15] 분포가 0에 대해 단수이고 대칭인 경우 점근 분산이 1/4과 1 사이에 있다. 보수적인 추정치(분산을 1과 같게 표시)를 가정하면 실제 유의 수준이 공칭 수준보다 훨씬 낮을 수 있다.
기초 분포가 대칭인 카빌리오와 마사로라고 가정하면 S의 분포가 점증적으로 정상이라는 것을 알 수 있었다.[16] 점근 분산은 기본 분포에 따라 달라진다. 정규 분포의 경우 S√n의 점근 분산이 0.5708...
기준 분포가 대칭이라고 가정했을 때, 중위수 위와 아래의 값 분포를 고려함으로써, 정과 가스트위스는 다음과[17] 같이 주장해 왔다.
여기서 n은 표본 크기로서 t 분포로 분포한다.
관련통계
미라는 평균과 중위수의 차이의 분포를 연구했다.[18]
여기서 m은 표본 평균이고 a는 중위수다. 기초 분포가 대칭인 경우 γ1 그 자체는 점증적으로 정상이다. 이 통계는 앞서 본페로니에 의해 제시된 것이었다.[19]
대칭적인 기저 분포를 가정하여 S의 수정은 먀오, 겔, 가스위츠에 의해 연구되었는데, 이들은 표준 편차를 수정하여 통계를 작성하였다.[20]
여기서 X는i 표본 값이고, 합은 모든 n개의 표본 값보다 많다.
시험 통계는 다음과 같다.
척도 통계량 T√n은 점근법적으로 정규 분포를 따르고 대칭 분포의 평균은 0이다. 점근 분산은 기본 분포에 따라 달라진다. 제한 값은 정규 분포 변수(T√n) = 0.5708... 자유도가 3인 t 분포의 경우 var(T(n) = 0.9689...[20]
개별 분포에 대한 값
대칭 분포
대칭 확률 분포의 경우 비모수 스큐 값은 0이다.
비대칭 분포
오른쪽 치우친 분포의 경우 양수이고 왼쪽 치우친 분포의 경우 음수입니다. 절대값 ≥ 0.2는 표시된 왜도를 나타낸다.
일부 분포에 대해 S를 결정하는 것은 어려울 수 있다. 이는 일반적으로 중위수에 대한 폐쇄형태를 알 수 없기 때문이다. 이러한 분포의 예로는 감마 분포, 역치 제곱 분포, 역감마 분포 및 스케일링 역치 제곱 분포가 있다.
S에 대한 다음 값은 알려져 있다.
- 1 < β > α일 경우 공식에서 α와 β의 위치가 역전된다. S는 항상 < 0>이다.
- 이항 분포: 다양하다. 평균이 정수일 경우 S = 0. 평균이 정수일 경우 S는 부호가 있거나 0일 수 있다.[22] ±min{max{p, 1 - p }, log2e } / σ으로 경계되며 여기서 σ은 이항 분포의 표준 편차다.[23]
- Burr 분포:
- Birnbaum-Sunders 분포:
- 여기서 α는 형상 매개변수, β는 위치 매개변수다.
- 여기서 S는 항상 0 > 입니다.
- 프리셰 분포: 이 분포의 분산은 α > 2에 대해서만 정의된다.
- 여기서 β > 0은 속도 매개변수다. 여기서 S는 항상 0 > 입니다.
- 일반화 정규 분포 버전 2
- S는 항상 < 0>이다.
- 일반화 파레토 분포: S는 형상 모수(k )가 < 1/2일 때만 정의된다. 이 분포의 S는 < 0이다.
- 쿠마라스와미 분포
- 로그 로지스틱 분포(Fisk 분포): β를 형상 모수가 되게 한다. 이 분포의 분산과 평균은 β > 2일 때만 정의된다. 표기법을 단순화하기 위해 b = β / π을 허용한다.
- b > 4.932(약)의 값에 대해서는 표준 편차가 존재하지 않는다. 표준 편차가 정의된 값의 경우 S는 0보다 크다.
- 로맥스 분포: S는 α > 2에 대해서만 정의된다.
- 파레토 분포: α > 2의 경우, 여기서 α는 분포의 형상 모수,
- 그리고 S는 항상 0을 초과한다.
- 여기서 λ은 분포의 모수다.[28]
- Rayleigh 분포:
- 여기서 k는 분포의 형상 모수다. 여기서 S는 항상 0 > 입니다.
역사
1895년에 Pearson은 평균과 모드의 차이를 표준화하여 왜도를 측정하는 것을 처음으로 제안하였다.[29]
여기서 μ, μ, μ, μ는 각각 분포의 평균, 모드 및 표준 편차다. 표본 데이터에서 모집단 모드의 추정은 어려울 수 있지만, 여러 분포에서 평균과 모드의 차이는 Pearson에게 두 번째 왜도 계수를 제안한 평균과[30] 중위수 사이의 차이의 약 3배이다.
여기서 ν은 분포의 중위수다. 보울리는 1901년 이 공식에서 3인자를 떨어뜨려 비모수적 왜곡 통계로 이어졌다.
중위수, 평균 및 모드 사이의 관계는 Pearson이 유형 III 분포를 조사할 때 처음 파악되었다.
평균, 중위수 및 모드 간의 관계
임의 분포의 경우 모드, 중위수 및 평균이 임의의 순서로 나타날 수 있다.[31][32][33]
평균, 중위수, 모드 및 표준 편차 사이의 일부 관계에 대한 분석이 수행되었다.[34] 그리고 이러한 관계들은 비모수적 왜곡의 부호와 크기에 어느 정도 제약을 가한다.
이러한 관계를 보여주는 간단한 예는 n = 10, p = 0.09를 갖는 이항 분포다.[35] 이 분포는 플롯되었을 때 긴 오른쪽 꼬리를 가지고 있다. 평균(0.9)은 중위수 (1)의 왼쪽에 있지만 세 번째 표준화된 모멘트에 의해 정의된 스큐(0.906)는 양의 값이다. 대조적으로 비모수적 왜곡은 -0.110이다.
피어슨의 법칙
일부 분포의 경우 평균과 모드의 차이가 평균과 중위수 사이의 3배라는 규칙은 Pearson이 유형 3 분포를 조사하는 동안 이를 발견했기 때문이다. 보통 분포와 유사한 약간 비대칭 분포에 적용되는 경우가 많지만 항상 참인 것은 아니다.
1895년에 Pearson은 현재 감마 분포로 알려진 것에 대해 관계가[29] 있다고 언급했다.
여기서 where, ν, µ는 모드, µ는 형상 모수가 큰 분포의 경우 각각 중위수 및 평균이 거의 참이었다.
1917년 Doodson은 네 번째 모멘트가 유한한 적당히 치우친 분포에 대한 모드와 평균 사이에 중위수가 있다는 것을 증명했다.[36] 이 관계는 모든 Pearson 분포에 대해 유지되며 이러한 분포는 모두 양의 비모수 왜곡을 가진다.
Doodson은 또한 좋은 근사치에 대한 분포의 이 계열에 대해,
여기서 θ, ν, µ는 각각 분포의 모드, 중위수 및 평균이다. 두드슨의 근사치는 더 자세히 조사되어 홀데인에 의해 확인되었다.[37] Haldane은 세 번째 응고제를 가진 동일하고 독립적인 변수의 표본들이 큰 표본 크기에 대해 Pearson의 관계를 따르는 표본 평균을 가지고 있다고 언급했다. Haldane은 엣지워스 팽창의 존재와 중위수와 모드의 고유성을 포함하여 이 관계를 유지하기 위해 여러 조건이 필요했다. 이러한 조건에서 그는 모드와 중위수가 각각 세 번째 모멘트의 1/2과 1/6로 수렴된다는 것을 발견했다. 이 결과는 홀이 특성 기능을 이용해 약한 조건에서 확인되었다.[38]
두드슨의 관계는 Kendall과 Stuart에 의해 로그 정규 분포에서 연구되었고, 이 분포에서 그들은 그것에 가까운 정확한 관계를 발견했다.[39]
또한 Hall은 꼬리와 지수 α가 규칙적으로 변화하는 분포에 대해 다음과[clarification needed][38] 같은 것을 보여주었다.
단일 분포
가우스는 1823년에 단일한 분포를[40] 위해 그것을 보여주었다.
그리고
여기서 Ω은 모드의 루트 평균 제곱 편차다.
모드의 양방향으로 치우친 많은 종류의 단일 분포의 경우 중위수 및 평균은 그 순서로 된다.[41] 반대로 부정적으로 치우친 많은 종류의 단변량 분포의 경우 평균은 중위수보다 작으며, 이는 다시 모드보다 작다. 이러한 양의 치우침 단변량 분포에 대한 기호
그리고 이러한 부정적으로 치우친 단변 분포의 경우
이 세분류는 중요한 F, 베타 및 감마 분포를 포함한다.
이 규칙은 단일한 Weibull 분포에는 적용되지 않는다.[42]
단일 분포의 경우 다음과 같은 한계가 알려져 있으며 날카롭다.[43]
여기서 μ, μ, μ, μ는 각각 평균, 중위수 및 모드다.
중간 경계는 비모수 분포의 비모수 왜곡을 약 ±0.775로 제한한다.
판 즈웨트 조건
다음의 불평등은,
여기서 where, ν, µ는 각각 분포의 모드, 중위수, 평균은 다음과 같이 유지된다.
여기서 F는 분포의 누적분포함수다.[44] 이 조건들은 이후 일반화되었고[33] 이산형 분포로 확장되었다.[45] 이 분포가 갖는 모든 분포는 0 또는 양의 비모수 왜곡을 가진다.
메모들
왜도 순서
1964년 판 즈웨트는 왜도의 측정값을 주문하기 위한 일련의 공리를 제안했다.[46] 비모수적 왜곡은 이러한 공리를 만족시키지 못한다.
벤포드의 법칙
벤포드의 법칙은 숫자 목록의 숫자 분포에 관한 경험적 법칙이다. 양의 비모수적 왜곡이 있는 분포에서 발생하는 랜덤 변동은 이 법을 준수할 것이라고 제안되었다.[47]
보울리 계수와의 관계
이 통계량은 Bowley의 왜도[48] 계수와 매우 유사하다.
여기서 Q는i 분포의 ith 사분위수다.
힝클리는 이것을[49] 일반화했다.
여기서 은 (는) 0과 0.5 사이에 있다. 보울리의 계수는 이(가) 0.25와 같은 특수한 경우다.
그로네벨드와 메덴은[50] 에 대한 의존성을 그 위에 통합함으로써 제거했다.
분모는 산포의 척도다. 분모를 표준 편차로 대체하면 비모수 왜곡을 얻을 수 있다.
참조
- ^ Arnold BC, Groenebeld RA(1995) 모드에 대한 왜도 측정. 미국 통계학자 49(1) 34–38 DOI:10.1080/00031305.1995.10476109
- ^ Rubio F.J.; Steel M.F.J. (2012) "왜곡 메커니즘으로서의 마샬-올킨 전환에 대하여" 계산 통계 및 데이터 분석 사전 인쇄
- ^ Tabor J(2010) 탐색 작업: 왜도 검정 - 다른 검정 통계량과 왜도를 탐지하는 검정력 조사. J 통계분석 Ed 18: 1–13
- ^ Doane, David P.; Seward, Lori E. (2011). "Measuring Skewness: A Forgotten Statistic?" (PDF). Journal of Statistics Education. 19 (2).
- ^ a b H, Solomons LM (1932) 왜도 척도의 한계. 연혁 수학통계 3, 141–114
- ^ 가버(1932년) 왜도의 중간자 한계에 관한 것. 앤 수학 통계 3(4) 141–142
- ^ a b O'Cinneide CA (1990) 평균은 중위수의 한 표준 편차 내에 있다. Amer Statistics 44, 292–293
- ^ Mazindar KN (1962) "왜도 측정에 대한 개선된 한계" 수학통계연보, 33, 1192–1194 doi:10.1214/aoms/1177704482
- ^ 말로프 CCC, 리히터 D(1969) "조건부 기대치가 포함된 체비셰프 유형의 불규칙성" 수리통계연보, 40:1922–1932
- ^ Dziubinska R, Szinal D(1996) 왜도의 기능적 측정에 대하여. 응용 프로그램 매스매티카에 23(4) 395–403
- ^ Dharmadhikari SS (1991) 수량 제한: O'Cinneide에 대한 논평. 암스테틱스 45: 257-58
- ^ Gilat D, Hill TP(1993) Quantile-location 함수 및 평균과 수량 사이의 거리. Statisticala Neerlandica 47 (4) 279–283 DOI: 10.111/j.1467-9574.1983.193,tb01424.x [1]
- ^ David HA(1991) 평균 - 중위수: O'Cinneide에 대한 논평. 암스테틱스 45: 257
- ^ Joarder AH, Laradji A(2004) 서술적 통계에서 일부 불평등. 기술 보고서 시리즈 TR 321
- ^ Gastwirth JL (1971) "대칭에 대한 부호 시험" 미국통계협회 제66장 821–823호
- ^ 카빌리오 P, 마사로 J(1996) "알 수 없는 중위수에 대한 대칭의 간단한 시험" 카난디안 통계학 저널-Revue Canadienne De Statistique, 24:349–361
- ^ Jung T, Gastwirth J(2010) "알 수 없는 중위수에 대한 대칭성에 대한 부트스트랩 테스트" 데이터 과학 저널, 8(3): 413–427
- ^ 미라 A(1999) "Bonferroni의 측정에 기초한 대칭성에 대한 분포-무분포 시험", Journal of Applied Statistics, 26:959–972
- ^ Bonferroni CE (1930) Elementi di statistica general. 시버, 피렌체
- ^ a b 먀오 W, 겔 YR, 가스위츠 JL(2006) "알 수 없는 중위수에 대한 대칭의 새로운 시험" 인: 흐성 A, 장 C-H, 잉 Z, 에즈. 랜덤 워크, 순차 분석 및 관련 주제 — 위안 시 차우(Yuan-Shih Chow)를 기리는 축제. 월드 사이언티픽; 싱가포르
- ^ Kerman J(2011) "베타 분포의 중위수에 대한 폐쇄형 근사치". arXiv:1111.0433v1
- ^ Kaas R, Buhrman JM(1980) 이항 분포에서의 평균, 중위수 및 모드. 통계청 네를란디카 34(1) 13–18
- ^ Hamza K(1995) "이항 분포와 포아송 분포의 평균과 중위수 사이의 거리에 있는 가장 작은 균일 상한". 통계 및 확률 문자, 23 (1) 21–25
- ^ a b c d http://web.ipac.caltech.edu/staff/fmasci/home/statistics_refs/UsefulDistributions.pdf
- ^ Terrell GR (1986) "표본 중위수를 위한 Peerson의 법칙" 기술보고서 86-2[full citation needed]
- ^ Banneheka BMSG, Ekanayake GEMUPD(2009) 감마 분포의 중위수에 대한 새로운 점 추정기. 비요다야 J 사이언스 14:95–103
- ^ 퍼거슨 T. "표본 평균과 표본 수량 분포", 미발표
- ^ 최 KP(1994) "감마 분포의 중위수와 라마누잔의 방정식에 대하여" Proc Amer Math Soc 121 (1) 245–251
- ^ a b Pearson K (1895) 수학적 진화 이론에 대한 기여 -II. 균질 재료의 꼬치 변동. 필 트랜스 로이 Soc A. 186: 343–414
- ^ 스튜어트 A, 오드 JK(1994) 켄달의 고급 통계 이론. 제1권. 분포이론. 제6판. 에드워드 아놀드, 런던
- ^ 단일 분포에서 평균, 중위수, 모드 및 표준 편차 사이의 관계
- ^ 폰 히펠, 폴 T. (2005) "Mean, Medium and Skew: 교과서 규칙 수정", 통계 교육 저널, 13(2)
- ^ a b Dharmadhikari SW, Joag-dev K(1983) 평균, 중위수, 모드 III. 통계청, 33: 165–168
- ^ 결론적으로, H.(2002,2006) "단일 분포에서의 평균, 중위수, 모드 및 표준 편차의 관계" 개인 웹 페이지
- ^ LM(2005년).「편집자에게 보내는 편지」, [본 히펠에 관한 논평(2005)]. 통계학 저널 13(2)
- ^ Doodson AT(1917) "주파수 함수의 모드, 중위수 및 평균의 관계" 바이오메트리카, 11 (4) 425–429 도이:10.1093/바이오메트/11.4.425
- ^ Haldane JBS(1942) "주어진 응고제를 사용한 거의 정규 분포의 모드와 중위수" 바이오메트리카, 32:294–299
- ^ a b 홀 P(1980) "독립 랜덤 변수 합계의 모드 및 중위수의 제한 거동에 대하여" 확률 8: 419-430
- ^ 켄달 M.G., 스튜어트 A. (1958) 통계학의 진보된 이론. p53 vol 1. 그리핀. 런던
- ^ 가우스 CF 이론의 조합은 관찰 에러버스 미니미니스 오브노시애. 구문 분석 이전. Pars Properative. 보충제. 오류가 가장 적은 관측치 조합 이론. 1부. 2부. 보충판. 1995. G.W. Stewart가 번역했다. 필라델피아 공업 및 응용 수학 협회 응용 수학 시리즈의 고전
- ^ 맥길리브레이 HL(1981) 밀도 클래스의 평균, 중위수, 모드 불평등 및 왜도. 오스트레일리아 J 통계분석 23(2) 247–250
- ^ Groenebeld RA (1986) Weibull 가족을 위한 왜도 통계청 네를란디카 40: 135–140
- ^ Johnson NL, Rogers CA(1951) "단일 분포의 순간 문제" 수리통계연보, 22(3) 433–439
- ^ 밴 Zwet W.R.(1979) "평균, 중위수, 모드 II". Statisticala Neerlandica
- ^ 압두 B, 테오도레스쿠 R(1998) 평균, 중위수, 모드 IV. 통계청. 52(3) 356–359
- ^ Van Zwet, W.R.(1964) "임의 변수의 변환". 암스테르담, 수학 센터 트랙 7, 수학 센터
- ^ Durtschi C, Hillison W, Pacini C(2004) 회계자료의 부정행위를 탐지하는 데 도움이 되는 벤포드의 법칙의 효과적인 사용. J 포렌식 회계 5: 17–34
- ^ Bowley AL (1920) 통계 요소. 뉴욕: 찰스 스크리브너의 아들들
- ^ Hinkley DV (1975) 대칭으로 전력 변환. 바이오메트리카 62: 101–111
- ^ Groenebeld RA, Meeden G (1984) 왜도와 첨도를 측정한다. 통계학자, 33: 391–399