견실한 통계

Robust statistics

로버스트 통계량은 광범위한 확률 분포에서 도출된 데이터, 특히 정규 분포가 아닌 분포에 대해 성능이 우수한 통계량입니다.위치, 척도회귀 모수 추정과 같은 많은 일반적인 문제에 대해 강력한 통계 방법이 개발되었습니다.한 가지 동기는 특이치의 과도한 영향을 받지 않는 통계 방법을 생성하는 것이다.또 다른 동기는 모수 분포에서 약간의 이탈이 있을 때 좋은 성능을 가진 방법을 제공하는 것이다.예를 들어, 강력한 방법은 서로 다른 표준 편차를 갖는 두 정규 분포의 혼합물에 잘 작동합니다. 이 모형에서는 t-검정과 같은 비강성 방법이 제대로 작동하지 않습니다.

서론

견고한 통계는 일반적인 통계 방법을 에뮬레이트하는 방법을 제공하지만, 특이치나 모델 가정으로부터의 기타 작은 이탈의 과도한 영향을 받지 않는다.통계학에서, 고전적인 추정 방법은 실제로 충족되지 않는 가정에 크게 의존한다.특히, 데이터 오류가 적어도 대략적으로 정규 분포를 따르거나 정규 분포를 추정하기 위해 중심 한계 정리에 의존할 수 있다고 가정하는 경우가 많다.안타깝게도 데이터에 특이치가 있는 경우 고전적 추정치는 아래에 설명된 분해점영향 함수를 사용하여 판단할 때 성능이 매우 떨어지는 경우가 많습니다.

영향 함수에 나타난 문제의 실제 효과는 소량(1–5%로 종종 충분)의 오염을 혼합하는 혼합물 모델에서 제안된 추정치의 표본 분포를 조사함으로써 경험적으로 연구할 수 있다.예를 들어, 95% 정규 분포와 5% 정규 분포의 혼합을 평균은 같지만 상당히 높은 표준 편차(이상치를 나타냄)로 사용할 수 있습니다.

강력한 파라미터 통계는 다음 두 가지 방법으로 진행할 수 있습니다.

  • 영향 함수의 사전 선택된 행동을 달성하도록 추정기를 설계함으로써
  • 는 estimators과거나 적어도, 다른 분포:예를 들어 자유의 낮은 정도를 가지고( 높은 첨예도, 자유의 4~6도 사이 자주 연습에 도움이 되는 발견되고 있는 경우에는 표창이 필요하다는 티분포를 사용하기 위한 파생이 최적이다 정상적인 분포의 추정으로가 최적이다 estimators 바꿈으로써.뻗는다)또는 mixt과 개 이상의 분포로 구성됩니다.

다음과 같은 문제에 대한 견실한 추정치가 연구되었다.

정의.

"강세 통계"에는 다양한 정의가 있습니다.엄밀히 말하면, 강력한 통계량은 가정(예: 정규성)으로부터의[1] 이탈로 인해 생성되는 결과의 오차에 내성이 있습니다.즉, 가정이 대략적으로만 충족되는 경우, 견실한 추정기는 여전히 합리적인 효율성과 상당히 작은 편향을 가질 뿐 아니라 점근적으로 편견이 없다는 것을 의미하며, 이는 표본 크기가 무한대로 향하는 경향이 0으로 향하는 편향을 갖는다는 것을 의미한다.

일반적으로 가장 중요한 경우는 분포 [1]견고성, 즉 데이터의 기본 분포에 대한 가정을 깨는 견고성이다.고전적인 통계 절차는 일반적으로 "꼬리가 긴 상태"(예: 데이터의 분포가 가정된 정규 분포보다 꼬리가 긴 경우)에 민감하다.즉, 데이터에 특이치가 있는 경우 데이터의 영향을 크게 받고, 데이터에 극단적 특이치가 있는 경우 데이터에 특이치가 포함되지 않은 경우 추정치가 크게 왜곡될 수 있습니다.

반면, 긴 꼬리와 같은 분포 왜곡에 그다지 민감하지 않은 보다 견고한 추정치는 특이치의 존재에도 저항한다.따라서 견고한 통계의 맥락에서 분포적으로 견고한 것과 특이치 저항성이라는 것은 사실상 [1]동의어이다.2000년까지의 견실한 통계 조사에 대한 한 가지 관점은 Portnoy & He(2000)를 참조하십시오.

일부 전문가들은 분포 건전성에 대한 저항 통계량을 선호하고, 비분포 건전성에 대한 '강성'을 유보한다. 예를 들어 확률 모델이나 추정치에 대한 가정을 위반하는 '강성'을 유보하지만, 이는 소수의 사용이다.'분포적 견고성'을 의미하는 '강력성'은 일반적이다.

추정기가 특이치의 존재에 얼마나 강력한지를 고려할 때 데이터 집합에 극단적 특이치가 추가되었을 때 발생하는 작업을 테스트하고 극단적 특이치가 기존 데이터 지점 중 하나를 대체했을 때 발생하는 작업을 테스트한 다음 여러 추가 또는 대체의 효과를 고려하는 것이 유용합니다.

평균중심 경향에 대한 강력한 척도가 아닙니다.데이터 집합이 예: {2,3,5,6,9}인 경우 -1000 또는 +1000인 다른 데이터 지점을 데이터에 추가하면 결과 평균은 원래 데이터의 평균과 매우 다릅니다.마찬가지로 값 중 하나를 -1000 또는 +1000의 데이터 포인트로 바꾸면 결과 평균은 원래 데이터의 평균과 매우 다릅니다.

중위수중심 성향을 나타내는 강력한 척도입니다.동일한 데이터 집합 {2,3,5,6,9}을(를) 사용하여 값이 -1000 또는 +1000인 다른 데이터 지점을 추가하면 중앙값이 약간 변경되지만 여전히 원래 데이터의 중앙값과 비슷합니다.값 중 하나를 -1000 또는 +1000의 데이터 포인트로 바꾸더라도 결과 중위수는 원래 데이터의 중위수와 비슷합니다.

분해점 측면에서 설명하면 중위수의 분해점은 50%입니다. 즉, 중앙값을 비외측값의 범위 밖으로 이동하려면 먼저 점의 절반이 특이치여야 하며, 평균의 분해점은 0입니다. 하나의 큰 관측치로 인해 이탈할 수 있기 때문입니다.

중위수 절대 편차 및 사분위간 범위는 통계 산포를 나타내는 강력한 측도이지만 표준 편차범위는 그렇지 않습니다.

트리밍된 추정치Winsorized 추정치는 통계량을 보다 견고하게 만드는 일반적인 방법입니다.L-추정자는 단순 통계의 일반 클래스이며, 종종 강력하지만 M-추정자는 강력한 통계의 일반 클래스이며, 계산에 상당히 관여할 수 있지만 현재 선호되는 솔루션입니다.

광속 데이터

베이지안 데이터 분석(2004)의 겔만 외 연구진은 Simon Newcomb가 수행한 빛의 속도 측정과 관련된 데이터 세트를 고려한다.이 책의 데이터 세트는 클래식 데이터 세트 페이지에서 찾을 수 있으며, 이 책의 웹 사이트에는 데이터에 대한 자세한 정보가 포함되어 있습니다.

데이터의 대부분이 정규 분포를 따르는 것처럼 보이지만 두 가지 분명한 특이치가 있습니다.이러한 특이치는 평균에 큰 영향을 미치며, 평균은 데이터 부피의 중심에서 멀어지고 있습니다.따라서 평균이 데이터 중심 위치의 측도로 의도된 경우 특이치가 존재할 때 편중된 것입니다.

또한 중심 한계 정리에 의해 평균의 분포가 점근 정규 분포를 따르는 것으로 알려져 있습니다.그러나 특이치는 꽤 큰 데이터 집합에서도 평균 분포를 비정규 분포를 만들 수 있습니다.이러한 비정규성 외에도 특이치가 있는 경우 평균은 비효율적이며 사용 가능한 위치의 가변 측도가 적습니다.

위치 추정

아래 그림은 융단 그림(패널 (a))과 함께 광속 데이터의 밀도 그림을 보여 줍니다.또한 일반 Q–Q 그림(패널 (b))도 표시됩니다.특이치는 이 그림에서 명확하게 볼 수 있습니다.

그림의 패널 (c)와 (d)는 평균 (c)과 10% 잘린 평균 (d)의 부트스트랩 분포를 나타냅니다.잘라낸 평균은 데이터의 양 끝에서 특정 비율의 관측치(여기서는 10%)를 삭제한 다음 일반적인 방법으로 평균을 계산하는 단순한 강력한 위치 추정기입니다.분석은 R에서 수행되었으며 원시 및 다듬어진 각 평균에 10,000개의 부트스트랩 표본이 사용되었습니다.

평균의 분포는 10% 잘라낸 평균의 분포보다 훨씬 더 넓습니다(그림은 같은 척도에 있음).또한 잘라낸 평균의 분포가 정규 분포에 가까운 반면 원시 평균의 분포는 상당히 왼쪽으로 치우쳐 있습니다.따라서 이 66개 관측치 표본에서는 특이치가 2개뿐이므로 중심 한계 정리를 적용할 수 없습니다.

SpeedOfLight.png

잘라낸 평균이 단순한 예인 강력한 통계 방법은 특이치가 있는 경우 또는 보다 일반적으로 기본 모수 가정이 정확하지 않은 경우 기존 통계 방법을 능가하는 성능을 추구한다.

이 예제에서는 절사된 평균이 평균에 비해 잘 수행되지만 보다 강력한 추정치를 사용할 수 있습니다.실제로 평균, 중위수 및 절사 평균은 모두 M 추정치의 특수한 경우입니다.상세한 것에 대하여는, 다음의 항을 참조해 주세요.

규모 추정

광속 데이터의 특이치는 평균에 부정적인 영향 그 이상입니다. 척도의 일반적인 추정치는 표준 편차이며, 평균으로부터의 편차의 제곱이 계산에 들어가므로 이 양은 특이치의 영향을 더 많이 받습니다.

아래 그림은 표준편차의 부트스트랩 분포, 중앙절대편차(MAD) 및 [2]척도의 Rouseuw-Croux(Qn) 추정치를 보여줍니다.그림은 각 추정치에 대해 10,000개의 부트스트랩 샘플을 기반으로 하며, 일부 가우스 노이즈가 재샘플링된 데이터(스무드 부트스트랩)에 추가됩니다.패널(a)은 표준편차의 분포를 나타내고, (b)는 MAD의 분포를 나타내고, (c)는 Qn의 분포를 나타낸다.

SpeedOfLightScale.png

특이치로 인해 표준 편차의 분포가 불규칙하고 넓습니다.MAD가 더 잘 작동하고 Qn이 MAD보다 조금 더 효율적입니다.이 간단한 예제는 특이치가 있는 경우 표준 편차를 척도의 추정치로 권장할 수 없음을 보여 줍니다.

특이치에 대한 수동 선별

기존에는 통계학자가 데이터를 수동으로 선별하여 특이치를 제거했으며, 일반적으로 데이터 출처를 확인하여 특이치가 잘못 기록되었는지 여부를 확인했습니다.실제로 위의 광속 예에서는 추가 분석을 진행하기 전에 두 개의 특이치를 쉽게 확인하고 제거할 수 있습니다.그러나 오늘날 데이터 집합은 종종 많은 수의 실험 단위에서 측정되는 많은 수의 변수로 구성됩니다.따라서 특이치에 대한 수동 선별은 종종 비현실적입니다.

특이치는 종종 서로를 가리는 방식으로 교호작용할 수 있습니다.간단한 예로 보통 특이치 하나와 큰 특이치 하나가 포함된 작은 일변량 데이터 집합을 고려해 보십시오.추정된 표준 편차는 특이치가 크면 크게 팽창됩니다.그 결과, 중간 정도의 특이치가 비교적 정상으로 보입니다.큰 특이치를 제거하면 추정된 표준 편차가 줄어들고 중간 수준의 특이치가 비정상적으로 나타납니다.

이 마스킹 문제는 데이터의 복잡성이 증가할수록 악화됩니다.예를 들어, 회귀 문제에서 진단 그림은 특이치를 식별하는 데 사용됩니다.그러나 몇 가지 특이치가 제거되면 다른 특이치가 나타나는 것이 일반적입니다.이 문제는 더 높은 차원에서는 더 심각하다.

강력한 방법을 사용하면 특이치를 자동으로 검출, 저중량화(또는 제거) 및 플래깅할 수 있으므로 수동 스크리닝이 필요하지 않습니다.주의해야 한다. 남극 상공에 오존 구멍이 처음 나타난다는 초기 데이터는 비인간 선별에서 [3]특이치로 기각되었다.

다양한 응용 프로그램

이 글은 일변량 통계 방법에 대한 일반 원칙을 다루지만, 회귀 문제, 일반화 선형 모델 및 다양한 분포의 모수 추정에도 강력한 방법이 존재한다.

견고성 측정

건전성을 설명하고 측정하는 데 사용되는 기본 도구는 파괴점, 영향 함수감도 곡선이다.

고장점

직관적으로 추정기의 고장 지점은 추정기가 잘못된(예: 임의로 큰) 결과를 제공하기 전에 처리할 수 있는 잘못된 관측치(예: 임의로 큰 관측치)의 비율이다.일반적으로 점근(무한 표본) 한계가 분석점으로 인용되지만, 유한 표본 분석점이 더 [4]유용할 수 있습니다.예를 들어 n개의\n개의 독립랜덤 ( 1 n 하는 실현 1, x {1 x n \}, \x_{되면 + 할 수 있습니다 평균을 추정합니다. 1, n {1\를 변경하는 것만으로 x{\(\를 임의로 크게 수 있기 때문에 이러한 추정치는 0(또는 유한 샘플 1/입니다.

추정기의 고장점이 높을수록 더 강력합니다.직관적으로 관측치의 절반 이상이 오염되면 기초 분포와 오염 분포를 구별할 수 없기 때문에 고장 지점이 50%를 초과할 수 없다는 것을 이해할 수 있다. Rousseeu & Leroy(1986) : 따라서 최대 분해점은 0.5이며 이러한 분해점을 달성하는 추정치가 있습니다.예를 들어, 중위수의 분해점은 0.5입니다.X% 절사 평균의 분해점은 선택한 X 수준에 대해 X%입니다.Huber(1981)Maronna, Martin & Yohai(2006) 없음: 자세한 내용은 2006도움말)에 기재되어 있습니다.테스트의 수준과 전력 고장 지점은 He, Simpson & Portnoy(1990)에서 조사된다.

분석점이 높은 통계량을 저항 [5]통계량이라고도 합니다.

예: 광속 데이터

광속 예제에서 가장 낮은 관측치를 제거하면 평균이 26.2에서 27.75로 1.55만큼 변경됩니다.Qn 방법에 의해 생성된 척도의 추정치는 6.3입니다.이를 표본 크기의 제곱근으로 나누어 강력한 표준 오차를 얻을 수 있으며 이 양은 0.78입니다.따라서 두 의 특이치를 제거함으로써 평균의 변화는 강력한 표준 오차의 약 두 배입니다.

광속 데이터의 10% 절사 평균은 27.43입니다.가장 낮은 관측치 두 개를 제거하고 다시 계산하면 27.67이 됩니다.잘라낸 평균은 특이치의 영향을 덜 받고 분석점이 더 높습니다.

가장 낮은 관측치인 -44를 -1000으로 대체하면 평균은 11.73이 되는 반면 10% 잘라낸 평균은 27.43이 됩니다.적용된 통계의 많은 영역에서 데이터를 거의 대칭에 가깝게 만들기 위해 로그 변환하는 것이 일반적이다.매우 작은 값은 로그 변환 시 큰 음수가 되고 0은 음의 무한이 됩니다.따라서, 이 예는 실제적인 관심이 있다.

경험적 영향 함수

Tukey의 역함수

경험적 영향 함수는 표본에 있는 점 중 하나의 값에 대한 추정기의 의존성에 대한 측도입니다.이는 단순히 다른 표본으로 추정기를 다시 계산하는 데 의존한다는 점에서 모형이 필요 없는 측도입니다.오른쪽은 Tukey의 가중함수입니다.이 함수는 나중에 보게 될 것처럼 (나중에 정의되는 의미에서) 경험적 영향함수가 어떤 모습이어야 하는지를 보여주는 예입니다.

수학적 용어로 영향 함수는 추정기 공간의 벡터로 정의되며, 이는 모집단의 하위 집합인 표본에 대해 정의됩니다.

  1. , ,) (\ , {\ , )는 확률 공간입니다.
  2. , {\ 측정 가능한 공간(상태 공간)입니다.
  3. \ \Theta }는 치수 n N{\ \ p\ { N}^{ *}의 파라미터 입니다.
  4. ,)(\style ( \ ,S )는 측정 가능한 공간입니다.

예를들면,

  1. {\ P 임의의 확률 공간입니다.
  2. , ) ( ,) { ( \ { } , \ ) = ( \ { , { \ { } ),
  3. ) ( ,) { ( \ ,S ) = ( \ { , { \ {} ),

경험적 영향 함수는 다음과 같이 정의된다.

{ n \ {} { * } x x 1, n: ( a , ) ( , ) { _ {1} , \ , X _ { n } : ( \ , { \{ A } ) \ ) n :( n , n ) ( ,S) { , } 。{ , { \ \ { , \ ,\ }i에서의 경험적 영향 })는 다음과 같이 정의된다.

이것이 실제로 의미하는 것은 샘플의 i번째 값을 임의의 값으로 대체하고 추정기의 출력을 보고 있다는 것입니다.또는 EIF는 점(\x)를 [citation needed]표본에 추가하는 추정치에 대한 효과(n 대신 n+1)로 정의됩니다.

영향 함수 및 감도 곡선

데이터에만 의존하는 대신 랜덤 변수의 분포를 사용할 수 있습니다.그 접근법은 이전 단락의 접근법과 상당히 다르다.이제 데이터의 분포를 약간 변경했을 때 추정기가 어떻게 되는지 알아보려고 합니다. 추정기는 분포를 가정하고 이 분포의 변화에 대한 민감도를 측정합니다.반면 경험적 영향은 표본 집합을 가정하고 [6]표본의 변화에 대한 민감도를 측정합니다.

A \에 대한 모든 유한 부호 측도의 집합의 볼록 부분 집합이라고 하고 A(\ A분포 F(\ \ \의 매개변수(\F 추정한다.}는 일부 추정기 시퀀스n ) { 의 점근 값이다. 이 함수는 Fisher 일관성, 즉 θ θ θ θ θ θ = = = = = = = = = = = = = = = = = θ θ θ θ θ θ θ {\F 추정기 시퀀스는 점근적으로 정확한 양을 측정합니다.

G디스플레이 G A A의 분포로 . 데이터가 모델 F 따르지 않고 G G로 향하는 다른 모델 F(디스플레이 스타일 F)를 정확히 따를 경우 어떻게 됩니까?

보고 있습니다. TG -( F ) 0+ (G +( - ) )- T( ) \ style { G - F ( F ) \ { t \ 0 ^ { + 0 } } { \ -( T ( T )

이것은G - T{\ T 단측 Gateaux 도함수입니다

{\ x {{\ x { _the ~ {{ which G = \ G = \ _ } 。영향 함수는 다음으로 정의됩니다.

여기에는 오염의 t관찰의 오염으로 인한 점근 편향)에 의해 표준화된 x x 에서 우리가 추구하는 추정치에 대한 극소 오염의 영향이 기술되어 있다.강력한 추정기의 경우, 우리는 제한 영향 함수, 즉 x가 임의로 커짐에 따라 무한대로 가지 않는 함수를 원한다.

바람직한 속성

바람직한 성능을 부여하는 영향 함수의 특성은 다음과 같습니다.

  1. 유한거부점 {\ ( \ style \ { * }),
  2. 총오류 감도가 작음 ( \ style \ { * }) 、
  3. 로컬 시프트 감도가 \ { * }

불합격점

총오차의 감도

로컬 시프트 감도

Lipschitz 상수처럼 보이는 이 값은 관찰을 x에서 yy로 약간 이동시키는 효과를 나타냅니다. 즉 y\에서 관찰을 추가하고 xx에서 을 삭제합니다.

M-추정자

(이 항의 수학적 맥락은 경험적 영향 함수에 대한 섹션에 제시되어 있다.)

역사적으로, R 추정치와 L 추정치를 포함한 강력한 추정에 대한 몇 가지 접근방식이 제안되었다.그러나 M-추정자는 일반성, 고내역점 및 효율성의 결과로 현재 필드를 지배하고 있는 것으로 보입니다.Huber(1981)를 참조한다.

M 추정치는 최대우도 추정기(MLE)의 일반화입니다.MLE를 사용하여 최대화하려고 하는 것은 ( i 1}^{ (f()}{iii}{i}}}{n-}}{i}}}{displaysty}{i}}}{n-}}}}}{}}}}}}}}}{display _입니다서 \ \ 몇 가지 함수입니다.따라서 MLE는 M-추정기의 특수한 경우입니다(따라서 "최대우도 유형" 추정기).

i ( i) { \_ { \ ( {} )는 보통{\를 하여 i ho( i ) { \ i }^{} \psi = 0psi } \psi }을 푸는 방법으로 최소화할 수 있습니다. 파생형이 있는 경우).

몇 가지 선택지가 제안되고 있습니다.아래 두 그림은 \기능과 하는\ 기능을 보여줍니다.

RhoFunctions.png

오차 제곱의 경우 ((x))는 가속 속도로 증가하고 절대 오차의 경우 일정한 속도로 증가합니다.Winsorizing을 사용하면 이 두 가지 효과의 혼합이 도입됩니다.x 값이 작을 경우x의 제곱 레이트로 하지만 선택한 임계값(이 예에서는 1.5 도달하면 증가율이 일정해집니다.이 Winsorized 추정기는 Huber 손실 함수라고도 합니다.

Tukey의 가중치(비스퀘어라고도 함) 함수는 처음에는 오차 제곱 함수와 유사한 방식으로 작동하지만, 오류가 클수록 함수가 점점 가늘어집니다.

PsiFunctions.png

M-Estimator 속성

M 추정치는 확률 밀도 함수와 반드시 관련이 있는 것은 아닙니다.그러므로, 가능성 이론에서 발생하는 추론에 대한 기성 접근법은 일반적으로 사용될 수 없다.

M 추정치는 점근적으로 정규 분포를 따르기 때문에 표준 오차를 계산할 수 있는 한 추론에 대한 근사적인 접근법이 이용 가능하다는 것을 보여줄 수 있다.

M-추정자는 점근적으로만 정규적이므로 표본 크기가 작은 경우에는 부트스트랩과 같은 추론에 대한 대체 접근법을 사용하는 것이 적절할 수 있다.그러나 M-추정이 반드시 고유한 것은 아닙니다(즉, 방정식을 만족시키는 솔루션이 두 개 이상 있을 수 있습니다).또한 특정 부트스트랩 표본이 추정기의 고장점보다 더 많은 특이치를 포함할 수 있습니다.따라서 부트스트랩 방식을 설계할 때는 주의가 필요합니다.

물론 빛의 속도 예에서 보았듯이, 평균은 점근적으로만 정규 분포되며, 특이치가 존재할 경우 상당히 큰 표본의 경우에도 근사치가 매우 낮을 수 있다.그러나 평균에 기초한 것을 포함한 고전적인 통계 검정은 일반적으로 검정의 공칭 크기에 의해 위에서 제한된다.M-추정자에 대해서는 동일하지 않으며 유형 I 오류율은 공칭 수준을 크게 초과할 수 있습니다.

이러한 고려사항은 어떤 식으로든 M-추정을 '무효화'시키지 않습니다.그들은 단지 다른 어떤 추정 방법에서도 그렇듯이 그들의 사용에 있어 약간의 주의가 필요하다는 것을 분명히 할 뿐이다.

M 추정기의 영향 함수

M-Estimator T 영향함수는 [7]에 비례한다는 것을 알 수 있으며, 이는 함수를 알고 있을 때 그러한 추정기의 특성(거부점, 총오차감도, 국소변화감도 등)을 도출할 수 있음을 의미한다.

× \ p \ pthe

andρ의 선택지

실제 상황에서 함수의 선택은 우수한 견적을 얻는 데 중요하지 않으며,[8] 많은 선택사항은 특이치가 존재하는 경우 기존 추정치에 비해 효율성과 편향 면에서 큰 개선을 제공하는 유사한 결과를 제공할 것이다.

이론적으로는 [clarification needed]선호되며, Tukey의 biweight(일명 bisquare) 기능이 인기입니다.Maronna, Martin & Yohai(2006) 오류:: 도움말에서는 보통 85%로 설정된 효율로 biweight 기능을 권장합니다.

강력한 파라메트릭 어프로치

M 추정치는 반드시 밀도 함수와 관련이 있는 것은 아니므로 완전한 모수 함수는 아닙니다.강력한 모델링 및 추론에 대한 완전한 모수적 접근법, 베이지안 접근법 및 우도 접근법은 일반적으로 Student's t-분포와 같은 무거운 꼬리 분포를 다룬다.

자유도가(\ t-분포의 경우,

1 \nu 의 경우 t-분포는 코시분포와 동일합니다.자유도는 도 매개변수라고도 합니다.이것은 꼬리의 무게를 조절하는 매개 변수입니다.으로 { 다른 파라미터와 마찬가지로 데이터에서 추정할 수 있습니다. { (가) 달라지는 경우 로컬 최대값이 여러 개 있는 것이 일반적입니다. 일반적으로 4 또는 6 정도의 값으로 고정합니다.다음 그림에 값의 나타냅니다.

TDistPsi.png

예: 광속 데이터

빛의 속도 데이터의 경우 첨도 매개변수를 변경하고 가능성을 최대화하면 다음과 같은 결과를 얻을 수 있습니다.

(\ )고정 및 가능성 극대화:

관련 개념

중추량은 모수 값에 의존하지 않는 기본 모집단 분포가 모수 패밀리의 구성원인 데이터의 함수입니다.보조 통계량은 통계량이기도 한 함수이며, 이는 데이터만으로 계산된다는 것을 의미한다.이러한 함수는 매개변수의 값과 독립적이라는 점에서 매개변수에 대해 강력하지만 기본 모델(모수 계열)을 가정한다는 점에서 모델에 대해 강력하지 않으며, 실제로 그러한 함수는 종종 모델 가정의 위반에 매우 민감하다.따라서 모수에 대한 가정에 민감하지 않도록 이러한 관점에서 자주 구성된 검정 통계량은 여전히 모형 가정에 매우 민감합니다.

특이치 및 결측값 바꾸기

결측 데이터를 교체하는 귀속이라고 합니다.결측점이 상대적으로 적은 경우 결측값을 데이터의 평균 또는 중위수로 교체하는 등 시계열을 완성하기 위해 값을 추정하는 데 사용할 수 있는 모형도 있습니다.단순 선형 회귀 분석을 사용하여 결측값을 [9][incomplete short citation]추정할 수도 있습니다.또한, 때때로 절사 평균, 표준 편차(예: MAD) 및 윈저라이제이션 [10]이외의 다른 척도 추정기를 사용하여 특이치를 데이터에 수용할 수 있습니다.잘라낸 평균을 계산할 때 정렬된 데이터의 양 끝에서 고정 백분율의 데이터가 삭제되므로 특이치가 제거됩니다.그런 다음 나머지 데이터를 사용하여 평균을 계산합니다.윈소라이징에는 [11]특이치를 필요에 따라 다음으로 높거나 다음으로 작은 값으로 대체하여 수용하는 작업이 포함됩니다.

그러나 이러한 유형의 모델을 사용하여 긴 시계열의 결측값 또는 특이치를 예측하는 것은 어렵고, 특히 채워질 값의 수가 총 레코드 길이에 비해 상대적으로 높은 경우 신뢰성이 떨어지는 경우가 많습니다.추정치의 정확도는 모형이 얼마나 우수하고 대표적이며 결측값의 기간이 [12]연장되는지에 따라 달라집니다.일련의 동적 진화를 가정할 때 결측 데이터 점 문제는 (결측값과 특이치를 추정하는 대부분의 전통적인 방법의 일변량 접근 방식이 아닌) 다변량 분석의 연습이 된다.이 경우 결측값을 예측하는 데는 다변량 모형이 일변량 모형보다 더 대표적입니다.Kohonen 자기조직지도(KSOM)는 데이터 분석을 위한 단순하고 견고한 다변량 모델을 제공하므로 데이터 [11]기록의 다른 관련 변수와의 관계나 상관관계를 고려하여 결측값을 추정할 수 있는 좋은 가능성을 제공한다.

표준 Kalman 필터는 특이치에 대해 강력하지 않습니다.이를 위해 Ting, Theodorou & Schaal(2007)은 최근 마스렐리에즈 정리를 수정하면 특이치를 다룰 수 있다는 것을 보여주었다.

데이터 분석에서 특이치를 처리하는 한 가지 일반적인 접근법은 특이치 검출을 먼저 수행한 다음 효율적인 추정 방법(예: 최소 제곱)을 수행하는 것이다.이 접근방식은 많은 경우 유용하지만 두 가지 과제를 염두에 두어야 합니다.첫째, 비강력 초기 적합에 의존하는 특이치 검출 방법은 마스킹의 영향을 받을 수 있다. 즉, 특이치 그룹이 서로를 마스킹하고 [13]검출을 회피할 수 있다.둘째, 특이치 탐지에 높은 분석 초기 적합치가 사용되는 경우 추적 분석은 초기 [14]추정기의 비효율성 중 일부를 상속할 수 있습니다.

「 」를 참조해 주세요.

메모들

  1. ^ a b c Huber(1981), 1페이지.
  2. ^ Rouseuw & Croux (1993)
  3. ^ Masters, Jeffrey. "When was the ozone hole discovered". Weather Underground. Archived from the original on 2016-09-15.
  4. ^ Maronna, Martin & Yohai (2006)
  5. ^ 저항성 통계, 데이비드 B. 스티븐슨
  6. ^ von Mises(1947).
  7. ^ Huber(1981), 45페이지
  8. ^ Huber(1981년).
  9. ^ 맥도날드 & 애호박(1997년) 없음: 1997Harvey(1989) 오류::
  10. ^ McBean & Robers (1998).
  11. ^ a b Rustum & Adeloye (2007)
  12. ^ Rosen & Lennox (2001).
  13. ^ Rouseuw & Leroy(1987년).
  14. ^ 그와 포트노이(1992)

레퍼런스

외부 링크