학생화 잔차

Studentized residual

통계에서 학생화된 잔차잔차표준 편차추정치로 나눈 값이다. 이것은 학생 t-통계학의 한 형태로서, 오차의 추정치는 점마다 다르다.

이것은 특이치를 검출하는 데 중요한 기술이다. 그것은 학생이라는 필명으로 쓴 윌리엄 실리 고싯을 기리기 위해 이름이 붙여진 몇몇 사람들 중에 있다. 통계량을 표본 표준 편차로 나누는 것을 표준화정규화와 유사하게 학습이라고 한다.

동기

다변량 분포회귀 분석에서 이러한 서로 다른 입력 변수 값의 오차 분산이 같더라도 다른 입력 변수 값의 잔차 분산이 다를 수 있기 때문에 학습을 하는 주요 이유는 다음과 같다. 문제는 통계에서 오류와 잔차의 차이, 특히 퇴행에서 잔차의 거동이다.

단순 선형 회귀 모형 고려

랜덤 표본(Xi, Yi), i = 1, ..., n, 각 쌍(Xii, Y)이 충족됨

여기서 오류 독립적이며 모두 동일한 분산 잔차는 실제 오차가 아니라 관측 가능한 데이터에 기반한 추정치다. 최소 제곱법을 사용하여 0 }을 추정할 때 오류 과 달리 displaystyproton 은 두 제약 조건을 만족하므로 독립적일 수 없다s

그리고

(여기서 에러가 발생하였고, ^ i 는 ith 잔차 입니다.)

오차와는 달리 잔차가 모두 같은 분산을 갖는 것은 아니다. 해당 x-값이 평균 x-값에서 멀어질수록 분산이 감소한다. 이것은 데이터 자체의 특징이 아니라, 도메인 끝에 값을 더 잘 맞추는 회귀 분석의 특징이다. 또한 다양한 데이터 포인트가 회귀 계수에 미치는 영향 함수에 반영된다. 엔드포인트가 더 많은 영향을 미친다. 이는 엔드포인트의 잔차가 적합선의 기울기에 크게 의존하는 반면, 중앙의 잔차는 상대적으로 기울기에 둔감하기 때문에도 볼 수 있다. 참 오류의 분산이 모두 서로 동일하지만 잔차의 분산이 다르다는 사실이 학생화의 필요성에 대한 주된 이유다.

단순히 모집단 모수(평균 및 표준 편차)를 알 수 없는 문제가 아니라, 잔차에 대한 공통 분포를 공유하는 일변량 분포의 점 추정기와 달리 퇴행은 서로 다른 데이터 포인트에서 다른 잔차 분포를 산출한다는 것이다.

배경

이 단순한 모델의 경우 설계 행렬은

Hat 행렬 H는 설계 행렬의 열 공간에 대한 직교 투영 행렬이다.

레버리지 hii hat 행렬의 ih 대각선 입력이다. eth 잔차의 분산은

설계 행렬 X에 (위의 예와 같이) 두 개의 열만 있는 경우, 이는

산술 평균의 경우 설계 행렬 X에는 하나의 열(하나의 벡터)만 있으며, 이는 단순히 다음과 같다.

계산

위의 정의에 따라 학생화된 잔차는 다음과 같다.

여기서 hii 레버리지(leverage)이며, 여기서 (아래 참조)의 적절한 추정치임.

평균의 경우 이는 다음과 같다.

내외부 학생화

σ2 통상적인 추정치는 내부적으로 학습한 잔차다.

여기서 m은 모형에 있는 모수의 수입니다(이 예에서는 2).

그러나 i ths 사례가 아마도 클 것으로 의심된다면, 그것은 또한 정상적으로 배포되지 않을 것이다. 따라서 i th 사례가 특이치인지 여부를 고려할 때 분산을 추정하는 과정에서 i th 관측치를 배제하고 대신 외부 학생화 잔차를 사용하는 것이 현명하다.

의심스러운 i th 잔류물을 제외한 모든 잔차에 기초한다. 여기 ( ) }( i(를) i 사례 제외로 계산함을 강조한다.

th 추정치2 i th 사례가 포함된 경우, 내부적으로 학습한 잔차 t 표준화된 잔차라고도 함)라고 한다. 추정치 ^^ ( ) {\{\대신 사용한다면, 외부 학습형 )라고 한다

분배

n이 오류와 보통 기대 가치 0과 가변성 σ2 있고, 그러고 나서 그 ith 외부 studentized 잔류 t을 확률 분포 분산 독립적이다 나는}{\displaystyle t_{i(나는)}(나는)은 T분포 − m자유의 1도 −,− ∞{\displaystyle\scriptstyle -\infty 이르기까지 다양하다. ~ +

반면, 내부적으로 학습한 는 0± 의 범위에 있으며 여기서 ν = n - m은 잔류 자유도 수입니다. ti 내부적으로 학습된 잔차를 나타내고, 오류가 동일한 독립적으로 분포된 가우스 변수라고 다시 가정하는 경우,[2] 다음을 수행하십시오.

여기서 t는 자유도가 1도학생 t-분포로서 분포하는 랜덤 변수다. 실제로 이는 ti2 /tu베타 분포 B(1/2, (1987 - 1)/2)를 따른다는 것을 의미한다. 위의 분포는 때때로 타우 분포라고 불리기도 한다;[2] 그것은 톰슨에 의해 1935년에 처음 도출되었다.[3]

ν = 3일 때, 으로 학습한 잔차는- 3 + 사이에 균일하게 분포되어 있으며 자유도가 하나만 있으면 내부 학습된 잔차의 분포에 대한 위의 공식은 적용되지 않는다. 이 경우 ti 모두 +1 또는 -1이며, 각각 50% 확률이다.

내부적으로 학습한 잔차 분포의 표준 편차는 항상 1이지만, 이는 특정 실험i 모든 t의 표준 편차가 1임을 의미하지는 않는다. For instance, the internally studentized residuals when fitting a straight line going through (0, 0) to the points (1, 4), (2, −1), (2, −1) are , and the standard deviation of these is not 1.

학생화된 잔차 titj 쌍(서 i j j )은 I.i.d가 아니라는 점에 유의하십시오. 이들은 동일한 분포를 가지지만 잔차를 0으로 합해야 하고 설계 행렬과 직교해야 하는 제약조건 때문에 독립적이지 않다.

소프트웨어 구현

R, Python 등과 같은 많은 프로그램과 통계 패키지는 학생화된 잔여물의 구현을 포함한다.

언어/프로그램 함수 메모들
R rstandard(model, ...) 내실 있는 [2] 참조
R rstudent(model, ...) 외적으로 학력이 있는 [3] 참조


참고 항목

참조

  1. ^ 회귀 분석 삭제 진단 R 문서
  2. ^ a b Allen J. Pope(1976), "잔차 통계와 특이치의 검출", 미국 상무부, 국립해양대기청, 국립해양조사, 지질연구개발연구소, 136쪽, [1], eq.(6)
  3. ^ Thompson, William R. (1935). "On a Criterion for the Rejection of Observations and the Distribution of the Ratio of Deviation to Sample Standard Deviation". The Annals of Mathematical Statistics. 6 (4): 214–219. doi:10.1214/aoms/1177732567.

추가 읽기