투영 행렬

Projection matrix

통계에서 투영 행렬) [1] 때로는 영향 행렬[2] 또는 모자 행렬 )이라고도 하며H) 반응 값(종속 변수 값)의 벡터를 적합치(또는 예측 값)의 벡터에 매핑한다. 각 반응 값이 각 적합치에 미치는 영향을 설명한다.[3][4] 투영 매트릭스의 대각선 요소는 레버리지로, 동일한 관측치에 대한 각 반응 값이 적합치에 미치는 영향을 설명한다.

정의

반응 값의 벡터가 으로 표시되고 displaystyle \{\{y}}에적합치의 벡터가 표시되는 경우 ,

{가) 보통 "y-hat"으로 발음되므로, 투영 행렬 도 " 모자를 씌우면서 hat 행렬로 명명된다.

}의 ith 행과 j번째 열에 있는 요소는 j번째 반응 값과 ith 적합치 사이의 공분산과 동일하며, 이를 전자의 분산으로 나눈 값:[citation needed]

잔차 적용

잔차 의 벡터에 대한 공식도 투영 행렬을 사용하여 압축적으로 표현할 수 있다.

서 I 는) ID 행렬이다. I - -행렬을 잔차 메이커 행렬이라고도 한다.

오류 전파에 의한잔차 공분산 행렬이 동일함

,

여기서 }은(는) 오류 벡터의 공분산 행렬(그리고 확장자로도 응답 벡터)이다. = }선형 모델의 경우[3] 이 값은 다음과 같이 감소한다.

r=( - ) } -

직감

행렬 에는 열 공간이 녹색 선으로 표시된다. 의 열 공간에 대한 일부 벡터 displaystyle {의 투영은 벡터 이다

From the figure, it is clear that the closest point from the vector onto the column space of , is , and is one where we can draw a line orthogonal to the column space of . A vector that 행렬의 열 공간에 직교하는 것은 전치 행렬의 null 공간에 있으므로

거기서부터 한 척의 백랑이, 그러니까.

Therefore, since is on the column space of , the projection matrix, which maps onto is just , or

선형 모형

선형 최소 제곱을 사용하여 선형 모형을 추정한다고 가정합시다. 모델은 다음과 같이 쓸 수 있다.

여기서 는) 설명 변수의 행렬(설계 행렬), β는 추정할 알 수 없는 모수의 벡터, ε은 오차 벡터다.

많은 유형의 모델과 기법은 이 공식에 따른다. 선형 최소 제곱, 평활 스플라인, 회귀 스플라인, 로컬 회귀 분석, 커널 회귀 분석 및 선형 필터링 등이 몇 가지 예다.

보통 최소 제곱

각 관측치의 가중치가 동일하고 오차가 상관관계가 없을 때 추정된 모수는 다음과 같다.

적합치는 다음과 같다.

따라서 투영 매트릭스(및 hat 매트릭스)는 다음에 의해 주어진다.

가중 및 일반화 최소 제곱

위 사항은 가중치가 동일하지 않거나 오차가 상관관계가 있는 경우로 일반화할 수 있다. 오차의 공분산 행렬σ이라고 가정합시다. 그 후

.

모자 행렬은 다음과 같다.

지금은 더 이상 대칭이 = H{ H= 라고 볼 수 있다

특성.

투영 매트릭스에는 여러 가지 유용한 대수적 특성이 있다.[5][6] 선형 대수학의 언어로 설계 매트릭스 X{\displaystyle \mathbf{X}의 세로 줄 공간에 프로젝션 행렬은 정사영}}}은 pseudoi(그(XTX습니다)− 1XT{\displaystyle \left(\mathbf{X}^{\textsf{T}}\mathbf{X}\right)^{)}\mathbf{X}^{\textsf{T}.[4].nvX.) 이 설정에서 투영 행렬의 일부 사실은 다음과 같이 요약된다.[4]

  • and
  • 은(는) 대칭이며, - -도 대칭이다
  • (는) idempotent: = {\}이고, }도 마찬가지 입니다
  • \(가 랭크) = )인 P =
  • 고유값r 1과 n - r 0으로 구성되며, 의 고유값은 n - r 1과 r 0으로 구성된다.[7]
  • is invariant under : hence .
  • (는) 특정 하위 공간에 대해 고유하다.

선형 모형에 해당하는 투영 행렬은 대칭idempotent, 즉 P = P 그러나 국소 가중 산점도 평활(LOESS)에서는 모자 행렬이 일반적으로 대칭이나 idempotentent가 아니다.

선형 모형의 경우 투영 행렬의 트레이스는 선형 모형의 독립 매개변수 수인 순위와 동일하다[8] 관측치 에서 여전히 선형인 LOESS와 같은 다른 모델의 경우 투영 행렬을 사용하여 모델의 유효 자유도를 정의할 수 있다

회귀 분석에서 투영 행렬의 실제 적용은 레버리지Cook의 거리를 포함하며, 영향력 있는 관측치, 즉 회귀 분석 결과에 큰 영향을 미치는 관측치를 식별하는 것과 관련이 있다.

블럭화 공식

설계 행렬 을(를) =[ A 로 분해할 수 있다고 가정하십시오.. Define the hat or projection operator as . Similarly, define the residual operator as . Then the projection matrix can be decomposed as follows:[9]

where, e.g., and 그런 분해에는 여러 가지 응용이 있다. 고전적 어플리케이션 모든 어플리케이션의 컬럼으로, 회귀에 절편 용어를 추가하는 효과를 분석할 수 있다. 또 다른 용도는 고정 효과 모델에서 사용되며, 서 A 은 고정 효과 항에 대한 더미 변수의 큰 희소 행렬이다. 커서 컴퓨터 메모리에 맞지 않을 수 있는 행렬 X 을(를) 명시적으로 구성하지 않고도 이 파티션을 사용하여 의 모자 행렬을 계산할 수 있다

참고 항목

참조

  1. ^ Basilevsky, Alexander (2005). Applied Matrix Algebra in the Statistical Sciences. Dover. pp. 160–176. ISBN 0-486-44538-0.
  2. ^ "Data Assimilation: Observation influence diagnostic of a data assimilation system" (PDF). Archived from the original (PDF) on 2014-09-03.
  3. ^ a b Hoaglin, David C.; Welsch, Roy E. (February 1978). "The Hat Matrix in Regression and ANOVA" (PDF). The American Statistician. 32 (1): 17–22. doi:10.2307/2683469. hdl:1721.1/1920. JSTOR 2683469.
  4. ^ a b c David A. Freedman (2009). Statistical Models: Theory and Practice. Cambridge University Press.
  5. ^ Gans, P. (1992). Data Fitting in the Chemical Sciences. Wiley. ISBN 0-471-93412-7.
  6. ^ Draper, N. R.; Smith, H. (1998). Applied Regression Analysis. Wiley. ISBN 0-471-17082-8.
  7. ^ Amemiya, Takeshi (1985). Advanced Econometrics. Cambridge: Harvard University Press. pp. 460–461. ISBN 0-674-00560-0.
  8. ^ "Proof that trace of 'hat' matrix in linear regression is rank of X". Stack Exchange. April 13, 2017.
  9. ^ Rao, C. Radhakrishna; Toutenburg, Helge; Shalabh; Heumann, Christian (2008). Linear Models and Generalizations (3rd ed.). Berlin: Springer. pp. 323. ISBN 978-3-540-74226-5.