충분한 치수 감소

Sufficient dimension reduction

통계에서 충분한 치수축소(SDR) 치수축소 아이디어와 충분성 개념을 결합한 데이터를 분석하는 패러다임이다.

치수 감소는 오랫동안 회귀 분석의 주요 목표였다.반응 변수 y와 p-차원 예측 변수 vector 의 경우, 회귀 분석은 analysis x 의 분포 의 조건부 분포 연구를 목표로 한다Rkm그리고 4.9초 만{\displaystyle \mathbb{R}^{k}의 보유에는 기능 R()){R({\textbf{x}})\displaystyle}그 지도){\displaystyle{\textbf{)}}}}, k<>p, 그에 따라}x{\displaystyle{\textbf{)}의 치수를 감소}예를 들어 .[1], R()){R({\textbf{x}})\displaystyle}may 이상의 x {\ {선형 결합

A dimension reduction is said to be sufficient if the distribution of is the same as that of . In other words, no information about the regression is lost in reducing the dimension충분한 x {\displaystyle {\[1]

그래픽 동기

회귀 설정에서 의 분포를 그래픽으로 요약하는 것이 종종 유용하다.예를 들어, {\ 하나 이상의 예측 변수의 산포도를 고려할 수 있다.사용 가능한 모든 회귀 정보를 포함하는 산점도를 충분한 요약도라고 한다.

이(가) 고차원적인 경우, 특히 3 3일 때 데이터를 줄이지 않고 충분량 요약도를 구성하고 시각적으로 해석하는 것이 점점 어려워진다.3차원 산점도라도 컴퓨터 프로그램을 통해 봐야 하고, 3차원도 좌표 축을 돌려야 시각화할 수 있다.그러나 충분한 치수가 있는 치수 감소 R이 있는 경우 ) 의 충분한 요약도를 구성하고 비교적 쉽게 시각적으로 해석할 수 있다.

따라서 충분한 치수 축소를 통해 고차원 데이터에는 달리 사용할 수 없었을 수 있는 분포에 대한 그래픽 직관이 가능하다

대부분의 그래픽 방법론은 x 의 선형 결합과 관련된 치수 축소에 초점을 맞추고 있다이 글의 나머지 부분은 그러한 축소만을 다루고 있다.

치수 축소 하위 공간

)= 이라고 가정하십시오. is a sufficient dimension reduction, where is a matrix with rank . Then the regression information for can be inferred by studying the distribution of T 은(는) 충분한 요약 그림이다.

일반성을 상실하지 않는 의 열로 확장공간만 고려하면 된다.{ 의 열 공간의 기초가 되게 하고, 에 의해 확장된 을 S 로 표시하도록 한다 {\ 충분한 차원의 정의에서 따온 것이다

여기서 적절한 분포 함수를 나타낸다.이 재산을 표현하는 또 다른 방법은

y 는) 과(와) 조건상 독립적이다그런 다음 하위 ) {\{\{S}(\을(를) 치수 감소 하위 공간(DRS)으로 정의한다.[2]

구조적 차원성

회귀 y x {경우 구조 d d는) y 의 조건부 분포를 보존하는 데 필요한 }의 최소 선형 조합이다ds, R 의 하위 집합에 대한 여전히 충분한 x {\ {의 최소 치수 감소해당 DRS는 d차원일 것이다.[2]

최소 치수 축소 하위 공간

A subspace is said to be a minimum DRS for if it is a DRS and its dimension is less than or equal to that of all other DRSs for . A minimum DRS is not ne완전히 고유하지만 그 치수는 x 치수 d 과 동일하다[2]

(가) 기본 {\eta } 최소 DRS인 경우 y 대 T x {\T}{\의 플롯은 최소 충분 요약 그림이며 (d + 1) 차원이다.

중앙 서브 스페이스페이스

If a subspace is a DRS for , and if for all other DRSs , then it is a central dimension reduction subspace, or simply a central subspace, and it is denoted by . In other words, a central subspace for exists if and only if the intersection of all dimension reduction서브스페이스는 치수축소 하위공간이기도 하며, 그 교차점은 중심 서브공간 S x이다[2]

중심 하위 공간 x 교차점 d s 이 반드시 DRS가 아니므로 반드시 존재하는 것은 아니다.단, x {\ x([2]가) 존재한다면, 그것은 또한 고유한 최소 치수 축소 하위 공간이기도 하다.

중심 하위 공간의 존재

중심 아공간 x의 존재가 모든 회귀 상황에서 보장되지는 않지만, 그 존재가 직접적으로 따르는 다소 넓은 조건도 있다.예를 들어, Cook(1998)의 다음 제안을 고려하십시오.

S1{\displaystyle{{S\mathcal}}_{1}}과 S2{\displaystyle{{S\mathcal}자}_{2}} 치수 감소 y∣ x{\displaystyley\mid{\textbf{)}}에}. f(를)한다면 x{\displaystyle{\textbf{)}}}이 밀도, 모두 ∈ Ω에 0{\displaystyle f(를)>0}){\disp subspaces.laysty and everywhere else, where is convex, then the intersection is also a dimension reduction subspace.

명제로부터 하위 S x {\이(가) 그러한 x {에 대해 존재한다는 것을 알게 된다[2]

치수축소방법

치수 축소를 위한 많은 기존 방법들이 그래픽과 숫자 둘 다 있다.예를 들어, 슬라이스 역 회귀 분석(SIR)슬라이스 평균 분산 추정(SAVE)은 1990년대에 도입되어 계속 널리 사용되고 있다.[3]SIR은 원래 효과적인 치수 감소 서브공간을 추정하기 위해 설계되었지만, 현재는 일반적으로 다른 중앙 서브공간만을 추정하는 것으로 이해되고 있다.

보다 최근의 치수 감소 방법으로는 우도 기반 충분한 치수 감소,[4] 역세 번째 모멘트(또는 k번째 모멘트)에 기반한 중심 서브공간 추정,[5] 중심 솔루션 공간 추정,[6] 그래픽 회귀,[2] 외피 모델 및 주 지지 벡터 기계 등이 있다.[7]이러한 방법 및 기타 방법에 대한 자세한 내용은 통계 자료를 참조하십시오.

주성분 분석(PCA)과 유사한 치수 감소 방법은 충분성 원칙에 근거하지 않는다.

예제: 선형 회귀 분석

회귀 모형 고려

x 의 분포는 T y{의 분포와 동일하므로 하위 공간이다또한 은(는) 1차원이기 때문에(= 0 은(는) 이 회귀의 구조적 치수는 = 이다

추정 의 β {\\beta (가) 일치하므로 ^ 는 S ∣ x 일관성 있는 추정자입니다 T 은(는) 이 회귀 분석을 위한 충분한 요약 그림이다.

참고 항목

메모들

  1. ^ a b 쿡 앤 아드라그니(2009) 회귀 분석에서의 충분한 치수 축소 예측: 왕립 학회의 철학적 거래 A: 수학, 물리 및 공학, 367(1906): 4385–4405
  2. ^ a b c d e f g 조리, R.D. (1998) 회귀 그래픽: Wiley, Graphics를 통한 Regression 연구 아이디어 ISBN0471193658
  3. ^ Li, K-C. (1991) 치수 축소위한 슬라이스회귀 분석: 미국 통계 협회 저널, 86(414): 316–327
  4. ^ Cook, R.D. 및 Forzani, L. (2009) 우도 기반 충분한 치수 감소 In: 미국 통계 협회 저널, 104 (485): 197–208
  5. ^ In, X. 및 Cook, R.D. (2003) 역삼분법통한 중앙 서브공간 추정: Biometrica, 90(1): 113–125
  6. ^ Li, B. 및 Dong, Y.D. (2009) 비알리시아 분포 예측 변수에 대한 치수 감소 In: 통계 연보, 37(3): 1272–1298
  7. ^ Li, Bing; Artemiou, Andreas; Li, Lexin (2011). "Principal support vector machines for linear and nonlinear sufficient dimension reduction". The Annals of Statistics. 39 (6): 3182–3210. arXiv:1203.2790. doi:10.1214/11-AOS932.

참조

외부 링크