슬라이스 역 회귀 분석

Sliced inverse regression

슬라이스 회귀 분석(또는 SIR)은 다변량 통계 분야의 치수 축소를 위한 도구다.

통계에서 회귀 분석p-차원 벡터인 반응 와 그설명 변수 x _ {\displaystyle 사이의 관계를 연구하는 일반적인 방법이다.회귀라는 용어 아래에는 몇 가지 접근법이 있다.예를 들어 모수법에는 다중 선형 회귀법이 포함되고 비모수법에는 국소 평활법이 포함된다.

고차원 데이터(p가 증가함에 따라)를 사용하면 로컬 스무딩 방법을 사용하는 데 필요한 관측치의 수가 기하급수적으로 증가한다.치수 수를 줄이면 연산을 계산할 수 있다.치수 축소는 데이터의 가장 중요한 방향만 보여주는 것을 목표로 한다.SIR은 역 회귀 곡선 ) 를 사용하여 가중 주성분 분석을 수행한다.

모델

설명 변수의 반응 Y 및 (랜덤) X ^{p을(를) 지정하면 SIR은 모델에 기초한다.

여기서 ,… , k 알 수 없는 투영 벡터다. (는) 알 수 없는 숫자로, \,가) 보다 작도록 치수를 줄이라고 방정식은 되어 있다 }에 만 의존하므로 인수에서 알 수 없는 함수다.s. ε (는) E[ = 0 E의 오류와 2 모델에서는 인 솔루션을 설명하며, 여기서 Y 은(는) 치수 하위 공간을 통해서만 p 에 의존한다. 즉, 설명 변수의 치수를 에서더 작은 수 로 줄일 수 있다.정보를 않고 ystyle \,

An equivalent version of is: the conditional distribution of given depends on only through the dimensional random vector 을(를) 설명할 때 이 축소된 벡터는 원래 만큼 유용한 것으로 가정한다

알 수 없는 s 을(를) 유효 치수 축소 방향(EDR-방향)이라고 한다.이러한 벡터로 스팬된 공간은 유효 치수 감소 공간(EDR-공간)으로 표시된다.

관련 선형 대수 배경

Given , then , the set of all linear combinations of these vectors is called a linear subspace는 벡터 공간이다.방정식은 벡터 , r data} span 라고 하지만 공간 \, V}에 걸쳐 있는 벡터는 고유하지 않는다.

The dimension of is equal to the maximum number of linearly independent vectors in . A set of linear independent vectors of sets up a basis of 벡터 공간의 치수는 독특하지만, 기본 자체는 그렇지 않다.몇 개의 베이스가 같은 공간에 걸쳐 있을 수 있다.종속 벡터는 여전히 공간에 걸쳐 있을 수 있지만, 후자의 선형 조합은 직선에 놓여 있는 벡터 집합에만 적합하다.

역 회귀

찾는 대신 역 회귀 곡선(IR) 평균 계산

  • [ = 이것은 의 곡선이다.

사실 그래.

  • [ Y= {의 곡선이지만 의 1차원 퇴행으로 구성된다.

역 회귀 곡선의 중심은 [ E[ = [ Y에 위치한다. 따라서 중심 역 회귀 곡선은

즉, p \mathb p displaystyle .

역 회귀 분석 대 치수 감소

중심 역 회귀 곡선은 i s{\\,\에 걸쳐 있는 -차원 하위 공간에 위치한다 이것은 모형과 역 회귀 사이의 연결이다.

Given this condition and , it is indeed true that the centered inverse regression curve is contained in the linear subspace spanned by , where = v( ) .

EDR 방향의 추정

모든 이론적 특성을 살펴본 후, 지금 목표는 EDR 방향을 추정하는 것이다.그러한 목적을 위해 가중 주성분 분석이 필요하다.If the sample means , we would have standardized to . Corresponding to the theorem above, the IR-curve lies in the space spanned by , where . As a consequence, the covariance matrix is degenerate in any direction orthogonal to the . Therefore, the eigenvectors associated with the largest largest eigenvalues are the standardized EDR-directions.

알고리즘.

SIR을 통해 EDR 방향을 추정하는 알고리즘은 다음과 같다.

1. 을(를) 의 공분산 행렬로 두십시오 을(를) 다음으로 표준화하십시오.

(( ) \,(도 다음과 같이 다시 쓸 수 있다.

여기서 = / k

2. 의 범위를 S 비 겹치지 않는 슬라이스 s= ,, , ,) . s S)로 나눈다(는) 각 슬라이스 내의 관측치 수입니다. I (는) 슬라이스의 표시기 함수:

3. 모든 슬라이스에 z 의 평균을 계산하십시오. 이 은 역회귀 }:1:

4. v{ ( y) 에 대한 추정치를 계산한다

5. 된 EDR-방향인 고유값 ^ ^ {\\,{\{\ 및 V {\ 고유값 i {\displaystycompat{V 식별하십시오.

6. 표준화된 EDR 방향을 원래 척도로 다시 변환한다.EDR 방향의 추정치는 다음과 같다.

(필수 직교인 것은 아님)

참조

  • Li, K-C (1991) "차원 축소를 위한 스크리드 역 회귀" 미국 통계 협회 저널, 86, 316–327 Jstor
  • 쿡, R.D. 및 샌포드 와이스버그, S. (1991) "차원 축소를 위한 스크리닝된 역 회귀 분석:논평", 미국통계협회지, 86, 328–332 Jstor
  • Herdle, W. 및 Simar, L.(2003) 다변량 통계 분석 적용, Springer Verlag. ISBN3-540-03079-4
  • Kurzfassung jur Vorlesung Mathik III I Sommersemer 2005, A. Brandt.