통계량의 치수 감소 방법
슬라이스 역 회귀 분석(또는 SIR)은 다변량 통계 분야의 치수 축소를 위한 도구다.
통계에서 회귀 분석은 p-차원 벡터인 반응 와 그설명 변수 x _ {\displaystyle
사이의 관계를 연구하는 일반적인 방법이다.회귀라는 용어 아래에는 몇 가지 접근법이 있다.예를 들어 모수법에는 다중 선형 회귀법이 포함되고 비모수법에는 국소 평활법이 포함된다.
고차원 데이터(p가 증가함에 따라)를 사용하면 로컬 스무딩 방법을 사용하는 데 필요한 관측치의 수가 기하급수적으로 증가한다.치수 수를 줄이면 연산을 계산할 수 있다.치수 축소는 데이터의 가장 중요한 방향만 보여주는 것을 목표로 한다.SIR은 역 회귀 곡선 )
를 사용하여 가중 주성분 분석을 수행한다.
모델
설명
변수의
반응 Y 및 (랜덤) X ^{p을(를) 지정하면 SIR은 모델에 기초한다.

여기서 ,… , k 는
알 수 없는 투영 벡터다. 은
(는) 알 수 없는 숫자로, \,이가) 보다 작도록
치수를 줄이라고 방정식은 되어 있다 }에
만 의존하므로
인수에서 알 수 없는 함수다
.s. ε 은
(는) E[ = 0 E의 오류와
2
모델에서는 인 솔루션을 설명하며, 여기서 Y 은(는) 치수
하위 공간을 통해서만
p 에 의존한다
. 즉, 설명 변수의 치수를 에서더 작은 수 로 줄일
수 있다.정보를
않고 ystyle \,
An equivalent version of
is: the conditional distribution of
given
depends on
only through the
dimensional random vector
을(를) 설명할 때
이 축소된 벡터는 원래 만큼 유용한 것으로 가정한다
알 수 없는 s 을(를) 유효 치수 축소 방향(EDR-방향)이라고 한다
.이러한 벡터로 스팬된 공간은 유효 치수 감소 공간(EDR-공간)으로 표시된다.
관련 선형 대수 배경
Given
, then
, the set of all linear combinations of these vectors is called a linear subspace는 벡터 공간이다.방정식은 벡터 , r data} span
라고 하지만 공간 \, V}에 걸쳐 있는 벡터는 고유하지
않는다.
The dimension of
is equal to the maximum number of linearly independent vectors in
. A set of
linear independent vectors of
sets up a basis of
벡터 공간의 치수는 독특하지만, 기본 자체는 그렇지 않다.몇 개의 베이스가 같은 공간에 걸쳐 있을 수 있다.종속 벡터는 여전히 공간에 걸쳐 있을 수 있지만, 후자의 선형 조합은 직선에 놓여 있는 벡터 집합에만 적합하다.
역 회귀
찾는 대신 역 회귀 곡선(IR) 평균 계산
- [ =
이것은 의 곡선이다.
사실 그래.
- [ Y=
도 {
의 곡선이지만 의 1차원
퇴행으로 구성된다.
역 회귀 곡선의 중심은 [ E[ = [ Y에 위치한다.
따라서 중심 역 회귀 곡선은
![\,E[X|Y=y]-E[X]](https://wikimedia.org/api/rest_v1/media/math/render/svg/0263ce81d12c70d8236b52b78015d076b97254eb)
즉, p \mathb
의
p displaystyle .
역 회귀 분석 대 치수 감소
중심 역 회귀 곡선은 i s{\\,\에 걸쳐 있는 -차원
하위 공간에 위치한다
이것은 모형과 역 회귀 사이의 연결이다.
Given this condition and
, it is indeed true that the centered inverse regression curve
is contained in the linear subspace spanned by
, where = v( )
.
EDR 방향의 추정
모든 이론적 특성을 살펴본 후, 지금 목표는 EDR 방향을 추정하는 것이다.그러한 목적을 위해 가중 주성분 분석이 필요하다.If the sample means
, we would have
standardized to
. Corresponding to the theorem above, the IR-curve
lies in the space spanned by
, where
. As a consequence, the covariance matrix
is degenerate in any direction orthogonal to the
. Therefore, the eigenvectors
associated with the largest
largest eigenvalues are the standardized EDR-directions.
알고리즘.
SIR을 통해 EDR 방향을 추정하는 알고리즘은 다음과 같다.
1. 을(를) 의 공분산 행렬로
두십시오
을(를) 다음으로
표준화하십시오.

(( ) \,(도 다음과 같이 다시 쓸 수 있다
.

여기서 = / k 
2. 의 범위를 S 비 겹치지
않는 슬라이스 s= ,, , ,) . s S)로
나눈다은
(는) 각 슬라이스 내의 관측치 수입니다. I 은
(는) 슬라이스의 표시기 함수:

3. 모든 슬라이스에
z 의 평균을 계산하십시오. 이 은 역회귀
}:1
:

4. v{ ( y) 에 대한 추정치를 계산한다

5. 된 EDR-방향인 고유값 ^ ^ {\\,{\{\ 및 V {\
의
고유값 i {\displaystycompat{V을
식별하십시오.
6. 표준화된 EDR 방향을 원래 척도로 다시 변환한다.EDR 방향의 추정치는 다음과 같다.

(필수 직교인 것은 아님)
참조
- Li, K-C (1991) "차원 축소를 위한 스크리드 역 회귀" 미국 통계 협회 저널, 86, 316–327 Jstor
- 쿡, R.D. 및 샌포드 와이스버그, S. (1991) "차원 축소를 위한 스크리닝된 역 회귀 분석:논평", 미국통계협회지, 86, 328–332 Jstor
- Herdle, W. 및 Simar, L.(2003) 다변량 통계 분석 적용, Springer Verlag. ISBN3-540-03079-4
- Kurzfassung jur Vorlesung Mathik III I Sommersemer 2005, A. Brandt.