주성분 회귀 분석
Principal component regression| 시리즈의 일부 |
| 회귀 분석 |
|---|
| 모델 |
| 견적 |
| 배경 |
통계학에서 주성분 회귀 분석(PCR)은 주성분 분석(PCA)을 기반으로 하는 회귀 분석 기법입니다.특히 PCR은 표준 선형 회귀 모형에서 알 수 없는 회귀 계수를 추정하는 데 사용됩니다.
PCR에서는 설명 변수에 대한 종속 변수를 직접 회귀시키는 대신 설명 변수의 주요 성분이 회귀 분석자로 사용됩니다.일반적으로 모든 주성분 중 일부만 회귀에 사용하므로 PCR은 일종의 정규 절차이자 수축 추정기의 한 종류입니다.
종종 분산이 높은 주성분(설명 변수의 표본 분산-공분산 행렬의 높은 고유 값에 해당하는 고유 벡터에 기반한 주성분)이 회귀 분석기로 선택됩니다.그러나 결과를 예측하기 위해 분산이 낮은 주성분도 중요할 수 있으며, 경우에 따라서는 훨씬 [1]더 중요할 수도 있습니다.
PCR의 주요 용도 중 하나는 두 개 이상의 설명 변수가 거의 공선 [2]상태에 있을 때 발생하는 다중 공선성 문제를 극복하는 것입니다.PCR은 회귀 단계에서 저분산 주성분 일부를 제외함으로써 이러한 상황에 적절하게 대처할 수 있습니다.또한 PCR은 일반적으로 모든 주요 구성요소의 하위 집합에만 회귀함으로써 기본 모델을 특징짓는 유효 파라미터의 수를 상당히 줄임으로써 치수 감소를 초래할 수 있습니다.이 기능은 고차원 공변량이 있는 설정에서 특히 유용합니다.또한, 회귀에 사용되는 주성분의 적절한 선택을 통해 PCR은 가정된 모델에 기초한 결과의 효율적인 예측으로 이어질 수 있다.
원칙
PCR 방법은 크게 다음 3가지 단계로 나눌 수 있습니다.
- 2.{\ 이제 일반 최소 제곱법(선형 회귀)을 사용하여 선택된 주성분에 대한 결과의 관측 벡터를 공변량으로 회귀시켜 추정된 회귀 계수의 벡터(선택한 주성분 수와 동일한 차원으로)를 구한다.
- 3.{\ 이제 이 벡터를 선택한 PCA 적재(선택한 주요 성분에 해당하는 고유 벡터)를 사용하여 실제 공변량의 축척으로 변환하여 회귀 계수 특성을 추정하기 위한 최종 PCR 추정기(총 공변량 수와 동일한 차원)를 얻습니다.g 오리지널 모델
방법 상세
데이터 표현:n × ( , , ) 1)=\은 관측 결과의 이며 X × ( 1, , n ) {\ p}=\_{1{은 관찰된 공변량의 해당 데이터 매트릭스를 나타낸다. 서n {\n} 및 {\ p는 각각 np {\ n p 과n{\ d{\ p 차원 공변량에 대한 관측치 세트를 제시하고 Y 의 각 항목은 해당 관측 결과를 나타낸다.
전처리 : 각각이 중심화되어 경험적평균이0이라고 합니다PCR은 X에 PCA를 사용하고 PCA는 데이터 중심화에 민감하므로 이 중심화 단계는 (적어도 X 에 대해) 매우 중요합니다.
기본 모델:센터링 후 X의에 표준 Gauss-Markov 선형 회귀 모델은 다음과 수 {\{R^{는 회귀 계수의 한 파라미터 벡터를 ,{E} 0 \\operatorname {I_{n\ n 알 수 없는 분산 파라미터 2>0 { ^ {2 > 0 \ ; \ ;}
목표:주요 목표는 데이터를 기반으로 에 대한 효율적인 ^ ^ ( \ bold \ )를 얻는 것이다.이를 위해 자주 사용되는 한 가지 접근방식은 일반 최소 제곱법이며 X \{X가 전체 열 순위라고 하면 편향되지 않은 추정치를 . β^ l ( X) - \ hat 의 {\ PCR은의 과 동일한 목적으로 사용될 수 있는 또 다른 기법이다.
PCA 스텝: PCR은 중심 데이터 X \{X에서 PCA를 수행하는 것으로 시작합니다. 이를 U V T \ {X} =U \ VT는 의 입니다 _ p \ _ 1 0{ _ { \ _>는 음수가 아닌 단수 값을 나타냅니다\p}=[\u},\ldots _p}} V × p [ 1, , p _1
성분: V T {\ V V는 X 의 분해({displaystyle 를 나타낸다. 여기서 p × )。^{ 1 p 0 {_ {1} _ { \ 0},X 음이 아닌 고유값(주값이라고도 함)을 나타냅니다 displaystyle {고유 벡터 집합입니다.다음으로 X j\ \ 및 {}}는 jdi에 하는 j{ j의 주성분 방향(또는 PCA)을 나타낸다. j 각 {, , p { j \ { 1, , \} spl {\ j { \_ {}} 。
파생 공변량:임의의 {, , { { k \ { 1 , \ } = 、 k { \ V_ { k } =、 V \ 의 첫 k열로 구성된 직교 정규열 p× { pk } 을 . [ v, , k] { = [ \ } \ _ { } } } 、 k W는 변환된 x = T i k { { \ } _ { iV _ { k } T } \ } ^{ } ) { { { { { { { ates ates ates ates ates ates ates ates ates ates ates ates ates ates ates ates ates ates ates ates ates ates ates ates i n
PCR 추정기: ( T k) - kk { \ style { \ hat{ k } = ( W { }^{ } _ { } \ } ^-1}^{ K } \{ K ^ { k } } ^{ } } ^{ } } ^ { r } ^ r 。 데이터 k \ 。 다음 k { , , ( \ k \\ 1, ,\})에 대해 β( \ )주요 컴포넌트를 사용한β ( \ k )의 PCR 추정치는 과 k}= { \mathbb {R
PCR 추정기의 기본 특성 및 용도
두 가지 기본 속성
PCR 추정기를 얻기 위한 적합 프로세스에서는 주성분이 서로 직교하므로 k {, ,\에 대해 직교 열을 갖는 파생 W k k 위의 반응 벡터를 회귀 분석한다.따라서 회귀 단계에서 k{\ k의 선택된 주요 구성요소에서 공변량으로 다중 선형 회귀를 수행하는 것은 k{\ k개의 개별 단순 선형 회귀(또는 일변량 회귀)를 k {\k}의 선택된 각 원칙에 대해 개별적으로 하는 것과 같다.pal 성분이 공변량으로 표시됩니다.
k { k가 되도록 모든 주성분이 회귀를 위해 선택되면 PCR 추정치는 일반 최소 제곱 추정기와 동일합니다.β ^ ^ s\ \\ \ { p } =hat \ \ } _ { \ } 입니다.는 W p p {\}=\}=\ V인 점과 V{\ V가 직교 행렬임을 관찰하면 쉽게 알 수 있다.
분산감소
의 k { 1, , p { k \ { 1 , p\}}에 대해 ^ k\ \\ bold \ {}의 차이는 다음과 같습니다.
특히:
모든 { , ,p - { k \ \ { , \, p - 1\ } 에는 다음과 같은 것이 있습니다.
모든 k {1, , { k \ \ { , \, p\ } 에는 다음과 같은 것이 있습니다.
서 0A\0은 정사각형 대칭 AA})가 음이 아닌 유한임을 나타냅니다.따라서 PCR 추정기의 임의의 선형 형태는 통상 최소 제곱 추정기의 동일 선형 형태에 비해 분산이 낮다.
다중 공선성 대응
다중 공선성에서는 두 개 이상의 공변량이 높은 상관 관계를 가지므로 한 공변량은 사소한 정확도로 다른 공변량으로부터 선형적으로 예측할 수 있습니다.따라서 이들 공변량의 관측치에 대응하는 데이터 X의 열은 선형 의존적이 되므로 X는 완전한 열 순위 구조를 상실하여 순위 결핍 상태가 되는 경향이 있다.보다 양적으로 볼 때, 이러한 상황에서 X 의 고유값 중 하나 이상이 매우 가깝거나 정확히 0이 된다.위의 분산 표현식은 이러한 작은 고유값이 최소 제곱 추정치의 분산에 최대 인플레이션 영향을 미치므로 0 0에 가까울 때 추정치가 크게 불안정함을 나타냅니다.이 문제는 이러한 작은 고유값에 대응하는 주성분을 제외하여 얻은 PCR 추정기를 사용하여 효과적으로 해결할 수 있다.
치수 축소
PCR은 치수 축소를 수행하기 위해서도 사용할 수 있다.를 확인하기 Lk { _ { k { , , p .{ \ \ , ,p \ } suppose × × × × × × × ×、 \ mathb k × \ p \ k}을 나타냅니다. k 선형 L i(\}) 일부 z k ( in ){ \ \\ mathbbb { ( 1 \ n)
그럼, 라는 것을 알 수 있다.
는 k {\k}, 첫 k {\k} 주성분 방향을 열로 하는 , z = i, {_k} {k}^{k에서 최소화됩니다. k 차원 파생 공변량. k k 차원의 주요 구성요소는 관측된 데이터 X(\에 등급k(\ k의 최선의 선형 근사치를 제공합니다.
해당 재구성 오류는 다음과 같이 표시됩니다.
사용하는 주성분 수인k {\ k를 하여 X T고유값의 누적합에 대한 적절한 임계값화를 통해 임의의 잠재적 치수 감소를 달성할 수 있다. 작은 크게 기여하지 않기 때문이다.누적 합계에 대해 원하는 임계값 한계를 초과하지 않는 한 해당 주성분은 계속 떨어질 수 있습니다.역치 한계가 유지되는 한 작은 고유값에 대응하는 주성분이 무시될 수 있는 다중 공선성 문제에 대처하기 위해 동일한 기준을 사용할 수도 있다.
정규화 효과
PCR 추정기는 일반적으로 회귀를 위해 모든 주성분의 하위 집합만 사용하기 때문에 일종의 정규화된 절차로 볼 수 있습니다.구체적으로는 PCR ^ \ \ bold \_ {} _ {k는 다음과 같은 제한적인 문제에 대한 정규화된 솔루션을 나타냅니다.
제약조건은 다음과 같이 동등하게 기술할 수 있다.
여기서:
따라서 모든 주성분의 적절한 부분집합만 회귀로 선택되는 경우, PCR 추정기는 선택된 주성분 방향의 컬럼 공간에 대한 결과적 해답을 구속하고 결과적으로 배제된 방향으로 직교하도록 제한하는 정규화의 하드 형식에 기초한다.
정규화된 추정치의 클래스 간 PCR의 최적성
위에서 정의한 제한적인 최소화 문제가 있는 경우 다음과 같은 범용 버전을 고려하십시오.
서 L( -) { L _ { ( p - )} 、 1k < \ 1 \ k < p p × × × ×matrix p× ( - ) \ p \ ( p - )의 모든 컬럼랭크 매트릭스를 나타냅니다.
^L \ \ \ bold \ { L로 .따라서
으로 대응하는 L { { (-k ) } { display style \ \ bold \ } _ { L } } _ { L} achievesionion [3]thenion l l l l l lthen l l then l then then 。
어디에
그 결과 도출된 최적 ^ L ^ L { { { { ^ { * } }는 ^ k^ k ^ { } _ {} } ents k 。
효율성.
일반적인 최소 제곱 추정치가에 편중되지 때문에 우리는
여기서 MSE는 평균 제곱 오차를 나타냅니다.서 k{, , p { \ { 1, , p\ V (p -k ) ( \ V _ { ( - )}^{ {\{\ = 하는β ^ {\ {\ {\도 {\displaystyle에 편향되지 않습니다.
우리는 이미 그것을 보았다.
그 의미는 다음과 같습니다.
k\ k。 이 경우 β^ \ \ displaystyle \ \beta _ { } _ { k } _ { k } o 、 \ style \ o o o o o o o o o o o o o o o o o o o o o o o o o o o o 퍼포먼스 기준으로서 ror또한 하는 β^ \ \ \ { k } 、 ^ \ style \ \ }{ \ 의 선형 형태에 비해 평균 제곱 오차가 낮아집니다.
k { , , , ( - ) 0wide \ k \ \ 1, , \ , V _ { ( p - k ) \ { 、 하는bold hat 。쎄
( ^ ) - ( ^k )0 ( \ ( \ hat \ \ } ) \ { ols( \ )더 작은 고유값을 지지하므로 치우침이 낮아집니다.
순서대로 β{\displaystyle{\boldsymbol{\beta}의 평가자로}}효율적인 평가와 PCR의 예측 성능을 보장할 때"라고 박 대표는(1981년)[3]:}주요 구성 요소 경우가 크다면 jth{\displaystyle j^{월} 버려 주추 요소 회귀을 위해 사용될 선택을 위한 다음 지침을 제안한다. λ }} 이 가이드라인의 실제 실행에는 미지의 모델 파라미터 2^{ β(\에 대한 추정치가 필요하다.일반적으로 최초 풀모드에서 얻은 제한되지 않은 최소 제곱을 사용하여 추정할 수 있다.그러나 Park(1981)는 이러한 [3]목적에 더 적합할 수 있는 약간 수정된 추정치를 제공한다.
다중공선성 문제를 해결하고 축소를 수행하는 데 더 할 X에 기초한 기준과 달리, 위의 기준은 실제로 P의 예측 및 추정 효율을 향상시키려 한다회귀 단계에서 사용할 주성분을 선택하는 과정에서 결과와 공변량을 모두 포함하는 CR 추정기.유사한 목표를 가진 대안적 접근법에는 교차 검증 또는 Mallow의 Cp 기준에 기초한 주요 구성요소의 선택이 포함된다.주성분도 결과와의 연관성에 따라 선택되는 경우가 많습니다.
PCR의 수축 효과
일반적으로 PCR은 기본적으로 모델 내의 공변량으로서 고분산 주성분(T X의 고분산값(\displaystyle 을 유지하고 나머지 저분산 성분(낮은 고유값)을 폐기하는 수축 추정기이다. X (\ )따라서 저분산 성분에 이산 수축 효과를 발휘하여 원래 모델에서 기여도가 완전히 무효화됩니다.이와는 대조적으로 능선회귀추정기는 그 구조에 본질적으로 관여하는 정규화 파라미터(또는 튜닝 파라미터)를 통해 부드러운 수축효과를 발휘한다.모든 성분을 완전히 폐기하지는 않지만 연속적으로 수축 효과를 발휘하여 저분산성분은 수축 정도가 높고 고분산성분은 수축 정도가 낮다.Frank와 Friedman(1993)[4]은 예측 자체를 위해 리지 추정기가 부드러운 수축 효과 때문에 이산 수축 효과가 있는 PCR 추정기와 비교하여 아마도 더 나은 선택이라고 결론지었다.
또한 주성분은 설명 변수에 대한 관측치만을 포함하는 X의 고유 분해에서 구한다.따라서 이러한 주성분을 공변량으로 사용하여 얻은 결과 PCR 추정기가 결과에 대해 반드시 만족스러운 예측 성능을 가질 필요는 없다.구조를 통해 이 문제를 해결하려는 다소 유사한 추정기가 부분 최소 제곱(PLS) 추정기입니다.PCR과 마찬가지로 PLS도 낮은 차원의 파생 공변량을 사용합니다.그러나 PCR과 달리 PLS에 대해 파생된 공변량은 결과와 공변량을 모두 사용하여 얻습니다.PCR은 공변량 공간에서 높은 분산 방향을 찾는 반면 PLS는 결과 예측에 가장 유용한 공변량 공간의 방향을 찾습니다.
2006년 감독 PCR로 알려진 고전 PCR의 변형이 [5]제안되었다.PLS와 유사한 정신으로, 결과뿐만 아니라 공변량을 모두 포함하는 기준을 기반으로 낮은 차원의 파생 공변량을 얻으려고 시도한다.이 방법은 결과 벡터가 한 번에 하나씩 취해진 pp공변량에 대해 개별적으로 회귀되는 일련의p\displaystyle p(또는 일변량 회귀)를 하는 것으로 시작한다. 다음 일부 {, p { m에 대해 결과와 가장 상관성이 높은 것으로 판명된 첫 { \ m개의 공변량을 추가로 사용할 수 있도록 선택한다.그런 다음 앞에서 설명한 것처럼 기존의 PCR이 수행되지만, 이제는 선택된 공변량의 관측치에 대응하는n × n m 매트릭스만을 기반으로 한다.되는 공변량 수: m { , , p { m \ { , \ , p\ } the the ::::::::::::: k \ { 1 , , m { k \ \ 1, \ , \ }}는 상호 검증에 의해 선택됩니다.
커널 설정에 대한 일반화
위에서 설명한 기존의 PCR 방법은 기존의 PCA를 기반으로 하며 공변량을 기반으로 결과를 예측하기 위한 선형 회귀 모델을 고려합니다.그러나, 이것은 회귀 함수가 공변량에서 반드시 선형일 필요는 없고, 대신 임의의 (아마도 비선형일 수 있는) 대칭 정의 커널과 관련된 재생 커널 힐버트 공간에 속할 수 있다.커널 함수를 선형 커널로 선택한 경우 선형 회귀 모델은 이 설정의 특수한 경우로 판명되었습니다.
일반적으로 커널 머신 설정에서 공변량의 벡터는 우선 선택된 커널 함수에 의해 특징지어지는 고차원(잠재적으로 무한 차원) 특징 공간에 매핑된다.이렇게 얻은 매핑을 피쳐 맵이라고 하며, 피쳐 요소라고도 하는 각 좌표는 공변량의 하나의 피쳐(선형 또는 비선형일 수 있음)에 해당합니다.그러면 회귀 함수는 이러한 특징 요소의 선형 조합으로 간주됩니다.따라서 커널 머신 설정의 기본 회귀 모델은 원래 공변량 집합 대신 예측 변수가 이제 피쳐 맵을 사용하여 실제 공변량을 변환하여 얻은 특징 요소의 벡터(잠재적으로 무한 차원)에 의해 제공된다는 것을 이해하는 선형 회귀 모델이다.
그러나 커널 트릭은 실제로 기능 맵을 명시적으로 계산하지 않고도 기능 공간에서 작업할 수 있도록 합니다.관측된 공변량 벡터에 대한 특징 맵 중 쌍별 내부 곱을 계산하는 것만으로는 충분하며, 이러한 내부 곱은 대응하는 공변량 벡터 쌍에서 평가된 커널 함수의 값에 의해 간단히 주어진다.따라서 얻어진 쌍별 내부 산물은 커널 매트릭스로도 알려진 × \ nn \ times n \ 대칭 비음성 확정 행렬의 형태로 표현될 수 있다.
커널 머신 설정의 PCR은 우선 이 커널 매트릭스(K, say)를 특징 공간에 대해 적절히 중심화한 후 중심 커널 매트릭스(K', say) 상에서 커널 PCA를 실행함으로써 K'의 eigendecomposition을 얻을 수 있다.커널 PCR은 다음으로 (보통) 그렇게 얻어진 모든 고유 벡터의 서브셋을 선택하고 선택된 고유 벡터 상에서 결과 벡터의 표준 선형 회귀를 실행함으로써 진행된다.회귀 분석에 사용할 고유 벡터는 일반적으로 교차 검증을 사용하여 선택합니다.그런 다음 해당 선택된 고유 벡터와 함께 추정된 회귀 계수(선택된 고유 벡터의 수와 동일한 차원을 가지며)는 향후 관측 결과를 예측하는 데 사용됩니다.기계 학습에서 이 기술은 스펙트럼 회귀로도 알려져 있다.
분명히 커널 PCR은 K'의 고유 벡터에 대해 이산 수축 효과를 가지며, 앞에서 설명한 바와 같이 기존 PCR이 주성분에 미치는 이산 수축 효과와 매우 유사하다.단, 선택된 커널과 관련된 기능 맵은 잠재적으로 무한 차원일 수 있으며, 따라서 대응하는 주성분과 주성분 방향도 무한 차원일 수 있습니다.따라서 커널 머신의 설정에서는 이들 수량이 실질적으로 다루기 어려운 경우가 많습니다.커널 PCR은 기본적으로 관련된 커널 매트릭스의 스펙트럼 분해를 사용하여 동등한 이중 공식을 고려함으로써 이 문제를 회피합니다.선형 회귀 모델(커널 함수를 선형 커널로 선택하는 것에 해당함)에서 이는 하는n × {\nn} 커널 X T{\ \{X}}의 스펙트럼 분해를 고려한 후 결과 벡터를 se로 회귀시키는 것과 같다. X의 벡터의 하위 집합(\ \^{을 구했다.이는 고전 PCR의 맥락에서 정의된 대로 대응하는 주요 구성요소(이 경우 유한 차원)에서 결과 벡터를 회귀시키는 것과 동일하다는 것을 쉽게 보여줄 수 있다.따라서 선형 커널의 경우, 이중 공식에 기초한 커널 PCR은 원시 공식에 기초한 기존 PCR과 정확히 동등하다.단, 임의의(그리고 비선형일 가능성이 있는) 커널의 경우 연관된 피쳐 맵의 무한 차원 때문에 이 기본 공식은 다루기 어려워질 수 있습니다.따라서 이 경우 기존의 PCR은 실질적으로 실현 불가능하지만 이중 공식에 기초한 커널 PCR은 여전히 유효하고 계산적으로 확장 가능합니다.
참고 항목
참조
- ^ Jolliffe, Ian T. (1982). "A note on the Use of Principal Components in Regression". Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005.
- ^ 닷지, Y옥스퍼드 사전 통계 조건, OUP. 아이 에스비엔 0-19-920613-9의(2003년).
- ^ a b c Sung H. Park (1981). "Collinearity and Optimal Restrictions on Regression Parameters for Estimating Responses". Technometrics. 23 (3): 289–295. doi:10.2307/1267793.
- ^ Lldiko E. Frank & Jerome H. Friedman (1993). "A Statistical View of Some Chemometrics Regression Tools". Technometrics. 35 (2): 109–135. doi:10.1080/00401706.1993.10485033.
- ^ Eric Bair; Trevor Hastie; Debashis Paul; Robert Tibshirani (2006). "Prediction by Supervised Principal Components". Journal of the American Statistical Association. 101 (473): 119–137. CiteSeerX 10.1.1.516.2313. doi:10.1198/016214505000000628.
읽고 추가
- Amemiya, Takeshi (1985). Advanced Econometrics. Harvard University Press. pp. 57–60. ISBN 978-0-674-00560-0.
- Theil, Henri (1971). Principles of Econometrics. Wiley. pp. 46–55. ISBN 978-0-471-85845-4.