단계적 회귀 분석

Stepwise regression

통계에서 단계적 회귀는 예측 변수의 선택이 자동 절차에 의해 수행되는 회귀 모형을 적합시키는 방법이다.[1][2][3][4] 각 단계에서 변수는 사전 지정된 기준에 기초하여 설명 변수 집합에 추가 또는 빼기 위해 고려된다. 일반적으로 이것은 F-검정 또는 t-검정의 전방, 후방 또는 조합된 시퀀스의 형태를 취한다.

모형 구축 프로세스를 고려하도록 조정하지 않고 최종 선택된 모형을 적합시킨 다음 보고 추정치와 신뢰 구간을 따르는 빈번한 관행은 단계적 모형 구축 사용을 전면[5][6] 중단하거나 최소한 모형 불확실성이 올바르게 반영되었는지 확인해야 한다는 요구로 이어졌다.[7][8] 대안으로는 수정 R2, Akaike 정보 기준, 베이시안 정보 기준, 말로스의 Cp, PRESS 또는 거짓 발견률과 같은 다른 모델 선택 기법이 있다.

이 예제에서 필요성과 충분성은 대개 F-검사에 의해 결정된다. 추가적인 고려를 위해, 이 모델에 대한 데이터를 수집하기 위한 실험, 컴퓨터 시뮬레이션 또는 과학적 조사를 계획할 때, 표본 크기적절히 추정하고 조정하는 매개변수 P의 수를 염두에 두어야 한다. For K variables, P = 1(Start) + K(Stage I) + (K2K)/2(Stage II) + 3K(Stage III) = 0.5K2 + 3.5K + 1. For K < 17, an efficientdesign of experiments exists for this type of model, a Box–Behnken design,[9] augmented with positive and negative axial points of length min(2, (int(1.5 + K/4))1/2), plus point(s) at the origin. K > 16의 경우에도 더 효율적인 설계가 있으며, 더 적은 런을 필요로 한다.

주요 접근 방식

단계적 회귀 분석을 위한 주요 접근법은 다음과 같다.

  • 모형에 변수가 없는 것으로 시작하는 전진 선택, 선택한 모형 적합 기준을 사용하여 각 변수의 추가 테스트, 적합치를 통계적으로 가장 유의한 개선을 제공하는 변수(있는 경우) 추가, 그리고 모형이 통계적으로 유의한 범위까지 개선되지 않을 때까지 이 프로세스를 반복하는 것이 포함된다.…을 수반하다
  • 모든 후보 변수부터 시작하여 선택된 모델 적합 기준을 사용하여 각 변수 삭제를 테스트하고, 모델 적합을 통계적으로 가장 경미한 수준으로 악화시키는 변수(있는 경우)를 삭제하며, 통계적으로 가장 경미한 수준으로 삭제하지 않고 더 이상의 변수를 삭제할 수 없을 때까지 이 프로세스를 반복하는 역방향 제거등거리적으로 상당한 핏감 상실
  • 위와 같은 조합인 양방향 제거는 각 단계에서 포함되거나 제외될 변수에 대해 테스트한다.

대안

널리 사용되는 알고리즘은 에프로이슨(1960년)에 의해 처음 제안되었다.[10] 이것은 잠재적인 설명 변수가 많고, 모델 선택의 기초가 되는 이론이 없는 경우에 통계적 모델 선택을 위한 자동 절차다. 기본적인 접근방식은 다양한 형태의 모델 선택에서 적용 가능하지만, 이 절차는 주로 회귀 분석에 사용된다. 이것은 전진 선택에 대한 변화다. 공정의 각 단계에서 새로운 변수가 추가된 후 잔차 제곱합(RSS)을 눈에 띄게 늘리지 않고 일부 변수를 삭제할 수 있는지 여부를 검사한다. 이 절차는 측정치가 최대화(로컬하게)되거나 이용 가능한 개선이 일부 임계치 미만으로 떨어질 때 종료된다.

단계적 회귀 분석의 주요 문제 중 하나는 가능한 많은 모형의 공간을 검색한다는 것이다. 따라서 데이터를 과도하게 맞추기 쉽다. 즉, 단계적 회귀는 종종 새로운 표본 밖의 데이터에 대한 회귀보다 표본에 훨씬 더 잘 적합할 것이다. 모형이 무작위 숫자에 대한 작업을 수행하면서 통계적 유의성을 달성한 극단적인 사례에 주목했다.[11] 변수를 추가(또는 삭제)하는 기준이 충분히 뻣뻣하면 이 문제를 완화할 수 있다. 모래의 핵심 선은 본페로니 포인트라고 생각할 수 있는 것, 즉 우연한 기회에 근거하여 최고의 가상 변수가 얼마나 중요해야 하는가에 있다. t-통계학적 척도에서 이 문제는 약 에서 발생하며, 여기서 p는 예측 변수의 수입니다 불행히도, 이것은 실제로 신호를 전달하는 많은 변수들이 포함되지 않을 것이라는 것을 의미한다. 이 울타리는 과충격 신호와 누락 신호 사이의 적절한 절충인 것으로 밝혀졌다. 서로 다른 컷오프에 대한 위험을 살펴보면, 이 바운드를 사용하는 것이 가장 좋은 위험의 2 인자 내에 있을 것이다. 다른 어떤 컷오프도 결국 그러한 위험인플레이션을 더 크게 갖게 될 것이다.[12][13]

모델 정확도

단계적 회귀 분석에 의해 생성된 모형의 오차를 검정하는 방법은 모형의 F-통계학적, 유의성 또는 다중 R에 의존하지 않고 대신 모형의 생성에 사용되지 않은 데이터 집합에 대해 모형을 평가하는 것이다.[14] 이는 종종 이용 가능한 데이터 집합의 샘플(예: 70%), 즉 "교육 세트")에 기반한 모델을 구축하고 나머지 데이터 집합(예: 30%)을 모델의 정확성을 평가하기 위한 검증 세트로 사용하여 이루어진다. 정확도는 종종 실제 표준 오차(SE), MAPE(평균 절대 백분율 오차) 또는 예측 값과 홀드아웃 샘플의 실제 값 사이의 평균 오차로 측정된다.[15] 이 방법은 데이터를 다른 설정(예: 다른 시간, 사회적 대 단독적 상황)에서 수집하거나 모델을 일반화할 수 있다고 가정할 때 특히 유용하다.

비판

단계적 회귀 절차는 데이터 마이닝에 사용되지만 논란이 되고 있다. 몇 가지 비판의 논점이 나왔다.

  • 동일한 데이터를 바탕으로 하기 때문에 시험 자체는 편향적이다.[16][17] Wilkinson과 Dallal(1981)[18]은 시뮬레이션에 의해 다중 상관 계수의 백분율 포인트를 계산했고 전진 선택에 의해 얻은 최종 회귀 분석은 0.1%로 유의하다고 F-절차에서 말한 것이 실제로는 5%로 유의미했다.
  • 자유도를 추정할 때, 선택된 최적 적합도에서 후보 독립 변수의 수가 최종 모형 변수의 총 수보다 적을 수 있으므로 자유도에 대한 r2 값을 조정할 때 적합치가 그것보다 더 잘 나타나도록 한다. 결과 적합에서 독립 변수의 개수만 세는 것이 아니라 전체 모형에서 자유도가 얼마나 사용되었는지 고려하는 것이 중요하다.[19]
  • 생성된 모델은 데이터의 실제 모델을 지나치게 단순화할 수 있다.[20]

그러한 비판은, 모델과 절차의 관계와 그것을 적합시키는 데 사용되는 데이터 세트의 한계에 근거하여, 일반적으로 PRESS 절차에서와 같이 독립 데이터 세트의 모델을 검증함으로써 다루어진다.

비판론자들은 이 절차를 데이터 준설의 패러다임 사례로 간주하고 있으며, 강도 높은 연산은 종종 주제 영역의 전문지식을 대체하는 불충분한 대안이 된다. 또한 단계적 회귀 분석의 결과는 모형 선택 발생을 위해 조정하지 않고 잘못 사용되는 경우가 많다. 특히 최종 선정된 모델을 마치 모델 선택이 이루어지지 않은 것처럼 적합시키고, 최소 제곱 이론이 유효한 것처럼 추정치와 신뢰 구간을 보고하는 관행은 스캔들로 묘사되어 왔다.[7] 잘못된 사용과 앙상블 학습과 같은 대안의 가용성, 모델에 모든 변수를 남기거나 관련 변수를 식별하기 위해 전문가의 판단을 사용하는 것은 단계적 모델 선택을 완전히 피하도록 요구하게 만들었다.[5]

참고 항목

참조

  1. ^ 에프로이슨, M. A. (1960) "다중 회귀 분석", Ralston A.와 Wiley, Wilf, H. S. (에드)의 디지털 컴퓨터를 위한 수학적 방법.
  2. ^ 호킹, R. R. (1976) "선형 회귀 분석에서 변수의 분석 및 선택," 생물측정학, 32.
  3. ^ Draper, N. and Smith, H. (1981) 적용 회귀 분석, 2d Edition, New York: John Wiley & Sons, Inc.
  4. ^ SAS Institute Inc. (1989) SAS/STAT 사용 설명서 버전 6, Four Edition, Volume 2, Cary, NC: SAS Institute Inc.
  5. ^ a b Flom, P. L., Cassell, D. L. (2007) "단계적으로 정지: 단계적이고 유사한 선택 방법이 왜 나쁜지, 그리고 무엇을 사용해야 하는지," NESUG 2007.
  6. ^ 하렐, F. E.(2001) "회귀 모델링 전략: 선형 모형, 로지스틱 회귀 분석 및 생존 분석에 대한 응용 프로그램 포함" 뉴욕 스프링거-버락
  7. ^ a b Chatfield, C. (1995) "모형의 불확실성, 데이터 마이닝 및 통계 추론," J. R. Statistics. Soc. A 158, Part 3 페이지 419–466.
  8. ^ Efron, B., Tibshirani, R. J. (1998) "부트스트랩 소개", Chapman & Hall/CRC
  9. ^ NIST 엔지니어링 통계 관련 핸드북 Box-Behnken 설계
  10. ^ 에프로이슨, MA(1960) "복수 회귀 분석" A. 랄스턴과 윌프, HS, 편집자, 디지털 컴퓨터를 위한 수학적 방법. 와일리
  11. ^ 크네히트, WR. (2005) 한계 기후로 이륙하려는 조종사의 의지, 파트 2: 전진 단계적 로지스틱 회귀 분석의 선행 조건 오버핏. (기술 보고서 DOT/FAA/AM-O5/15). 연방 항공국
  12. ^ 포스터, 딘 P, & 조지, 에드워드 I. (1994년) 다중 회귀 분석을 위한 위험 인플레이션 기준. 통계실록, 22(4). 1947–1975. doi:10.1214/aos/1176325766
  13. ^ 도노호, 데이비드 L, & 존스톤, 자인 M. (1994년) 웨이브릿 수축에 의한 이상적인 공간적 적응. 바이오메트리카, 81(3):425–455. 도이:10.1093/바이오메트/81.3.425
  14. ^ 마크, 조나단, & 골드버그, 마이클 A. (2001) 다중 회귀 분석 및 질량 평가: 이슈에 대한 검토. 89-109년 1월 감정 저널.
  15. ^ 메이어스, J.H. & Fordy, E.W. (1963년) 수치신용평가시스템 개발 미국통계협회지, 58 (303; 9월), 799–806.
  16. ^ 렌처, A. C. & Pun, F. C. (1980) 최량 부분 집합 회귀 분석의 인플레이션. 테크노메트릭스, 22, 49-54
  17. ^ 코파스, J.B. (1983) 회귀 분석, 예측 및 축소. J. 로이, 통계청 Soc. 시리즈 B, 45, 311–354.
  18. ^ Wilkinson, L, & Dallal, G.E.(1981년). 정지 규칙을 입력하기 위해 F-를 사용한 전진 선택 회귀 분석의 유의성 검정. 테크노메트릭스, 23, 377–380.
  19. ^ Hurvich, C. M., C. L. Tsai. 1990. 선형 회귀 분석에서 모형 선택이 추론에 미치는 영향. 미국 통계학자 44: 214–217.
  20. ^ 로커, 엘렌 B. (1991년). 예측 오차 및 부분 집합에 대한 추정—선택한 모형. 테크노메트릭스, 33, 459–468.