회귀 검증

Regression validation

통계학에서 회귀 검증회귀 분석에서 얻은 변수 간의 가상 관계를 수량화하는 수치 결과가 데이터에 대한 설명으로 받아들여질 수 있는지 여부를 결정하는 과정입니다.검증 과정에는 회귀 적합도의 분석, 회귀 잔차의 랜덤성 분석, 모형 추정에 사용되지 않은 데이터에 적용할 때 모형의 예측 성능이 상당히 저하되는지 확인하는 작업이 포함될 수 있습니다.

적합도

적합도에 대한 측도 중 하나는 절편 범위가 0과 1 사이인 일반 최소 제곱에서 R(결정 계수)입니다2.그러나 R2 1에 가깝다고 해서 모형이 데이터에 잘 적합한다는 보장은 없습니다. Anscombe의 사중창에서 알 수 있듯이 관계의 함수 형식을 잘못 지정하거나 실제 관계를 왜곡하는 특이치가 있을 때 높은2 R이 발생할 수 있습니다.

모형2 유효성의 측정값인 R의 한 가지 문제는 추가 변수가 사용 중인 데이터 표본의 종속 변수와 정확히 상관 관계가 없는 경우를 제외하고 모형에 변수를 더 추가하여 R을 항상 증가시킬 수 있다는 것입니다.2 문제는 R 증가의 통계적 유의성에 대한 F-검정을 수행하거나 조정된 R2를 사용하여 방지할 수 있습니다.

잔차 분석

적합 모형의 잔차는 설명 변수 값의 각 조합에서 관측된 반응과 회귀 함수를 사용하여 계산된 반응의 해당 예측 사이의 차이입니다.수학적으로, 데이터 집합th i 관측치에 대한 잔차의 정의가 작성됩니다.

yi 데이터 집합의 i 반응th 나타내고i x는 설명 변수의 벡터를 나타내며, 각 세트는 데이터 집합의 i 관측치에서th 발견된 해당 값으로 설정됩니다.

데이터에 적합된 모형이 올바른 경우 잔차는 설명 변수와 반응 변수 간의 관계를 통계적 관계로 만드는 랜덤 오류에 근사합니다.따라서 잔차가 랜덤하게 동작하는 것으로 나타나면 모형이 데이터를 잘 적합시킨다는 의미입니다.반면 잔차에 랜덤하지 않은 구조가 있으면 모형이 데이터를 제대로 적합시키지 못한다는 명백한 신호입니다.다음 섹션에서는 모형의 여러 측면을 검정하는 데 사용할 플롯 유형을 자세히 설명하고 각 플롯 유형에 대해 관찰할 수 있는 다양한 결과에 대한 올바른 해석을 제공합니다.

잔차 그래픽 분석

모형을 부적절하게 만드는 문제를 확인하는 기본적인 방법은 잔차(모형을 정량화하는 데 사용되는 데이터의 잘못된 예측)를 육안으로 검사하여 랜덤성으로부터 명백한 편차를 찾는 것입니다.예를 들어 육안 검사에서 이형성(모델 오류의 분산과 독립 변수의 관측치 크기 사이의 관계)이 존재할 가능성이 있는 경우 통계 테스트를 수행하여 이 예감을 확인하거나 거부할 수 있습니다. 확인되면 다른 모델링 절차가 요구됩니다.

적합 모형의 여러 잔차 그림은 모형의 여러 측면에 대한 적합성에 대한 정보를 제공합니다.

  1. 모형 기능 부품의 충분성: 잔차 대 예측 변수의 산점도
  2. 데이터 간 비가변 변동: 잔차 대 예측 변수의 산점도, 시간에 따라 수집된 데이터의 경우 시간 대비 잔차 그림도
  3. 오류 표류(시간 경과에 따라 수집된 데이터): 응답 및 오류 대 시간에 대한 차트 실행
  4. 오류 독립성: 지연 그림
  5. 오차 정규성: 히스토그램정규 확률도

그래픽 방법은 모델과 데이터 사이의 관계의 광범위한 복잡한 측면을 쉽게 설명하기 때문에 모델 검증을 위한 수치 방법보다 유리하다.

잔차의 정량적 분석

수치적 방법 또한 모델 검증에 중요한 역할을 한다.예를 들어, 모형의 기능 부품의 정확성을 평가하기 위한 적합성 결여 검정은 경계선 잔차 그림을 해석하는 데 도움이 될 수 있습니다.수치 검증 방법이 그래픽 방법보다 우선하는 일반적인 상황 중 하나는 추정되는 매개 변수의 수가 데이터 세트의 크기에 상대적으로 가까운 경우입니다.이러한 상황에서는 알 수 없는 모수의 추정으로 인해 잔차에 대한 제약 조건 때문에 잔차 그림을 해석하기가 어려운 경우가 많습니다.일반적으로 이러한 현상이 발생하는 영역 중 하나는 설계된 실험을 사용하는 최적화 애플리케이션입니다.이항 데이터를 사용한 로지스틱 회귀 분석은 그래픽 잔차 분석이 어려울 수 있는 또 다른 영역입니다.

잔차의 직렬 상관관계는 모델 규격의 오류를 나타낼 수 있으며 더빈을 사용하여 확인할 수 있다.왓슨 통계 정보이형성 문제는 여러 가지 방법으로 확인할 수 있습니다.

표본 외 평가

교차 검증은 통계 분석 결과가 독립적인 데이터 집합으로 어떻게 일반화되는지를 평가하는 과정입니다.사용 가능한 데이터의 전부가 아닌 일부 데이터에 대해 모형이 추정된 경우 추정된 모수를 사용하여 보류된 데이터를 예측할 수 있습니다.예를 들어, 평균 제곱 예측 오차라고도 하는 표본평균 제곱 오차가 표본 내 평균 제곱 오차보다 상당히 높으면 모형에 결점이 있다는 신호입니다.

의료 통계학의 발전은 메타 분석에서 표본 외 교차 검증 기법을 사용하는 것이다.는 메타분석 요약 추정치의 통계적 타당성을 테스트하는 데 사용되는 검증 통계량 Vn의 기초를 형성한다.기본적으로 정규화된 예측 오차의 유형을 측정하고 분포는 1차원의 δ 변수2 선형 조합입니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Willis BH, Riley RD (2017). "Measuring the statistical validity of summary meta-analysis and meta-regression results for use in clinical practice". Statistics in Medicine. 36 (21): 3283–3301. doi:10.1002/sim.7372. PMC 5575530. PMID 28620945.

추가 정보

외부 링크

Public Domain이 문서에는 미국 국립표준기술연구소 웹사이트 https://www.nist.gov의 퍼블릭 도메인 자료가 포함되어 있습니다.