통계적 모델 검증

Statistical model validation

통계에서 모델 검증은 실제 데이터 생성 프로세스에 대해 통계 모델의 산출물이 허용 가능한지 확인하는 작업이다.즉, 모델 검증은 통계적 모델의 산출물이 데이터 생성 프로세스의 산출물에 대해 조사의 목적을 달성할 수 있는 충분한 충실도를 갖는지 확인하는 작업이다.null

개요

모델 검증은 모델 구축에 사용된 데이터와 구축에 사용되지 않은 데이터 등 두 가지 유형의 데이터를 기반으로 할 수 있다.첫 번째 유형에 기초한 검증에는 일반적으로 모형의 적합도를 분석하거나 잔차가 랜덤하게 보이는지 여부(즉, 잔차 진단)를 분석하는 것이 포함된다.두 번째 유형에 기초한 검증에는 일반적으로 모형의 예측 성능이 관련 새 데이터에 적용될 때 눈에 잘 띄지 않게 악화되는지 여부를 분석하는 것이 포함된다.null

그림 1.직선과 약간의 추가 노이즈를 통해 생성된 데이터(검은 점)는 곡선 다항식으로 완벽하게 적합된다.

첫 번째 유형(모델 구성에 사용된 데이터)에만 기초한 검증은 종종 부적절하다.극단적인 예는 그림 1에 설명되어 있다.그림에는 직선과 노이즈를 통해 생성된 데이터(검은 점)가 표시된다.이 그림은 또한 곡선을 표시하는데, 이것은 데이터를 완벽하게 맞추기 위해 선택된 다항식이다.곡선의 잔차는 모두 0이다.따라서 첫 번째 유형의 데이터에만 기초한 검증은 곡선이 좋은 모형이라는 결론을 내릴 것이다.그러나 곡선은 분명히 좋지 않은 모델이다: 특히 -5와 -4 사이의 보간법은 매우 오도하는 경향이 있다. 더욱이, 상당한 외삽은 좋지 않을 것이다.null

따라서 검증은 일반적으로 모델 구축에 사용된 데이터만 고려하는 것이 아니라, 검증은 시공에 사용되지 않은 데이터도 채택한다.즉, 검증에는 일반적으로 모형의 예측 중 일부에 대한 시험이 포함된다.null

모델은 일부 적용 영역에 관해서만 검증될 수 있다.[1][2]한 응용 프로그램에 유효한 모델은 일부 다른 응용 프로그램에 유효하지 않을 수 있다.예를 들어, 그림 1의 곡선을 생각해 보십시오: 만약 응용 프로그램이 구간[0, 2]의 입력만 사용했다면, 곡선은 허용 가능한 모델일 수 있다.null

검증 방법

통계과학 백과사전에 따르면, 검증을 할 때, 잠재적 난관의 세 가지 주목할 만한 원인이 있다.[3]세 가지 원인은 데이터 부족, 입력 변수에 대한 관리 부족, 기본 확률 분포 및 상관 관계에 대한 불확실성이다.검증의 어려움에 대처하기 위한 일반적인 방법은 다음과 같다: 모델을 구성할 때 가정 확인, 이용 가능한 데이터와 관련 모델 출력 검토, 전문가 판단 적용.[1]전문가 판단은 일반적으로 적용 분야에 대한 전문지식을 필요로 한다는 점에 유의한다.[1]null

전문가 판단은 때때로 실제 데이터를 얻지 않고 예측의 타당성을 평가하는데 사용될 수 있다. 예를 들어, 그림 1의 곡선의 경우, 전문가는 상당한 외삽이 무효가 될 것이라고 평가할 수 있다.또한 튜링형 시험에서는 전문가 판단을 사용할 수 있는데, 이 시험에서는 전문가가 실제 데이터와 관련 모델 출력을 모두 제시하여 그 둘을 구분하도록 요청한다.[4]null

일부 등급의 통계적 모델의 경우, 검증을 수행하는 전문적인 방법을 사용할 수 있다.예를 들어, 통계적 모형을 회귀 분석을 통해 얻은 경우 회귀 모형 검증을 위한 전문 분석이 존재하며 일반적으로 사용된다.null

잔류 진단

잔차 진단은 잔차가 효과적으로 랜덤해 보이는지 여부를 결정하기 위한 잔차 분석으로 구성된다.이러한 분석에는 일반적으로 잔차에 대한 확률 분포의 추정치가 필요하다.잔차 분포의 추정치는 반복적인 모형 실행, 즉 반복적인 확률적 시뮬레이션을 사용하여 얻을 수 있다(모형의 무작위 변수에 대한 유사 숫자 생성기 사용).null

통계적 모형을 회귀 분석을 통해 얻은 경우 회귀-잔차 진단이 존재하며 사용될 수 있다. 이러한 진단은 잘 연구되었다.null

참고 항목

참조

  1. ^ a b c National Research Council (2012), "Chapter 5: Model validation and prediction", Assessing the Reliability of Complex Models: Mathematical and statistical foundations of verification, validation, and uncertainty quantification, Washington, DC: National Academies Press, pp. 52–85{{citation}}: CS1 maint : 복수이름 : 작성자 목록(링크)null
  2. ^ Batzel, J. J.; Bachar, M.; Karemaker, J. M.; Kappel, F. (2013), "Chapter 1: Merging mathematical and physiological knowledge", in Batzel, J. J.; Bachar, M.; Kappel, F. (eds.), Mathematical Modeling and Validation in Physiology, Springer, pp. 3–19, doi:10.1007/978-3-642-32882-4_1.
  3. ^ Deaton, M. L. (2006), "Simulation models, validation of", in Kotz, S.; et al. (eds.), Encyclopedia of Statistical Sciences, Wiley.
  4. ^ Mayer, D. G.; Butler, D.G. (1993), "Statistical validation", Ecological Modelling, 68: 21–32, doi:10.1016/0304-3800(93)90105-2.

추가 읽기

외부 링크