구조적 위험 최소화

Structural risk minimization

구조 위험 최소화(SRM)기계 학습에 사용하는 귀납 원리다.일반적으로 머신러닝에서 일반화된 모델은 한정된 데이터 세트에서 선택되어야 하며, 그 결과 과도한 피팅 문제가 발생하며, 모델은 훈련 세트의 특수성에 너무 강하게 맞춤화되어 새로운 데이터에 제대로 일반화되지 않는다.SRM 원칙은 모델의 복잡성과 교육 데이터 적합성 간의 균형을 조정하여 이 문제를 해결한다.이 원리는 블라디미르 증기니크알렉세이 체르보넨키스가 1974년 발표한 논문에서 처음 제시했으며 VC 차원을 사용한다.

In practical terms, Structural Risk Minimization is implemented by minimizing , where is the train error, the function is called a regularization function, and 상수다.( ) 은(는) 매개변수 공간의 대용량 하위 집합에 속하는 W {\에서 큰 값을 취하도록 선택된다.( 를 최소화하면 매개변수 공간의 접근 가능한 하위 집합의 용량이 사실상 제한되므로, 교육 오류를 최소화하고 교육 오류와 시험 오류 사이의 예상되는 간격을 최소화하는 트레이드오프를 제어할 수 있다.[1]

SRM 문제는 데이터 측면에서 공식화될 수 있다.데이터 x와 라벨 y로 구성된 n개의 데이터 점을 감안할 때 목표 () 은 종종 다음과 같은 방식으로 표현된다.

첫 번째 항은 학습된 모델의 값인 와) 주어진 레이블 사이의 평균 제곱 오차(MSE) 항이다이 용어는 앞에서 설명한 오류 t 이다두 번째 학기는 첨탑을 선호하고 큰 체중을 벌하기 위해 역도보다 선행한다. 계수 는 정규화 기간에 다소 비중을 두는 하이퍼 파라미터다. }은(는) 보다 최적의 MSE를 희생하여 더 큰 가중치를 권장하며, 작은 은(는) 정규화를 완화하여 모델을 데이터에 맞출 수 있다. 이(가) 되면 가중치가 0이 되고 0 {\ \ 0가) 되면 모델은 일반적으로 오버피팅에 시달린다는 점에 유의하십시오.


참고 항목

참조

  1. ^ LeCun, Yann. "Gradient-Based Learning Applied to Document Recognition" (PDF).{{cite web}}: CS1 maint : url-status (링크)

외부 링크