플랫 스케일링

Platt scaling

머신러닝에서 플랫 스케일링 또는 플랫 보정분류 모델의 출력을 클래스에 걸친 확률 분포로 변환하는 방법이다. 방법은 존 플랫지원 벡터 기계의 맥락에서 발명한 것으로,[1] 초기 방법은 Vapnik에 의해 대체되었지만, 다른 분류 모델에 적용할 수 있다.[2]플랫 스케일링은 로지스틱 회귀 모형을 분류자의 점수에 적합시키는 방식으로 작동한다.

설명

이진 분류의 문제를 고려하십시오. 입력 x의 경우 입력 내용이 임의로 +1-1로 표시된 두 가지 클래스 중 하나에 속하는지 여부를 확인하려고 한다.분류 문제는 클래스 레이블 y = 부호(f(x))[a]를 예측하여 실제 값 함수 f에 의해 해결될 것으로 가정한다.많은 문제의 경우 확률 = 즉 답을 줄 뿐만 아니라 답에 대한 확실성의 정도까지 얻는 것이 편리하다.일부 분류 모형은 그러한 확률을 제공하지 않거나 낮은 확률 추정치를 제공한다.

플랫 스케일링은 앞서 언급한 문제를 해결하기 위한 알고리즘이다.확률 추정치를 산출한다.

= 1 )= 1+ ( ( )+ B)

즉, 분류자 점수 로지스틱 변환 f(x)이며, 여기서 AB는 알고리즘에 의해 학습되는 두 개의 스칼라 매개변수다.Note that predictions can now be made according to if the probability estimates contain a correction compared to the old decision function y = sign(f(x)).[3]

매개변수 AB는 원래 분류기 f와 동일한 훈련 세트에 최적화하는 최대우도 방법을 사용하여 추정한다.이 집합에 과도하게 적합되지 않도록 고정된 보정 세트 또는 교차 검증을 사용할 수 있지만, Platt는 라벨 y를 목표 확률로 변환할 것을 추가로 제안한다.

양성 검체(y = 1)에 대한
-= -+ 음의 샘플, y = -1.

여기서 N+ N 각각 양의 표본과 음의 표본 수입니다.이러한 변환은 라벨 위에 균일한 이전이 있는 표본이 아닌 데이터의 모형에 Bayes의 규칙을 적용함으로써 나타난다.[1]분자와 분모의 상수 1과 2는 라플라스 평활의 적용에서 도출된다.

플랫 자신도 매개변수를 최적화하기 위해 레벤베르크-마르쿠르트 알고리즘을 사용할 것을 제안했지만, 이후 뉴턴 알고리즘이 제안되어 더 수치적으로 안정되어야 했다.[4]

분석

플랫 스케일링은 SVM뿐만 아니라 부스트 모델과 왜곡된 확률 분포를 생성하는 순진한 베이즈 분류기를 포함한 다른 유형의 분류 모델에도 효과적인 것으로 나타났다.예측 확률에 S자형 왜곡을 나타내지만 로지스틱 회귀 분석, 다층 수용체 및 랜덤 포리스트와 같은 잘 보정된 모델에서는 효과가 적은 SVM 및 부스트 트리 같은 최대 마진 방법에 특히 효과적이다.[2]

확률 교정에 대한 다른 접근방식은 동위원소 회귀 모형을 잘못된 보정 확률 모델에 적합시키는 것이다.이것은 특히 충분한 교육 데이터가 있을 때, 플랫 스케일링보다 더 잘 작동하는 것으로 나타났다.[2]

참고 항목

메모들

  1. ^ 기호 기능을 참조하십시오.f(x) = 0의 라벨은 임의로 0 또는 1로 선택된다.

참조

  1. ^ a b Platt, John (1999). "Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods". Advances in Large Margin Classifiers. 10 (3): 61–74.
  2. ^ a b c Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicting good probabilities with supervised learning (PDF). ICML. doi:10.1145/1102351.1102430.
  3. ^ Olivier Chapelle; Vladimir Vapnik; Olivier Bousquet; Sayan Mukherjee (2002). "Choosing multiple parameters for support vector machines" (PDF). Machine Learning. 46: 131–159. doi:10.1023/a:1012450327387.
  4. ^ Lin, Hsuan-Tien; Lin, Chih-Jen; Weng, Ruby C. (2007). "A note on Platt's probabilistic outputs for support vector machines" (PDF). Machine Learning. 68 (3): 267–276. doi:10.1007/s10994-007-5018-6.