플랫 스케일링

머신러닝에서 플랫 스케일링 또는 플랫 보정은 분류 모델의 출력을 클래스에 걸친 확률 분포로 변환하는 방법이다.이 방법은 존 플랫이 지원 벡터 기계의 맥락에서 발명한 것으로,^[1] 초기 방법은 Vapnik에 의해 대체되었지만, 다른 분류 모델에 적용할 수 있다.^[2]플랫 스케일링은 로지스틱 회귀 모형을 분류자의 점수에 적합시키는 방식으로 작동한다.

설명

이진 분류의 문제를 고려하십시오. 입력 $x$ 의 경우 입력 내용이 임의로 $+1$ 과 $-1$ 로 표시된 두 가지 클래스 중 하나에 속하는지 여부를 확인하려고 한다.분류 문제는 클래스 레이블 $y$ = $부호(f (x))$ ^[a]를 예측하여 실제 값 함수 $f$ 에 의해 해결될 것으로 가정한다.많은 문제의 경우 확률 $P(y=1|x)$ = $P(y=1|x)$ $){\displaystyle P(y=1 x)},$ 즉 답을 줄 뿐만 아니라 답에 대한 확실성의 정도까지 얻는 것이 편리하다.일부 분류 모형은 그러한 확률을 제공하지 않거나 낮은 확률 추정치를 제공한다.

플랫 스케일링은 앞서 언급한 문제를 해결하기 위한 알고리즘이다.확률 추정치를 산출한다.

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

= 1

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

)

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

=

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

1

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

+

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

(

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

(

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

)

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

+ B

\mathrm {P} (y=1|x)={\frac {1}{1+\exp(Af(x)+B)}}

)

{\

즉, 분류자 $점수$ 의 $로지스틱$ 변환 f(x)이며 $,$ 여기서 $A$ 와 $B$ 는 알고리즘에 의해 학습되는 두 개의 스칼라 매개변수다.Note that predictions can now be made according to $y=1{\text{ iff }}P(y=1 x)>{\frac {1}{2}};$ if $B\neq 0,$ the probability estimates contain a correction compared to the old decision function $y = sign(f (x))$ .^[3]

매개변수 $A$ 와 $B$ 는 원래 분류기 $f$ 와 동일한 훈련 세트에 최적화하는 최대우도 방법을 사용하여 추정한다.이 집합에 과도하게 적합되지 않도록 고정된 보정 세트 또는 교차 검증을 사용할 수 있지만, Platt는 라벨 $y$ 를 목표 확률로 변환할 것을 추가로 제안한다.

{\

양성 검체(

y

= 1)에

t_{{+}}={\frac {N_{{+}}+1}{N_{{+}}+2}}

대한

N_{+}+2}}:

t_{-}={\frac {1}{N_{-}+2}}

-

t_{-}={\frac {1}{N_{-}+2}}

=

t_{-}={\frac {1}{N_{-}+2}}

t_{-}={\frac {1}{N_{-}+2}}

-

t_{-}={\frac {1}{N_{-}+2}}

+

t_{-}={\frac {1}{N_{-}+2}}

{\

음의 샘플,

y

=

-1

.

여기서 $N$ 과₊ $N$ 은₋ 각각 양의 표본과 음의 표본 수입니다.이러한 변환은 라벨 위에 균일한 이전이 있는 표본이 아닌 데이터의 모형에 Bayes의 규칙을 적용함으로써 나타난다.^[1]분자와 분모의 상수 1과 2는 라플라스 평활의 적용에서 도출된다.

플랫 자신도 매개변수를 최적화하기 위해 레벤베르크-마르쿠르트 알고리즘을 사용할 것을 제안했지만, 이후 뉴턴 알고리즘이 제안되어 더 수치적으로 안정되어야 했다.^[4]

분석

플랫 스케일링은 SVM뿐만 아니라 부스트 모델과 왜곡된 확률 분포를 생성하는 순진한 베이즈 분류기를 포함한 다른 유형의 분류 모델에도 효과적인 것으로 나타났다.예측 확률에 S자형 왜곡을 나타내지만 로지스틱 회귀 분석, 다층 수용체 및 랜덤 포리스트와 같은 잘 보정된 모델에서는 효과가 적은 SVM 및 부스트 트리 같은 최대 마진 방법에 특히 효과적이다.^[2]

확률 교정에 대한 다른 접근방식은 동위원소 회귀 모형을 잘못된 보정 확률 모델에 적합시키는 것이다.이것은 특히 충분한 교육 데이터가 있을 때, 플랫 스케일링보다 더 잘 작동하는 것으로 나타났다.^[2]

참고 항목

관련 벡터 머신: 지지 벡터 머신에 대한 확률론적 대안

메모들

^ 기호 기능을 참조하십시오. $f (x)$ = $0$ 의 라벨은 임의로 0 또는 1로 선택된다.

참조

^ ^a ^b Platt, John (1999). "Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods". Advances in Large Margin Classifiers. 10 (3): 61–74.
^ ^a ^b ^c Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicting good probabilities with supervised learning (PDF). ICML. doi:10.1145/1102351.1102430.
^ Olivier Chapelle; Vladimir Vapnik; Olivier Bousquet; Sayan Mukherjee (2002). "Choosing multiple parameters for support vector machines" (PDF). Machine Learning. 46: 131–159. doi:10.1023/a:1012450327387.
^ Lin, Hsuan-Tien; Lin, Chih-Jen; Weng, Ruby C. (2007). "A note on Platt's probabilistic outputs for support vector machines" (PDF). Machine Learning. 68 (3): 267–276. doi:10.1007/s10994-007-5018-6.

[3] 기호 기능을 참조하십시오. $f (x)$ = $0$ 의 라벨은 임의로 0 또는 1로 선택된다.

[platt99-1] Platt, John (1999). "Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods". Advances in Large Margin Classifiers. 10 (3): 61–74.

[Niculescu-2] Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicting good probabilities with supervised learning (PDF). ICML. doi:10.1145/1102351.1102430.

[4] Olivier Chapelle; Vladimir Vapnik; Olivier Bousquet; Sayan Mukherjee (2002). "Choosing multiple parameters for support vector machines" (PDF). Machine Learning. 46: 131–159. doi:10.1023/a:1012450327387.

[5] Lin, Hsuan-Tien; Lin, Chih-Jen; Weng, Ruby C. (2007). "A note on Platt's probabilistic outputs for support vector machines" (PDF). Machine Learning. 68 (3): 267–276. doi:10.1007/s10994-007-5018-6.

[1]

[2]

[a]

[3]

[4]

Search

플랫 스케일링

네임스페이스

더

목차

설명

분석

참고 항목

메모들

참조