통계 분류에서 베이즈 분류기는 오분류 확률을 최소화한다.[1]
정의
Suppose a pair
takes values in
, where
is the class label of
. This means that the conditional distribution of X, given that the label Y takes the value r is give옆에
- = r)~ P r
= ,,
여기서 "~
은 "분산"을 의미하며, 서 P 는 확률 분포를 나타낸다
.
분류자는 관측치 X=x에 관측치 Y=r이 실제로 무엇이었는지를 추정하거나 추정하는 규칙이다.이론적으로 분류자는 : d→{ , , K C을
를) 측정할 수 있는 함수로서 C는 점 x를 C(x)로 분류한다는 해석이다.분류자 C의 오분류 확률 또는 위험은 다음과 같이 정의된다.

베이즈 분류기는

실제로 대부분의 통계에서와 같이 어려움과 미묘함은 확률 분포를 효과적으로 모델링하는 것과 관련이 있다. 이 경우 X = )
베이즈 분류기는 통계 분류에서 유용한 벤치마크다.
일반 분류자
일부 교육 데이터에 따라 달라짐)의 초과 위험은 - 로 정의된다. 따라서
이 비음수량은 서로 다른 분류 기법의 성능을 평가하는 데 중요하다.분류자는 훈련 데이터 집합의 크기가 무한대로 증가함에 따라 초과 위험이 0으로 수렴되는 경우 일관성이 있다고 한다.[2]
최적성 증명
베이즈 분류기가 최적이고 베이즈 오류율이 최소라는 증거는 다음과 같다.
변수 정의:Risk
, Bayes risk
, all possible classes to which the points can be classified
. Let the posterior probability of a point belonging to class 1 be
. Define에 분류자
그러면 다음과 같은 결과가 나온다.
(a) ( )=
예: h h는
베이즈 분류기,
(b) For any classifier
, the excess risk satisfies ![{\displaystyle R(h)-R^{*}=2\mathbb {E} _{X}\left[|\eta (x)-0.5|\cdot \mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/92a2fec73684d3551d08cf02e2c48ed1005af28d)
(c) = [ (X), -( ) R (
(a)의 증거: h 에 대해
( ) 을(를) x X을(를) 취함으로써 최소화할 수 있다는
점에 유의하십시오
따라서 가능한 최소 위험은 베이지스 , R = ( ){\이다
(b):
(c):
각 요소가 n개 범주 중 하나에 속할 수 있을 때 Bayes 분류기가 분류 오류를 최소화하는 일반적인 경우는 다음과 같이 높은 기대치에 의해 진행된다.
이것은 분류에 의해 최소화된다.
각 관측치 x에 대해
참고 항목
참조