패턴 인식을 위한 사전 지식
Prior knowledge for pattern recognition패턴 인식은 기계 학습과 밀접하게 연계된 매우 활발한 연구 분야다.분류 또는 통계 분류라고도 하는 패턴 인식은 입력 패턴의 클래스를 결정할 수 있는 분류기를 구축하는 것을 목표로 한다.훈련이라고 알려진 이 절차는 훈련 데이터(또는 훈련 세트)를 형성하는 일련의 입력-출력 y i ){\i},에만 기초한 알 수 없는 의사결정 함수를 학습하는 것에 해당한다.그럼에도 불구하고, 캐릭터 인식과 같은 현실 세계 애플리케이션에서는 보통 문제에 대한 일정량의 정보가 사전에 알려져 있다.이러한 선행지식을 교육에 통합하는 것은 많은 애플리케이션에서 성능을 증가시킬 수 있는 핵심 요소다.
사전 지식
사전 지식은[1] 훈련 데이터 외에 이용 가능한 문제에 대한 모든 정보를 말한다.그러나 이러한 가장 일반적인 형태에서, 사전 지식 없이 유한한 표본 집합에서 모형을 결정하는 것은 독특한 모형이 존재하지 않을 수 있다는 점에서 잘못된 문제다.많은 분류자는 훈련 샘플 중 하나와 유사한 시험 패턴이 동일한 클래스에 할당되는 경향이 있다는 일반적인 평활도 가정을 포함한다.
머신러닝에서 선행지식의 중요성은 검색과 최적화에 대한 그것의 역할에 의해 제시된다.느슨하게 무료 점심식사가 없는 정리는 모든 검색 알고리즘이 모든 문제에 대해 동일한 평균 성능을 가지고 있다고 명시하고, 따라서 특정 애플리케이션에서 성능을 얻으려면 문제에 대한 사전 지식이 포함된 전문 알고리즘을 사용해야 한다는 것을 암시한다.
패턴 인식에서 접하는 서로 다른 유형의 이전 지식은 이제 두 가지 주요 범주로 다시 분류된다. 즉, 분류-상위성과 데이터에 대한 지식이다.
계급상생
패턴 인식에서 매우 일반적인 유형의 선행 지식은 입력 패턴의 변환에 대한 클래스(또는 분류기의 출력)의 불변성이다.이러한 유형의 지식을 변환-비교라고 한다.영상 인식에 주로 사용되는 변환은 다음과 같다.
Incorporating the invariance to a transformation parametrized in into a classifier of output for an input pattern symbol 은(는) 동등성 적용에 해당함
= 을를) 중심으로 한 변환에 대해서도 국부적 침입을 고려할 수 있으므로, 제한조건을 하여 T x= {\0}{\x}={\x}}}}}}을으)할 수 있다.
이러한 방정식의 함수는 분류기의 결정 함수 또는 실제 값 출력일 수 있다.
또 다른 접근방식은 변환 대신 "입력 공간의 도메인"에 대한 분류-상응성을 고려하는 것이다.이 경우 문제는 다음과 f {\ f}을(를 찾는 것이 된다.
여기서 은(는) 입력 공간의 영역 의 구성원 클래스다.
패턴 인식에서 발견되는 다른 유형의 클래스 인바이어런스(class-invariance)는 구조화된 입력에서 요소의 순열에 대한 클래스의 불변성이다.이러한 유형의 사전 지식의 전형적인 적용은 행렬 입력 행의 순열에 대한 분류자 불변이다.
데이터에 대한 지식
계급적 결합 이외의 다른 형태의 사전 지식은 데이터를 더욱 구체적으로 다루고 있으며 따라서 실제 적용에 특히 관심이 있다.데이터를 수집할 때 가장 자주 발생하는 세 가지 특별한 경우는 다음과 같다.
- 라벨이 부착되지 않은 샘플은 예상 클래스 멤버쉽과 함께 사용할 수 있다.
- 한 학급 표본의 높은 비율로 인한 교육 세트의 불균형
- 데이터의 품질은 표본마다 다를 수 있다.
이러한 사항에 대한 사전 지식은 학습에 포함된 경우 인식의 품질을 향상시킬 수 있다.더욱이 일부 데이터의 질이 나쁘거나 계층 간의 큰 불균형을 고려하지 않으면 분류자의 결정을 오도할 수 있다.
메모들
- ^ B. 숄코프와 A.스몰라, "커널과 함께 배우기" MIT Press 2002.
참조
- E. 크럽카와 N.Tishby, "특징에 대한 선행지식을 학습에 반영", 제11차 인공지능 및 통계 국제회의(AISTATS 07)