구조화된 예측

Structured prediction

구조화 예측 또는 구조화(출력) 학습은 스칼라 이산 또는 실제 [1]값이 아닌 구조화 객체 예측을 포함하는 감독된 기계 학습 기술의 포괄적인 용어이다.

일반적으로 사용되는 지도 학습 기법과 유사하게, 구조화된 예측 모델은 모델 매개변수를 조정하기 위해 실제 예측 값을 사용하는 관측 데이터를 통해 일반적으로 훈련된다.모델의 복잡성과 예측 변수의 상호관계로 인해, 훈련된 모델과 훈련 자체의 예측 프로세스는 종종 계산적으로 실행할 수 없으며 대략적인 추론 및 학습 방법이 사용된다.

적용들

예를 들어, 자연어 문장을 해석 트리 등의 구문적 표현으로 변환하는 문제는 구조화된 출력 도메인이 가능한 모든 해석 트리의 집합인 구조화된 예측[2] 문제로 볼 수 있다.구조화된 예측은 또한 생물 정보학, 자연 언어 처리, 음성 인식컴퓨터 비전을 포함한 다양한 응용 분야에서도 사용된다.

예: 시퀀스태깅

시퀀스 태그 부착은 입력 데이터가 시퀀스(예: 텍스트 문장)인 자연 언어 처리에서 일반적인 문제의 한 종류입니다.시퀀스 태그 문제는 음성 태그 부착 및 이름 있는 엔티티 인식 등 여러 가지 방법으로 나타납니다.예를 들어 POS 태깅에서는 시퀀스의 각 워드는 워드의 "유형"을 나타내는 "태그"(클래스 라벨)를 수신해야 합니다.

이것. DT
VBZ
a DT
태그 부착 JJ
문장. NN
. .

이 문제의 주요 과제는 모호성을 해결하는 것입니다: "sentence"라는 단어는 영어에서 동사일 수도 있고 "tagged"일 수도 있습니다.

이 문제는 개개의 토큰을 분류하는 것만으로 해결할 수 있지만, 이 접근법은 태그가 독립적으로 발생하지 않는다는 경험적 사실을 고려하지 않고 각 태그가 이전 워드의 태그에 대한 강한 조건부 의존성을 나타냅니다.이 사실은 숨겨진 마르코프 모델이나 개별 태그가 아닌 문장에 대한 전체 태그 시퀀스를 예측하는 조건부[2] 랜덤 필드 등의 시퀀스 모델에서 비터비 알고리즘을 통해 이용될 수 있다.

기술

확률론적 그래픽 모델은 구조화된 예측 모델의 큰 클래스를 형성한다.특히 베이지안 네트워크와 랜덤 필드가 인기입니다.구조화 예측을 위한 다른 알고리즘과 모델에는 유도 논리 프로그래밍, 사례 기반 추론, 구조화 SVM, 마르코프 논리 네트워크, 확률론적 소프트 논리 및 제약 조건 모델이 포함된다.주요 기술:

구조화된 퍼셉트론

일반적인 구조화 예측을 위한 알고리즘을 이해하는 가장 쉬운 방법 중 하나는 [3]콜린스의 구조화 퍼셉트론이다.이 알고리즘은 선형 분류기 학습을 위한 퍼셉트론 알고리즘과 추론 알고리즘(시퀀스 데이터에 사용되는 경우 전형적으로 비터비 알고리즘)을 결합하며 다음과 같이 추상적으로 설명할 수 있습니다.먼저 훈련 표본 x와 후보 예측 y를 길이 n의 벡터에 매핑하는 "공동 특징 함수" δ(x, y)를 정의합니다(x와 y는 어떤 구조든 가질 수 있습니다. n은 문제에 의존하지만 각 모델에 대해 고정되어야 합니다).GEN을 후보 예측을 생성하는 함수로 합니다.그 후, 다음과 같이 입력합니다.

ww를 길이 n의 무게 벡터라고 .
미리 정해진 반복 횟수의 경우:
트레이닝 세트의 각 x(\ x 대해 t t
y^ x G ( x ) ( ( (x, )) { { hat {y} = spair display , } , \ { y } , \ { y } , \ { ( x} \ } \ 、 {} ) 、
w{갱신합니다 +(- 、 ) + ,) { {w } = { w + { c } ( \ { x , \ hat { y } ) + { } ) , .

실제로 G )(\ argmax 검색은 기하급수적으로 큰 후보 집합을 통한 완전한 검색이 아니라 Viterbi와 같은 알고리즘이나 max-sum과 같은 알고리즘을 사용하여 수행됩니다.

학습의 개념은 멀티클래스 퍼셉트론과 유사하다.

레퍼런스

  1. ^ Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola 및 SVN Vishwanathan(2007), Predicting Structured Data, MIT Press.
  2. ^ a b Lafferty, J., McCallum, A., Pereira, F. (2001). "Conditional random fields: Probabilistic models for segmenting and labeling sequence data" (PDF). Proc. 18th International Conf. on Machine Learning. pp. 282–289.{{cite conference}}: CS1 maint: 작성자 파라미터 사용(링크)
  3. ^ Collins, Michael (2002). Discriminative training methods for hidden Markov models: Theory and experiments with perceptron algorithms (PDF). Proc. EMNLP. Vol. 10.

외부 링크