커플링 패턴 학습자

Coupled pattern learner

CPL(Couldened Pattern Learner)은 카테고리 및 관계의 반감독 학습을 결합하여 부트스트랩 학습 방법과 관련된 의미 드리프트 문제를 미연에 방지하는 기계 학습 알고리즘입니다.

커플링 패턴 학습자

많은 레이블이 없는 예시와 함께 소수의 레이블이 지정된 예를 사용하는 반지도 학습 접근법은 내부적으로 일관되지만 잘못된 추출 세트를 생성하기 때문에 일반적으로 신뢰할 수 없다.CPL은 이러한 분류기의 훈련을 결합하는 제약을 정의하는 온톨로지의 존재 하에서 많은 다른 범주 및 관계에 대한 분류기를 동시에 학습함으로써 이 문제를 해결합니다.그것은 Andrew Carlson, Justin Betteridge, Estevam R에 의해 소개되었다.2009년에는 [1][2]흐루쉬카 주니어와 톰 M. 미첼이 수상했습니다.

CPL의 개요

CPL은 많은 정보 추출기 훈련을 결합하여 더 정확한 결과를 산출하는 반감독 학습 접근법이다.CPL의 기본 개념은 '코치'와 같은 단일 유형의 추출기에 대한 반감독 교육이 다양한 상호 관련 실체와 관계 유형을 다루는 많은 추출기를 동시에 훈련하는 것보다 훨씬 더 어렵다는 것이다.이러한 서로 다른 실체와 관계 CPL 사이의 관계에 대한 사전 지식을 사용하면 훈련 중에 레이블이 없는 데이터를 유용한 제약 조건으로 만들 수 있다.예를 들어, '코치(x)'는 '사람(x)'과 '스포츠(x)가 아님'을 의미합니다.

CPL 설명

술어의 결합

CPL은 주로 반감독 학습 문제를 제한하기 위해 여러 기능의 학습을 결합하는 개념에 의존한다.CPL은 학습된 기능을 두 가지 방법으로 제한합니다.

  1. 논리적 관계에 따른 동일성 술어 간의 공유
  2. 관계 인수 유형 검사

동일 계층 술어 간의 공유

온톨로지 내의 각 술어 P는 P가 상호 배타적인 다른 동격 술어 리스트를 가진다.A가 술어 B와 상호 배타적인 경우, A의 플러스 인스턴스 및 패턴은 B의 마이너스 인스턴스와 마이너스 패턴이 됩니다.예를 들어 인스턴스 '보스턴'과 패턴 'arg1의 시장'을 가진 '도시'가 '과학자'와 상호 배타적인 경우, '보스턴'과 'arg1의 시장'은 각각 '과학자'에게 부정적인 인스턴스와 부정적인 패턴이 된다.또한 일부 범주는 다른 범주의 하위 집합으로 선언됩니다.예를 들어, '운동 선수'는 '사람'의 하위 집합이다.

관계 인수 유형 검사

이것은 관계와 범주의 학습을 결합하는 데 사용되는 유형 확인 정보입니다.예를 들어, 'ceoOf' 관계의 인수는 '사람'과 '회사' 범주로 선언된다.CPL은 두 개의 명사 구가 올바른 인수 유형에 속하는 것으로 분류되지 않는 한 한 한 쌍의 명사 구를 관계의 인스턴스로 승격하지 않습니다.

알고리즘 설명

CPL [2]알고리즘의 간단한 개요를 다음에 나타냅니다.

입력: 온톨로지 O 및 텍스트 말뭉치 C 출력:i=1,2,...에 대한 각 술어에 대한 신뢰할 수 있는 인스턴스/인스턴스/인스턴스는 최근 승격된 패턴/인스턴스를 사용하여 O do EXCLETT 후보 인스턴스/지식 패턴의 술어 p를 앞지릅니다.커플링 위반 FILTER 후보, RANK 후보 인스턴스/인스턴스/인스턴스, 상위 후보 PRORM; 종료

입력

Part-Of-Speech 태그 부착 문장의 대규모 말뭉치 및 사전 정의된 카테고리, 관계, 동일 계층 술어 간의 상호 배타적 관계, 일부 카테고리 간의 부분 집합 관계, 모든 술어에 대한 시드 인스턴스 및 카테고리에 대한 시드 패턴을 가진 초기 온톨로지.

후보 추출

CPL은 새롭게 승격된 패턴을 사용하여 텍스트 코퍼스에서 이러한 패턴과 함께 발생하는 명사 구문을 추출함으로써 새로운 후보 인스턴스를 찾습니다.CPL 추출,

  • 카테고리 인스턴스
  • 카테고리 패턴
  • 관계 인스턴스
  • 관계 패턴

후보 필터링

후보 인스턴스와 패턴은 높은 정밀도를 유지하고 매우 구체적인 패턴을 피하기 위해 필터링됩니다.인스턴스는 텍스트 코퍼스에서 적어도 2개의 촉진 패턴과 공존하고 모든 촉진 패턴과의 공존 카운트가 음의 패턴과의 공존 카운트보다 적어도 3배 이상 큰 경우에만 평가를 위해 고려된다.

후보 순위

CPL은 후보 인스턴스와 함께 발생하는 승격 패턴의 수를 사용하여 순위를 매겨 더 많은 패턴으로 발생하는 후보가 더 높은 순위를 매겨지도록 합니다.패턴은 각 패턴의 정밀도 추정치를 사용하여 순위가 매겨집니다.

후보자 승진

CPL은 평가 점수에 따라 후보자의 순위를 매기고 술어별로 최대 100개의 인스턴스 및 5개의 패턴을 승격시킵니다.인스턴스와 패턴은 각각 두 개 이상의 승격 패턴 또는 인스턴스와 함께 발생하는 경우에만 승격됩니다.

메타 부트스트랩러너

MBL(Meta-Bootstrap Learner) 또한 [2]의 CPL 작성자에 의해 제안되었습니다.Meta-Bootstrap 학습자는 다중 추출 기술의 훈련을 다중 뷰 제약 조건과 결합하여 추출자가 동의해야 한다.기존 추출 알고리즘 위에 커플링 제약 조건을 추가하는 동시에 블랙박스로 취급할 수 있습니다.MBL은 서로 다른 추출 기법에 의해 발생한 오류가 독립적이라고 가정합니다.MBL의 간단한 개요를 다음에 나타냅니다.

입력: 온톨로지 O, 추출기 세트 output 출력:i=1,2,...196의 각 술어에 대한 신뢰할 수 있는 인스턴스는 §의 O do foreach e에서 술어 p를 포어치합니다. 최근에 승격된 인스턴스와 함께 e를 사용할 새 후보를 추출합니다. 상호 참조 또는 형식 확인 제약 조건을 위반하는 필터 후보를 종료합니다. 모든 exxxtract에 의해 추출된 후보트랙터, 엔드 엔드

MBL에서 사용되는 하위 알고리즘은 인스턴스 자체를 승격하지 않습니다.이 알고리즘은 각 후보에 대한 증거를 MBL에 보고하고 MBL이 인스턴스 프로모션을 담당합니다.

적용들

저자들은 논문에서 CPL이 기존 의미 지식 저장소인 Freebase에 새로운 사실을 기여할 가능성을 보여주는 결과를 제시했습니다.

「 」를 참조해 주세요.

메모들

  1. ^ a b Carlson, Andrew; Justin Betteridge; Estevam R. Hruschka Jr.; Tom M. Mitchell (2009). "Coupling semi-supervised learning of categories and relations". Proceedings of the NAACL HLT 2009 Workshop on Semi-Supervised Learning for Natural Language Processing. Colorado, USA: Association for Computational Linguistics: 1–9. ISBN 9781932432381.
  2. ^ a b c Carlson, Andrew; Justin Betteridge; Richard C. Wang; Estevam R. Hruschka Jr.; Tom M. Mitchell (2010). "Coupled semi-supervised learning for information extraction". Proceedings of the Third ACM International Conference on Web Search and Data Mining. NY, USA: ACM: 101–110. doi:10.1145/1718487.1718501. ISBN 9781605588896.
  3. ^ "Freebase data dumps". Metaweb Technologies. 2009. Archived from the original on December 6, 2011. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)

레퍼런스

  • Liu, Qiuhua; Xuejun Liao; Lawrence Carin (2008). "Semi-supervised multitask learning". NIPS.
  • Shinyama, Yusuke; Satoshi Sekine (2006). "Preemptive information extraction using unrestricted relation discovery". HLT-Naacl.
  • Chang, Ming-Wei; Lev-Arie Ratinov; Dan Roth (2007). "Guiding semi-supervision with constraint driven learning". ACL.
  • Banko, Michele; Michael J. Cafarella; Stephen Soderland; Matt Broadhead; Oren Etzioni (2007). "Open information extraction from the web". IJCAI.
  • Blum, Avrim; Tom Mitchell (1998). "Combining labeled and unlabeled data with co-training". COLT: 92–100. doi:10.1145/279943.279962. ISBN 1581130570. S2CID 207228399.
  • Riloff, Ellen; Rosie Jones (1999). "Learning dictionaries for information extraction by multi-level bootstrapping". AAAI.
  • Rosenfeld, Benjamin; Ronen Feldman (2007). "Using corpus statistics on entities to improve semi-supervised relation extraction from the web". ACL.
  • Wang, Richard C.; William W. Cohen (2008). "Iterative set expansion of named entities using the web". ICDM.