야로스키 알고리즘

Yarowsky algorithm

컴퓨터언어학에서 야로우스키 알고리즘은 단어감각 해체에 대해 인간 언어의 "일체감각"과 "담화당 1감각" 특성을 사용하는 단어감각 해체를 위한 무감독 학습 알고리즘이다. 관찰로부터, 단어들은 대부분의 주어진 담론과 주어진 결합에서 오직 하나의 의미만을 보여주는 경향이 있다.

적용

알고리즘은 주어진 다세포어의 예를 식별하는 태그가 없는 큰 말뭉치로 시작하여 모든 관련 문장을 선으로 저장한다. 예를 들어, 야로우스키는 알고리즘을 증명하기 위해 1995년 논문에서 "식물"이라는 단어를 사용한다. 단어의 가능한 감각이 두 개 있다고 가정할 경우, 다음 단계는 각 감각을 대표하는 소수의 시드 결합을 식별하고 각 감각에 라벨(즉, 감지 A와 B)을 부여한 다음, 시드 결합을 포함하는 모든 훈련 예에 적절한 라벨을 할당하는 것이다. 이 경우 감각 A와 B의 초기 시드 조합으로 각각 "생명"과 "제조"라는 단어를 선택한다. 나머지 예시(야로우스키에 따른 85%–98%)는 태그가 지정되지 않은 상태로 남아 있다.

알고리즘은 처음에 감각 A와 B를 정확하고 생산적으로 구별할 수 있는 시드 결합을 선택해야 한다. 이는 그러한 의미에 대한 사전의 항목에서 씨앗 단어를 선택하여 할 수 있다. 조합은 목표어에 인접하면 거리에 따라 효과가 약해지는 경향이 있다. 야로우스키(1993)에서 주어진 기준에 따라 목표어와의 가장 신뢰할 수 있는 콜라보레이션 관계에 나타나는 시드 워드가 선택된다. 대상 단어와 같은 거리에 있는 임의의 연관성보다 술어-논의 관계에 있는 단어들이 훨씬 더 효과적이며, 함수보다 내용 단어와의 조합에 훨씬 강하다. 이렇게 말했기 때문에, 결합 단어는 말뭉치 전체에 걸쳐 목표 단어와 여러 개의 결합 관계를 가질 수 있다. 이것은 다른 순위나 심지어 다른 분류라는 단어를 줄 수 있다. 또는 각 클래스에 대해 단일 정의 콜리케이트를 식별하고, 이러한 정의 단어 중 하나를 포함하는 컨텍스트에만 사용할 수 있다. 공개적으로 이용 가능한 데이터베이스 워드넷은 그러한 정의 용어의 자동 소스로 사용될 수 있다. 또한 대상 단어 근처에서 매우 빈번하게 발생하는 단어를 시드 조합 대표로 선택할 수 있다. 이 접근방식은 완전히 자동적이지 않으며, 인간 판사는 각 대상 단어의 감각에 대해 어떤 단어를 선택할지 결정해야 하며, 출력은 감각의 신뢰할 수 있는 지표가 될 것이다.

그런 다음 의사결정 목록 알고리즘을 사용하여 다른 신뢰할 수 있는 데이터 정렬을 식별한다. 이 훈련 알고리즘은 확률 Pr(센스 콜러케이션)을 계산하며, 결정 목록은 로그 우도 비율에 의해 순위가 매겨진다.

그런 다음 0 값을 피하기 위해 평활 알고리즘을 사용한다. 의사결정 목록 알고리즘은 일치된 전체 집합이 아닌 가장 신뢰할 수 있는 증거의 일부만을 사용하여 다수의 독립적인 근거 출처에서 많은 문제를 해결한다.

그리고 나서 새로운 결과 분류기가 전체 샘플 세트에 적용될 것이다. 씨앗 집합에 합리적인 임계값을 초과하는 확률로 A 또는 B로 태그가 지정된 예제를 잔차에 추가한다. 의사결정 목록 알고리즘과 위의 추가 단계가 반복적으로 적용된다. 새롭게 학습한 조합이 시드 세트에 더 추가되면서 센스 A나 센스 B 세트가 커지며 원래의 잔차가 줄어들게 된다. 그러나 이러한 조합은 분류 확률이 임계값을 초과하는 경우에만 시드 집합에 머무르고, 그렇지 않으면 나중에 분류하기 위해 잔류물로 반환된다. 각 반복이 끝날 때마다 "담화당 하나의 감각" 속성은 처음에 잘못 걸린 콜로케이트를 방지하고 따라서 씨앗 집합의 순도를 향상시키는 데 도움을 주기 위해 사용될 수 있다.

강한 콜로케이트가 잘못된 클래스에 대한 지표가 되지 않기 위해서는 클래스 폐쇄 임계값을 임의로 변경할 필요가 있다. 같은 목적을 위해 중간 수렴 후 알고리즘도 컨텍스트 창의 폭을 늘려야 한다.

알고리즘은 더 이상의 신뢰할 수 있는 데이터 정렬이 발견되지 않을 때까지 계속 반복한다. '담화당 하나의 감각' 속성은 오류 수정을 위해 여기서 사용될 수 있다. 이항 감지 파티션이 있는 대상 단어의 경우, 다수 감지 A의 발생이 부감각 B의 발생을 일정 임계값 이상 초과하면 소수 단어는 A로 다시 붙여진다. 야로우스키에 따르면 어떤 의미든 분명히 지배적이 되려면 목표어 발생이 4 이상이어서는 안 된다.

알고리즘이 안정적인 잔류 집합에 수렴되면 대상 단어의 최종 결정 목록을 얻는다. 가장 신뢰할 수 있는 조합은 원래 시드어 대신 새 리스트의 맨 위에 있다. 원래 태그되지 않은 말뭉치는 감각 라벨과 확률로 태그가 붙는다. 최종 결정 목록은 이제 새로운 데이터에 적용될 수 있으며, 목록에서 가장 높은 순위를 가진 데이터 정렬은 새로운 데이터를 분류하는 데 사용된다. 예를 들어, 새로운 데이터 집합에서 대상 단어의 최고 순위 집합이 감각 A인 경우, 대상 단어는 감각 A로 분류된다.

참고 항목

참조

  • 야로우스키, D. "무감독 워드 센스 해체 경쟁 감독 방법" 제33회 전산언어학협회 연차총회 의사진행. 케임브리지, MA, 페이지 189–196, 1995.