레스크 알고리즘
Lesk algorithm레스크 알고리즘은 마이클 E가 도입한 워드센스 해체를 위한 고전 알고리즘이다. 1986년 레스크 [1]
개요
레스크 알고리즘은 주어진 "이웃집" (텍스트의 섹션)에 있는 단어들이 공통의 주제를 공유하는 경향이 있다는 가정에 근거한다. 레스크 알고리즘의 단순화된 버전은 모호한 단어의 사전 정의를 그 이웃에 포함된 용어와 비교하는 것이다. WordNet을 사용하도록 버전이 조정되었다.[2] 구현은 다음과 같을 수 있다.
- 낱말의 모든 의미에 있어서 사람들은 그 낱말의 이웃과 사전적 정의에 있는 단어들의 수를 세어야 한다.
- 선택되어야 할 감각은 이 카운트 중에서 가장 많은 숫자를 가진 감각이다.
이 알고리즘을 설명하는 자주 사용되는 예는 "핀 콘" 컨텍스트에 대한 것이다. 다음과 같은 사전 정의를 사용한다.
파인 1. 바늘 모양의 잎을 가진 상록수의 종류 2. 슬픔이나 병으로 낭비하다.
CON 1. 점으로 좁아지는 고체체 2. 고체든 속이든 이런 모양의 것 3. 특정한 상록수의 열매
보시다시피 가장 좋은 교차점은 소나무 #1 ⋂ 원추 #3 = 2이다.
단순화된 레스크 알고리즘
Simplified Lesk 알고리즘에서 주어진 문맥에서 각 단어의 정확한 의미는 사전 정의와 주어진 문맥 사이에 가장 많이 겹치는 의미를 찾아 개별적으로 결정된다.[3] 주어진 맥락에서 모든 단어의 의미를 동시에 결정하는 것이 아니라, 이 접근법은 동일한 맥락에서 발생하는 다른 단어의 의미와 독립적으로 각 단어에 개별적으로 대응한다.
"바실레스쿠 외 연구진이 수행한 비교 평가. (2004)[4]는 단순화된 레스크 알고리즘이 정밀도와 효율성 면에서 모두 알고리즘의 원래 정의를 크게 능가할 수 있다는 것을 보여주었다. Senseval-2 영어의 모든 단어 데이터에 대한 해체 알고리즘을 평가하여, 원래의 알고리즘에서 42%에 불과한 것과 비교하여 단순화된 Lesk 알고리즘을 사용하여 58%의 정밀도를 측정한다.
참고: Vasilescu 등 구현에서는 WordNet에서 정의한 가장 빈번한 감각으로 구성된 알고리즘에서 다루지 않는 단어에 대한 백오프 전략을 고려한다. 즉, 가능한 모든 의미가 0으로 이어지는 단어가 현재 상황 또는 다른 단어 정의와 중첩되는 것은 기본적으로 워드넷에서 지정된 감각 번호 1이라는 것을 의미한다.[5]
스마트 기본 워드 센스를 가진 단순화된 LESK 알고리즘 (Vasilescu 등, 2004)[6]
단순화된 LESK(단어, sentence) 함수가 최상의 단어 감각을 반환함
반환 종료(최상) |
ComputeOverLAP 함수는 기능 단어 또는 중지 목록의 다른 단어를 무시한 채 두 집합 사이의 공통 단어 수를 반환한다. 원래의 레스크 알고리즘은 문맥을 좀 더 복잡한 방법으로 정의한다.
비판 및 기타 레스크 기반 방법
불행히도 레스크의 접근법은 정확한 정의의 표현에 매우 민감하기 때문에 특정 단어의 부재가 결과를 근본적으로 바꿀 수 있다. 또한, 알고리즘은 고려 중인 감각의 광택들 사이에서만 중첩을 결정한다. 이것은 사전 용어집들이 상당히 짧은 경향이 있고 세밀한 감지 구분을 연관시킬 수 있는 충분한 어휘를 제공하지 못한다는 점에서 상당한 한계다.
이 알고리즘의 다른 수정을 제공하는 많은 작업이 나타났다. 예를 들어, 이 작품들은 분석을 위해 다른 자원(사우루스, 동의어 사전 또는 형태학 및 구문론적 모델)을 사용한다. 예를 들어, 그것은 동의어, 다른 파생어 또는 정의에서 나온 단어의 정의에서 나온 단어와 같은 정보를 사용할 수 있다.[7]
레스크와 레스크의 확장에 관한 많은 연구가 있다.[8]
- 윌크스와 스티븐슨, 1998년, 1999년;
- Mahesh 등, 1997;
- 코위 외, 1992;
- 야로스키, 1992;
- Pook and Catlett, 1988;
- 킬가리프와 로젠스바이그, 2000;
- Kwong, 2001;
- Nastase 및 Szpakowicz, 2001;
- 겔부크와 시도로프, 2004년.
레스크 변종
- 오리지널 레스크 (Lesk, 1986)
- 적응/확장 레스크(Banerjee and Pederson, 2002/2003): 적응형 레스크 알고리즘에서 단어 벡터 생성은 워드넷 글로스의 모든 내용 단어에 해당한다. 워드넷에서 관련 개념의 결합 광택을 사용하여 이 벡터를 증강할 수 있다. 벡터에는 큰 말뭉치에서 w와 함께 발생되는 단어의 발생 횟수가 포함되어 있다. 모든 내용 단어의 벡터를 광택에 추가하면 개념에 대한 글로스 벡터 g가 생성된다. 연관성은 코사인 유사도 측정을 사용하여 광택 벡터를 비교함으로써 결정된다.[9]
참고 항목
참조
- ^ 레스크, M. (1986) 기계 판독 가능한 사전을 사용한 자동 감지 해제: 솔방울과 아이스크림 콘을 구분하는 방법. SIGDOC '86: 시스템 문서에 관한 제5차 연례 국제 회의의 절차, 뉴욕, 뉴욕, 미국 ACM.
- ^ 사탄지브 배너지와 테드 페더슨. WordNet을 이용한 Word Sense Discambigation을 위한 Adaptive Lesk 알고리즘, 컴퓨터 과학의 강의 노트; 2276, 페이지: 136 - 145, 2002. ISBN3-540-43219-1
- ^ 킬가리프와 J. 로젠츠베이그. 2000. 영어 SENSEVAL:보고와 결과. 그리스 아테네의 LREC에서 열린 제2회 언어자원 및 평가 국제회의의 진행에 관하여.
- ^ 플로렌티나 바실레스쿠, 필리프 랭글라이스, 가이 라팔메. 2004. 언어 불순화를 위한 레스크 접근법의 변형 평가. 포르투갈 LREC.
- ^ Agirre, Eneko & Philip Edmonds (eds). 2006. 워드 센스 설명: 알고리즘 및 응용 프로그램. 도드레흐트: 스프링거. www.wsdbook.org
- ^ 플로렌티나 바실레스쿠, 필리프 랭글라이스, 가이 라팔메. 2004. 언어 불순화를 위한 레스크 접근법의 변형 평가. 포르투갈 LREC.
- ^ 알렉산더 겔부크, 그리고리 시도로프. 사전 정의에서 단어 감각의 모호성을 자동으로 해결(러시아어). J. Naucheno-Tehnicheskaya Informaciya(NTI), ISSN 0548-0027, ser. 2, N 3, 2004, 페이지 10–15.
- ^ 로베르토 네비글리 Word Sense Discambigation: A Survey, ACM Computing Survey, 41(2), 2009년, 페이지 1–69.
- ^ Banerjee, Satanjeev; Pedersen, Ted (2002-02-17). An Adapted Lesk Algorithm for Word Sense Disambiguation Using WordNet. Computational Linguistics and Intelligent Text Processing. Lecture Notes in Computer Science. Springer, Berlin, Heidelberg. pp. 136–145. CiteSeerX 10.1.1.118.8359. doi:10.1007/3-540-45715-1_11. ISBN 978-3540457152.