렘마타이즈
Lemmatisation언어학에서 보조어법(또는 보조어법)은 단어의 변형 형태를 그룹화하는 과정으로, 단어의 보조어 또는 사전 [1]형태로 식별되는 단일 항목으로 분석할 수 있다.
컴퓨터 언어학에서, 보조어법은 의도된 의미에 따라 단어의 보조어를 결정하는 알고리즘 과정이다.어근과 달리, 단어화(lemmatization)는 문장 내에서뿐만 아니라 인접한 문장이나 전체 문서와 같이 문장을 둘러싼 더 큰 맥락 내에서 단어의 의도된 부분과 의미를 정확하게 식별하는 데 달려 있다.결과적으로, 효율적인 레미네이션 알고리즘을 개발하는 것은 연구의 [2][3][4]열린 영역이다.
묘사
많은 언어에서 단어들은 여러 굴절된 형태로 나타난다.예를 들어, 영어에서 동사 'to walk'는 'walk', 'walked', 'walks' 또는 'walking'으로 표시될 수 있다.사전에서 찾을 수 있는 기본 형태인 'walk'는 단어의 보조어라고 불린다.기본 형태와 언어의 일부의 연관성은 종종 단어의 어휘소라고 불린다.
Lematization은 줄기와 밀접한 관련이 있다.차이점은 스테머는 문맥에 대한 지식 없이 하나의 단어로 작동하기 때문에 말의 일부에 따라 다른 의미를 갖는 단어들을 구별할 수 없다는 것이다.그러나 스테머는 일반적으로 구현과 실행이 더 쉽습니다.「정확도 저하」는, 애플리케이션에 따라서는 문제가 되지 않는 경우가 있습니다.사실, 정보 검색 시스템 내에서 사용될 때, 스템은 Lematization에 비해 질의 회수 정확도, 즉 진정한 양의 비율을 향상시킨다.그럼에도 불구하고, 스템핑은 그러한 [5]시스템에 대해 실제로 양의 레이블이 있는 인스턴스의 정밀도 또는 비율을 감소시킨다.
예:
- "better"라는 단어에는 "good"라는 어구가 붙는다.사전 검색이 필요하기 때문에 이 링크는 스템에 의해 누락됩니다.
- "걷기"라는 단어는 "걷기"라는 단어의 기본 형태이며, 따라서 이것은 줄기와 레몬화 모두에서 일치한다.
- "meeting"이라는 단어는 문맥에 따라 명사의 기본형식 또는 동사("to meet")의 형식이 될 수 있습니다. 예를 들어 "in the last meeting" 또는 "We are again are our tomorrow"입니다.스팅과는 달리, 레미타이즈에서는 상황에 따라 올바른 레미타를 선택하려고 한다.
Lucene과[6] 같은 문서 색인 소프트웨어는 의미에 대한 지식 없이 단어의 기본 스템 형식을 저장할 수 있지만, 단어 형성 문법 규칙만 고려합니다.줄임말 자체는 유효한 단어가 아닐 수 있습니다.아래 예에서 볼 수 있듯이, 'lazy'는 많은 줄임말에서 'lazi'로 어간됩니다.이는 예방의 목적이 적절한 보조항목을 만드는 것이 아니기 때문입니다. 이는 맥락에 대한 지식이 필요한 더 어려운 작업입니다.어근의 주된 목적은 다른 형태의 단어를 하나의 [7]형태로 매핑하는 것이다.규칙 기반 알고리즘으로서, 단어의 철자에만 의존하며, 예를 들어 'lazi'가 'lazi'로 어간될 때, 'lazy'와 어간이 같도록 하기 위해 정확성을 희생한다.
알고리즘
Lemmatization을 수행하는 간단한 방법은 간단한 사전 검색입니다.이것은 간단한 굴절 형태에서는 잘 작동하지만, 긴 복합어가 있는 언어 등 다른 경우에는 규칙 기반 시스템이 필요합니다.이러한 규칙은 수작업으로 만들거나 주석이 달린 말뭉치에서 자동으로 학습할 수 있습니다.
생물의학에서의 사용
출판된 생물의학 문헌의 형태학적 분석은 유용한 결과를 산출할 수 있다.생물의학 텍스트의 형태학적 처리는 생물의학을 위한 전문 레마타이즈 프로그램에 의해 더 효과적일 수 있으며, 실제 정보 추출 [8]작업의 정확성을 향상시킬 수 있다.
「 」를 참조해 주세요.
레퍼런스
- ^ 콜린스 영어사전, "렘마티스" 항목
- ^ "WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages" (PDF).
- ^ Müller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich (2015). Joint Lemmatization and Morphological Tagging with LEMMING (PDF). 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: Association for Computational Linguistics. pp. 2268–2274. doi:10.18653/v1/D15-1272.
- ^ Bergmanis, Toms; Goldwater, Sharon. "Context Sensitive Neural Lemmatization with Lematus" (PDF).
- ^ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. "Introduction to Information Retrieval". Cambridge University Press.
- ^ "Lucene Snowball". Apache project.
- ^ Martin Porter. "Porter Stemmer".
- ^ Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. (2012). "BioLemmatizer: A lemmatization tool for morphological processing of biomedical text". Journal of Biomedical Semantics. 3: 3. doi:10.1186/2041-1480-3-3. PMC 3359276. PMID 22464129.