형태학적 파싱

Morphological parsing

형태학적 파싱자연어 처리에서 주어진 단어가 구성되는 형태소를 결정하는 과정이다. 그것은 맞춤법 규칙과 형태학 규칙을 구별할 수 있어야 한다. 예를 들어 'foxes'라는 단어는 'fox'(줄기)와 'es'(다원성을 나타내는 접미사)로 분해될 수 있다.

형태학적 파싱에 대한 일반적으로 허용되는 접근방식은 단어를 입력하고 스템과 수식어를 출력하는 유한 상태 변환기(FST)를 사용하는 것이다. FST는 처음에 사전과 같은 일부 단어 소스의 알고리즘 파싱을 통해 생성되며 수식어 마크업으로 완성된다.

또 다른 접근방식은 생성된 라딕스 트리를 사용하는 색인화된 조회 방법을 사용하는 것이다. 이것은 형태학적으로 복잡한 언어들을 위해 고장나기 때문에 자주 가는 길이 아니다.

자연어 처리에서 신경망이 발달하면서 형태학적 분석에 FST를 사용하는 것이, 특히 사용 가능한 훈련 데이터가 많은 언어에 대해서는 덜 보편화되었다. 그러한 언어의 경우 형태학적 파서를 명시적으로 사용하지 않고도 문자 수준의 언어 모델을 구축할 수 있다.[1]

직교

맞춤법 규칙은 단어를 줄기수식어로 나눌 때 사용되는 일반적인 규칙이다. 예를 들면 -y로 끝나는 단수 영어 단어들이 복수화되면 -ies로 끝난다. 이 규칙과 이러한 일반 규칙의 구석진 경우를 포함하는 형태학적 규칙과 대조한다. 이 두 가지 유형의 규칙은 모두 형태학적 파싱을 수행할 수 있는 시스템을 구축하는 데 사용된다.

형태학

형태론적 규칙은 단어를 줄기와 수식어로 나눌 때 사용되는 맞춤법 규칙의 예외다. 예를 들어 일반적으로 's'를 접미사로 추가하여 영어 단어를 복수화하는 반면, 복수할 때 'fish'라는 단어는 변하지 않는다. 일반 규칙을 포함하는 맞춤법 규칙과 비교해 보십시오. 이 두 가지 유형의 규칙은 모두 형태학적 파싱을 수행할 수 있는 시스템을 구축하는 데 사용된다.

자연 형태학적 처리의 다양한 모델이 제안되었다. 일부 실험 연구에서는 단수화자가 단어를 들을 때 건전한 것으로 처리하는 반면, 고 2개 국어를 사용하는 또래들은 어휘표현이 구체적이지 않기 때문에 단어를 해당 형태소로 분해하고, 제 2 언어의 어휘처리 빈도가 처리 빈도보다 적을 수 있기 때문이라고 제안한다. 모국어 [2]

형태학적 처리의 응용은 기계 번역, 철자 검사, 정보 검색 등이 있다.

참조

  1. ^ 피오트르 보야노프스키, 에두아르 묘지, 아르만드 줄린, 토마스 미콜로프. "서브워드 벡터스를 서브워드 정보로 풍부하게"
  2. ^ Durand López, Ezequiel M. (2021). "Morphological processing and individual frequency effects in L1 and L2 Spanish". Lingua. doi:10.1016/j.lingua.2021.103093.