통계적 의미론

Statistical semantics

언어학에서 통계적 의미론에서는 통계적 의미론들을 단어나 구문의 의미를 결정하는 문제에 적용하는데, 이상적으로는 무감독적 학습을 통해 최소한 정보 검색의 목적에 충분한 정도의 정밀도를 갖는다.

역사

통계적 의미론이라는 용어는 Warren Weaver기계 번역에 관한 그의 잘 알려진 논문에서 처음 사용되었다.[1] 그는 기계번역을 위한 워드센스 해소가 주어진 목표어 근처에 있는 컨텍스트 워드의 공존 빈도에 기초해야 한다고 주장했다. "한 단어는 그것이 유지하는 회사에 의해 특징지어진다"는 근본적인 가정은 J.R.에 의해 주창되었다. 첫째,[2] 이 가정은 언어학에서는 분포 가설이라고 알려져 있다.[3] 에밀 델라베이는 통계적 의미론을 "단어의 의미와 그 빈도와 재발 순서에 대한 통계적 연구"[4]로 정의했다. "Furnas et al. 1983"은 통계적 의미론에 대한 기초적 기여로 자주 인용된다.[5] 그 분야의 초기 성공은 잠재된 의미 분석이었다.

적용들

통계적 의미론의 연구는 대규모 기업에 통계적 기법을 적용함으로써, 분포 가설을 사용하여 의미론의 많은 측면을 발견하는 매우 다양한 알고리즘을 만들어냈다.

관련분야

통계적 의미론은 전체 문서, 문서 모음 또는 명명된 실체(사람, 장소, 조직의 이름)에 초점을 맞추는 경향이 있는 텍스트 마이닝과는 달리 공통어의 의미와 공통어 사이의 관계에 초점을 맞춘다. 통계적 의미론(statistical semantics)은 계산적 의미론(computing semantics)의 하위 분야로, 다시 계산 언어학자연 언어 처리의 하위 분야가 된다.

통계적 의미론(위에서 열거한)의 적용의 많은 부분은 통계적 의미론의 말뭉치 기반 알고리즘 대신 어휘 기반 알고리즘으로 다룰 수도 있다. 말뭉치 기반 알고리즘의 한 가지 장점은 그것들이 일반적으로 어휘 기반 알고리즘만큼 노동 집약적이지 않다는 것이다. 또 다른 장점은 그것들이 보통 어휘 기반의 알고리즘보다 새로운 언어에 적응하기 쉽다는 것이다. 그러나 애플리케이션에서 최고의 성능은 종종 두 가지 접근방식을 결합하여 달성된다.[21]

참고 항목

참조

원천