통계 해석

Statistical parsing

통계적 해석은 자연어 처리 내의 해석 방법 그룹입니다.그 방법들은 문법 규칙을 확률과 연관짓는다는 공통점을 가지고 있다.문법 규칙은 전통적으로 컴퓨터 언어학에서 언어의 유효한 문장을 정의하는 것으로 간주됩니다.이러한 사고방식 안에서, 각 규칙을 확률과 연관짓는 아이디어는 주어진 문법 규칙의 상대적인 빈도와 추론을 통해 문장의 완전한 해석의 확률을 제공한다.(문법 규칙과 관련된 확률은 유도될 수 있지만, 구문 분석 트리 내에서 해당 문법 규칙을 적용하고 구성요소 규칙에 기초한 구문 분석 트리의 확률을 계산하는 것은 일종의 추론이다.)이 개념을 사용하여, 통계 파서는 문장의 가장 가능성이 높은 파스를 도출하기 위해 모든 후보 파스의 공간과 각 후보 확률의 계산을 검색하는 절차를 사용한다.Viterbi 알고리즘은 가장 가능성이 높은 해석을 검색하는 방법 중 하나입니다.

이 맥락에서 "검색"은 인공지능에서 검색 알고리즘을 적용한 것이다.

예를 들어, "캔은 물을 담을 수 있다"라는 문장을 생각해 보세요.독자는 "캔"이라고 불리는 물체가 있고 이 물체가 "할 수 있다" (즉, 할 수 있다) 동작을 수행하고 있다는 것을 즉시 알 수 있을 것이다. 그리고 그 물체가 할 수 있는 것은 "잡는다"이고, 그 물체가 잡을 수 있는 것은 "물"이다.좀 더 언어적인 용어를 사용하여, "The can"은 결정자 뒤에 명사가 나오는 명사 구절이고, "can hold water"는 동사 뒤에 동사 구절이 이어지는 동사 구절이다.하지만 이것이 이 문장의 유일한 해석일까요?확실히 "the can"은 춤의 한 종류를 가리키는 완전히 유효한 명사구이고, "hold water" 또한 비록 결합된 문장의 강압적인 의미는 명확하지 않지만 유효한 동사구이다.이러한 의미부족은 대부분의 언어학자들에게는 문제로 보이지 않지만(이 점에 대한 논의는 무채색 녹색 아이디어가 맹렬히 잠드는 것을 참조한다), 실용적인 관점에서 두 번째 해석보다는 첫 번째 해석을 얻는 것이 바람직하며 통계적 해석자는 그 해석의 확률을 바탕으로 순위를 매겨 이를 달성하는 것이 바람직하다.

(이 예에서는 문법에 대한 다양한 가정이 이루어지고 있습니다.예를 들어, 헤드 드리븐이 아닌 단순한 왼쪽에서 오른쪽 유도, 현재 유행하고 있는 결정어 구가 아닌 명사 구문의 사용, 구체적인 명사가 추상 동사 구와 결합되는 것을 막는 유형 검사 등이 없습니다.이러한 가정들 중 어떤 것도 논쟁의 논지에 영향을 미치지 않으며, 비슷한 주장은 다른 문법적 형식주의를 사용하여 만들어질 수 있다.)

통계 해석 알고리즘이 자주 사용하는 방법은 여러 가지가 있습니다.이 모든 것을 사용하는 알고리즘은 거의 없지만 일반적인 필드의 개요를 제공합니다.대부분의 통계 해석 알고리즘은 수정된 형식의 차트 해석을 기반으로 합니다.수정은 매우 많은 문법적 규칙과 따라서 검색 공간을 지원하기 위해 필요하며, 기본적으로 기존의 인공지능 알고리즘을 전통적으로 철저한 검색에 적용하는 것을 포함합니다.최적화의 일부 예로는 검색 확률 최적화(Baum-Welch 알고리즘) 및 별도로 처리할 수 없는 너무 유사한 구문 폐기(Viterbi 알고리즘)를 위한 검색 공간(스택 검색) 중 가능한 부분 집합만 검색하는 것이 있다.

통계 해석에 종사하는 저명한 인물

「 」를 참조해 주세요.