범위연결문법

Range concatenation grammar

레인지 결합 문법(Range Concatenation Grammer, RCG)은 중국어 번호와 독일어 단어 순서 뒤엉키기 등 자연 언어의 여러 현상을 특징짓기 위해 1998년 피에르 불리에가 개발한 문법 형식주의다.[2]

이론적인 관점에서, 다항식 시간에 구문 분석할 수 있는 모든 언어는 양성 범위 결합 그래머라고 불리는 RCG의 하위 집합에 속하며, 호혜적으로 사용된다.[4]

그로닝크의 문자 그대로의 움직임 문법 그래머(LMGs)에 변형된 것으로 의도되었지만, RCG는 문법적 과정을 제작이라기보다는 증거로 취급한다.LMG는 시작 술어에서 단자 문자열을 생성하는 반면, RCG는 시작 술어(단자 문자열의 술어)를 빈 문자열로 감소시키는 것을 목표로 하고 있으며, 이는 언어에서 단자 문자열 멤버쉽의 증거를 구성한다.

설명

형식 정의

포지티브 범위 연결 문법(PRCG)은 튜플 = P) ~ ~ ~ ~이며 여기서:

  • T (의존적으로) 술어 이름, 터미널 기호변수 이름의 분리된 유한 집합이다.각 술어 이름에는 N→ N { : {N이(가) 부여된 연관성이 있다
  • (는) 시작 술어 이름이며 = }을를) 확인하십시오
  • is a finite set of clauses of the form , where the are predicates of the form {\ V V (가) 있는 dim(A_}}}}}}}}}}.

A Negative Range Concatenation Grammar (NRCG) is defined like a PRCG, but with the addition that some predicates occurring in the right-hand side of a clause can have the form . Such predicates are called n자아의 술어

범위 연계 문법은 긍정적이거나 부정적이다.PRCG는 기술적으로 NRCG이지만 음성 술어의 부재(PRCG) 또는 존재(NRCG)를 강조하기 위해 이 용어를 사용한다.

A range in a word is a couple , with , where is the length of . Two ranges and can be concatenated iff , and we then have:

For a word , with , the dotted notation for ranges is: {r w_

문자열 인식

LMGs와 마찬가지로 RCG 절에는 일반 A,.. . , ) }, 가 있는데 여기서 RCG에서는 이 빈 문자열 또는 술어의 문자열이다.인수 는 LMG와 같이 실제 인수 값과 일치하는 패턴으로 구성된 터미널 기호 및/또는 변수 기호의 문자열로 구성되며, 인접한 변수는 파티션에 대한 일치를 구성하므로 인수 x 는 두 변수를 사용하여 리터럴 문자열과 일치한다. 가지 다른 : x = = a ; x= a = y= = ϵ, ϵ, ϵ, \ x=y=y=yy=\

술어 용어는 양수(성공할 때 빈 문자열을 생성함)와 음수(실패할 때 빈 문자열을 생성함/양수 용어가 빈 문자열을 생성하지 않는 경우)의 두 가지 형태로 나타난다.음의 용어는 1,.. ., )의{\ {A}, x_에서와 같이 양의 용어와 같은 것으로 표시된다

The rewrite semantics for RCGs is rather simple, identical to the corresponding semantics of LMGs. Given a predicate string , where the symbols are terminal strings, if there is a rule to 의 술어 문자열과 일치하는 각 의 변수 대신 로 대체

For example, given the rule , where and are variable symbols and and are terminal symbols, the predicate string can be rewritten as , because matches when . Similarly, if there were a rule A ) 은(는 다시 쓸 수 있다

문자열 의 증명/인식은 이(가) 빈 문자열을 생성한다는 것을 보여줌으로써 이루어진다.개별 재작성 단계의 경우, 복수의 대체 변수 일치가 가능한 경우, 전체 증거를 성공으로 이끌 수 있는 모든 재작성을 고려한다.따라서 초기 문자열 ) S에서 빈 문자열을 생산하는 방법이 적어도 하나 이상 있다면 그 증거는 실패하는 다른 방법이 얼마나 많은지에 관계없이 성공으로 간주된다.

RCG는 다음과 같이 비선형 인덱스 언어{ : w w : w{ a , } \{을(를) 인식할 수 있다.

x, y 및 z를 변수 기호로 지정:



압밥에 대한 증거는 그때 있다.

또는 범위에 대해 보다 정확한 점 표기법 사용:

참조

  1. ^ Boullier, Pierre (Jan 1998). Proposal for a Natural Language Processing Syntactic Backbone (PDF) (Technical report). Vol. 3342. INRIA Rocquencourt (France).
  2. ^ Pierre Boullier (1999). "Chinese Numbers, MIX, Scrambling, and Range Concatenation Grammars" (PDF). Proc. EACL. pp. 53–60. Archived from the original (PDF) on 2003-05-15.
  3. ^ Eberhard Bertsch and Mark-Jan Nederhof (Oct 2001). "On the complexity of some extensions of RCG parsing" (PDF). Proceedings of the Seventh International Workshop on Parsing Technologies (Beijing). pp. 66–77.
  4. ^ Laura Kallmeyer (2010). Parsing Beyond Context-Free Grammars. Springer Science & Business Media. p. 37. ISBN 978-3-642-14846-0. 베르트슈를 인용하여 네데르호프(2001)[3]