내용 결정

Content determination

내용 결정은 생성된 텍스트로 전달될 정보를 결정하는 것을 포함하는 자연 언어 생성(NLG)의 하위 작업이다.문서구조의 업무와 밀접한 관련이 있다.

아픈 아기들에 대한 정보를 요약하는 NLG 시스템을 고려해보자.[1]이 시스템이 통신할 수 있는 네 가지 정보를 가지고 있다고 가정해 보십시오.

  1. 아기에게 정맥주사를 통해 모르핀을 투여하고 있다.
  2. 아기의 심장박동수는 브래디카르디아(일시적 강하)를 나타낸다.
  3. 아기의 체온은 정상이다.
  4. 아기가 울고 있다.

생성된 텍스트에는 다음 중 어떤 정보가 포함되어야 하는가?

문제들

내용 결정 과제에 거의 항상 영향을 미치는 세 가지 일반적인 문제가 있으며, 위의 예시와 함께 설명될 수 있다.

아마도 가장 근본적인 문제는 본문의 의사소통 목표, 즉 그 목적독자일 것이다.예를 들어 위의 예를 들어, 의학적 치료에 대한 결정을 내리고 싶어하는 의사는 아마도 심장 박동수 정맥류 질환에 가장 관심이 있을 것이고, 반면에 그녀의 아이가 어떻게 지내고 있는지 알고 싶어하는 부모는 아마도 아기가 모르핀을 투여받고 울고 있다는 사실에 더 관심이 있을 것이다.

두 번째 문제는 생성된 텍스트의 크기세부사항 수준이다.예를 들어 160자 SMS 문자 메시지로 의사에게 보낸 짧은 요약에는 심박수 브래디카리아만 언급될 수 있는 반면, 다중 연령 문서로 출력된 더 긴 요약에는 아기가 모르핀 4에 걸렸다는 사실도 언급될 수 있다.

마지막 쟁점은 그 정보가 얼마나 특이하고 예상치 못한 것인지이다.예를 들어 의사도 부모도 아기의 체온이 정상이라는 말을 듣는 데 높은 우선순위를 두지 않을 것이다.

어쨌든 콘텐츠 결정은 사용자에게 매우 중요한데, 실제로 많은 경우 콘텐츠 결정의 품질은 생성되는 텍스트의 전반적인 품질을 결정하는 데 있어서 (사용자의 관점에서) 가장 중요한 요소다.

기술

문서 구조화에는 스키마(내용 템플릿), 통계적 접근법 및 명시적 추론이라는 세 가지 기본 접근법이 있다.

스키마는 생성된 텍스트의 내용(문서 구조화 정보뿐만 아니라)을 명시적으로 지정하는 템플릿이다.전형적으로 그것들은 타겟 장르에서 인간이 쓴 텍스트의 말뭉치를 수동으로 분석하고, 이러한 텍스트에서 내용 템플릿을 추출하여 구성된다.스키마는 콘텐츠가 어느 정도 표준화된 도메인에서 실제로 잘 작동하지만 콘텐츠가 보다 유동적인 도메인(위의 의료 사례 등)에서는 덜 잘 작동한다.

통계 기법은 통계적 말뭉치 분석 기법을 사용하여 생성된 본문의 내용을 자동으로 결정한다.그러한 작업은 초기 단계에 있으며, 의사소통 목적, 독자, 크기, 세부사항 수준이 고정되어 있는 맥락에 주로 적용되어 왔다.예를 들어, 스포츠 이벤트의 뉴스와이어 요약 생성.[3][4]

노골적인 추론 접근법은 아마도 연구자들로부터 가장 많은 관심을 끌었을 것이다.그 기본적인 생각(지식 기반 rules,[1]planning,[5]패턴 같은 detection,[6]case-based reasoning,[7]등) 정보를( 어떻게unusual/unexpected 그것은 포함)이 소통되고, 그 의사 소통 목표 독자 이용할 수 있으며 생성되는 텍스트의 목표 siz을 포함한 특성(를 검토하기 위해 AI추론 기법을 사용하는 것입니다.e),와 드생성된 텍스트에 대한 최적의 내용을 제공한다.매우 광범위한 기법이 개발되었지만, 어느 것이 가장 효과적인지에 대한 합의는 없다.

참조

  1. ^ a b Portet F, Reiter E, Gatt A, Hunter J, Sripada S, Freer Y, Sykes C (2009). "Automatic Generation of Textual Summaries from Neonatal Intensive Care Data". Artificial Intelligence. 173 (7–8): 789–816. doi:10.1016/j.artint.2008.12.002.
  2. ^ K McKeown(1985년).텍스트 생성.케임브리지 대학교 출판부
  3. ^ R 바질레이와 M 라파타(2005년).개념-텍스트 생성을 위한 집합 내용 선택.EMNLP-2005의 절차[1]
  4. ^ R 페레라와 P 낸드(2014년).내용 선택에서 연결된 데이터의 역할.PRICAI-2014 절차[2]
  5. ^ J 무어와 C 파리(1993년).자문 대화상자에 대한 계획 텍스트:의도적 및 수사적 정보를 캡처하는 방법.전산언어학 19:651-694 [3] 웨이백 기계에 2011-09-30 보관
  6. ^ J Yu, E Repeative, J Hunter, C Mellish(2007).대용량 시계열 데이터 세트의 텍스트 요약 내용 선택자연어공학과 13:25-49
  7. ^ P Gervas, B Diaz-Augudo, F Peinado, R Hervas(2005) CBR을 기반으로 한 스토리 플롯 생성.지식 기반 시스템 18:235-242