텍스트의 심플화

Text simplification

텍스트 단순화는 인간이 읽을 수 있는 텍스트의 기존 본문을 변경, 강화, 분류 또는 처리하기 위해 자연어 처리에서 사용되는 작업입니다.따라서 기본 의미와 정보는 그대로 유지하면서도 문법과 구조가 크게 단순해집니다.과학, 테크놀로지 및 뉴미디어가 지배하는 복잡하고 상호 연결된 세계에서 텍스트 심플화는 중요한 연구 영역입니다.하지만 자연인간의 언어들은 보통 기계들이 아무리 빠르고 잘 프로그램되어 있더라도 쉽게 처리할 수 없는 큰 어휘와 복잡한 구조를 포함하고 있기 때문에 큰 문제를 일으킨다.그러나 연구자들은 언어의 다양성을 줄이기 위해 의미 압축 방법을 사용하여 주어진 텍스트에서 사용되는 단어 집합을 제한하고 단순화할 수 있다는 것을 발견했습니다.

텍스트 단순화는 Siddharthan(2006)[1]에서 사용한 예시로 설명된다.첫 번째 문장은 두 개의 관계구와 하나의 결합 동사구로 구성되어 있습니다.텍스트 단순화 시스템은 첫 번째 문장 바로 아래에 보이는 것처럼 첫 번째 문장을 단순한 문장으로 바꾸는 것을 목표로 한다.

  • 또 구리의 강세에도 기여하고 있는 것은 시카고의 구매대행업체들의 보고서였다.이 보고서는 오늘 발표될 구매대행업체들의 보고서보다 앞서 발표될 것으로 보여 보고서 전체가 무엇을 보유할 수 있는지를 시사하는 것이다.
  • 또 구리의 강세에도 기여하고 있는 것은 시카고의 구매 대리점의 보고라고 지적했다.Chicago 보고서는 전체 구매 담당자 보고서보다 우선합니다.시카고 보고서는 전체 보고서가 무엇을 담고 있는지 암시한다.보고서 전문은 오늘 발표될 예정이다.

텍스트 단순화에 대한 한 가지 접근법은 어휘 치환을 통한 어휘 단순화이다. 이는 복잡한 단어를 먼저 식별한 다음 더 단순한 동의어로 대체하는 두 단계 과정이다.여기서 중요한 과제는 라벨이 부착된 데이터에 대해 훈련받은 기계 학습 분류기에 의해 수행되는 복잡한 단어를 식별하는 것이다.연구 대상자들에게 단어를 단순하거나 복잡한 것으로 기술하도록 요구하는 고전적인 방법을 사용하는 것에 좌절감을 느낀 연구원들은 라벨 제작자들에게 단어들을 [2]복잡한 순서로 분류하도록 요청하면 더 높은 수준의 일관성을 얻을 수 있다는 것을 발견했다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Siddharthan, Advaith (28 March 2006). "Syntactic Simplification and Text Cohesion". Research on Language and Computation. 4 (1): 77–109. doi:10.1007/s11168-006-9011-1. S2CID 14619244.
  2. ^ Gooding, Sian; Kochmar, Ekaterina; Sarkar, Advait; Blackwell, Alan (August 2019). "Comparative judgments are more consistent than binary classification for labelling word complexity". Proceedings of the 13th Linguistic Annotation Workshop: 208–214. doi:10.18653/v1/W19-4024. Retrieved 22 November 2019.
  • Wei Xu, Chris Calison-Burch, Courtney Napoles."현재 텍스트 심플화 연구의 문제점"컴퓨터 언어학 협회(TACL)의 거래, 2015년 제3권, 283-297페이지.
  • 아드비앙 싯다르탄"구문적 단순화와 텍스트 통합"언어와 계산에 관한 연구, 제4권, 제1호, 2006년 6월, 77~109쪽, 네덜란드, 스프링거 사이언스.
  • 싯다르타 요날라가다, 루이스 타리, 조어그 하켄버그, 치타 바랄, 그라시엘라 곤잘레스.생물의학 텍스트의 자동 처리를 위한 효과적인 문장 단순화를 위해.NAACL-HLT 2009 Proc., 미국, Boulder, 6월.[1]

외부 링크