언어 자원

Language resource

언어학 언어기술에서 언어자원은 언어처리 어플리케이션의 구축, 개선 및/또는 평가에 사용되는 언어자료의 구성, (...) 언어 및 언어 매개 연구 및 어플리케이션의 [1]구성이다.

Bird & Simons (2003)[2]에 따르면 여기에는 다음이 포함됩니다.

  1. 데이터, 즉 "출판된 모노그래프, 컴퓨터 데이터 파일, 손으로 쓴 색인 카드가 가득 찬 신발 상자 등 언어를 문서화하거나 설명하는 모든 정보.정보는 분석되지 않은 녹음에서부터 완전한 서술적 문법에 이르기까지 내용이 다양할 수 있다.",[2]
  2. 도구, 즉 "언어 데이터의 작성, 표시, 쿼리 또는 기타 사용을 용이하게 하는 계산 리소스"[2]
  3. 예를 들어, "신뢰성이 높은 데이터 소스, 특정 상황에서 적절한 도구, 새로운 데이터 생성 시 따라야 할 관행 등에 대한 모든 정보"입니다.후자는 보통 "베스트 프랙티스"[2] 또는 "(커뮤니티) 표준이라고 불립니다.

보다 좁은 의미에서 언어자원은 디지털 형태로 이용 가능한 자원에 대해 구체적으로 적용되며, 다음으로 (a) 데이터 세트(텍스트, 멀티모드/멀티미디어 및 어휘 데이터, 문법, 언어 모델 등)를 기계가 읽을 수 있는 형태로 포함하고 (b) 그 처리 및 관리에 사용하는 도구/기술/서비스를 포함한다.[1]

타이폴로지

2020년 5월 현재, 널리 사용되는 언어 자원의 표준 유형학은 확립되지 않았다(현재 제안서는 LREMAP,[3] MEASHARE [4]및 데이터에 대한 LLOD 분류를 포함한다).언어 자원의 중요한 클래스는 다음과 같습니다.

  1. 데이터.
    1. 어휘 자원, 예를 들어 기계 인식 사전,
    2. 언어적 말뭉치, 즉 자연어 데이터의 디지털 컬렉션,
    3. 언어 데이터베이스(크로스 언어 링크 데이터 컬렉션 등)
  2. 도구들
    1. 수동 또는 반자동 방식으로 주석을 만들기 위한 언어 주석 및 도구(예: 도구 상자 및 FLEx와 같은 선형 간 광택 텍스트에 주석을 달기 위한 도구 또는 기타 언어 문서 도구)
    2. 이러한 데이터에 대한 검색 및 검색 신청(예: 관리 시스템), 자동 주석(일부 태그 부착, 구문 해석, 의미 해석 등)
  3. 메타데이터와 어휘
    1. Vocabularies, 언어적 용어와 언어 메타 데이터, 예의 보관소., MetaShare(언어 자원 메타 데이터에)[4]이 ISO12620 데이터 범주 레지스트리(언어 자원 안에 언어적 특징, 자료 구조 그리고 문서 주석에)[5]거나 Glottolog 데이터베이스(언어 변화와를 데이터베이스 구축을 위한 식별자).[6]

언어 자원의 공개, 보급 및 작성

언어자원 커뮤니티의 주요 관심사는 언어자원을 제시, 토론 및 보급하기 위한 인프라와 플랫폼을 개발하는 것이었습니다.이와 관련하여 선정된 기여는 다음과 같습니다.

언어 자원의 표준과 베스트 프랙티스의 개발에 관해서는, 이것들은 다음과 같은 몇개의 커뮤니티 그룹 및 표준화 노력의 대상입니다.

  • ISO 기술위원회 37: 용어집 및 기타 언어 및 콘텐츠 자원(ISO/TC 37), 언어 자원의 모든 측면에 대한 표준을 책정하고 있습니다.
  • 다국어 링크 오픈 데이터(BPMLOD)의 W3C [8]커뮤니티 그룹의 베스트 프랙티스(Best Practices)는 링크드 데이터 또는 RDF로 언어 자원을 공개하기 위한 베스트 프랙티스에 대해 설명합니다.
  • 언어 테크놀로지용 W3C 커뮤니티 그룹 링크 데이터(LD4)LT)[9] 웹 및 언어 리소스 메타데이터에 대한 언어 주석 작업,
  • W3C 커뮤니티 그룹 Ontology-Lexica(Ontlex),[10] 어휘 자원 관련 작업
  • Open Knowledge Foundation의 Open Languology 워킹 그룹, 오픈 언어 리소스 공개 및 링크 규약, Languistic Linked Open Data 클라우드 개발,[11]
  • TEI([12]Text Encoding Initiative), 언어 리소스 및 디지털 편집된 텍스트에 대한 XML 기반 사양에 대해 작업합니다.


레퍼런스

  1. ^ a b LD4LT(2020), LD4의해 작성된 메타셰어 온톨로지LT 커뮤니티 그룹, W3C 커뮤니티 그룹 언어 테크놀로지 링크 데이터(LD4)LT) 개발 부문, 2020년 3월 10일 버전
  2. ^ a b c d Bird, Steven; Simons, Gary (2003-11-01). "Extending Dublin Core Metadata to Support the Description and Discovery of Language Resources". Computers and the Humanities. 37 (4): 375–388. arXiv:cs/0308022. Bibcode:2003cs........8022B. doi:10.1023/A:1025720518994. ISSN 1572-8412. S2CID 5969663.
  3. ^ Calzolari, N., 델 그라타, R., Francopoulo, G., Mariani, J., Rubino, F., Russo, I. 및 Soria, C.(2012, 5월).LRE 맵 자원의 조화로운 커뮤니티 설명.LREC (페이지 1084-1089).
  4. ^ a b McCrae, John P.; Labropoulou, Penny; Gracia, Jorge; Villegas, Marta; Rodríguez-Doncel, Víctor; Cimiano, Philipp (2015). Gandon, Fabien; Guéret, Christophe; Villata, Serena; Breslin, John; Faron-Zucker, Catherine; Zimmermann, Antoine (eds.). "One Ontology to Bind Them All: The META-SHARE OWL Ontology for the Interoperability of Linguistic Datasets on the Web". The Semantic Web: ESWC 2015 Satellite Events. Lecture Notes in Computer Science. Cham: Springer International Publishing. 9341: 271–282. doi:10.1007/978-3-319-25639-9_42. ISBN 978-3-319-25639-9.
  5. ^ Kemps-Snijders, M., 윈도우어, M., 비텐버그, P. 및 라이트, S. E. (2008)ISOcat: 야생 데이터 카테고리 조정.제6회 언어 자원 및 평가에 관한 국제 회의(LREC 2008).
  6. ^ Nordhoff, Sebastian (2012), Chiarcos, Christian; Nordhoff, Sebastian; Hellmann, Sebastian (eds.), "Linked Data for Linguistic Diversity Research: Glottolog/Langdoc and ASJP Online", Linked Data in Linguistics: Representing and Connecting Language Data and Language Metadata, Springer, pp. 191–200, doi:10.1007/978-3-642-28249-2_18, ISBN 978-3-642-28249-2
  7. ^ "Language Resources and Evaluation". Springer. Retrieved 2020-05-13.
  8. ^ "Best Practices for Multilingual Linked Open Data Community Group". www.w3.org. Retrieved 2020-05-13.
  9. ^ "Linked Data for Language Technology Community Group". www.w3.org. Retrieved 2020-05-13.
  10. ^ "Ontology-Lexica Community Group". www.w3.org. Retrieved 2020-05-13.
  11. ^ "Linguistic Linked Open Data".{{cite web}}: CS1 maint :url-status (링크)
  12. ^ "TEI: Text Encoding Initiative". tei-c.org. Retrieved 2020-05-13.