토플렉스

OntoLex

OnElex는 데이터 웹에 있는 어휘적 자원에 대한 어휘의 짧은 이름(OntoElex-Lemon)이며, 이를 만든 W3C 커뮤니티 그룹(W3C Ontology-Lexica Community Group)의 짧은 이름이다.[1]

ToEx-Lemon 어휘

OnElex-Lemon 어휘는 어휘 데이터를 지식 그래프, RDF 형식 및/또는 언어 연결 오픈 데이터로 게시하기 위한 어휘를 나타낸다. 2016년 W3C 커뮤니티 보고서로 발간된 이후,[2] 그것은 "웹상에서 온톨로지-독소를 나타내는 사실상의 표준" 역할을 한다.[3] 토플렉스-레몬은 원래 맥크래 외(2011년)가 제안한 레몬 어휘를 개정한 것이다.[4]

그림 1. ToEx-Lemon 핵심 모델

그림 1에 표시된 OnElex-Lemon의 핵심 요소는 다음과 같다.

  • 어휘적 입력: 어휘소의 분석 단위, 하나 이상의 형태와 하나 이상의 감각을 함께 그룹화한다. 개념들 언어의 한 부분과 같은 추가적인 형태론적 정보를 제공할 수 있다. 모든 어휘목록은 동일한 형태지만 다른 언어의 부분을 가진 어휘목록집단을 표현하기 위해 언어의 최대 한 부분을 가질 수 있다는 점에 유의한다. 어휘목록 모듈을 참조하십시오.[5]
  • 어휘 형태: 특정 어휘적 입력의 표면 형태(예: 서면 표현)
  • 어휘적 감각: 특정 어휘적 입력의 단어 감각. OnElex-Lemon 감각은 정확히 하나의 어휘소 입력에 속한다는 점에 유의하십시오. 다른 어휘소에 의해 표현될 수 있는 의미 요소의 경우 어휘적 개념을 사용한다.
  • 어휘적 개념: 다른 어휘적 표현을 가진 의미 요소. 대표적인 예로 워드넷 신셋이 있는데, 여기서 여러 개의 동의어가 한 세트로 함께 그룹화된다.

핵심 모듈(네임 스페이스http://www.w3.org/ns/lemon/ontolex#)이외에, 다른 모듈들 어휘 metadata[6](네임 스페이스http://www.w3.org/ns/lemon/lime#),lexical-semantic 관계(예를 들어, 번역과 변화, 네임 스페이스http://www.w3.org/ns/lemon/vartrans#), 여러 단어로 된 표현(분해를 상징하는 것으로 지정된 어휘를 지정합니다.namespace http://www.w3.org/ns/lemon/decomp#)과 구문 프레임(http://www.w3.org/ns/lemon/synsem#).

ToEx-Lemon의 데이터 구조는 다른 사전 형식과 비교 가능하다(아래 관련 어휘 참조). OnElex-Lemon에 관한 혁신적인 요소는 이러한 데이터 모델을 RDF 어휘로 제공하는데, 이는 독립형 사전(예: 번역 추론, 아래 응용 프로그램 참조)이 아닌 웹 기술에 기반을 둔 새로운 사용 사례를 가능하게 하기 때문이다. 예측 가능한 미래에는 (Linguistic) Linked Open Data 커뮤니티가 기존 어휘의[7] 재사용을 강력히 권장하고 있으며, 2019년 12월 현재, OnElex-Lemon은 그 목적을 위해 유일하게 확립된 어휘(즉, W3C 또는 다른 표준화 이니셔티브에 의해 출판된 어휘)이기 때문에, OnElex-Lemon 또한 이 역할에서 독보적인 상태를 유지할 것이다. 이는 또한 OnEx-Lemon 규격의 최근 확장에도 반영되는데, 여기서 새로운 모듈들은 다음과 같은 새로운 응용 분야로 OnElex-Lemon의 사용을 확장하기 위해 개발되었다.

  • W3C 커뮤니티 그룹 보고서로 발행된 ToEx-Lemon Licography Module은 디지털 사전 편찬의 요구 사항과 관련하여 OnElex-Lemon으로 확장된다.[8]
  • OnElex-Lemon Morphology Module은 개발 중인 2019년 12월 현재, 형태학적으로 풍부한 언어에 대한 OnEx-Lemon, esp에 있는 형태학 사전의 공식화로 다국어 사용을 촉진하는 것을 목표로 한다.[9][10]
  • 개발 중인 2019년 12월 현재 ToEx-Lemon Module for Frequency, Attraction and Corpus Information은 OnEx-Lemon의 컴퓨터 사전 편집 및 자연 언어 처리 사용을 촉진하는 것을 목표로 하고 있다.[11][12]
  • LexInfo 업데이트: LexInfo는 OnElex-Lemon 데이터에 대한 데이터 범주를 제공한다. 현재 버전은 렉신포 3.0이며, 이전 버전(2019년 이전)은 여전히 구형 몬넷-레몬 어휘에 의존하고 있다.[13]

적용들

OnElex-Lemon은 언어 연계 오픈 데이터라는 맥락에서 어휘적 자원에 널리 사용된다. 선택한 응용 프로그램 포함

  • OASIS Lexicographic Infrastructure Data Model and API(LEXIDMA)는 국제적으로 상호운용 가능한 사전 편찬 작업의[14] 프레임워크다.
  • 유럽 공용 다국어 지식 인프라[15][16]
  • (다국어) 어휘 및 종단어 리소스를 링크된 데이터 리소스로서[17] 생성 및 관리에 사용되는 협업 웹 편집기 LexO
  • VocBench는 온톨로지, sauri, 사전 및 RDF 데이터[18][19][20] 관리를 위한 웹 기반 다국어 협업 개발 플랫폼
  • 50개 언어와 150개 언어 쌍의 교차 언어 어휘 데이터에 대한 액세스를 제공하는 K 사전의 Lexicala API.[21]
  • DiTMAO, Old Ocitan Medicto-Botomatic 용어[22] 사전 작성을 위해 개발된 사전 편집기
  • 사전 간 번역 추론에 관한 일련의 공유 작업(TIAD-2017,[23][24] TIAD-2019,[25][26] TIAD-2020[27])
  • DBnary, Wiktionary[28][29] 16개 언어판 RDF 버전
  • 약 2,500개의 사전과 500개 이상의 언어로[30] 구성된 대규모 어휘 네트워크인 PanElex
  • Princeton WordNet 3.1, 대규모의 계층 구조 및 관계 구조로[31] 구성된 영어 어휘 리소스
  • 글로벌 워드넷 협회(Global WordNet Association), 다국어 워드넷[32] 생산, 유지 관리 및 상호 연결하기 위한 커뮤니티 활동
  • 대규모 다국어 어휘 네트워크인[33][34] BabelNet
  • 리라(LiLa)는 인용서식의[35][36][37] 모음으로 구성된 큰 어휘를 바탕으로 한 라틴어 언어 자원의 지식 기반이다.

OnEx 개발은 온톨로지, 링크된 데이터 또는 사전 편찬에 전념하는 과학 이벤트에서 정기적으로 다루어진다. 2017년부터 매년 2년마다 OnElex 모듈에 대한 지정된 워크샵 시리즈가 실시되고 있다.[38]

관련 어휘

어휘 자원을 표준화하고 출판하는 것에 초점을 맞춘 관련 어휘로는 DIST(텍스트 기반 포맷), XML 사전 eXchange 포맷, TEI-Dict(XML) 및 Lexical Markup Framework(일반적으로 XML로 직렬화된 추상 모델, 원래 LMF의 RDF 직렬화에서 발전된 레몬 어휘)가 있다. OnElex-Lemon은 기계 판독이 가능한 사전의 구조와 의미론을 정형화(그냥)하지 않고 그들 사이의 정보 통합을 용이하게 하도록 설계된 고유 Linked Open Data 어휘라는 점에서 이러한 초기 모델들과 다르다.

참조

  1. ^ "OntoLex community portal". W3C. Retrieved 6 December 2019.
  2. ^ Cimiano, Phillip; McCrae, John P.; Buitelaar, Paul. "Lexicon Model for Ontologies: Community Report, 10 May 2016 Final Community Group Report 10 May 2016". W3C. Retrieved 6 December 2019.
  3. ^ Julia Bosque-Gil, Jorge Gracia and Elena Montiel-Ponsoda (July 2017). "Towards a module for lexicography in OntoLex" (PDF). Kernerman Dictionary News. No. 25. Retrieved 5 April 2020.
  4. ^ McCrae, John; Spohr, Dennis; Cimiano, Philipp (2011). "Linking lexical resources and ontologies on the Semantic Web with Lemon". Proceedings of the Extended Semantic Web Conference (ESWC-2011), Iraklion, Greece: 245–259.
  5. ^ Bosque-Gil, Julia; Gracia, Jorge. "The OntoLex Lemon Lexicography Module". W3C. Retrieved 6 December 2019.
  6. ^ Fiorelli, Manuel; Stellato, Armando; McCrae, John P.; Cimiano, Philipp; Pazienza, Maria Teresa (2015). Gandon, Fabien; Sabou, Marta; Sack, Harald; d’Amato, Claudia; Cudré-Mauroux, Philippe; Zimmermann, Antoine (eds.). "LIME: The Metadata Module for OntoLex". The Semantic Web. Latest Advances and New Domains. Lecture Notes in Computer Science. Springer International Publishing. 9088: 321–336. doi:10.1007/978-3-319-18818-8_20. ISBN 978-3-319-18818-8.
  7. ^ "Linguistic Linked Open Data. Information about the current status of the growing cloud of linguistic linked open data". Retrieved 10 December 2019.
  8. ^ Bosque-Gil, Julia; Gracia, Jorge. "The OntoLex Lemon Lexicography Module Final Community Group Report 17 September 2019". W3C. Retrieved 10 December 2019.
  9. ^ "Morphology". Retrieved 10 December 2019.
  10. ^ Klimek, Bettina; McCrae, John P.; Bosque-Gil, Julia; Ionov, Maxim; Tauber, James K.; Chiarcos, Christian. Challenges for the Representation of Morphology in Ontology Lexicons, in: Kosem, I., Zingano Kuhn, T., Correia, M., Ferreria, J. P., Jansen, M., Pereira, I., Kallas, J., Jakubíček, M., Krek, S. & Tiberius, C. (eds.) 2019. Electronic lexicography in the 21st century. Proceedings of the eLex 2019 conference. 1-3 October 2019, Sintra, Portugal (PDF). Brno: Lexical Computing CZ, s.r.o. pp. 570–591.
  11. ^ "Frequency, Attestation and Corpus Information". Retrieved 10 December 2019.
  12. ^ Chiarcos, Christian; Ionov, Maxim. "OntoLex-Lemon Module for Frequency, Attestation and Corpus Information (draft specification)". Retrieved 9 April 2020.{{cite web}}: CS1 maint : url-status (링크)
  13. ^ "LexInfo - Data Category Ontology for OntoLex-Lemon". Retrieved 4 January 2020.
  14. ^ censign. "Call for Participation: OASIS Lexicographic Infrastructure Data Model and API (LEXIDMA) TC". OASIS. Retrieved 10 December 2019.
  15. ^ Schmitz, P.; Francesconi, E.; Hajlaoui, N.; Batouche, B.; Stellato, A. (2018). Semantic Interoperability of Multilingual Language Resources by Automatic Mapping, In: International Conference on Electronic Government and the Information Systems Perspective. Cham: Springer. pp. 153–163.
  16. ^ Batouche, Brahim; Schmitz, Peter; Francesconi, Enrico; Hajlaoui, Najeh (12/02/2018). PMKI–Public Multilingual Knowledge. Documentation of the PMKI data modelInfrastructure (PDF). European Technical Specification. Retrieved 10 December 2019. {{cite book}}: 날짜 값 확인: date= (도움말)
  17. ^ Lenardič, Jakob. "CLARIN-IT presents LexO: Where Lexicography Meets the Semantic Web". CLARIN. Retrieved 10 December 2019.
  18. ^ The AIMS Team. "Version 4.0.2 of VocBench was released in August 2018". FAO of the United Nations in Italy. Retrieved 10 December 2019.
  19. ^ Stellato, Armando; Rajbhandari, Sachit; Turbati, Andrea; Fiorelli, Manuel; Caracciolo, Caterina; Lorenzetti, Tiziano; Keizer, Johannes; Pazienza, Maria Teresa (2015). Gandon, Fabien; Sabou, Marta; Sack, Harald; d’Amato, Claudia; Cudré-Mauroux, Philippe; Zimmermann, Antoine (eds.). "VocBench: A Web Application for Collaborative Development of Multilingual Thesauri" (PDF). The Semantic Web. Latest Advances and New Domains. Lecture Notes in Computer Science. Springer International Publishing. 9088: 38–53. doi:10.1007/978-3-319-18818-8_3. ISBN 978-3-319-18818-8.
  20. ^ "VocBench 3: a Collaborative Semantic Web Editor for Ontologies, Thesauri and Lexicons www.semantic-web-journal.net". semantic-web-journal.net. Retrieved 2020-01-17.
  21. ^ Ilan Kernerman and Dorielle Lonke (July 2019). "Lexicala API: A new era in dictionary data" (PDF). Kernerman Dictionary News. No. 27. Retrieved 5 April 2020.
  22. ^ "Dictionary of Old Occitan medico-botanical terminology". Retrieved 10 December 2019.
  23. ^ "TIAD-2017 Shared Task – Translation Inference Across Dictionaries. Call for Participation". Retrieved 10 December 2019.
  24. ^ McCrae, John P.; Bond, Francis; Buitelaar, Paul; Cimiano, Philipp; Declerck, Thierry; Gracia, Jorge; Kernerman, Ilan; Montiel Ponsoda, Elena; Ordan, Noam; Piasacki, Maciej (June 18, 2017). Proceedings of the LDK 2017 Workshops: 1st Workshop on the OntoLex Model (OntoLex-2017), Shared Task on Translation Inference Across Dictionaries & Challenges for Wordnets. CEUR. Retrieved 10 December 2019.
  25. ^ "TIAD 2019. 2nd Translation Inference Across Dictionaries (TIAD) Shared Task". Retrieved 10 December 2019.
  26. ^ Gracia, Jorge; Kabashi, Besim; Kernerman, Ilan (May 20, 2019). Proceedings of TIAD-2019 Shared Task – Translation Inference Across Dictionaries. Leipzig, Germany: CEUR.
  27. ^ "TIAD 2020 -- 2rd Translation Inference Across Dictionaries (TIAD) shared task".
  28. ^ "Dbnary Wiktionary as Linguistic Linked Open Data". Retrieved 10 December 2019.
  29. ^ Sérasset, Gilles (2016). "DBnary: Wiktionary as a Lemon-Based Multilingual Lexical Resource in RDF". Semantic Web. Retrieved 10 December 2019.
  30. ^ Kamholz, David; Pool, Jonathan; Colowick, Susan M. (2014). PanLex: Building a Resource for Panlingual Lexical Translation, In Proceedings of the 9th Language Resource and Evaluation Conference (LREC-2014), Reykjavik, Iceland, May 2014. European Language Resource Association. pp. 3145–3150. Retrieved 10 December 2019.
  31. ^ "Princeton WordNet 3.1. WordNet RDF". Retrieved 10 December 2019.
  32. ^ "Global Wordnet Formats: RDF". Retrieved 10 December 2019.
  33. ^ "BabelNet SPARQL endpoint". Retrieved 10 December 2019.
  34. ^ Ehrmann, M.; Ceccioni, F.; Vanella, D.; McCrae, J.P.; Cimiano, P.; Navigli, R. Representing Multilingual Data as Linked Data: the Case of BabelNet 2.0. In: Proceedings of the 9th Language Resource and Evaluation Conference (LREC-2014), Reykjavik, Iceland, May 2014. European Language Resource Association. pp. 401–408. Retrieved 10 December 2019.
  35. ^ "LiLa SPARQL endpoint". Retrieved 4 April 2020.
  36. ^ "LiLa query interface". Retrieved 4 April 2020.
  37. ^ Passarotti, M.C.; Cecchini, F.M.; Franzini, G.; Litta, E.; Mambrini, F.; Ruffolo, P. LiLa: Linking Latin. A Knowledge Base of Linguistic Resources and NLP Tools. In: Proceedings of the 2nd Conference on Language, Data and Knowledge (LDK 2019), Leipzig, Germany, 20-23 May 2019. CEUR Workshop Proceedings. Retrieved 4 April 2020.
  38. ^ Cimiano, Philipp (July 2017). "OntoLex 2017 – 1st workshop on the OntoLex model" (PDF). Kernerman Dictionary News. No. 25. Retrieved 5 April 2020.

외부 링크