어휘 마크업 프레임워크
Lexical Markup FrameworkLanguage Resource Management - Lexical Markup Framework (LMF; ISO 24613:2008)는 자연어 처리(NLP) 및 기계 판독 가능한 사전([1]MRD) 어휘를 위한 국제 표준화 기구 ISO/TC37 표준입니다.이 범위는 다국어 커뮤니케이션의 맥락에서 언어 자원에 관한 원칙과 방법의 표준화이다.
목적
LMF의 목표는 어휘 자원의 생성과 사용을 위한 공통 모델을 제공하고, 이러한 자원 간 및 자원 간의 데이터 교환을 관리하며, 광범위한 글로벌 전자 자원을 형성하기 위해 다수의 개별 전자 자원을 병합할 수 있도록 하는 것이다.
LMF의 개별 인스턴스화 유형에는 단일 언어, 이중 언어 또는 다국어 어휘 자원이 포함될 수 있다.작거나 큰 사전, 단순하고 복잡한 사전, 쓰기 및 말하기 어휘 표현 모두에 동일한 규격이 사용된다.설명은 형태학, 구문학, 계산 의미론에서 컴퓨터 지원 번역에 이르기까지 다양합니다.대상 언어는 유럽 언어에만 국한되지 않고 모든 자연 언어를 대상으로 합니다.대상 NLP 애플리케이션의 범위는 제한되지 않습니다.LMF는 WordNet, EDR 및 PALL 어휘를 포함한 대부분의 어휘를 나타낼 수 있습니다.
역사
지금까지 사전 표준화는 GENELEX, EDR, ILSULS, MULTEXT, PARLOW, SIMPLE, ILL 등의 일련의 프로젝트에서 연구 및 개발되어 왔습니다.그 후, ISO/TC37 국가 대표단은 NLP와 어휘 표현에 전념하는 표준을 다루기로 결정했다.LMF에 대한 작업은 2003년 여름 미국 대표단이 발행한 새로운 작업 항목 제안에 의해 시작되었습니다.2003년 가을, 프랑스 대표단은 NLP 어휘집 전용 데이터 모델에 대한 기술 제안을 발표했다.2004년 초 ISO/TC37 위원회는 Nicoleta Calzolari(CNR-ILC 이탈리아)를 컴포넌트로, Gil Francopoulo(Tagmatica France)와 Monte George(ANSI USA)를 편집자로 하는 공통 ISO 프로젝트를 구성하기로 결정했습니다.LMF 개발의 첫 번째 단계는 기존 사전의 일반적인 특징을 기반으로 전체 프레임워크를 설계하고 그러한 사전의 구성요소를 설명하는 일관된 용어를 개발하는 것이었다.다음 단계는 모든 어휘를 가장 상세하게 나타내는 포괄적인 모델의 실제 설계입니다.60명의 전문가로 구성된 대형 패널은 다양한 유형의 NLP 어휘를 다루는 LMF에 대한 광범위한 요건을 제공했다.LMF의 편집자는 전문가 패널과 긴밀히 협력하여 최적의 솔루션을 식별하고 LMF 설계에 대한 합의에 도달했습니다. 다루기 어려운 것으로 알려진 여러 언어로 문제를 처리하기 위한 강력한 메커니즘을 제공하기 위해 형태학에 특히 주의를 기울였습니다. 13개의 버전이 작성, 발송되었습니다.국가 지명 전문가)가 다양한 ISO 기술 회의에서 의견을 내고 논의했다.수많은 대면 미팅과 이메일 교환을 포함한 5년간의 작업 끝에 편집자들은 일관성 있는 UML 모델에 도달했습니다.결론적으로, LMF는 NLP 사전 분야의 최신 기술을 종합한 것으로 간주되어야 한다.
현재 단계
ISO 번호는 24613 입니다.LMF 규격은 2008년 11월 17일 국제 표준으로 공식 발표되었다.
ISO/TC37 표준 패밀리 멤버 중 하나로서
ISO/TC37 표준은 현재 높은 수준의 사양으로 상세하게 설명되며 단어 분할(ISO 24614), 주석(ISO 24611 a.k.a. MAF, ISO 24612 a.k.a. LAF, ISO 24615 a.k.a)을 다룬다.SynAF 및 ISO 24617-1 a.k.a.SemAF/Time), 피쳐 구조(ISO 24610), 멀티미디어 컨테이너(ISO 24616 a.k.a. MLIF) 및 어휘집(ISO 24613).이러한 표준은 데이터 카테고리(ISO 12620 개정판), 언어 코드(ISO 639), 스크립트 코드(ISO 15924), 국가 코드(ISO 3166), 유니코드(ISO 10646) 등 상수에 특화된 낮은 수준의 사양을 기반으로 합니다.
2단계 조직은 다음과 같은 공통적이고 단순한 규칙을 사용하여 일관성 있는 표준 패밀리를 형성합니다.
- 높은 수준의 규격은 표준화된 상수로 장식된 구조 요소를 제공한다.
- 낮은 수준의 사양은 표준화된 상수를 메타데이터로 제공합니다.
주요 기준
/feminine/ 또는 /transitive/와 같은 언어 상수는 LMF 내에서 정의되지 않지만 ISO/TC37에 의해 글로벌 리소스로 유지되는 데이터 카테고리 레지스트리(DCR)에 ISO/IEC 11179-3:[2]2003에 따라 기록됩니다.그리고 이 상수는 높은 수준의 구조 요소를 장식하는 데 사용됩니다.
LMF 사양은 Object Management Group(OMG; 객체 관리 그룹)에 의해 정의된 Unified Modeling Language(UML; 통합 모델링 언어)의 모델링 원칙을 준수합니다.구조는 UML 클래스 다이어그램을 사용하여 지정됩니다.이 예는 UML 인스턴스(또는 객체) 다이어그램에 의해 제시됩니다.
XML DTD는 LMF 문서의 부록에 기재되어 있습니다.
모델 구조
LMF는 다음 컴포넌트로 구성됩니다.
- 어휘 항목에서 정보의 기본 계층을 설명하는 구조 골격인 핵심 패키지입니다.
- 특정 어휘 자원에 필요한 추가 구성요소와 함께 핵심 구성요소의 재사용을 설명하는 프레임워크로 표현되는 핵심 패키지의 확장입니다.
확장 기능은 특히 형태학, MRD, NLP 구문, NLP 의미론, NLP 다국어 표기법, NLP 형태학 패턴, 다중 단어 표현 패턴 및 제약 표현 패턴 전용입니다.
예
다음 예에서 어휘 표기는 한 명의 레마 성직자와 두 개의 굴절된 형태의 성직자와 성직자와 연관되어 있다.언어 코딩은 전체 어휘 리소스에 대해 설정됩니다.언어 값은 다음 UML 인스턴스 다이어그램과 같이 전체 어휘에 대해 설정됩니다.
Lexical Resource, Global Information, Lexicon, Lexicical Entry, Lemma 및 Word Form 요소는 사전의 구조를 정의합니다.LMF 문서 내에 명시되어 있습니다.반대로, languageCoding, language, partOfSpech, commonNoun, writtedForm, gramaticalNumber, 단수, 복수 등은 데이터 카테고리 레지스트리에서 가져온 데이터 카테고리입니다.이 자국이 그 건물을 장식하고 있다.ISO 639-3, 성직자, 성직자는 단순한 문자열입니다.값 eng은 ISO 639-3에 정의된 언어 목록에서 가져옵니다.
dtdVersion 및 feat 등의 추가 정보를 사용하여 동일한 데이터를 다음 XML fragment로 나타낼 수 있습니다.
<렉시컬 리소스> dtdVersion="15"> <글로벌 정보> <클라이언트> att="언어 코딩" val="ISO 639-3"/> </글로벌 정보> <렉시콘> <클라이언트> att="언어" val="eng"/> <렉시컬 엔트리> <클라이언트> att="Part of Speech" val="공통명/> <렘마> <클라이언트> att="서면 양식" val='오토맨'/> </렘마> <Word Form> <클라이언트> att="서면 양식" val='오토맨'/> <클라이언트> att="문법 번호" val="실패"/> </Word Form> <Word Form> <클라이언트> att="서면 양식" val='남자'/> <클라이언트> att="문법 번호" val="실패"/> </Word Form> </lexical Entry> </Lexicon> </Lexical Resource>
이 예는 비교적 단순하지만 LMF는 훨씬 복잡한 언어적 설명을 나타낼 수 있습니다.XML 태깅은 이에 대응하여 복잡합니다.
LMF에 대한 선택된 출판물
ISO에 의해 비준된 LMF 규격에 대한 첫 번째 간행물(이 논문은 LREC 논문의 언어 자원 및 평가 회의에서 (2015년에) 9번째로 많이 인용된 논문이 되었다):
- 언어 자원 및 평가 LREC-2006/Genoa: Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: LMF(Lexical Markup Framework)
의미 표현에 대해서:
- Gesellschaft für languageistische Datenverarbeitung GLDV-2007/Tübingen: Gil Francopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Cla Soria Soria: 시멘틱스 ISO 정보의 사전 마크업 프레임워크
아프리카 언어에 대해서:
- Traitement Automatique des naturelles, Marseu, 2014년: Mouhamadou Koule, Mouhamad Ndiankho Tiam, El Hadj Mamadou Nguer:LMF 기반의 Wolof 언어 어휘를 확립하기 위해 (프랑스어로 [5]Vers la mise en place d'un lexique basé sur LMF pour la langue wolof)
아시아 언어에 대해서:
- 사전편찬, ASIALEX 저널, Springer 2014: Lexical Markup Framework: Gil Francopoulo, Chu-Ren Huang: 전자사전 ISO 표준 및 아시아 언어 DOI 10.1007/s40607-014000-6z에 대한 영향
유럽 언어에 대해서:
- COLING 2010: Verena Henrich, Erhard Hinrichs: ISO 표준 LMF: Wordnet-LMF for GermaNet
- EACL 2012: Judith Eckle-Kohler, Iryna Gurevych: Subcat-LMF: 서브카테고리 프레임 상호 운용성을 위한 표준화된 포맷 작성
- EACL 2012:Iryna Gurevych, Judith Eckle-Kohler, Silvana Hartmann, Michael Matuschek, Christian M M M M M Meyer, Christian Wirth: [8]LMF를 기반으로 한 대규모 통합 어휘-의 의미 리소스.
셈어족 언어 정보
- Cambridge University Press, Natural Language Engineering 저널(2015년 봄에 발표 예정):아이다 케마켐, 빌렐 가르구리, 압델마지드 벤 하마두, 길프랑코풀로:대형 아랍어 사전의 ISO 표준 모델링.
- 2014년 제7회 글로벌 워드넷 컨퍼런스 진행: Nadia B M Karmani, Hsan Sousou, Adel M Alimi:aeb [9]언어용 ISO LMF에 표준화된 Wordnet 구축.
- 워크숍 진행: 아랍어권에서의 HLT & NLP, LREC 2008: Nureddine Loukil, Kais Hadar, Abdelmajid Ben Hamadou:아랍어 [10]동사의 통사적 사전으로.
- Traitement Automatique des Langues Naturelles, 툴루즈(프랑스어) 2007: Khem A, Gargouri B, Abdelwhed A, Francopoulo G: Modélation des paradigmes de flexions arabes selon la norme LMF-ISO 24613.[11]
전용 도서
2013년에 출판된 책이 있습니다. LMF Lexical[12] Markup Framework는 전적으로 LMF 전용입니다.첫 번째 장에서는 어휘 모델의 역사를 다루고, 두 번째 장에서는 데이터 모델의 공식적인 설명이며, 세 번째 장에서는 ISO-DCR의 데이터 범주와의 관계를 다룬다.나머지 14개 장에서는 민간 또는 군사 분야, 과학 연구실 내 또는 산업용 용어집 또는 시스템을 다루고 있습니다.이것들은 Wordnet-LMF, Prolmf, DUELME, UBY-LMF, LG-LMF, ACLICE, GlobalAtlas(또는 Global Atlas) 및 Wordscape입니다.
관련 과학 커뮤니케이션
「 」를 참조해 주세요.
- 계산 어휘학
- 어휘 의미론
- 패러다임 및 형태합성 관련 설명을 위한 형태학(언어학)
- 다양한 유형의 다국어 표기를 프레젠테이션하기 위한 기계 번역(접근법 섹션 참조)
- 패러다임과 패러다임 패턴의 차이에 대한 형태학적 패턴
- 가장 유명한 영어 의미 어휘 프레젠테이션을 위한 WordNet
- UTX(Universal Termary eXchange)로 기계 판독 가능한 사전을 위한 사용자 지향 대체 형식
- 유니버설 네트워킹 언어
- LMF 적용을 위한 UBY-LMF
- ToLlex-Lemon(LMF 기반 모델용)은 사전을 지식 그래프, RDF 및/또는 언어 Linked Open Data로 게시합니다.
레퍼런스
- ^ "ISO 24613:2008 - Language resource management - Lexical markup framework (LMF)". Iso.org. Retrieved 2016-01-24.
- ^ a b "The relevance of standards for research infrastructures" (PDF). Hal.inria.fr. Retrieved 2016-01-24.
- ^ "Lexical Markup Framework (LMF)" (PDF). Hal.inria.fr. Retrieved 2016-01-24.
- ^ "Lexical markup framework (LMF) for NLP multilingual resources" (PDF). Hal.inria.fr. Retrieved 2016-01-24.
- ^ "Vers la mise en place d'un lexique basé sur LMF pour la langue Wolof" (PDF). Aclweb.org. Retrieved 2016-01-24.
- ^ "Standardizing Wordnets in the ISO Standard LMF: Wordnet-LMF for GermaNet" (PDF). Aclweb.org. Retrieved 2016-01-24.
- ^ "Subcat-LMF: Fleshing out a standardized format for subcategorization frame interoperability" (PDF). Aclweb.org: 550–560. April 2012. Retrieved 2016-01-24.
- ^ "UBY – A Large-Scale Unified Lexical-Semantic Resource Based on LMF" (PDF). Aclweb.org. Retrieved 2016-01-24.
- ^ "Building a standardized Wordnet in the ISO LMF for aeb language" (PDF). Aclweb.org. Retrieved 2016-01-24.
- ^ "LREC 2008 Proceedings". Lrec-conf.org. Retrieved 2016-01-24.
- ^ "Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF - ISO 24613" (PDF). Aclweb.org. Retrieved 2016-01-24.
- ^ Gil Francopoulo (편집자) LMF Lexical Markup Framework, ISSE / Wiley 2013 (ISBN 978-1-84821-430-9)