겹치기 마크업
Overlapping markup마크업 언어와 디지털 인문학에서 중복은 문서에 비계층적 방식으로 상호작용하는 두 개 이상의 구조가 있을 때 발생한다.마크업이 중복된 문서는 트리로 나타낼 수 없다.이것은 동시 마크업으로도 알려져 있다.예를 들어, 시에서는 발과 선의 운율적 구조, 문장과 인용구의 언어 구조, 그리고 책과 페이지와 편집 주석의 물리적 구조가 있을 수 있다.[1][2]
역사
문서에 비계층적 구조의 문제는 1988년 이후로 인식되어 왔다. 단일 계층 구조로서 텍스트의 지배적 패러다임(컨텐츠 객체 또는 OHCO의 순서 계층화)에 대비하여 해결하는 것은 처음에는 기술적인 문제일 뿐이라고 생각되었지만, 사실 훨씬 더 어려운 것으로 입증되었다.[4]2008년에 제니 테넌시슨은 마크업 중첩을 "마크업 기술자들의 주요 남은 문제 영역"[5]으로 식별했다.마크업 오버랩은 2019년 신학문 디지털 연구의 주요 이슈로 계속 대두되고 있으며, 나머지 디지타에서 공통되는 상호운용 가능한 텍스트 인코딩 이니셔티브 기반 형식이 아닌 전문 마크업 형식인 오픈 경전 정보 표준과 신학 마크업 언어(Digita Markup Language)을 유지하는 주요 원인이다.나는 [6]인문학의
속성 및 유형
연속되지 않는 중첩을 허용하는 계획과 연속적인 중첩만 허용하는 계획 사이에 구별이 존재한다.종종 '표시가 겹친다'는 말은 엄격히 후자를 의미한다.연속적인 중첩은 (논리적) 구성요소를 여러 물리적 구성요소로 분할할 필요 없이 항상 마일스톤(일반적으로 공동 인덱싱된 출발점과 최종 표시자)이 있는 선형 문서로 나타낼 수 있다.연속성이 없는 중복은 문서 조각화가 필요할 수 있다.겹치는 마크업 체계에서 또 다른 구별은 요소들이 같은 종류의 다른 요소들과 중복될 수 있는지 여부다(자체 오버랩).[2]
계획에는 특권 계층이 있을 수 있다.예를 들어, 일부 XML 기반 구조는 XML 문서 트리에서 직접 한 계층을 나타내며, 다른 방법으로 중복되는 다른 구조를 나타낸다. 이러한 구조는 권한 없는 구조라고 한다.
슈미트(2012년)는 겹치는 인스턴스들의 3중분류를 식별한다. 1. "내용과 구조의 구분", 2. "다중 관점 또는 마크업 집합의 오버레이", 3. "단일 마크업 관점에서의 개별 시작 및 종료 태그 오버랩". 또한, 겹치는 일부 명백한 예는 사실 스키마 정의 문제, ww.hich는 계층적으로 해결될 수 있다.그는 타입 1은 마크업 외부의 복수의 문서 시스템에 의해 가장 잘 해결되지만 타입 2와 타입 3은 내부 처리를 필요로 한다고 주장한다.
접근 방식 및 구현
DeRose(2004, Evaluation criteria)는 중복 문제에 대한 해결책을 판단하기 위한 몇 가지 기준을 식별한다.
- 가독성 및 유지관리성,
- 도구 지원 및 XML과의 호환성
- 가능한 검증 체계
- 처리의 용이성
태그 스프는 엄밀히 말하면 중복 마크업이 아니다. 그것은 잘못된 형식의 HTML로, 겹치지 않는 언어로서 잘못 정의되었을 수 있다.일부 웹 브라우저non-hierarchical 문서 객체 모델(DOM)과 중복되는 시작과 끝 태그를 나타내지만 이 모든 브라우저에 걸쳐 DOM.[7][8]수 있는 HTML5의 어떻게 프로세서 같은mis-nested 가격 인상과 HTML구문에고 대처해야 한다를 정의하는 천부적으로 계층적 자연과 양립할 수 없다고 standardised지 않았다.안으로단일 [9]계층그러나 XHTML과 SGML 기반 HTML을 사용하는 경우, 잘못 테스트된 마크업은 엄격한 오류로 표준 준수 시스템에 의한 처리가 불가능해진다.[10]HTML 표준은 다른 요소들과 겹칠 수 있고 연속적이지 않을 수 있는 단락 개념을 정의한다.[11]
초기 버전의 HTML을 기반으로 한 SGML은 CONERO라는 기능을 가지고 있어, 어떠한 특전 없이 여러 개의 독립된 계층이 공존할 수 있다.DTD 검증은 Concur를 사용하는 각 개별 계층에 대해서만 정의된다.계층에 걸친 검증은 표준에 의해 정의되지 않는다.Concur는 자체 오버랩을 지원할 수 없으며, SGML의 일부 보조 기능과 제대로 상호작용하지 않는다.이 기능은 도구에 의해 잘 지원되지 않으며 실제로 거의 사용되지 않았다. 표준 편집자의 설명에 따르면 CONCER를 사용하여 문서 중첩을 나타내는 것은 권장되는 사용 사례가 아니었다.[12][13]
계층 언어 내
겹치지 않는 언어로 중첩을 나타내는 몇 가지 접근법이 있다.[14]텍스트 인코딩 이니셔티브는 XML 기반 마크업 체계로서 중복 마크업을 직접 나타낼 수 없다.아래의 네 가지 접근법을 모두 제안한다.[15]성서 정보 공개 표준은 성경을 표시하기 위해 고안된 또 다른 XML 기반의 체계다.권한 없는 구성요소를 인코딩하기 위해 빈 마일스톤 요소를 사용한다.[16]
이러한 접근법을 설명하기 위해, 윌리엄 셰익스피어의 리처드 3세 단편 중 문장과 행을 표시한 것이 실행 사례로 사용될 것이다.특권 계층이 있는 곳에서는 그 선들이 사용될 것이다.
여러 문서
여러 개의 문서는 각각 서로 다른 내부적으로 일관된 계층 구조를 제공할 수 있다.이 접근방식의 장점은 각 문서는 단순하고 기존 도구로 처리할 수 있지만 중복 콘텐츠의 유지보수가 필요하며 서로 다른 견해 간의 상호 참조가 어려울 수 있다는 것이다.[17]여러 문서로 중복은 데이터 비교 및 델타 인코딩 기법으로 분석할 수 있으며, XML 컨텍스트에서는 특정 XML 트리 차이점화 알고리즘을 이용할 수 있다.[18][19]
슈미트(2012, 3.5 변이)는 존재하는 모든 변동을 나타내는 구조를 만들려고 시도하기보다는 단일 텍스트의 여러 변형을 인코딩하고 변하지 않는 부분의 중복을 수용하기 위해 이 접근법을 권고한다. 또한, 그는 이 정렬이 자동으로 수행되고 정렬이 잘못됨을 제안한다.실전에 [20]드문
예제, 표시된 선:
변호사로서 나는 당신의 어머니로부터 당신을 축복한다.리치몬드를 위해 끊임없이 기도하는 사람</라인> <라인>은 그쯤이야 뭐.—침묵한 시간이 점점 다가오고 있다.그리고 동쪽에서 날뛰는 어둠이 깨진다.</라인>
문장이 표시된 경우:
<선서> 나는 대리인으로 리치몬드의 이익을 위해 끊임없이 기도하는 네 어머니로부터 너를 축복한다.</감정> <감정>은 그쯤이야 뭐.</어렵다>—침묵한 시간이 흘러가고, 동쪽에서 부서지는 어둠이 밀려온다.</기호>
이정표
마일스톤은 구성요소의 시작과 끝을 표시하는 빈 요소로서, 일반적으로 XML ID 메커니즘을 사용하여 어떤 "비긴" 요소가 어떤 "끝" 요소와 함께 가는지 표시한다.마일스톤은 계층적 언어에 비특권적 구조를 포함하는데 사용될 수 있다. 그들의 기본 형태는 연속적인 중첩만을 나타낼 수 있다.일반 XML은 물론 이정표 요소를 구문 분석할 수 있지만, 그 특별한 의미를 이해하지 못하므로 권한 없는 구조를 쉽게 처리하거나 검증할 수 없다.[21][22]
마일스톤은 겹치는 요소의 마크업이 다른 마크업과 마찬가지로 관련 경계에 바로 위치한다는 장점이 있다.이것은 유지 보수성과 가독성을 위한 장점이다.[23]CLIX(DeRose 2004)는 그러한 접근법의 한 예다.
예:
변호사로서 어머니께 축복을 드린다.리치몬드를 위해 끊임없이 기도하는 사람그만한 것은 그만이다.<끝까지/><끝부터 시작 />—침묵한 시간이 점점 다가오고 있다.그리고 동쪽에서 날뛰는 어둠이 깨진다.<<</라인>>
문장 부호 및 공백은 단어, 절, 문장 등의 경계가 반드시 형식 마크업 경계와 계층적으로 일치하지는 않기 때문에 이정표식 'crypto-overlap' 또는 'pseudo-markup'의 한 유형으로 확인되었다.[24][25]
또한 비연속 구조를 나타내기 위해 더 복잡한 이정표를 사용할 수도 있다.예를 들어, TAGML의 "일시 중지" 및 "재개" 의미론은[26] 마일스톤을 사용하여 표현할 수 있다. 예를 들어, 각 마일스톤이 시작, 일시 중단, 재개 또는 종료 지점을 나타내는 속성을 추가하면 된다.각 마일스톤에 "다음 청크" 참조로 주석을 달면 재주문 및 자체 오버랩도 유사하게 달성할 수 있다.
가입하다
조인은 권한 있는 계층의 다른 구성요소에 대한 권한 있는 계층 내의 포인터로, 링크된 목록을 따르는 것과 유사한 권한 없는 구성요소를 재구성하는 데 사용될 수 있다.권한 없는 단일 요소는 권한 있는 계층 내에서 몇 가지 부분적 요소로 분할되며, 부분적 요소 자체는 권한 없는 계층에서 단일 단위를 나타내지 않으므로 오해를 유발할 수 있고 처리가 어려울 수 있다.[27][28]이 접근방식은 일부 불필요한 구조를 지원할 수 있지만 요소 순서를 변경할 수는 없다.[29]그러나 약간 다른 접근방식은 직접성과 유지보수를 희생하여 내용에서 떨어진 조인을 표현함으로써 재주문을 표현할 수 있다.[30]
조인 기반 표현은 요소들 간의 주기 가능성을 도입할 수 있다; 이러한 주기들을 감지하고 거부하면 구현에 복잡성을 가중시킨다.[31]
예:
<<sentence id="a"a" 나는 대리인으로 당신의 어머니로부터 당신을 축복하며, </sentence></sentence="a">리치몬드의 이익을 위해 끊임없이 기도하는 사람.</그냥 줄 서라> <<sentence id="b"는 그만하면 그만이다.</영화<이디="c"—침묵의 시간이 점점 더 흐르고, 동쪽 안에서는 가물거리는 어둠이 걷힌다.</어느 정도>
스탠드오프 마크업
스탠드오프 마크업(Stand-off Markup)은 권한 있는 계층 구조가 없다는 점을 제외하고 조인트를 사용하는 것과 유사하며, 문서의 각 부분에 레이블이 부여되며(또는 오프셋으로 참조될 수 있음), 문서는 마크업(Stand off)의 내용 중 'Stand-off(stand off)'를 가리키는 것으로 구성되며, 내용이 없을 수 있다.는 똑같은 것을. 그 TEI 지침 교착 상태 가격 인상의 능력과 분배하다 별도로 본문에서, 다른 필자는 읽기 전용 document,[32]에 가격 인상을 적용하는 격차는에 의해 태그에 협력적인 접근 허용하는 것도 포함될 수 있음에 의해, 모두 열왕기 주석을 만들기 위해 외에 조인들에 대한 주요 장점으로 요소가 통합을 식별한다.dco꾀를 [33]부리다
예:
<span id="a">나는 변호사로 당신의 어머니로부터 당신을 축복한다.</span id="b">리치몬드의 이익을 위해 끊임없이 기도하는 사람.</span> <span id="c">는 그만하면 그만이다.</span><span id="d"—침묵의 시간이 흘러가고, <스팬 id="e") 그리고 동쪽에서 불타는 어둠이 깨진다.</span> ...<라인 내용="a" /> / <라인 내용="b" /><라인 내용="c d" /><라인 내용="e" />> <a b" /c" /><line 내용="d e" /> />
그것은 가격 인상과 텍스트를 구분해 전반적인 간소화와 증가된 maintainability,[34]과 2017년까지에서``국민 예술의[t]he 현재 상태(...)언어학적으로 주석이 달린 데이터[를 나타내는]에 피벗 formatᆭ,[35]즉 그 교착 상태 가장widel는graph-based 표현 원거리 XML로 serialize된 사용하는 경우 야기할 수 있다고 주장해 왔다.y을 받아들이중복 마크업 과제를 해결하기 위한 접근법.
교착상태 형식은 언어 주석 ISO 표준의 기초가 되었고 [36]말뭉치 관리 시스템 개발에 성공적으로 적용되었으며 [37](2020년 4월 현재) TEI에서 활발하게 개발되고 있다.[38]
과제들
중복성 및/또는 복잡성의 이유로 계층적 언어 내에서 겹치는 마크업을 나타내는 것은 어렵다.2000년대부터 2010년대까지는 대치정국의 공식화가 가장 유망한 접근법으로 받아들여졌지만,[35] 대치정국의 단점은 검증이 매우 어렵다는 것이다.[39]교착상태 공식은 데이터베이스 관리 시스템에서 기본적으로 지원되지 않기 때문에 (2017년까지) 교착상태 XML을 피벗 형식(...)으로 사용하고 질의에 관계형 데이터 베이스로 사용할 것을 제안했다."[35]실제 적용에서, 이것은 피벗 형식과 내부 표현 사이의 복잡한 구조 및/또는 노동 집약적인 변환을 요구한다.결과적으로, 유지관리는 문제가 있다.[40]이것은 그래프 데이터 베이스에 기초하여 말뭉치 관리 시스템을 개발하고, 확립된 그래프 기반 공식주의를 피벗 형식으로 사용하는 동기가 되었다.
특수 목적어
전술한 전략을 구현하기 위해 기존의 마크업 언어(TEI 등)를 확장하거나 특수 목적 언어를 설계할 수 있다.완전히 새로운 마크업 언어를 설계하려면 덜 복잡한 의미 모델과 보다 편리한 구문을 위해 기존 언어의 도구 지원을 포기하도록 허용한다.
역사적 격식
- LMNL은 Jeni Tennison과 Wendell Piez가 2002년에 처음 설명한 비계층적 마크업 언어로서, 속성으로 문서의 범위에 주석을 달고 자기 오버랩을 허용한다.원래 'Canonical LMNL In XML'을 의미했던 CLIX는 LMNL 문서를 마일스톤 스타일의 XML 문서로 나타낼 수 있는 방법을 제공한다.[41]또 다른 XML 직렬화 xLMNL을 가지고 있다.[42]
- MECS는 버겐 대학의 비트겐슈타인 아카이브에 의해 개발되었다.그러나, 그것은 몇 가지 문제점을 가지고 있었다: 중복되는 요소들의 비감각적인 문서들을 허용했고, 자기 오버랩을 지원할 수 없었으며, DTD와 같은 문법을 정의할 수 있는 역량이 없었다.[43]General Ordered-Descent Directed Acyclic Graphs (GODAGs) 이론은 엄밀히 마크업 언어 자체는 아니지만, 비계층적 마크업을 위한 일반적인 데이터 모델이다.제한된 GODAG는 MECS의 의미와 일치하도록 특별히 설계되었다. GODAG는 연속성이 없고 더 강력한 언어가 필요할 수 있다.[44]텍스MECS는 MECS의 후계자로 정식 문법을 가지고 있으며 모든 GODAG를 대표하도록 설계되었으며 GODAG가 아닌 것은 없다.[45]
- XCONCUR(기존 MuLaX)는 XML과 SGML의 CONCER의 결합체로, 유효성검사 언어인 XCONCUR-CL, 그리고 SXX와 같은 API를 포함하고 있다.[46][47][48]
- Marinelli, Vitali 및 Zacchiroli는 제한된 GODAG, ECLIX, LMNL, XML의 병렬 문서, 연속적인 스탠드오프 마크업 및 TexMECS 간에 변환하는 알고리즘을 제공한다.[49]
이런 형식적인 표현들 중 어느 것도 더 이상 유지되지 않는 것 같다.컨센서스 커뮤니티는 대치 XML이나 그래프 기반의 공식주의를 채택할 것으로 보인다.
능동적으로 유지되는 교착 상태 XML 언어
- GraF-XML,[50] LAF(Language Annotation Framework)[51]의 strategy-XML 일련화(예: American National Corpus[52])에 사용됨
- PLA-XML,[53] 말뭉치 관리 시스템 ANNIS 및 컨버터 스위트 솔트[54](SALT) 기반의 데이터 모델의 strategy-XML 일련화
- 주요 전술 공군 부대(도달 말뭉치 주석 포맷/Newsreader 구축 포맷)[55]원거리 XML형식은 원래 NewsReader 프로젝트에(FP7, 2013-2015[56])개발한 현재 FreeLing[57](영어, 스페인어, 포르투갈어, 프랑스, 독일어, 러시아어 이탈리아어, 카탈로니아어 갈리시아어, 크로아티아, 슬로베니아어 등에 대한 지지와) 같은 도달 도구, 그리고 EusTagger[58](wi에 의해 사용하였습니다.B를 위해 th지원asque, 영어, 스페인어).
- Charles Harpur Critical Archive는 문서의 변형 버전을 나타내기 위해 '멀티버전 문서'(MVD)를 사용하여 인코딩되며, 기본 그래프 기반 모델 내에서 여러 문서와 스탠드오프 범위의 전술적 조합을 사용하여 추가, 삭제 및 수정을 나타내는 수단이다.MVD는 애플리케이션 파일 형식으로 표시되며, 보기 또는 편집하기 위해 전문화된 도구가 필요하다.[59]
많은 애플리케이션에서[example needed] 대치 XML은 JSON(예: 웹 주석[60])에 기반한 다른 교착 상태 공식 또는 문자열 URI에 기반한 그래프 형식(아래 참조)으로 대체되었거나 대체되었다.
그래프 기반 형식
교착상태 표시는 지시된 그래프를 기반으로 한 데이터 모델을 사용하므로,[61] 나무에서 표시 정보를 접지할 때 그 표현을 복잡하게 한다.겹치는 계층 구조를 그래프로 나타내면 이러한 어려움이 제거된다.따라서 교착상태 주석은 일반화된 지시 다중 글자로 보다 적절하게 표현될 수 있으며, 특히 자원 기술 프레임워크(RDF)에 기반한 기술 등 이러한 목적을 위해 개발된 형식과 기술을 사용한다.[62][63]EARMARK는 GODDAG(General Ordered-Descendant Directed Acyclic Graph)를 포함하는 초기 RDF/OWL 표현이다.[14]GODAGs 이론은 마크업 언어 그 자체는 아니지만, 비계층적 마크업을 위한 일반적인 데이터 모델이다.
RDF is a semantic data model that is linearization-independent, and it provides different linearisations, including an XML format (RDF/XML) that can be modeled to mirror standoff XML, a linearisation that lets RDF be expressed in XML attributes (RDFa), a JSON format (JSON-LD), and binary formats designed to facilitate querying or processing (RDF-HDT,[64] RDF-Thrift[65]).RDF는 의미론적으로 교착상태 표시에 기초하는 그래프 기반 데이터 모델과 동등하며 저장, 구문 분석 및 질의에 특수 목적 기술을 필요로 하지 않는다.문서 또는 말뭉치를 나타내는 여러 개의 연동 RDF 파일은 언어 연계 오픈 데이터의 예를 구성한다.
임의 그래프를 주석이 달린 문서와 연결하는 기법은 URI 조각 식별자를 사용하여 텍스트 및/또는 문서의 일부를 참조하는 것이다. 웹 주석 아래의 개요를 참조하십시오.웹 주석 표준은 형식별 '선택기'를 오프셋, 문자열 일치 또는 XPath 기반 선택기와 같은 추가 수단으로 제공한다.[66]
언어 주석을 나타낼 수 있는 기본 RDF 어휘는 다음과 같다.[67]
관련 어휘는 다음과 같다.
2020년 초 W3C 커뮤니티 그룹 LD4LT는 이러한 어휘들을 조화시키고 웹 상의 언어 주석을 위한 통합된 RDF 어휘를 개발하기 위한 이니셔티브를 시작했다.[73]
메모들
- ^ 텍스트 인코딩 이니셔티브.
- ^ a b DeRose 2004, 문제 유형.
- ^ 파이즈 2014.
- ^ 렌어, 멜로나스 & 듀랜드 1993.
- ^ 테니슨 2008.
- ^ 모크리데 2019.
- ^ 힉슨 2002.
- ^ 시보넨 2003.
- ^ HTML, § 8.2.8 파서의 오류 처리 및 이상한 사례에 대한 소개.
- ^ Sperberg-McQuen & Huitfelt 2000, 2.1. Non-SGML Notations.
- ^ HTML, § 3.2.5.4 단락.
- ^ Sperberg-McQueen & Huitfelt 2000, 2.2. Concur.
- ^ DeRose 2004, SGML Concury.
- ^ a b 디 이오리오, 페로니 & 비탈리 2009.
- ^ 텍스트 인코딩 이니셔티브, § 20개의 비계층 구조.
- ^ 듀루사우 2006.
- ^ 텍스트 인코딩 이니셔티브, § 20.1 동일한 정보의 다중 인코딩.
- ^ 슈미트 2009.
- ^ 라퐁텐 2016.
- ^ 슈미트 2012, 4.1 변동 자동화.
- ^ 텍스트 인코딩 이니셔티브, § 20.2 경계 표시(빈 요소 포함)
- ^ 스퍼버그-맥퀸 & 휴이트펠트 2000, 2.4. 마일스톤.
- ^ 드로즈 2004, TEI 스타일의 이정표.
- ^ 2015년 Birnbaum & Thorsen 2015.
- ^ Haentjens Dekker & Birnbaum 2017.
- ^ Dekker 2018. CATEREFDekker
- ^ 텍스트 인코딩 이니셔티브, § 20.3 가상 요소의 조각화 및 재구성.
- ^ DeRose 2004, Segmentation.
- ^ Sperberg-McQueen & Huitfelt 2000, 2.5. 단편화.
- ^ 드로즈 2004, 합류.
- ^ 슈미트 2012, 3.4 인터링크.
- ^ 텍스트 인코딩 이니셔티브, § 20.4 스탠드오프 마크업.
- ^ 슈미트 2012, 4.2 텍스트 밖 마크업
- ^ 에거트 & 슈미트 2019, 결론.
- ^ a b c IDe et al. 2017, 페이지 99.
- ^ "Iso 24612:2012".
- ^ Chiarcos 외 2008.
- ^ "Standoff: Annotation microstructure · Issue #1745 · TEIC/TEI". GitHub.
- ^ 스퍼버그-맥퀸 & 휴이트펠트 2000, 2.6. 대치상태 마크업.
- ^ 드로즈 2004, 대치 상황 기록.
- ^ DeRose 2004, CLIX 및 LMNL.
- ^ 파이즈 2012.
- ^ 스퍼버그-맥퀸 & 휴이트펠트 2000, 2.7. MECS.
- ^ 스페르베르크-맥퀸 & 휴이트펠트 2000.
- ^ Huitfelt & Sperberg-McQueen 2003.
- ^ 힐버트, 쇼네펠드 & 비트 2005.
- ^ 비트 외 2007.
- ^ 쇼네펠트 2008.
- ^ 마리넬리, 비탈리 & 자크치로리 2008.
- ^ "ISO GrAF".
- ^ "Iso 24612:2012".
- ^ http://www.anc.org/
- ^ https://www.sfb632.uni-potsdam.de/en/paula.html
- ^ https://corpus-tools.org/salt/
- ^ "NAF". GitHub. 30 June 2021.
- ^ https://cordis.europa.eu/project/id/316404
- ^ "Archived copy". Archived from the original on 2012-04-29. Retrieved 2020-04-06.
{{cite web}}
: CS1 maint: 타이틀로 보관된 사본(링크) - ^ http:///w.hitz.eus/en/nlp
- ^ 에거트 & 슈미트 2019.
- ^ "Web Annotation Data Model".
- ^ 이데 & 수더만 2007.
- ^ 캐시디 2010, 캐시디
- ^ 차아르코스 2012, 포울라
- ^ http://www.rdfhdt.org/
- ^ "RDF Binary using Apache Thrift".
- ^ "Selectors and States".
- ^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Linguistic Linked Data. Representation, Generation and Applications. Cham: Springer.
- ^ Verspoor, Karin; Livingston, Kevin (2012). "Towards Adaptation of Linguistic Annotations to Scholarly Annotation Formalisms on the Semantic Web". Proceedings of the Sixth Linguistic Annotation Workshop, Jeju, Republic of Korea: 75–84. Retrieved 6 April 2020.
- ^ "NLP Interchange Format (NIF) 2.0 - Overview and Documentation".
- ^ "LIF Overview".
- ^ "POWLA". January 2022.
- ^ "NLP Annotation Format Background information on NAF".
- ^ "Towards a consolidated LOD vocabulary for linguistic annotations". GitHub. 7 September 2021.
참조
- Birnbaum, David J; Thorsen, Elise (2015). Markup and meter: Using XML tools to teach a computer to think about versification. Balisage: The Markup Conference 2015. Montréal. doi:10.4242/BalisageVol15.Birnbaum01.
- Cassidy, Steve (2010). An RDF realisation of LAF in the DADA annotation server (PDF). Proceedings of ISA-5. Hong Kong. CiteSeerX 10.1.1.454.9146.
- Chiarcos, Christian (2012). POWLA: Modeling linguistic corpora in OWL/DL (PDF). Proceedings of the 9th Extended Semantic Web Conference (ESWC 2012, Heraklion, Crete; LNCS 7295). pp. 225–239. doi:10.1007/978-3-642-30284-8_22. Retrieved 2016-05-24.
- Chiarcos, Christian; Dipper, Stefanie; Götze, Michael; Leser, Ulf; Lüdeling, Anke; Ritz, Julia; Stede, Manfred (2008). "A flexible framework for integrating annotations from different tools and tagsets". Traitement Automatique des Langues. 49 (2): 271–293.
- Dekker, Ronald Haentjens; Bleeker, Elli; Buitendijk, Bram; Kulsdom, Astrid; Birnbaum, David J (2018). TAGML: A markup language of many dimensions. Balisage: The Markup Conference 2018. Rockville, MD. doi:10.4242/BalisageVol21.HaentjensDekker01.
- DeRose, Steven (2004). Markup Overlap: A Review and a Horse. Extreme Markup Languages 2004. Montréal. CiteSeerX 10.1.1.108.9959. Retrieved 2014-10-14.
- Di Iorio, Angelo; Peroni, Silvio; Vitali, Fabio (August 2009). Towards markup support for full GODDAGs and beyond: the EARMARK approach. Balisage: The Markup Conference 2009. Montréal. doi:10.4242/BalisageVol3.Peroni01.
- Eggert, Paul; Schmidt, Desmond A (2019). "The Charles Harpur Critical Archive: A History and Technical Report". International Journal of Digital Humanities. 1 (1). Retrieved 2019-03-25.
- Haentjens Dekker, Ronald; Birnbaum, David J (2017). It's more than just overlap: Text As Graph. Balisage: The Markup Conference 2017. Montréal. doi:10.4242/BalisageVol19.Dekker01.
- Durusau, Patrick (2006). OSIS Users Manual (OSIS Schema 2.1.1) (PDF). Archived from the original (PDF) on 2014-10-23. Retrieved 2014-10-14.
- Ian Hickson (2002-11-21). "Tag Soup: How UAs handle <x> <y> </x> </y>". Retrieved 2017-11-05.
- Hilbert, Mirco; Schonefeld, Oliver; Witt, Andreas (2005). Making CONCUR work. Extreme Markup Languages 2005. Montréal. CiteSeerX 10.1.1.104.634. Retrieved 2014-10-14.
- Huitfeldt, Claus; Sperberg-McQueen, C M (2003). "TexMECS: An experimental markup meta-language for complex documents". Archived from the original on 2017-02-27. Retrieved 2014-10-14.
- Ide, Nancy; Chiarcos, Christian; Stede, Manfred; Cassidy, Steve (2017). "Designing Annotation Schemes: From Model to Representation". In Ide, Nancy; Pustejovsky, James (eds.). Handbook of Linguistic Annotation. Dordrecht: Springer. p. 99. doi:10.1007/978-94-024-0881-2_3. ISBN 978-94-024-0879-9.
- La Fontaine, Robin (2016). Representing Overlapping Hierarchy as Change in XML. Balisage: The Markup Conference 2016. Montréal. doi:10.4242/BalisageVol17.LaFontaine01.
- Marinelli, Paolo; Vitali, Fabio; Zacchiroli, Stefano (January 2008). "Towards the unification of formats for overlapping markup" (PDF). New Review of Hypermedia and Multimedia. 14 (1): 57–94. CiteSeerX 10.1.1.383.1636. doi:10.1080/13614560802316145. ISSN 1361-4568. S2CID 16909224. Retrieved 2014-10-14.
- MoChridhe, Race J (2019-04-24). "Twenty Years of Theological Markup Languages: A Retro- and Prospective". Theological Librarianship. 12 (1). doi:10.31046/tl.v12i1.523. ISSN 1937-8904. S2CID 171582852. Retrieved 2019-07-15.
- Piez, Wendell (August 2012). Luminescent: parsing LMNL by XSLT upconversion. Balisage: The Markup Conference 2012. Montréal. doi:10.4242/BalisageVol8.Piez01. Retrieved 2014-10-14.
- Piez, Wendell (2014). Hierarchies within range space: From LMNL to OHCO. Balisage: The Markup Conference 2014. Montréal. doi:10.4242/BalisageVol13.Piez01.
- Renear, Allen; Mylonas, Elli; Durand, David (1993-01-06). "Refining our Notion of What Text Really Is: The Problem of Overlapping Hierarchies". CiteSeerX 10.1.1.172.9017. hdl:2142/9407. Retrieved 2016-10-02.
{{cite journal}}
:Cite 저널은 필요로 한다.journal=
(도움말) - Schonefeld, Oliver (August 2008). A Simple API for XCONCUR: Processing concurrent markup using an event-centric API. Balisage: The Markup Conference 2008. Montréal. doi:10.4242/BalisageVol1.Schonefeld01. Retrieved 2014-10-14.
- Sperberg-McQueen, C M; Huitfeldt, Claus (2000). "GODDAG: A Data Structure for Overlapping Hierarchies". Lecture Notes in Computer Science. 2023 (2023): 139–160. doi:10.1007/978-3-540-39916-2_12. ISBN 978-3-540-21070-2. Retrieved 2014-10-14.
- Schmidt, Desmond (2009). Merging Multi-Version Texts: a General Solution to the Overlap Problem. Balisage: The Markup Conference 2009. Montréal. doi:10.4242/BalisageVol3.Schmidt01.
- Schmidt, Desmond (2012). "The role of markup in the digital humanities". Historical Social Research. 27 (3): 125–146. doi:10.12759/hsr.37.2012.3.125-146.
- Henri Sivonen (2003-08-16). "Tag Soup: How Mac IE 5 and Safari handle <x> <y> </x> </y>". Retrieved 2017-11-05.
- Ide, Nancy; Suderman, Keith (2007). GrAF: A graph-based format for linguistic annotations (PDF). Proceedings of the First Linguistic Annotation Workshop (LAW-2007, Prague, Czech Republic). pp. 1–8. CiteSeerX 10.1.1.146.4543.
- Tennison, Jenni (2008-12-06). "Overlap, Containment and Dominance". Retrieved 2016-10-02.
- Witt, Andreas; Schonefeld, Oliver; Rehm, Georg; Khoo, Jonathan; Evang, Kilian (2007). On the Lossless Transformation of Single-File, Multi-Layer Annotations into Multi-Rooted Trees. Extreme Markup Languages 2007. Montréal. Retrieved 2014-10-14.
- Text Encoding Initiative Consortium (16 September 2014). "Guidelines for Electronic Text Encoding and Interchange" (5 ed.). Retrieved 2014-10-14.
- WHATWG. "HTML Living Standard". Retrieved 2019-03-25.