구조화된 문서

Structured document

구조화 문서는 문서의 전체 및 일부가 형식을 벗어난 다양한 의미를 갖는 것으로 식별하기 위해 마크업 방법이 사용되는 전자 문서이다.예를 들어, 구조화된 문서는 특정 부분을 "Helvetica bold 24" 또는 "Indented Courier"가 아닌 "챕터 제목"(또는 "코드 샘플" 또는 "쿼트레인")으로 식별할 수 있습니다.일반적으로 이러한 부분을 문서의 "구성요소" 또는 "요소"라고 합니다.

개요

구조화된 문서는 일반적으로 형식 지정뿐만 아니라 다양한 처리 목적으로 사용할 수 있는 항목에 라벨을 붙이는 데 초점을 맞추고 있습니다.예를 들어, "장 제목" 또는 "강조"의 명시적 라벨링은 단순히 "Helvetica bold 24" 또는 "Italic"보다 시각 장애인을 위한 시스템에 훨씬 더 유용하다.마찬가지로 기술 정보 시트의 많은 항목에 의미 있는 레이블을 지정하면 데이터베이스, 검색 시스템, 온라인 카탈로그 등과 훨씬 더 잘 통합할 수 있습니다.

구조화된 문서는 일반적으로 목록 항목뿐만 아니라 목록, 섹션, 섹션 제목 등 적어도 계층 구조를 지원합니다.이는 포맷 지향 시스템과는 매우 대조적입니다.하이엔드 시스템은 여러 개의 독립된 컴포넌트 또는 중복되는 [1]컴포넌트 세트도 지원합니다.

구조화된 문서 시스템에서는 일반적으로 구성요소 유형과 구성요소 조합 방법을 정의하는 명시적 규칙을 작성할 수 있습니다.이러한 규칙 집합을 데이터베이스 스키마와 유사하게 스키마라고 합니다.XSD, Relax NG, Schematron 등 이들을 지정하기 위한 몇 가지 정식 언어가 존재합니다.스키마의 규칙을 따르는 구조화된 문서는 일반적으로 "그 스키마에 따라 유효한 문서"라고 불립니다.또한 일부 시스템은 임의 유형 및 조합의 구성요소가 포함된 문서를 지원하지만 구성요소가 식별되는 방법에 대한 구문 규칙을 사용합니다.

Lie와 Saarela는 "Standard Generalized Markup Language(SGML)가 구조화 [2]문서의 개념을 개척했습니다."라고 언급했지만 Scribe, Agment, FRESS 등의 이전 시스템은 많은 구조화 문서의 기능과 기능을 제공했으며 현재는 SGML의 자손 XML이 선호되고 있습니다.

구조화된 문서에 대해 널리 사용되는 표현 중 하나W3C에 의해 정의되고 기술된 스키마인 HTML입니다.그러나 HTML에는 단락, 제목 및 코드와 같은 의미 지향적인 구성 요소에 대한 태그뿐만 아니라 이탤릭체, 굵은 글씨, 대부분의 표와 같은 형식 지향적인 구성 요소에 대한 태그도 있습니다.실제로 HTML은 구조화된 문서 시스템으로 사용되기도 하지만 종종 서식 언어로 사용됩니다.

많은 도메인이 공동으로 개발한 도메인별 스키마(저널 퍼블리싱용 JATS, 문학 문서용 TEI, 비즈니스 교환용 UBL 및 EDI, 우주선 텔레메트리용 XTCE, 웹 인터페이스용 REST 등)를 통해 구조화된 문서를 사용합니다.이러한 경우 모두 XML 기반의 특정 스키마를 사용합니다.

XML은 웹상의 구조화된 문서 및 데이터의 범용 형식입니다.

--

구조 의미론

구조화된 문서를 작성할 때 초점은 문서의 논리적 구조를 인코딩하는 데 있으며 인쇄된 페이지나 화면을 통한 인간에 대한 프레젠테이션에 대한 명시적 작업이 거의 또는 전혀 없다(경우에 따라서는 그러한 사용이 예상되지도 않는다).구조화된 문서는 컴퓨터 시스템에 의해 쉽게 처리되어 문서의 파생 형식을 추출하고 제시할 수 있다.예를 들어 대부분의 위키피디아 기사에서는 문서 본문의 다른 제목 태그에서 자동으로 목차가 생성됩니다.옥스포드 영어 사전의 SGML 변환은 인쇄본의 이탤릭체 사용에 부수되는 많은 다른 의미를 명확하게 구별했기 때문에, 검색 도구는 어원, 인용문, 그리고 다른 많은 관심 특징에 기초하여 항목을 검색할 수 있습니다.HTML이 단순한 형식 정보보다 구조적인 정보를 제공한다면 시각 장애가 있는 사용자에게 더 유용한 읽기 인터페이스를 쉽게 제공할 수 있습니다.여행사가 여행 일정을 단순한 표시가 아닌 구조화된 문서로 제공하면, 사용자 도구는 필요한 사실을 쉽게 추출하여 달력이나 다른 응용 프로그램에 전달할 수 있습니다.

HTML에서는 문서의 논리적 구조의 일부가 문서 본문일 수 있다.<body>(첫 번째 레벨 표제 포함)<h1>, 및 단락<p>.

<body> <h1> 구조화 문서 </h1> <p> 구조화 클래스="selflink"> 구조화 문서는 <a href="/wiki/Electronic_document" title="전자문서"> 전자문서</a>.<a href="/wiki/Markup_language" title="Markup language">"markup language"</a> 몇 가지 방법을 사용하여 문서의 전체와 일부가 형식을 벗어난 다양한 의미를 갖는 것으로 식별한다.</p> </body>

구조화된 문서의 가장 매력적인 특징 중 하나는 다양한 맥락에서 재사용될 수 있고 휴대폰, TV 화면, 음성 합성기 및 그것들을 처리하도록 프로그래밍할 수 있는 다른 장치에 다양한 방식으로 표시될 수 있다는 것이다.

기타 의미론

다른 의미는 텍스트가 더 큰 개체와 같은 의미에서는 "구조적"이 아니라 문서 일부의 범위와 성질 또는 온톨로지에 대한 주장을 표현하기 때문에 여전히 "문서 구조"로 간주되는 것에 기인할 수 있습니다.위의 HTML 프래그먼트에서는<strong>요소는 동봉된 텍스트가 강조됨을 의미합니다.시각적인 용어로 볼드체로 표현하면 다음과 같습니다.<b>음성 인터페이스에서는 음성 변형을 사용할 가능성이 있습니다.시멘틱 마크업이라는 용어는 다음과 같은 마크업을 제외합니다.<b>이는 시각적 디스플레이에 대한 명령 이외의 의미를 직접적으로 표현하지 않습니다(단, 지능형 에이전트는 태그 뒤에 숨어 있는 구조적 의미를 식별할 수 있을 수 있습니다."강력한" 태그는 특정 매체에서 적절한 프레젠테이션을 설명하는 것이 아니라 내용의 추상적이고 준언어적인 속성을 나타내는 것을 의도한다는 점에서 "설명적" 또는 "구조적"입니다.

HTML의 다른 구조 태그는 다음과 같습니다.<abbr>, <acronym>, <address>, <cite>, <del>, <dfn>, <ins>, <kbd>, and <q>DocBook이나 TEI 등 다른 스키마에는 선택의 폭이 훨씬 넓습니다.

앵커<a>태그는 구간 분할이 아닌 상호 연결 또는 상호 참조 구조 등 약간 다른 종류의 구조에 사용됩니다.이것은 가장 확실한 구조이며, 실제로 동일한 특정 구조를 표현하는 문서에 대해 대체 마크업을 작성할 수 있습니다(예를 들어, 탐색 하이퍼링크 프레젠테이션이 아닌 섹션 내용을 나타내기 위해 트랜슬레이션을 사용합니다).

초기부터 HTML은 또한 굵은 글씨(bold)와 같은 표현적 의미론을 표현하는 태그를 가지고 있습니다.<b>) 또는 이탤릭체(<i>또는 프레젠테이션에 영향[3]준 글꼴 크기를 변경합니다.최신 버전의 마크업 언어에서는 Scribe FRESS와 같은 시스템에 의해 개척된 방법인 스타일시트를 통해 특정 프레젠테이션에 매핑되는 기술 마크업을 선호하지 않습니다.태그 이름 "이탈릭"을 굵은 글씨 표시에 매핑하는 것이 완전히 직관적인 것은 아니지만, 의미론 또는 프레젠테이션에 다른 스타일 시트를 부착하여 다른 프레젠테이션을 만들 수 있습니다.

문맥과 목적

원칙적으로 "구조"와 "비구조"를 구성하는 요소만 다를 수 있습니다.특히 타이포그래피에 관한 책에서는 무언가를 "이탈릭" 또는 "볼드"로 태그 붙이는 것이 핵심일 수 있습니다.예를 들어, 특정 스타일을 언제 사용할지에 대한 논의에서는 예시와 반례를 제시하려고 할 수 있습니다.이것은 렌더링이 산문과 동기화되지 않으면 의미가 없습니다.이와 유사하게, 문서의 특정 판본은 내용뿐만 아니라 활판 인쇄 관행에도 관심이 있을 수 있으며, 이 경우 해당 관행을 설명하는 것이 바람직할 뿐만 아니라 필요하다.그러나 이 문제는 문서 구조에만 있는 것이 아닙니다.문법을 논할 때, 그리고 다른 많은 경우에 문법에 대해서도 발생합니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ DeRose, Steven (2004). Markup Overlap: A Review and a Horse. Extreme Markup Languages 2004. Montréal. CiteSeerX 10.1.1.108.9959. Retrieved 2014-10-14.
  2. ^ Håkon Wium Lie; Janne Saarela (1998). "Multi-purpose publishing using HTML, XML, and CSS". W3.org. Association for Computing Machinery.
  3. ^ "A sample HTML instance". Retrieved 5 March 2014.