기계 판독 가능 데이터

Machine-readable data

컴퓨터가 읽을 수 있는 데이터, 즉 컴퓨터가 읽을 수 있는 데이터컴퓨터가 처리할 수 있는 형식의 데이터다. 기계가 읽을 수 있는 데이터는 구조화된 데이터여야 한다.[1]

미국에서는 2019년 1월 14일 'OPEN Government Data Act of 2019'에서 기계 판독이 가능한 데이터를 '인간의 개입 없이 컴퓨터로 쉽게 처리할 수 있는 포맷의 데이터'로 정의하면서 의미적 의미를 잃지 않도록 하고 있다. 이 법은 미국 연방 기관에게 그러한 방식으로 공공 데이터를 발행하도록 지시하여 "[2]기관 내 모든 공공 데이터 자산은 기계로 판독할 수 있다"[3]고 보장한다.

기계 판독 가능 데이터는 기계(예: 마이크로포맷, RDFa, HTML)에서도 읽을 수 있도록 표시된 사람이 판독할 수 있는 데이터와 주로 기계(CSV, RDF, XML, JSON)에서 처리하는 데이터 파일 형식의 두 그룹으로 분류할 수 있다. 이러한 형식은 그 안에 포함된 데이터가 공식적으로 구조화된 경우에만 기계 판독이 가능하다. 잘못 구조된 스프레드시트에서 CSV 파일을 내보내는 것은 정의를 충족하지 못한다.

읽을 수 있는 기계는 디지털로 접근 가능한 것과 동의어가 아니다. 디지털로 접속할 수 있는 문서가 온라인일 수도 있어 컴퓨터를 통해 인간이 쉽게 접속할 수 있지만, 컴퓨터가 읽을 수 없는 경우에는 컴퓨터 프로그래밍 로직을 통해 그 내용을 추출, 변환, 처리하기가 훨씬 더 어렵다.[4]

Extensible Markup Language(XML)는 인간과 기계가 모두 읽을 수 있도록 설계되었으며, XSLT(Extensible Stylesheet Language Transformation)는 인간의 가독성을 위한 데이터 표시를 개선하기 위해 사용된다. 예를 들어 XSLT를 사용하여 자동으로 XML을 휴대용 문서 형식(PDF)으로 렌더링할 수 있다. 사람이 읽을 수 있도록 기계가 판독 가능한 데이터를 자동으로 변환할 수 있지만 일반적으로 말해서 그 반대는 사실이 아니다.

관리예산처(OMB)는 정부성과성과물법(GPRA) 현대화법의 시행을 목적으로 "기계 가독성 형식"을 "웹 브라우저나 컴퓨터 시스템에서 자동으로 읽을 수 있는 표준 컴퓨터 언어(영어 텍스트가 아닌 표준 컴퓨터 언어)로 포맷한다"고 정의하고 있다. (예: xml). 기존의 워드 프로세싱 문서와 휴대용 문서 형식(PDF) 파일은 사람이 쉽게 읽을 수 있지만 일반적으로 기계가 해석하기 어렵다. 쉼표로 구분된 값(CSV)으로 내보낼 수 있는 헤더 열이 있는 확장 가능한 마크업 언어(XML), (JSON) 또는 스프레드시트와 같은 다른 형식은 기계 판독이 가능한 형식이다. HTML은 구조적인 마크업 언어로서, 문서의 일부분들을 신중하게 표시하기 때문에, 컴퓨터는 목차, 개요, 문헌 검색 도서 등을 모을 수 있는 문서 구성요소를 모을 수 있다. 기존의 워드프로세싱 문서와 기타 포맷을 기계적으로 읽을 수 있게 하는 것은 가능하지만, 문서에는 강화된 구조적 요소가 포함되어야 한다."[5]

참고 항목

참조

  1. ^ "Machine readable". opendatahandbook.org. Retrieved 2019-07-22.
  2. ^ "HR4174". stratml.us.
  3. ^ "HR4174". stratml.us.
  4. ^ "A Primer on Machine Readability for Online Documents and Data". Data.gov. 2012-09-24. Retrieved 2015-02-27.
  5. ^ OMB Circular A-11, Part 6 Wayback Machine에 2020-04-22 보관, 예산 작성, 제출 및 집행