컴퓨터가 읽을 수 있는 문서

Machine-readable document

기계가 읽을 수 있는 문서는 컴퓨터쉽게 내용을 처리할 수 있는 문서다.이러한 문서는 생성되는 비즈니스 프로세스를 지원하는 데 필요한 맥락을 제공할 수 있는 충분한 구조를 가지고 있기 때문에 기계 판독 가능 데이터와 구별된다.

정의

문맥이 없는 데이터(언어 사용)무의미하며 ISO 15489 정보문서 - 기록 관리:[1]

방대한 양의 정보는 구조화되지 않은 데이터로, 비즈니스 관점에서, 는 기능 성숙도 모델의 레벨 1(차오틱)과 같은 "불멸성"을 의미한다.그러한 미성숙함은 비효율성을 조장하고, 품질을 떨어뜨리며, 효과를 제한한다.비정형 정보는 또한 기록 관리 기능에 적합하지 않으며, 법적 목적에 적합하지 않으며, 소송에서 발견 비용을 증가시키며, 일상적이고 지속적인 비즈니스 프로세스에서 불필요하게 액세스와 사용을 번거롭게 한다.

기계 판독성에는 최소한 네 가지 측면이 있다.

  • 첫째, 단어 또는 구를 개별 개념 요소로 컴퓨터 소프트웨어 및/또는 하드웨어 로직을 적용할 수 있도록 구분하여 기술(태그)해야 한다.
  • 둘째로, 각 요소의 의미론을 명시하여 컴퓨터가 인간이 자신의 의미와 잠재적인 사용에 대한 공통의 이해를 달성할 수 있도록 도와야 한다.
  • 셋째, 개별 요소 간의 관계도 명시하면 컴퓨터가 자동으로 추론을 적용할 수 있기 때문에 특히 조사, 발견, 분석의 목적을 위해 그것들을 이해하려는 인간의 부담이 더욱 경감된다.
  • 넷째, 요소들이 발생하는 문서의 구조도 특정된다면, 인간의 이해는 더욱 강화되고 데이터는 법적, 비즈니스적 품질의 목적으로 더욱 신뢰할 수 있게 된다.

이에 따라 1983년부터 미국 정부회계감사원(GAO)은 기계 판독이 가능한 정보의 장점을 강조하기 시작했다.[2]더 일찍, 1981년에 GAO는 미국 연방 정부의 부적절한 기록 보관 관행에 대한 문제를 보고하기 시작했다.[3]이러한 부족은 정부만의 것이 아니며 정보기술의 발전은 대부분의 정보가 이제 "디지털 태생"이 되어 잠재적으로 자동화된 수단에 의해 훨씬 쉽게 관리된다는 것을 의미한다.[4]그러나 2010년 의회 증언에서 GAO는 전자 기록 관리 문제를 부각시켰고, 2015년까지만 해도 GAO는 기록 관리 요건을 충족하는 행정각부 기관의 업무 수행에 있어 미흡한 점을 지속적으로 보고하고 있다.[5][6] 게다가, 주요 감사 회사였던, 그리고 과거에 매우 존경받던 감사 회사인 아서 앤더슨이 기록 파괴 스캔들로 인해 사망한지 20년이 지난 2016년 대통령 선거에서는 기록 보관 관행이 중요한 이슈가 되었다.

2011년 1월 4일, 오바마 대통령은 P.L. 111-352로 2010년 정부 성과성과법(GPRAA) 현대화법에 H.R. 2142에 서명했다.GPRAMA 제10절은 미국 연방 기관이 검색 가능하고 기계 판독이 가능한 형식으로 전략 및 성과 계획과 보고서를 발표하도록 요구한다.[7]또한, 2013년에, 그는 행정 명령 13642 "개방형 및 기계 읽기 가능으로 정부 정보에 대한 새로운 기본값으로 설정"을 발표했다.[8]7월 28일 2016년에, 사무실 관리 및 예산(OMB)의 원형 A-130 방향의 기관 개방, 기계 판독 가능한 formats,[9]사용하는 개정된 발행과"는 목적을 광범위한 범위의 분석과 재사용을 촉진하는 방법으로 공공 정보를 온라인"[10]은 알려 주다 의미를 발행하기에 포함시켜 후속 발표했다.ation공개적으로 액세스할 수 있고 기계적으로 읽을 수 있다.트럼프 대통령은 2019년 1월 14일 공공기관이 공공데이터 자산을 기계 판독 가능한 형식으로 이용할 수 있도록 하는 요건을 법률로 규정하는 법률 H.R. 4174, [11]OGDA(Open Government Data Act, OPEN Government Data Act)에 서명했다.2019년 6월 28일, OMB는 순환 A-11에서 GPRAMA 제10절 준수를 시작하겠다는 의사를 표명했다.[12][13]

그러한 정책 방향을 뒷받침하기 위해, 기술 발전은 기계 판독이 가능한 전자 기록의 보다 효율적이고 효과적인 관리와 사용을 가능하게 하고 있다.준구조 데이터라고도 하는 문서 지향 정보의 저장, 검색, 관리를 위해 문서 지향 데이터베이스가 개발되었다.Extensible Markup Language(XML)는 사람이 읽을 수 있고 기계로 읽을 수 있는 형식으로 문서를 인코딩하는 규칙을 정하는 W3C(World Wide Web Consortium) 권장사항이다.많은 XML 편집기 도구가 개발되었고, 모든 주요 정보 기술 애플리케이션은 아닐지라도 대부분은 XML을 더 크거나 더 낮은 수준으로 지원한다.XML 자체가 개방적이고 표준적이며 기계적으로 읽을 수 있는 형식이라는 사실은 애플리케이션 개발자들이 비교적 쉽게 그렇게 할 수 있게 한다.

W3C의 동반 XML 스키마(XSD) 권장사항은 XML 문서에 요소를 공식적으로 설명하는 방법을 명시한다.XML 스키마의 사양과 관련하여, OASIS(Organization for Structured Information Standards)는 선도적인 표준 개발 조직이다.그러나, 많은 기술 개발자들은 JSON과의 협력을 선호하며, 유효성 확인, 문서화, 상호작용 제어를 위한 JSON 데이터의 구조를 정의하기 위해, JSON Schema인터넷 엔지니어링 태스크포스(IETF)에 의해 개발되었다.

휴대용 문서 형식(PDF)은 응용프로그램 소프트웨어, 하드웨어 및 운영 체제와는 독립적으로 문서를 표시하는 데 사용되는 파일 형식이다.각 PDF 파일은 텍스트, 글꼴, 그래픽 및 문서 표시에 필요한 기타 정보를 포함하여 문서의 프레젠테이션에 대한 전체 설명을 캡슐화한다.PDF/A는 전자 문서의 보관 및 장기 보존에 사용하기 위해 특별히 제작된 PDF의 ISO 표준 버전이다.PDF/A-3는 XML을 포함한 다른 파일 형식을 PDF/A 준수 문서에 포함시킬 수 있으므로, 잠재적으로 인간과 기계의 판독성을 최대한 활용할 수 있다.W3C의 XSL-FO(XSL Formating Objects) 마크업 언어는 일반적으로 PDF 파일을 생성하는 데 사용된다.

데이터에 관한 데이터인 메타데이터는 전자자원을 조직하고, 디지털 식별을 제공하며, 자원의 보관과 보존을 지원하는 데 사용될 수 있다.잘 짜여진 기계 판독이 가능한 전자 기록에서는, 컨텐츠의 용도를 데이터 및 메타데이터로서 모두 변경할 수 있다.전자 기록 보관 시스템의 맥락에서, "관리"와 "메타데이터"라는 용어는 사실상 동의어다.적절한 메타데이터를 부여하면, 기록 관리 기능이 자동화되어 증거의 왜곡 및 기타 기록의 부정 조작의 위험을 줄일 수 있다.더욱이, 그러한 기록은 데이터베이스에 유지되는 데이터의 감사 프로세스를 자동화하는 데 사용될 수 있으며, 따라서 단일 진실의 출처라는 마키아벨리 개념과 관련된 단일 장애 지점의 위험을 줄일 수 있다.

블록체인(데이터베이스)은 변조 및 수정으로 확보된 기록들이 지속적으로 증가하는 상태를 유지하기 위한 신기술이다.분산형 시스템의 모든 노드가 블록체인의 복사본을 갖고 있어 조작과 사기의 대상이 되는 단일 실패 지점이 없다는 것이 핵심 특징이다.

참고 항목

참조

  1. ^ "NARA Guidance on Managing Web Records". National Archives. August 15, 2016.
  2. ^ "Better Use Of Information Technology Can Reduce The Burden Of Federal Paperwork" (PDF). gao.gov. 1983-04-11. Retrieved 2019-07-25.
  3. ^ "FEDERAL RECORDS MANAGEMENT: A History of Neglect". gao.gov. 1981-02-24. Retrieved 2016-09-08.
  4. ^ "Defining "Born Digital": An Essay by Ricky Erway, OCLC Research" (PDF). oclc.org. 2010-11-30. Retrieved 2016-09-08.
  5. ^ "INFORMATION MANAGEMENT: The Challenges of Managing Electronic Records, Statement of Valerie C. Melvin, Director, Information Management and Human Capital Issues" (PDF). gao.gov. 2010-06-17. Retrieved 2016-09-08.
  6. ^ "INFORMATION MANAGEMENT: Additional Actions Are Needed to Meet Requirements of the Managing Government Records Directive". gao.gov. 2015-05-14. Retrieved 2016-09-08.
  7. ^ "GPRAMA SEC. 10. FORMAT OF PERFORMANCE PLANS AND REPORTS". congress.gov. 2011-01-04. Archived from the original on 2016-04-13. Retrieved 2016-09-08.
  8. ^ "Executive Order 13642 in open, standard, machine-readable Strategy Markup Language format". whitehouse.gov. 2013-05-09. Archived from the original on 2016-03-03. Retrieved 2016-09-08.
  9. ^ "StrategicPlan Circular No. A-130, Managing Information as a Strategic Resource, Objective d.5.a: Interoperability, APIs & Machine-Readability".
  10. ^ "StrategicPlan Circular No. A-130, Managing Information as a Strategic Resource, Objective e.2.a: Publication".
  11. ^ Ryan, Paul D. (January 14, 2019). "Text - H.R.4174 - 115th Congress (2017-2018): Foundations for Evidence-Based Policymaking Act of 2018". www.congress.gov.
  12. ^ "PREPARATION, SUBMISSION, AND EXECUTION OF THE BUDGET" (PDF). whitehouse.gov. 2019-06-28. Retrieved 2019-07-25.
  13. ^ "StrategicPlan Circular No. A-130, Managing Information as a Strategic Resource, Objective Machine-Readability".

외부 링크