메타데이터 검색

Metadata discovery

메타데이터에서 메타데이터 검색(또한 메타데이터 수집)은 데이터 세트에서 데이터 요소의미론을 발견하기 위해 자동화된 툴을 사용하는 과정이다.이 프로세스는 대개 데이터 원본 요소와 중앙집중식 메타데이터 레지스트리 사이의 매핑 집합으로 끝난다.메타데이터 검색은 메타데이터 검색이라고도 한다.

메타데이터 검색을 위한 데이터 원본 형식

데이터 세트는 다음과 같은 다양한 형태로 이루어질 수 있다.

  1. 관계형 데이터베이스
  2. NoSQL 데이터베이스
  3. 스프레드시트
  4. XML 파일
  5. 웹 서비스
  6. Fortran, Juround, COBOL, Assembler, RPG, PL/1, EasyTrieve, Java, C# 또는 C++ 클래스 등의 소프트웨어 소스 코드 및 수천 개의 기타 소프트웨어 언어
  7. Microsoft Word 또는 PDF 파일과 같은 비정형 텍스트 문서

메타데이터 일치 알고리즘 분류법

자동화된 메타데이터 검색에는 다음과 같은 고유한 범주가 있다.

어휘 매칭

  1. 정확한 일치 - 데이터베이스에 있는 열의 정확한 이름, XML 요소의 이름 또는 화면의 레이블을 기반으로 데이터 요소 연결이 이루어지는 경우.예를 들어 데이터베이스 열에 "PersonBirthDate"라는 이름이 있고 메타데이터 레지스트리의 데이터 요소에도 "PersonBirthDate"라는 이름이 있는 경우, 자동화된 도구는 데이터베이스의 열이 메타데이터 레지스트리의 데이터 요소와 동일한 의미(의미)를 가지고 있음을 유추할 수 있다.
  2. 동의어 일치 - 검색 도구에 단일 이름만 지정되지 않고 동의어 집합이 지정되는 경우.
  3. 패턴 일치 - 이 경우 도구에는 일치하는 어휘 패턴 세트가 제공된다.예를 들어, 도구는 "*젠더*" 또는 "*섹스*"를 검색할 수 있다.

의미 일치

의미 매칭의미론을 사용하여 대상 데이터를 등록된 데이터 요소와 연결하려고 시도한다.

  1. 의미 유사성 - 단어의 개념적 근접성의 데이터베이스에 의존하는 이 알고리즘이 사용된다.예를 들어 워드넷 시스템은 단어들이 개념적으로 서로 얼마나 가까운지 순위를 매길 수 있다.예를 들어, "Person", "Individual" 그리고 "Human"이라는 용어는 매우 유사한 개념일 수 있다.

통계 매칭

통계 매칭은 등록된 데이터 요소와 유사성을 도출하기 위해 데이터 소스 데이터 자체에 대한 통계를 사용한다.

  1. 고유값 분석 - 열의 모든 고유값을 분석함으로써 등록된 데이터 요소와 유사성을 얻을 수 있다.예를 들어, 한 열에 '남성'과 '여성'의 두 가지 고유한 값만 있는 경우, 이것은 'PersonGenderCode'로 매핑될 수 있다.
  2. 데이터 분포 분석 - 단일 열 내 값의 분포를 분석하고 이 분포를 알려진 데이터 요소와 비교함으로써 의미적 연계를 추론할 수 있다.

벤더스

메타데이터 검색 및 메타데이터 매핑 소프트웨어 및 솔루션을 제공하는 다음 공급업체(영문자 순으로 나열됨)

리서치

참고 항목

참조

인용구

  1. ^ Devarakonda, R., Palanisamy, G., Wilson, B., and Green, J. (2010), "Mercury: reusable metadata management, data discovery and access system", Earth Science Informatics, Springer Berlin / Heidelberg, 3 (1): 87–94, Bibcode:2010ESIn....3...87D, doi:10.1007/s12145-010-0050-7{{citation}}: CS1 maint : 복수이름 : 작성자 목록(링크)

원천