데이터 추출

Data extraction

데이터 추출은 추가 데이터 처리 또는 데이터 스토리지(데이터 마이그레이션)를 위해 (일반적으로 구조화되지 않았거나 구조화되지 않은) 데이터 소스에서 데이터를 검색하는 행위 또는 프로세스다. 따라서 중간 추출 시스템으로의 가져오기대개 데이터 변환과 데이터 워크플로우의 다른 단계로 내보내기 에 메타데이터를 추가하는 것이 보통이다.

통상 데이터 추출이라는 용어는 (실험) 데이터를 측정이나 기록 장치 등 1차 소스에서 컴퓨터로 처음 가져올 때 적용된다. 오늘날의 전자 장치는 보통 '원시 데이터'를 개인용 컴퓨터로 스트리밍할 수 있는 전기 커넥터(: USB)를 제공한다.

데이터 원본

전형적인 비정형 데이터 출처로는 웹 페이지, 이메일, 문서, PDF, 스캔한 텍스트, 메인프레임 보고서, 스풀 파일, 분류 등이 있으며, 이 데이터 출처는 영업 또는 마케팅 리드에 추가로 사용된다. 이러한 비정형 소스에서 데이터를 추출하는 것은 역사적으로 데이터 추출이 물리적 하드웨어 형식의 변화를 다루어야 했듯이, 현재 데이터 추출의 대부분은 이러한 비정형 데이터 소스와 다른 소프트웨어 형식에서 데이터를 추출하는 것을 다루어야 하는 상당한 기술적 난제로 성장했다. 웹에서 데이터를 추출하는[1] 이러한 성장 과정을 "웹 데이터 추출" 또는 "웹 스크래핑"이라고 한다.

당당한 구조

구조화되지 않은 데이터에 구조를 추가하는 행위는 여러 가지 형태를 취한다.

  • 보고서의 기록과 헤더 및 바닥글의 관련 데이터 등을 식별하기 위해 정규식과 같은 텍스트 패턴 일치를 사용하는 경우
  • 표 기반 접근방식을 사용하여 제한된 도메인 내에서 공통 섹션을 식별하는 경우(예: 이메일 이력서, 식별 기술, 이전 업무 경험, 공통적으로 사용되는 표제(이러한 내용은 언어마다 다름), 예: 교육/자격/강좌에서 교육이 발견될 수 있다.
  • 텍스트 분석을 사용하여 텍스트를 이해하고 다른 정보에 연결 시도

참고 항목

참조