데이터 프로파일링

Data profiling

데이터 프로파일링은 기존 정보 소스(예: 데이터베이스 또는 파일)에서 사용 가능한 데이터를 검사하고 해당 데이터에 [1]대한 통계 또는 정보 요약을 수집하는 프로세스입니다.이러한 통계의 목적은 다음과 같습니다.

  1. 기존 데이터를 다른 용도로 쉽게 사용할 수 있는지 확인
  2. 키워드, 설명으로 태그 지정하거나 카테고리에 할당하여 데이터 검색 기능 향상
  3. 데이터가 특정 표준 또는[2] 패턴에 부합하는지 여부 등 데이터 품질 평가
  4. 신규 애플리케이션에서의 데이터 통합에 수반되는 리스크 평가(참가 과제 포함)
  5. 가치 패턴 및 분포, 주요 후보, 외부후보, 기능 종속성 등 소스 데이터베이스의 메타데이터를 검색합니다.
  6. 기존의 메타데이터가 소스 데이터베이스의 실제 값을 정확하게 기술하고 있는지 여부를 평가합니다.
  7. 데이터 집약적인 프로젝트에서 데이터 과제를 조기에 파악하여 프로젝트의 지연을 방지합니다.프로젝트 후반에 데이터 문제를 발견하면 지연 및 비용 초과가 발생할 수 있습니다.
  8. 주요 데이터가 필요한 마스터 데이터 관리 또는 데이터 품질 향상을 위한 데이터 거버넌스 등의 용도로 모든 데이터를 전사적으로 파악할 수 있습니다.

서론

데이터 프로파일링은 데이터의 [3]구조, 내용, 관계 및 파생 규칙을 명확히 하기 위해 데이터 웨어하우스에서 사용할 정보를 분석하는 것을 말합니다.프로파일링은 이상 징후를 이해하고 데이터 품질을 평가할 뿐만 아니라 엔터프라이즈 [4][5]메타데이터의 검색, 등록 및 평가에도 도움이 됩니다.분석 결과는 후보 소스 시스템의 적합성을 판단하기 위해 사용되며, 일반적으로 조기 승인/불합격 결정을 위한 기초를 제공하고 향후 솔루션 [3]설계에 대한 문제를 특정하기 위해 사용됩니다.

데이터 프로파일링의 실시 방법

데이터 프로파일링에서는 최소값, 최대값, 평균값, 모드, 백분위수, 표준편차, 빈도, 변동, 카운트 및 합계 등의 집계, 데이터 프로파일링 중에 얻은 추가 메타데이터 정보(예: 데이터 유형, 길이, 이산값, 고유성, 늘값의 발생, 일반적인 문자열 p) 등의 기술통계 방법을 사용합니다.그리고 추상형 인식.[4][6][7]그런 다음 메타데이터를 사용하여 잘못된 값, 철자 오류, 결측값, 다양한 값 표현 및 중복 등의 문제를 발견할 수 있습니다.

다른 구조적 수준에 대해 다른 분석이 수행된다.예를 들어, 각 열의 서로 다른 값, 유형 및 용도의 빈도 분포를 이해하기 위해 단일 열을 개별적으로 프로파일링할 수 있습니다.임베디드 값 의존성은 교차 컬럼 분석에서 노출될 수 있습니다.마지막으로 테이블 간 [4]분석에서 엔티티 간의 외부 키 관계를 나타내는 중복되는 값 집합을 탐색할 수 있다.

일반적으로 [3][4][6][7][8][9]데이터 프로파일링에는 프로세스를 용이하게 하기 위해 특수 제작된 도구가 사용됩니다.단일 열에서 단일 테이블로, 교차 테이블 구조 프로파일링으로 넘어가면 계산이 복잡해집니다.따라서 성능은 프로파일링 [5]도구의 평가 기준이 됩니다.

데이터 프로파일링은 언제 실시됩니까?

Kimball에 [3]따르면 데이터 웨어하우스 개발 프로세스 전체에서 데이터 프로파일링이 여러 번 수행되고 강도가 달라집니다.후보 소스 시스템이 특정되고 DW/BI 비즈니스 요건이 충족되면 즉시 가벼운 프로파일링 평가를 수행해야 합니다.이 초기 분석의 목적은 적절한 세부 수준에서 정확한 데이터를 사용할 수 있는지, 그리고 그 후에 이상을 처리할 수 있는지 초기에 명확히 하는 것이다.그렇지 않으면 프로젝트가 [3]종료될 수 있습니다.

또한 데이터를 차원 모델로 변환하는 데 필요한 사항을 평가하기 위해 차원 모델링 프로세스 전에 보다 상세한 프로파일링을 수행합니다.추출할 적절한 데이터와 데이터 [3]세트에 적용할 필터를 결정하기 위해 상세한 프로파일링은 ETL 시스템 설계 프로세스로 확장됩니다.

또한 데이터 프로파일링은 스테이징, 데이터마트 등에 데이터를 로드한 후 데이터 웨어하우스 개발 프로세스에서 수행할 수 있습니다.이러한 단계에서 데이터를 실시하면, 데이터 클리닝과 변환이 올바르게 행해져 요건에 준거하고 있는 것을 확인할 수 있습니다.

이점 및 예시

데이터 프로파일링의 이점은 데이터 품질을 개선하고, 주요 프로젝트의 구현 주기를 단축하며,[9] 사용자의 데이터 이해도를 높일 수 있다는 것입니다.데이터에 내장된 비즈니스 지식을 발견하는 것 자체가 데이터 [5]프로파일링을 통해 얻을 수 있는 중요한 이점 중 하나입니다.데이터 프로파일링은 기업 [9]데이터베이스의 데이터 정확도를 향상시키는 가장 효과적인 기술 중 하나입니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Johnson, Theodore (2009). "Data Profiling". In Springer, Heidelberg (ed.). Encyclopedia of Database Systems.
  2. ^ Woodall, Philip; Oberhofer, Martin; Borek, Alexander (2014). "A classification of data quality assessment and improvement methods". International Journal of Information Quality. 3 (4): 298. doi:10.1504/ijiq.2014.068656.
  3. ^ a b c d e f Kimball, Ralph; et al. (2008). The Data Warehouse Lifecycle Toolkit (Second ed.). Wiley. pp. 376. ISBN 9780470149775.
  4. ^ a b c d Loshin, David (2009). Master Data Management. Morgan Kaufmann. pp. 94–96. ISBN 9780123742254.
  5. ^ a b c Loshin, David (2003). Business Intelligence: The Savvy Manager's Guide, Getting Onboard with Emerging IT. Morgan Kaufmann. pp. 110–111. ISBN 9781558609167.
  6. ^ a b Rahm, Erhard; Hai Do, Hong (December 2000). "Data Cleaning: Problems and Current Approaches". Bulletin of the Technical Committee on Data Engineering. IEEE Computer Society. 23 (4).
  7. ^ a b Singh, Ranjit; Singh, Kawaljeet; et al. (May 2010). "A Descriptive Classification of Causes of Data Quality Problems in Data Warehousing". IJCSI International Journal of Computer Science Issue. 2. 7 (3).
  8. ^ Kimball, Ralph (2004). "Kimball Design Tip #59: Surprising Value of Data Profiling" (PDF). Kimball Group.
  9. ^ a b c Olson, Jack E. (2003). Data Quality: The Accuracy Dimension. Morgan Kaufmann. pp. 140–142.