데이터 프로파일링
Data profiling데이터 프로파일링은 기존 정보 소스(예: 데이터베이스 또는 파일)에서 사용 가능한 데이터를 검사하고 해당 데이터에 [1]대한 통계 또는 정보 요약을 수집하는 프로세스입니다.이러한 통계의 목적은 다음과 같습니다.
- 기존 데이터를 다른 용도로 쉽게 사용할 수 있는지 확인
- 키워드, 설명으로 태그 지정하거나 카테고리에 할당하여 데이터 검색 기능 향상
- 데이터가 특정 표준 또는[2] 패턴에 부합하는지 여부 등 데이터 품질 평가
- 신규 애플리케이션에서의 데이터 통합에 수반되는 리스크 평가(참가 과제 포함)
- 가치 패턴 및 분포, 주요 후보, 외부 키 후보, 기능 종속성 등 소스 데이터베이스의 메타데이터를 검색합니다.
- 기존의 메타데이터가 소스 데이터베이스의 실제 값을 정확하게 기술하고 있는지 여부를 평가합니다.
- 데이터 집약적인 프로젝트에서 데이터 과제를 조기에 파악하여 프로젝트의 지연을 방지합니다.프로젝트 후반에 데이터 문제를 발견하면 지연 및 비용 초과가 발생할 수 있습니다.
- 주요 데이터가 필요한 마스터 데이터 관리 또는 데이터 품질 향상을 위한 데이터 거버넌스 등의 용도로 모든 데이터를 전사적으로 파악할 수 있습니다.
서론
데이터 프로파일링은 데이터의 [3]구조, 내용, 관계 및 파생 규칙을 명확히 하기 위해 데이터 웨어하우스에서 사용할 정보를 분석하는 것을 말합니다.프로파일링은 이상 징후를 이해하고 데이터 품질을 평가할 뿐만 아니라 엔터프라이즈 [4][5]메타데이터의 검색, 등록 및 평가에도 도움이 됩니다.분석 결과는 후보 소스 시스템의 적합성을 판단하기 위해 사용되며, 일반적으로 조기 승인/불합격 결정을 위한 기초를 제공하고 향후 솔루션 [3]설계에 대한 문제를 특정하기 위해 사용됩니다.
데이터 프로파일링의 실시 방법
데이터 프로파일링에서는 최소값, 최대값, 평균값, 모드, 백분위수, 표준편차, 빈도, 변동, 카운트 및 합계 등의 집계, 데이터 프로파일링 중에 얻은 추가 메타데이터 정보(예: 데이터 유형, 길이, 이산값, 고유성, 늘값의 발생, 일반적인 문자열 p) 등의 기술통계 방법을 사용합니다.그리고 추상형 인식.[4][6][7]그런 다음 메타데이터를 사용하여 잘못된 값, 철자 오류, 결측값, 다양한 값 표현 및 중복 등의 문제를 발견할 수 있습니다.
다른 구조적 수준에 대해 다른 분석이 수행된다.예를 들어, 각 열의 서로 다른 값, 유형 및 용도의 빈도 분포를 이해하기 위해 단일 열을 개별적으로 프로파일링할 수 있습니다.임베디드 값 의존성은 교차 컬럼 분석에서 노출될 수 있습니다.마지막으로 테이블 간 [4]분석에서 엔티티 간의 외부 키 관계를 나타내는 중복되는 값 집합을 탐색할 수 있다.
일반적으로 [3][4][6][7][8][9]데이터 프로파일링에는 프로세스를 용이하게 하기 위해 특수 제작된 도구가 사용됩니다.단일 열에서 단일 테이블로, 교차 테이블 구조 프로파일링으로 넘어가면 계산이 복잡해집니다.따라서 성능은 프로파일링 [5]도구의 평가 기준이 됩니다.
데이터 프로파일링은 언제 실시됩니까?
Kimball에 [3]따르면 데이터 웨어하우스 개발 프로세스 전체에서 데이터 프로파일링이 여러 번 수행되고 강도가 달라집니다.후보 소스 시스템이 특정되고 DW/BI 비즈니스 요건이 충족되면 즉시 가벼운 프로파일링 평가를 수행해야 합니다.이 초기 분석의 목적은 적절한 세부 수준에서 정확한 데이터를 사용할 수 있는지, 그리고 그 후에 이상을 처리할 수 있는지 초기에 명확히 하는 것이다.그렇지 않으면 프로젝트가 [3]종료될 수 있습니다.
또한 데이터를 차원 모델로 변환하는 데 필요한 사항을 평가하기 위해 차원 모델링 프로세스 전에 보다 상세한 프로파일링을 수행합니다.추출할 적절한 데이터와 데이터 [3]세트에 적용할 필터를 결정하기 위해 상세한 프로파일링은 ETL 시스템 설계 프로세스로 확장됩니다.
또한 데이터 프로파일링은 스테이징, 데이터마트 등에 데이터를 로드한 후 데이터 웨어하우스 개발 프로세스에서 수행할 수 있습니다.이러한 단계에서 데이터를 실시하면, 데이터 클리닝과 변환이 올바르게 행해져 요건에 준거하고 있는 것을 확인할 수 있습니다.
이점 및 예시
데이터 프로파일링의 이점은 데이터 품질을 개선하고, 주요 프로젝트의 구현 주기를 단축하며,[9] 사용자의 데이터 이해도를 높일 수 있다는 것입니다.데이터에 내장된 비즈니스 지식을 발견하는 것 자체가 데이터 [5]프로파일링을 통해 얻을 수 있는 중요한 이점 중 하나입니다.데이터 프로파일링은 기업 [9]데이터베이스의 데이터 정확도를 향상시키는 가장 효과적인 기술 중 하나입니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Johnson, Theodore (2009). "Data Profiling". In Springer, Heidelberg (ed.). Encyclopedia of Database Systems.
- ^ Woodall, Philip; Oberhofer, Martin; Borek, Alexander (2014). "A classification of data quality assessment and improvement methods". International Journal of Information Quality. 3 (4): 298. doi:10.1504/ijiq.2014.068656.
- ^ a b c d e f Kimball, Ralph; et al. (2008). The Data Warehouse Lifecycle Toolkit (Second ed.). Wiley. pp. 376. ISBN 9780470149775.
- ^ a b c d Loshin, David (2009). Master Data Management. Morgan Kaufmann. pp. 94–96. ISBN 9780123742254.
- ^ a b c Loshin, David (2003). Business Intelligence: The Savvy Manager's Guide, Getting Onboard with Emerging IT. Morgan Kaufmann. pp. 110–111. ISBN 9781558609167.
- ^ a b Rahm, Erhard; Hai Do, Hong (December 2000). "Data Cleaning: Problems and Current Approaches". Bulletin of the Technical Committee on Data Engineering. IEEE Computer Society. 23 (4).
- ^ a b Singh, Ranjit; Singh, Kawaljeet; et al. (May 2010). "A Descriptive Classification of Causes of Data Quality Problems in Data Warehousing". IJCSI International Journal of Computer Science Issue. 2. 7 (3).
- ^ Kimball, Ralph (2004). "Kimball Design Tip #59: Surprising Value of Data Profiling" (PDF). Kimball Group.
- ^ a b c Olson, Jack E. (2003). Data Quality: The Accuracy Dimension. Morgan Kaufmann. pp. 140–142.