데이터 프로파일링

데이터 프로파일링은 기존 정보 소스(예: 데이터베이스 또는 파일)에서 사용 가능한 데이터를 검사하고 해당 데이터에 ^[1]대한 통계 또는 정보 요약을 수집하는 프로세스입니다.이러한 통계의 목적은 다음과 같습니다.

기존 데이터를 다른 용도로 쉽게 사용할 수 있는지 확인
키워드, 설명으로 태그 지정하거나 카테고리에 할당하여 데이터 검색 기능 향상
데이터가 특정 표준 또는^[2] 패턴에 부합하는지 여부 등 데이터 품질 평가
신규 애플리케이션에서의 데이터 통합에 수반되는 리스크 평가(참가 과제 포함)
가치 패턴 및 분포, 주요 후보, 외부 키 후보, 기능 종속성 등 소스 데이터베이스의 메타데이터를 검색합니다.
기존의 메타데이터가 소스 데이터베이스의 실제 값을 정확하게 기술하고 있는지 여부를 평가합니다.
데이터 집약적인 프로젝트에서 데이터 과제를 조기에 파악하여 프로젝트의 지연을 방지합니다.프로젝트 후반에 데이터 문제를 발견하면 지연 및 비용 초과가 발생할 수 있습니다.
주요 데이터가 필요한 마스터 데이터 관리 또는 데이터 품질 향상을 위한 데이터 거버넌스 등의 용도로 모든 데이터를 전사적으로 파악할 수 있습니다.

서론

데이터 프로파일링은 데이터의 ^[3]구조, 내용, 관계 및 파생 규칙을 명확히 하기 위해 데이터 웨어하우스에서 사용할 정보를 분석하는 것을 말합니다.프로파일링은 이상 징후를 이해하고 데이터 품질을 평가할 뿐만 아니라 엔터프라이즈 ^[4]^[5]메타데이터의 검색, 등록 및 평가에도 도움이 됩니다.분석 결과는 후보 소스 시스템의 적합성을 판단하기 위해 사용되며, 일반적으로 조기 승인/불합격 결정을 위한 기초를 제공하고 향후 솔루션 ^[3]설계에 대한 문제를 특정하기 위해 사용됩니다.

데이터 프로파일링의 실시 방법

데이터 프로파일링에서는 최소값, 최대값, 평균값, 모드, 백분위수, 표준편차, 빈도, 변동, 카운트 및 합계 등의 집계, 데이터 프로파일링 중에 얻은 추가 메타데이터 정보(예: 데이터 유형, 길이, 이산값, 고유성, 늘값의 발생, 일반적인 문자열 p) 등의 기술통계 방법을 사용합니다.그리고 추상형 인식.^[4]^[6]^[7]그런 다음 메타데이터를 사용하여 잘못된 값, 철자 오류, 결측값, 다양한 값 표현 및 중복 등의 문제를 발견할 수 있습니다.

다른 구조적 수준에 대해 다른 분석이 수행된다.예를 들어, 각 열의 서로 다른 값, 유형 및 용도의 빈도 분포를 이해하기 위해 단일 열을 개별적으로 프로파일링할 수 있습니다.임베디드 값 의존성은 교차 컬럼 분석에서 노출될 수 있습니다.마지막으로 테이블 간 ^[4]분석에서 엔티티 간의 외부 키 관계를 나타내는 중복되는 값 집합을 탐색할 수 있다.

일반적으로 ^[3]^[4]^[6]^[7]^[8]^[9]데이터 프로파일링에는 프로세스를 용이하게 하기 위해 특수 제작된 도구가 사용됩니다.단일 열에서 단일 테이블로, 교차 테이블 구조 프로파일링으로 넘어가면 계산이 복잡해집니다.따라서 성능은 프로파일링 ^[5]도구의 평가 기준이 됩니다.

데이터 프로파일링은 언제 실시됩니까?

Kimball에 ^[3]따르면 데이터 웨어하우스 개발 프로세스 전체에서 데이터 프로파일링이 여러 번 수행되고 강도가 달라집니다.후보 소스 시스템이 특정되고 DW/BI 비즈니스 요건이 충족되면 즉시 가벼운 프로파일링 평가를 수행해야 합니다.이 초기 분석의 목적은 적절한 세부 수준에서 정확한 데이터를 사용할 수 있는지, 그리고 그 후에 이상을 처리할 수 있는지 초기에 명확히 하는 것이다.그렇지 않으면 프로젝트가 ^[3]종료될 수 있습니다.

또한 데이터를 차원 모델로 변환하는 데 필요한 사항을 평가하기 위해 차원 모델링 프로세스 전에 보다 상세한 프로파일링을 수행합니다.추출할 적절한 데이터와 데이터 ^[3]세트에 적용할 필터를 결정하기 위해 상세한 프로파일링은 ETL 시스템 설계 프로세스로 확장됩니다.

또한 데이터 프로파일링은 스테이징, 데이터마트 등에 데이터를 로드한 후 데이터 웨어하우스 개발 프로세스에서 수행할 수 있습니다.이러한 단계에서 데이터를 실시하면, 데이터 클리닝과 변환이 올바르게 행해져 요건에 준거하고 있는 것을 확인할 수 있습니다.

이점 및 예시

데이터 프로파일링의 이점은 데이터 품질을 개선하고, 주요 프로젝트의 구현 주기를 단축하며,^[9] 사용자의 데이터 이해도를 높일 수 있다는 것입니다.데이터에 내장된 비즈니스 지식을 발견하는 것 자체가 데이터 ^[5]프로파일링을 통해 얻을 수 있는 중요한 이점 중 하나입니다.데이터 프로파일링은 기업 ^[9]데이터베이스의 데이터 정확도를 향상시키는 가장 효과적인 기술 중 하나입니다.

「」를 참조해 주세요.

레퍼런스

^ Johnson, Theodore (2009). "Data Profiling". In Springer, Heidelberg (ed.). Encyclopedia of Database Systems.
^ Woodall, Philip; Oberhofer, Martin; Borek, Alexander (2014). "A classification of data quality assessment and improvement methods". International Journal of Information Quality. 3 (4): 298. doi:10.1504/ijiq.2014.068656.
^ ^a ^b ^c ^d ^e ^f Kimball, Ralph; et al. (2008). The Data Warehouse Lifecycle Toolkit (Second ed.). Wiley. pp. 376. ISBN 9780470149775.
^ ^a ^b ^c ^d Loshin, David (2009). Master Data Management. Morgan Kaufmann. pp. 94–96. ISBN 9780123742254.
^ ^a ^b ^c Loshin, David (2003). Business Intelligence: The Savvy Manager's Guide, Getting Onboard with Emerging IT. Morgan Kaufmann. pp. 110–111. ISBN 9781558609167.
^ ^a ^b Rahm, Erhard; Hai Do, Hong (December 2000). "Data Cleaning: Problems and Current Approaches". Bulletin of the Technical Committee on Data Engineering. IEEE Computer Society. 23 (4).
^ ^a ^b Singh, Ranjit; Singh, Kawaljeet; et al. (May 2010). "A Descriptive Classification of Causes of Data Quality Problems in Data Warehousing". IJCSI International Journal of Computer Science Issue. 2. 7 (3).
^ Kimball, Ralph (2004). "Kimball Design Tip #59: Surprising Value of Data Profiling" (PDF). Kimball Group.
^ ^a ^b ^c Olson, Jack E. (2003). Data Quality: The Accuracy Dimension. Morgan Kaufmann. pp. 140–142.

[Johnson2009-1] Johnson, Theodore (2009). "Data Profiling". In Springer, Heidelberg (ed.). Encyclopedia of Database Systems.

[2] Woodall, Philip; Oberhofer, Martin; Borek, Alexander (2014). "A classification of data quality assessment and improvement methods". International Journal of Information Quality. 3 (4): 298. doi:10.1504/ijiq.2014.068656.

[Kimball2008-3] ^ ^a ^b ^c ^d ^e ^f Kimball, Ralph; et al. (2008). The Data Warehouse Lifecycle Toolkit (Second ed.). Wiley. pp. 376. ISBN 9780470149775.

[Loshin2009-4] Loshin, David (2009). Master Data Management. Morgan Kaufmann. pp. 94–96. ISBN 9780123742254.

[Loshin2003-5] Loshin, David (2003). Business Intelligence: The Savvy Manager's Guide, Getting Onboard with Emerging IT. Morgan Kaufmann. pp. 110–111. ISBN 9781558609167.

[Rahm2000-6] Rahm, Erhard; Hai Do, Hong (December 2000). "Data Cleaning: Problems and Current Approaches". Bulletin of the Technical Committee on Data Engineering. IEEE Computer Society. 23 (4).

[Singh2010-7] Singh, Ranjit; Singh, Kawaljeet; et al. (May 2010). "A Descriptive Classification of Causes of Data Quality Problems in Data Warehousing". IJCSI International Journal of Computer Science Issue. 2. 7 (3).

[Kimball2004-8] Kimball, Ralph (2004). "Kimball Design Tip #59: Surprising Value of Data Profiling" (PDF). Kimball Group.

[Olson2003-9] Olson, Jack E. (2003). Data Quality: The Accuracy Dimension. Morgan Kaufmann. pp. 140–142.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Search

데이터 프로파일링

네임스페이스

더

목차

서론

데이터 프로파일링의 실시 방법

데이터 프로파일링은 언제 실시됩니까?

이점 및 예시

「」를 참조해 주세요.

레퍼런스

Search

데이터 프로파일링

서론

데이터 프로파일링의 실시 방법

데이터 프로파일링은 언제 실시됩니까?

이점 및 예시

「 」를 참조해 주세요.

레퍼런스

「」를 참조해 주세요.