데이터 가상화

Data virtualization

데이터 가상화는 애플리케이션이 데이터를 원본에서 포맷하는 방식이나 물리적으로 위치하는 곳과 같은 데이터에 대한 기술적 세부사항을 요구하지 않고 데이터를 검색하고 조작할 수 있도록 하는 데이터 관리에 대한 접근방식이며,[1] 전체 데이터에 대한 단일 고객 보기(또는 다른 기업에 대한 단일 보기)를 제공할 수 있다.[2]

기존의 추출, 변환, 로드("ETL") 프로세스와는 달리 데이터는 그대로 유지되며, 데이터의 소스 시스템에 실시간 액세스가 주어진다.이것은 데이터 오류의 위험을 줄이고, 결코 사용되지 않을 수 있는 작업 부하 이동의 위험을 줄이며, 데이터에 단일 데이터 모델을 적용하려고 시도하지 않는다(이질적인 데이터의 예는 연합 데이터베이스 시스템이다).이 기술은 또한 소스 시스템에 대한 트랜잭션 데이터 업데이트의 쓰기를 지원한다.[3]소스 및 소비자 형식과 의미론의 차이를 해결하기 위해 다양한 추상화 및 변환 기법이 사용된다.이 개념과 소프트웨어는 데이터 통합의 하위 집합이며 비즈니스 인텔리전스, 서비스 지향 아키텍처 데이터 서비스, 클라우드 컴퓨팅, 엔터프라이즈 검색마스터 데이터 관리에서 일반적으로 사용된다.

데이터 가상화 및 데이터 웨어하우징

데이터 웨어하우스가 올바르게 구현될 경우 고유하고 단일 진실의 원천이 되어야 함에도 불구하고, 일부 기업 환경은 여러 데이터 웨어하우스, 데이터 마트 및/또는 데이터 호수를 포함한 상이한 데이터 소스로 채워진다.데이터 가상화는 완전히 새로운 통합 물리적 데이터 플랫폼을 만들지 않고도 데이터 웨어하우스, 데이터 마트 및 데이터 호수 간에 데이터를 효율적으로 브리지할 수 있다.기존 데이터 인프라는 핵심 기능을 계속 수행할 수 있지만 데이터 가상화 계층은 이러한 소스의 데이터를 활용하기만 하면 된다.데이터 가상화의 이러한 측면은 모든 기존 데이터 소스를 보완하고 엔터프라이즈 데이터의 가용성과 사용을 증가시킨다.

데이터 가상화는 또한 ETL 및 데이터 웨어하우징의 대안으로 고려될 수 있지만 성능 측면에서 매우 큰 데이터 웨어하우스에 권장되지는 않는다.데이터 가상화는 본질적으로 광범위한 ETL 및 데이터 스토리지로 주요 데이터 프로젝트에 착수할 필요 없이 여러 소스에서 신속하고 시기 적절한 통찰력을 제공하는 것을 목표로 한다.그러나 데이터 가상화는 데이터 웨어하우징 요구사항을 충족하도록 확장 및 조정될 수 있다.이를 위해서는 올바른 유형의 데이터 가상화, 통합 및 스토리지 전략과 인프라/성능 최적화(예: 스트리밍, 인메모리, 하이브리드 스토리지)를 통합하기 위한 계획 및 설계와 함께 데이터 스토리지 및 기록 요구사항을 이해해야 한다.

  • 영국에 본사를 둔 휴대전화 소매체인 카폰 웨어하우스의 유럽 사업장의 상표인 폰하우스는 스페인 자회사의 거래 시스템과 모바일 사업자의 웹 기반 시스템 간에 데노도의 데이터 가상화 기술을 구현했다.[3]
  • 노바티스TIBCO의 데이터 가상화 툴을 구현해 연구원들이 내부 및 외부 소스의 데이터를 검색 가능한 가상 데이터 저장소로 신속하게 결합할 수 있도록 했다.[3]
  • 스토리지에 구애받지 않는 Primary Data(기존, Hammerspace로 환생)는 직접 연결, 네트워크 연결, 프라이빗 및 퍼블릭 클라우드 스토리지 간에 마이그레이션되는 동안 애플리케이션, 서버 및 클라이언트가 데이터에 투명하게 액세스할 수 있도록 지원하는 데이터 가상화 플랫폼이었습니다.[4]
  • Linked Data는 단일 하이퍼링크 기반 DSN(Data Source Name)을 사용하여 ODBC, JDBC, OLE DB, ADO를 사용하여 다양한 백엔드 데이터 소스에 내부적으로 연결된 가상 데이터베이스 계층에 대한 연결을 제공할 수 있다.NET, SOA 스타일 서비스 및/또는 REST 패턴.
  • 데이터베이스 가상화는 유사한 가상 데이터베이스 계층에 대한 연결을 제공하기 위해 단일 ODBC 기반 DSN을 사용할 수 있다.
  • 오픈소스 가상분산파일시스템(VDFS)인 알룩시오는 버클리대학 엠엠랩에서 시작됐다.이 시스템은 다양한 파일 시스템과 객체 저장소에서 데이터를 추출한다.

기능

Data Virtualization 소프트웨어는 다음 기능의 일부 또는 전부를 제공한다.

  • 추상화 – 위치, 스토리지 구조, API, 액세스 언어 및 스토리지 기술 등 저장된 데이터의 기술적 측면을 추상화하십시오.
  • 가상화 데이터 액세스 – 서로 다른 데이터 소스에 연결하여 공통의 논리적 데이터 액세스 지점에서 액세스할 수 있도록 하십시오.
  • 변환 – 소비자가 사용할 수 있는 소스 데이터의 변환, 품질 개선, 재포맷, Aggregate.
  • 데이터 연합 – 여러 소스 시스템의 결과 세트 결합
  • 데이터 전송 – 요청 시 클라이언트 애플리케이션 또는 사용자에 의해 실행되는 보기 및/또는 데이터 서비스로 결과 집합을 게시하십시오.

데이터 가상화 소프트웨어에는 개발, 운영 및/또는 관리를 위한 기능이 포함될 수 있다.메타데이터 엔진은 도메인 내에서 사용 중인 데이터 및 메타데이터(데이터에 관한 데이터)에 대한 정보를 수집, 저장 및 분석한다.[5]

이점은 다음과 같다.

  • 데이터 오류[dubious ] 위험 감소
  • 데이터를 이동하지[dubious ] 않음으로써 시스템 워크로드 감소
  • 실시간 데이터 액세스 속도 향상
  • 중간 계층 대신 데이터 소스로 푸시된 쿼리 처리 허용
  • 대부분의 시스템을 통해 소스 시스템에 대한 액세스를 통해 최종 사용자가 가상 데이터베이스를 셀프 서비스 방식으로 생성할 수 있음
  • 정책[6] 사용을 통한 거버넌스 증대 및 리스크 감소
  • 필요한[7] 데이터 스토리지 절감

단점은 다음과 같다.

  • 운영 시스템 응답 시간에 영향을 미칠 수 있으며, 특히 예상치 못한 사용자 쿼리에 대처하기 위해 크기가 부족하거나 초기에 조정되지 않은 경우 그렇다.[8]
  • 데이터 연합 및 데이터[9] 비즈니스 이해와 결합되지 않는 한 사용자가 데이터를 해석해야 하는 이기종 데이터 모델을 적용하지 않음
  • 정의된 거버넌스 접근 방식을 통해 공유 서비스 예산 책정 문제 방지
  • 데이터의 기록 스냅샷을 기록하기에 적합하지 않음.이를[9] 위해 데이터 웨어하우스가 더 낫다.
  • "모든 애플리케이션과 사용자가 동일한 가상화 키트를 공유해야 하므로 변경 관리 비용이 엄청나다"[9]
  • 설계자는 항상 성능 고려사항을 염두에 두어야 한다.

사용을 피하십시오(https://www.denodo.com 참조):

  • 운영 데이터 시스템 액세스(성능 및 운영 무결성 문제)
  • 조직의 모든 데이터를 연합하거나 중앙 집중화하는 경우(보안 및 해킹 문제)
  • 대규모 가상 데이터 웨어하우스를 구축하는 경우(성능 문제)
  • ETL 프로세스(거버넌스 및 성능 문제)
  • 가상화할 데이터 소스가 하나 또는 두 개뿐인 경우

역사

현재 Red Hat JBoss Data Virtualization으로 알려진 엔터프라이즈 정보 통합(EII)(Matotatrix가 처음 만든 용어)과 연합 데이터베이스 시스템은 일부 벤더가 데이터 가상화의 핵심 요소인 연합 뷰에서 관계형 JOIN을 생성할 수 있는 기능을 설명하는 데 사용하는 용어다.

참고 항목

참조

  1. ^ "데이터 가상화란 무엇인가?", Margaret Rouse, TechTarget.com, 2013년 8월 19일 회수
  2. ^ 고객 데이터 간소화
  3. ^ a b c "데이터 통합을 위한 ETL 대안으로 부상 중인 데이터 가상화" 컴퓨터 위클리 Gareth Morgan, 2013년 8월 19일 회수
  4. ^ "Hammerspace - A True Global File System". Hammerspace. Retrieved 2021-10-31.
  5. ^ Kendall, Aaron. "Metadata-Driven Design: Designing a Flexible Engine for API Data Retrieval". InfoQ. Retrieved 25 April 2017.
  6. ^ "재작업 없이 프로젝트 전반에서 상이한 데이터에 신속하게 액세스" 정보, 2013년 8월 19일 검색
  7. ^ 데이터 가상화: 비즈니스 '가져가기'지원하는 6가지 모범 사례, ZDNet, 2011년 10월 27일
  8. ^ IT 전문가는 2012년 10월 11일 SearchDataManagement, Mark Brunelli, 데이터 가상화 소프트웨어의 이점 단점을 밝혀냄
  9. ^ a b c "데이터 가상화의 장단점" Loraine Lawson, BusinessEdge, 2011년 10월 7일

추가 읽기

  • 데이터 가상화:Judith R. Davis와 Robert Eve의 기존 데이터 통합을 넘어 비즈니스 민첩성 달성
  • 비즈니스 인텔리전스 시스템을 위한 데이터 가상화: 데이터 웨어하우스를 위한 데이터 통합 혁신, Rick Van Der Lans
  • 데이터 통합 청사진 및 모델링:확장 가능하고 지속 가능한 건축 기법, Anthony Giordano