상관 데이터베이스

Correlation database

상관 데이터베이스는 데이터 모델에 독립적이며 분석 시스템 환경에서 계획되지 않은 임시 쿼리를 효율적으로 처리하도록 설계된 DBMS(데이터베이스 관리 시스템)이다.

레코드 기반 스토리지 접근법을 사용하는 행 지향적 관계형 데이터베이스 관리 시스템이나 컬럼 기반 스토리지 방식을 사용하는 컬럼 지향 데이터베이스와는 달리, 상관 데이터베이스는 각각의 고유한 데이터 값을 한 번만 저장하고 자동 생성 인덱싱 시스템이 con을 유지하는 가치 기반 스토리지(VBS) 아키텍처를 사용한다.모든 값에 대한 [1]텍스트

구조

상관관계 DBMS는 각각의 고유한 데이터 값을 한 번만 저장하기 때문에 데이터 압축 기법을 사용하지 않고 물리적 데이터베이스 크기는 관계형 또는 열 지향형 데이터베이스보다 상당히 작다. 약 30GB 이상에서는 상관 관계 DBMS가 원시 데이터 세트보다 작아질 수 있다.[citation needed]

CDBMS에서 사용하는 VBS 모델은 저장 및 관리되는 3가지 기본 물리적 개체 세트로 구성된다.

  • 데이터 사전(필수)
  • 인덱싱 및 링크 데이터 세트(프로토콜 메타데이터)
  • 저장된 정보를 구성하는 실제 데이터 값

VBS 모델에서 원시 데이터의 각 고유 값은 한 번만 저장되므로 데이터는 항상 고유 값 수준에서 정규화된다.[2] 따라서 논리 스키마에서 데이터 세트를 정규화할 필요가 없다.

데이터 값은 데이터 유형(한 세트에 있는 모든 정수, 다른 세트에 있는 문자 등)을 기준으로 정렬된 집합에 함께 저장된다. 이것은 값에 접근하는 데이터 처리 프로세스를 최적화한다.

데이터 값 저장소는 일반적인 데이터 값 외에도 테이블 간의 관계를 저장하기 위한 특별한 유형의 데이터를 포함하고 있다. 이는 RDBMS 구조에서 외래 키와 유사하게 기능하지만 CDBMS를 사용하면 사전에 의해 관계를 알 수 있고 데이터 값으로 저장되어 테이블 간의 항법이 완전히 자동화된다.

데이터 사전에는 전형적인 메타데이터와 논리 스키마에서 발생하는 값의 표, 열 및 발생에 대한 추가 통계 데이터가 포함되어 있다. 또한 논리 테이블 간의 관계에 대한 정보도 유지한다. 인덱스와 링크 저장소는 데이터 저장소의 순서에서 레코드 내용을 찾는 데 사용되는 모든 데이터를 포함한다.

RAM 기반 스토리지 시스템은 아니지만 CDBMS는 운영체제가 제공할 수 있는 만큼의 RAM을 사용하도록 설계되었다. 대형 데이터베이스의 경우 RAM을 추가하면 성능이 향상된다. 일반적으로 4GB RAM은 약 1억개의 레코드에 최적화된 액세스 시간을 제공한다. 8GB RAM은 그 크기의 10배까지 데이터베이스에 적합하다.[3] 데이터베이스가 커질수록 증가하는 RAM 소비량이 감소하기 때문에, 16GB의 RAM은 일반적으로 약 200억 개의 레코드를 포함하는 데이터베이스를 지원할 것이다.

DBMS 스토리지 구조 비교

아래 제시된 샘플 레코드는 관계형, 컬럼 지향형 및 상관관계 데이터베이스에 사용되는 스토리지 구조의 물리적 차이를 나타낸다.

고객 ID 이름 도시
12222 ABC사 미니애폴리스 MN
19434 A1 Mfg 둘루트 MN
20523 제이앤제이 주식회사 세인트폴 MN

RDB에 저장MS.

RDBMS에서 사용되는 기록 기반 구조는 요소들을 서로 인접한 동일한 행에 저장한다. 군집화된 인덱싱과 같은 변동은 행의 순서를 변경할 수 있지만 모든 행, 열 및 값은 표와 같이 저장된다. 위의 표는 다음과 같이 저장될 수 있다.

      12222,미니애폴리스에 있는 ABC 사MN;19434,A1 Mfg,Duluth,MN;20523,J&J 주식회사, St. 폴, MN 

열 지향 데이터베이스의 스토리지

기둥 기반 구조에서는 같은 기둥의 요소가 서로 인접해 저장된다. 단일 열 내의 연속 복제는 자동으로 제거하거나 효율적으로 압축할 수 있다.

      12222,19434,20523;ABC, A1 Mfg, J&J Inc;Minneapolis, Duluth, St.폴;MN,MN,MN 

CDB 저장MS.

CDBMS에 사용되는 VBS 구조에서는 발생 횟수나 원본 데이터 세트의 위치에 관계없이 각각의 고유 값이 한 번 저장되고 추상적(숫자) 식별자가 주어진다. 그런 다음 이러한 논리적 식별자를 참조하여 원래 데이터 집합을 생성한다. 상관 지수는 아래의 저장소와 유사할 수 있다. 위의 데이터에서 여러 번 발생하는 "MN" 값은 한 번만 포함된다는 점에 유의하십시오. 반복 데이터의 양이 증가함에 따라 이 편익은 배가된다.

      1:12222,2:19434,3:20523,4:ABC 주식회사, 5:A1 Mfg,6:J&J, 7:미니애폴리스, 8:둘루트, 9:St.폴, 10:MN 

위의 예시 표에 수록된 기록은 다음과 같이 표현할 수 있다.

      11:[1,4,7,10],12:[2,5,8,10],13:[3,6,9,10] 

이 상관관계 과정은 데이터베이스 정상화의 한 형태다. RDBMS 내에서 컬럼 지향 스토리지의 이점을 얻을 수 있듯이, 데이터베이스 정규화를 통해 상관관계 데이터베이스의 이점을 얻을 수도 있다. 단, 기존의 RDBMS에서는 이 표준화 프로세스에서 테이블 구성, 저장 프로시저, SQL 문 등의 형태로 작업이 필요하다. 우리는 데이터베이스가 이러한 추가 구성 없이 완전히 정규화된 스키마를 자연스럽게 표현할 때 상관관계 데이터베이스라고 말한다. 결과적으로, 상관 데이터베이스는 완전히 정규화된 구조에 대해 더 집중적인 최적화를 가질 수 있다.

이 상관관계 과정은 텍스트 검색 중심의 반전 지수에서 발생하는 것과 유사하다.

장단점

분석 데이터 웨어하우스 애플리케이션의 경우, CDBMS는 대체 데이터베이스 구조에 비해 몇 가지 장점이 있다. 첫째, 데이터베이스 엔진 자체는 모든 데이터를 인덱싱하고 로딩하는 동안 자체 스키마를 즉석에서 자동 생성하기 때문에 신속하게 구현할 수 있으며 업데이트도 용이하다. 물리적 사전 설계가 필요하지 않으며 데이터베이스를 재구성할 필요가 없다. 둘째, CDBMS는 SQL에서 모델링이 불가능하지 않다면 관련 쿼리("x와 관련된 모든 것을 표시")와 같은 복잡한 쿼리의 생성과 실행을 가능하게 한다. CDBMS의 주요 장점은 데이터 웨어하우스 설계 단계에서는 예상되지 않는 임시 쿼리 실행에 최적화되어 있다는 것이다.[4]

CDBMS는 데이터베이스 대안에 비해 두 가지 단점이 있다. 다양한 애플리케이션에서 사용할 수 있는 관계형 데이터베이스와 달리, 상관관계 데이터베이스는 분석 애플리케이션을 위해 특별히 설계되었으며 트랜잭션 관리 기능을 제공하지 않으며, 트랜잭션 처리에 사용할 수 없다. 둘째, 부하 프로세스 중에 모든 데이터를 지수화하기 때문에 CDBMS의 물리적 부하 속도는 관계 구조나 기둥 지향 구조보다 느리다. 단, 논리적인 사전 설계나 물리적 사전 설계의 필요성을 없애기 때문에 CDBMS의 전체적인 "사용 시간"은 대체 구조와 비슷하거나 다소 빠르다.

참조

  1. ^ 라브, 데이비드 M."분석적 데이터베이스 옵션". 정보 관리 잡지 2008년 7월 1일.
  2. ^ 라덴, 닐."Databases ALIVE". 인텔리전트 엔터프라이즈 2008년 4월 18일.
  3. ^ 파월, 제임스 E."라이트의 상관 관계 데이터베이스 가속화, BI 쿼리 확장" 엔터프라이즈 시스템 저널 2008년 4월 9일.
  4. ^ 스웨이어, 스티븐"심층: 애드혹 쿼리 성능 차이를 영구적으로 닫는" 엔터프라이즈 시스템 저널 2008년 7월 9일.