데이터 통합

데이터 통합에는 서로 다른 소스에 있는 데이터를 결합하여 사용자에게 ^[1]통합된 뷰를 제공하는 작업이 포함됩니다.이 프로세스는 상업용 도메인(예: 유사한 두 회사가 데이터베이스를 통합해야 하는 경우)과 과학용 도메인(예를 들어 서로 다른 생물 정보학 저장소의 연구 결과 결합)을 모두 포함하는 다양한 상황에서 중요해진다.데이터 통합은 볼륨(즉, 빅 데이터)^[2]이 증가하고 기존 데이터를 공유할 필요성이 증가함에 따라 빈도가 높아집니다.그것은 광범위한 이론 연구의 초점이 되었고, 수많은 미해결 문제들이 여전히 풀리지 않은 채로 남아 있다.데이터 통합은 내부 사용자 및 외부 사용자 간의 협업을 촉진합니다.통합되는 데이터는 이기종 데이터베이스 시스템에서 수신하여 클라이언트의 ^[3]파일 네트워크 전체에서 동기 데이터를 제공하는 단일 일관성 있는 데이터스토어로 변환해야 합니다.데이터 통합은 비즈니스 정보에 유용한 기존 데이터베이스의 ^[4]정보를 분석 및 추출할 때 일반적으로 데이터 마이닝에서 사용됩니다.

역사

그림 1: 데이터 웨어하우스의 간단한 개요.ETL(Extract, Transform, Load) 프로세스는 소스 데이터베이스에서 정보를 추출하여 변환한 후 데이터 웨어하우스에 로드합니다.

그림 2: 데이터 통합 솔루션의 간단한 도식시스템 설계자는 사용자가 쿼리를 실행할 수 있는 매개 스키마를 구성합니다.필요한 경우 가상 데이터베이스는 래퍼 코드를 통해 소스 데이터베이스와 통신합니다.

이기종 데이터 소스를 결합하는 문제는 종종 단일 쿼리 인터페이스에서 정보 사일로라고 불립니다.1980년대 초에 컴퓨터 과학자들은 이기종 데이터베이스의 ^[5]상호 운용성을 위한 시스템을 설계하기 시작했습니다.구조화된 메타데이터를 기반으로 한 최초의 데이터 통합 시스템은 1991년 미네소타 대학에서 IPUMS(Integrated Public Use Microdata Series)를 위해 설계되었습니다. IPUMS는 서로 다른 소스의 데이터를 고유한 뷰 스키마로 추출, 변환 및 로드하는 데이터 웨어하우징 방식을 사용했습니다.멀티패터블^[6]IPUMS는 수천 개의 모집단 데이터베이스를 상호 운용 가능하게 함으로써 대규모 데이터 통합의 실현 가능성을 입증했습니다.데이터 웨어하우스 접근 방식은 데이터가 이미 단일 쿼리 가능한 저장소에서 물리적으로 조정되어 있기 때문에 일반적으로 ^[7]쿼리 해결에 거의 시간이 걸리지 않기 때문에 긴밀하게 결합된 아키텍처를 제공합니다.

데이터 웨어하우스 접근방식은 자주 업데이트되는 데이터 세트에 대해서는 실현 가능성이 낮기 때문에 동기화를 위해 ETL(Extraction, Transform, Load) 프로세스를 지속적으로 재실행해야 합니다.요약 데이터 소스에 대한 쿼리 인터페이스만 있고 전체 데이터에 액세스할 수 없는 경우에도 데이터 웨어하우스를 구축하는 데 어려움이 발생합니다.이 문제는 여행이나 기밀 광고 웹 애플리케이션과 같은 몇 가지 상용 쿼리 서비스를 통합할 때 자주 발생합니다.

2009년 현재^[update] 데이터 통합의 추세는 데이터의 느슨한^[8] 결합을 선호하며, 정보를 원래 데이터베이스에서 직접 검색할 수 있는 스키마(그림 2 참조)를 통해 실시간 데이터에 액세스할 수 있는 통합 쿼리 인터페이스를 제공합니다.이는 그 시대에 유행했던 SOA 접근 방식과 일치합니다.이 접근법은 매개 스키마와 원본 소스 스키마 간의 매핑 및 원래 데이터베이스의 스키마와 일치하도록 쿼리를 분해된 쿼리로 변환하는 데 의존합니다.이러한 매핑은 매개 스키마의 엔티티에서 원래 소스의 엔티티로의 매핑("Global-as-View"(^[9]GAV) 방식) 또는 원래 소스의 엔티티에서 매개 스키마로의 매핑("Local-as-View"(^[10]LAV) 방식)이라는 두 가지 방법으로 지정할 수 있습니다.후자의 접근방식에서는 조정된 스키마에 대한 쿼리를 해결하려면 보다 정교한 추론이 필요하지만 (안정적인) 조정된 스키마에 새로운 데이터 소스를 쉽게 추가할 수 있습니다.

2010년 현재^[update] 데이터 통합 연구의 일부는 의미 통합 문제에 관한 것이다.이 문제는 통합 아키텍처의 구조가 아니라 이종 데이터 소스 간의 의미 충돌을 해결하는 방법을 다룬다.예를 들어, 두 회사가 데이터베이스를 병합하는 경우, "수익"과 같은 각 스키마의 특정 개념과 정의는 필연적으로 다른 의미를 가집니다.한 데이터베이스에서는 수익(변동 소수점 수)을 나타내는 반면 다른 데이터베이스에서는 매출(정수)을 나타내는 경우가 있습니다.이러한 문제의 해결을 위한 일반적인 전략은 스키마 용어를 명시적으로 정의하여 의미 충돌을 해결하는 데 도움이 되는 온톨로지의 사용을 포함한다.이 접근 방식은 온톨로지 기반 데이터 통합을 나타냅니다.한편, 서로 다른 생물 정보학 저장소의 연구 결과를 결합하는 문제는 양의 예측 값과 같은 단일 기준에 대해 서로 다른 데이터 출처에서 계산한 유사성의 벤치 마킹을 요구한다.이를 통해 데이터 소스를 직접 비교할 수 있으며 실험의 특성이 ^[11]다른 경우에도 통합할 수 있습니다.

2011년 현재^[update], 현재의 데이터 모델링 방식은 서로 다른 데이터 및 정보 사일로 형태로 모든 데이터 아키텍처에 데이터 격리를 제공하는 것으로 확인되었습니다.이러한 데이터 격리는 의도하지 않은 데이터 모델링 방법론의 아티팩트이며, 이로 인해 서로 다른 데이터 모델이 개발됩니다.서로 다른 데이터 모델은 데이터베이스로 인스턴스화되면 서로 다른 데이터베이스를 형성합니다.향상된 데이터 모델 방법론은 데이터 격리 아티팩트를 제거하고 통합 데이터 ^[12]모델의 개발을 촉진하기 위해 개발되었습니다.하나의 확장 데이터 모델링 방법은 표준화된 데이터 엔티티 형태로 구조 메타데이터를 추가하여 데이터 모델을 재캐스팅합니다.여러 데이터 모델을 재캐스팅한 결과, 재캐스트 데이터 모델 집합은 이제 이러한 데이터 모델에 공통적인 구조 메타데이터와 관련된 하나 이상의 공통성 관계를 공유합니다.공통 관계는 여러 데이터 모델의 표준화된 데이터 엔티티와 관련된 피어 투 피어 관계 유형입니다.동일한 표준 데이터 엔티티를 포함하는 여러 데이터 모델이 동일한 공통 관계에 참여할 수 있습니다.통합 데이터 모델이 데이터베이스로 인스턴스화되고 공통 마스터 데이터 집합에서 올바르게 채워지면 이러한 데이터베이스가 통합됩니다.

2011년 이후 데이터 허브 접근 방식은 완전히 구조화된(일반적으로 관계형) 엔터프라이즈 데이터 웨어하우스보다 더 큰 관심을 끌고 있습니다.2013년 이후 데이터 레이크 접근 방식은 데이터 허브 수준으로 향상되었습니다.(Google Trends에서 인기 있는 세 가지 검색어를 모두 참조하십시오.)^[13]이러한 접근 방식은 비정형 또는 다양한 데이터를 하나의 위치에 결합하지만 허브의 모든 데이터를 구조화하고 정의하기 위해 마스터 관계 스키마(종종 복잡한)가 반드시 필요한 것은 아닙니다.

데이터 통합은 시장 조사에 사용되는 데이터 수집과 관련하여 비즈니스에 큰 역할을 합니다.소비자로부터 취득한 미가공 데이터를 일관성 있는 데이터로 변환하는 것은 기업이 다음에 ^[14]어떤 조치를 취해야 하는지를 고려할 때 시도해야 할 사항입니다.조직은 데이터베이스에서 정보 및 패턴을 수집하기 위해 데이터 마이닝을 더 자주 사용하고 있으며, 이 프로세스를 통해 비즈니스 성과를 높이고 경제 분석을 보다 효율적으로 수행할 수 있는 새로운 비즈니스 전략을 개발할 수 있습니다.수집한 대량의 데이터를 시스템에 저장하기 위해 컴파일하는 것은 비즈니스 인텔리전스에 적합한 데이터 통합의 한 형태입니다.이것에 의해,^[15] 고객의 성공 가능성이 향상됩니다.

예

사용자가 도시에 대한 다양한 정보(범죄 통계, 날씨, 호텔, 인구 통계 등)를 조회할 수 있는 웹 애플리케이션을 생각해 보십시오.기존에는 정보를 단일 스키마와 함께 단일 데이터베이스에 저장해야 했습니다.그러나 단일 기업이라면 이 광범위한 정보를 수집하기가 다소 어렵고 비용이 많이 든다는 것을 알 수 있습니다.데이터를 수집하기 위한 자원이 존재하더라도 기존 범죄 데이터베이스, 기상 웹사이트 및 인구 조사 데이터에 데이터가 중복될 수 있습니다.

데이터 통합 솔루션은 이러한 외부 리소스를 가상 매개 스키마에 대한 구체화된 뷰로 간주하여 "가상 데이터 통합"을 실현함으로써 이 문제를 해결할 수 있습니다.즉, 애플리케이션 개발자는 사용자가 원하는 답변을 가장 잘 모델링하기 위해 가상 스키마(중재 스키마)를 구축합니다.다음으로 범죄 데이터베이스 및 기상 웹사이트와 같은 데이터 소스별로 "랩퍼" 또는 어댑터를 설계합니다.이러한 어댑터는 로컬 쿼리 결과(각 웹 사이트 또는 데이터베이스에서 반환된 결과)를 데이터 통합 솔루션용으로 쉽게 처리할 수 있는 형태로 변환합니다(그림 2 참조).응용 프로그램 사용자가 매개 스키마를 쿼리하면 데이터 통합 솔루션은 이 쿼리를 각 데이터 소스에 대한 적절한 쿼리로 변환합니다.마지막으로 가상 데이터베이스는 이러한 쿼리 결과를 사용자의 쿼리에 대한 응답으로 결합합니다.

이 솔루션에서는 어댑터 또는 애플리케이션 소프트웨어 블레이드를 구성하기만 하면 새로운 소스를 추가할 수 있습니다.ETL 시스템 또는 단일 데이터베이스 솔루션과 대조됩니다.이 솔루션에서는 새로운 데이터 세트 전체를 시스템에 수동으로 통합해야 합니다.가상 ETL 솔루션은 가상 매개 스키마를 활용하여 데이터 조화를 구현합니다. 그러면 데이터가 지정된 "마스터" 소스에서 정의된 대상으로 필드별로 복사됩니다.또한 고급 데이터 가상화는 허브 및 스포크 아키텍처를 사용하여 가상 매개 스키마 또는 가상 메타데이터 저장소를 구축하기 위해 객체 지향 모델링 개념을 기반으로 구축됩니다.

각 데이터 소스는 서로 다르기 때문에 데이터 소스 간의 신뢰성 높은 결합을 지원하도록 설계되지 않았습니다.따라서 데이터 가상화 및 데이터 페더레이션은 우발적인 데이터 공통성에 의존하여 서로 다른 데이터 세트의 데이터와 정보를 결합할 수 있습니다.데이터 소스 간에 데이터 값의 공통성이 없기 때문에 반환 세트가 부정확하고 불완전하며 검증이 불가능할 수 있습니다.

한 가지 솔루션은 ETL을 사용하지 않고 서로 다른 데이터베이스를 다시 주조하여 이러한 데이터베이스를 통합하는 것입니다.재캐스트 데이터베이스는 데이터베이스 간에 참조 무결성이 적용될 수 있는 공통성 제약 조건을 지원합니다.리캐스트 데이터베이스는 데이터베이스 간에 공통적인 데이터 가치를 가진 설계된 데이터 액세스 경로를 제공합니다.

이론.

데이터 통합^[1] 이론은 데이터베이스 이론의 서브셋을 형성하고 문제의 기본 개념을 1차 논리로 공식화합니다.이론을 적용함으로써 데이터 통합의 실현 가능성과 난이도를 알 수 있습니다.그 정의는 추상적으로 보일 수 있지만, 중첩된 관계형/XML^[17] 데이터베이스를 포함하는 통합 시스템이나 데이터베이스를 프로그램으로 ^[18]취급하는 시스템을 포함하여 모든 유형의 통합 시스템을 ^[16]수용하기에 충분한 범용성을 가지고 있습니다.Oracle 또는 DB2와 같은 특정 데이터베이스 시스템에 대한 연결은 JDBC와 같은 구현 수준 기술을 통해 제공되며 이론 수준에서는 연구되지 않습니다.

정의들

데이터 통합 시스템은 공식적으로 튜플 $\left\langle G,S,M\right\rangle$ G $\left\langle G,S,M\right\rangle$ , S , $\left\langle G,S,M\right\rangle$ M $\left\langle G,S,M\right\rangle$ { $displaystyle$ \ $langle G$ $, S$ , M \ $right$ \ $rangle }$ 로 $\left\langle G,S,M\right\rangle$ 정의됩니다. $G$ 서G(\ $displaystyle$ G $)$ 는 $G$ 글로벌(또는 매개) 스키마, $(\displaystyle$ S $)$ 는 $S$ 소스 스키마의 이종 세트,M(\ $displaystyle$ M $)$ 는 $M$ 매핑 맵의 매핑입니다.source 및 글로벌 스키마.G $(Displaystyle$ G $)$ 와 $G$ S $(Displaystyle$ S $)$ 는 $S$ 모두 각각의 관계에 대한 기호로 구성된 알파벳을 통해 언어로 표현된다. $매핑$ M $({displaystyle$ M $})$ 은 $M$ G $(\displaystyle$ G $)$ 를 $G$ 통한 쿼리와 S $(\displaystyle$ S $S$ 를 통한 쿼리 사이의 어설션으로 구성됩니다.사용자가 데이터 통합 시스템에 쿼리를 송신하면 매핑은 G $(\displaystyle$ G $)$ 를 $G$ $통해$ 글로벌 스키마 요소 간의 연결을 어설션합니다.ma 및 소스 스키마.

스키마상의 데이터베이스는 (관계형 데이터베이스 내의) 각 관계에 대해 하나씩의 집합으로 정의됩니다.소스 $스키마$ S $(\displaystyle$ S $)$ 에 $S$ 대응하는 데이터베이스는 각 이종 데이터 소스에 대한 일련의 튜플을 구성하며 소스 데이터베이스라고 합니다.이 단일 원본 데이터베이스는 실제로 연결이 끊긴 데이터베이스의 집합을 나타낼 수 있습니다.가상 매개 $스키마$ G(\ $displaystyle$ G $)$ 에 $G$ 대응하는 데이터베이스를 글로벌 데이터베이스라고 합니다.글로벌 데이터베이스는 소스 데이터베이스에 대한 $매핑$ M(\ $displaystyle$ M $)$ 을 $M$ 충족해야 합니다.이 매핑의 적법성은 G $(\displaystyle$ G $)$ 와 $G$ S $(\displaystyle$ S $S$ $G$ 의 대응 성질에 따라 달라집니다.이 대응관계 모델링에는 Global as View 또는 GAV와 Local as View 또는 LAV라는 두 가지 일반적인 방법이 있습니다.

그림 3: GAV 및 LAV ^[19]매핑의 태플 공간 그림.GAV에서는 시스템이 매개자에 의해 매핑된 튜플 세트로 제한되는 반면 소스 상에서 표현 가능한 튜플 세트는 훨씬 크고 풍부할 수 있습니다.LAV에서는 시스템은 소스의 튜플 세트로 구속되지만 글로벌 스키마에서 표현 가능한 튜플 세트는 훨씬 커질 수 있습니다.따라서 LAV 시스템은 종종 불완전한 답변을 처리해야 합니다.

GAV 시스템은 글로벌 데이터베이스를 S $(\displaystyle$ S $S$ 에 $대한$ 뷰 세트로 모델링합니다.이 $경우$ M $(\displaystyle$ M $)$ 은 $M$ G $(\displaystyle$ S $)$ 의 $G$ $각$ 요소에 대한 쿼리(\ $displaystyle$ S $S$ 에 대한 쿼리(\displaystyle S)를 지원합니다.G $(\displaystyle$ S) $G$ 의 어소시에이션이 잘 정의되어 있기 때문에 쿼리 처리가 간단해집니다. $데이터$ 통합 $시스템$ 에 $G$ 소스 데이터베이스에서 요소를 검색하는 방법을 정확히 지시하는 중개자 코드를 구현하는 것이 복잡성의 부담입니다 $S$ 새로운 소스가 시스템에 가입할 경우 중재자를 업데이트하기 위한 상당한 노력이 필요할 수 있으므로 소스가 변경될 가능성이 거의 없을 때 GAV 접근법이 선호된다.

위의 데이터 통합 시스템의 예에 대한 GAV 접근방식에서 시스템 설계자는 먼저 각 도시 정보 소스에 대한 매개자를 개발한 후 이러한 매개자를 중심으로 글로벌 스키마를 설계합니다.예를 들어, 소스 중 하나가 날씨 웹 사이트를 제공했는지 생각해 보십시오.그러면 설계자는 날씨에 대응하는 요소를 글로벌 스키마에 추가할 수 있습니다.그 후, 대부분의 노력은 날씨의 술어를 날씨 웹사이트에 대한 쿼리로 변환하는 적절한 중재자 코드를 작성하는 데 집중한다.설계자가 두 소스의 결과를 적절히 결합하기 위해 코드를 작성해야 할 수 있기 때문에 다른 소스가 날씨와 관련된 경우 이 작업은 복잡해질 수 있습니다.

한편 LAV에서는 소스 데이터베이스가 G $({displaystyle$ G $G$ 에 $대한$ 뷰 세트로 모델링됩니다.이 $경우$ M({ $displaystyle$ M $)$ 은 $M$ S $({displaystyle$ S})의 $S$ 각 요소에 대해G({ $displaystyle$ G $G$ 에 대한 쿼리를 관련짓습니다.여기에서는 G $({displaystyle$ G $}$ 와 $G$ S({ $displaystyle$ S $)$ 의 $S$ 정확한 관련짓습니다.더 이상 명확하게 정의되지 않습니다.다음 항에서 설명하듯이 소스에서 요소를 가져오는 방법을 결정해야 하는 부담이 쿼리 프로세서에 있습니다.LAV 모델링의 장점은 GAV 시스템보다 훨씬 적은 작업으로 새로운 소스를 추가할 수 있다는 것이다. 따라서 매개 스키마가 덜 안정적이거나 ^[1]변경될 가능성이 있는 경우 LAV 접근방식을 선호해야 한다.

위의 데이터 통합 시스템의 예에 대한 LAV 접근방식에서 시스템 설계자는 먼저 글로벌 스키마를 설계한 후 각 도시 정보 소스의 스키마를 입력한다.정보원 중 하나가 날씨 웹 사이트를 제공하는지 다시 생각해 보십시오.설계자는 날씨 요소가 존재하지 않는 경우에만 해당 요소를 글로벌 스키마에 추가합니다.그런 다음 프로그래머는 웹 사이트의 어댑터 또는 래퍼를 작성하고 웹 사이트의 결과에 대한 스키마 설명을 소스 스키마에 추가합니다.새 원본을 추가하는 작업은 디자이너에서 쿼리 프로세서로 복잡합니다.

쿼리 처리

데이터 통합 시스템의 쿼리 처리 이론은 일반적으로 연결 쿼리와 순수 선언형 논리 프로그래밍 ^[20]언어인 데이터로그를 사용하여 표현됩니다.만약 tuples의 투플거나 설정하는 규칙과 그것(그것은 진실을 만든다)로 대치되기를 막연히 접속 쿼리의 논리 함수"f(A, B){\displaystyle f(A, B)}A<>B{\displaystyle A;B}"과 같은 데이터베이스의 관계에 적용되다. 그때 우리는 집합의 일부분이라는 사실 투플 생각한다 생각할 수 있다.swer를 참조해 주세요.Datalog와 같은 공식 언어는 이러한 쿼리를 모호함 없이 간결하게 표현하지만 공통 SQL 쿼리는 연결 쿼리로도 간주됩니다.

데이터 통합의 관점에서 "쿼리 봉쇄"는 연결 쿼리의 중요한 속성을 나타냅니다. $쿼리$ A $(\$ $displaystyle$ A $)$ 에는 $A$ $데이터베이스$ A $(\displaystyle$ A $)$ $적용$ 결과의 $B$ $A$ 서브셋인 경우 다른 $쿼리$ B $A\supset B$ B $)(\displaystyle$ A $\supset$ $)$ 가 포함됩니다.두 쿼리는 결과 집합이 데이터베이스에서 동일한 경우 동일한 것으로 간주됩니다.이는 GAV와 LAV 시스템 모두에서 사용자가 일련의 뷰 또는 "실체화된" 연결 쿼리로 나타나는 가상 스키마에 연결 쿼리를 배치하기 때문에 중요합니다.통합은 뷰로 표시되는 쿼리를 다시 작성하여 결과가 동등하거나 사용자의 쿼리에 최대한 포함되도록 합니다.이는 뷰(AQUV)^[21]를 사용하여 쿼리에 응답하는 문제에 해당합니다.

GAV 시스템에서 시스템 설계자는 쿼리 개서를 정의하기 위해 중개자 코드를 작성합니다.글로벌 스키마의 각 요소가 소스를 통한 쿼리에 대응하듯이 사용자 쿼리의 각 요소는 대체 규칙에 대응합니다.쿼리 처리는 중재자에 지정된 규칙에 따라 사용자 쿼리의 하위 목표를 확장하기 때문에 결과 쿼리는 동등할 수 있습니다.설계자가 대부분의 작업을 미리 수행하지만, Timmis와 같은 일부 GAV 시스템은 중재자 기술 프로세스를 단순화합니다.

LAV 시스템에서는 사용자의 쿼리를 단순한 확장 전략과 일치시키는 매개자가 없기 때문에 쿼리는 보다 급진적인 재작성 프로세스를 거칩니다.통합 시스템은 최적의 개서를 찾기 위해 가능한 쿼리 공간에 대한 검색을 실행해야 합니다.결과적인 개서는 동등한 쿼리가 아니라 최대 포함이 될 수 있으며 결과적인 튜플이 불완전할 수 있습니다.2011년 현재^[update] GQR^[22] 알고리즘은 LAV 데이터 통합 시스템을 위한 최고의 쿼리 재작성 알고리즘입니다.

일반적으로 쿼리 개서의 복잡성은 NP-complete입니다.^[21]개서 공간이 비교적 작을 경우 수백 개의 소스가 있는 통합 시스템에서도 문제가 되지 않습니다.

의학과 생명과학

실제 세계의 증거, 지구 온난화, 침입종 확산, 자원 고갈과 같은 과학 분야의 대규모 질문들은 메타 분석을 위한 상이한 데이터 세트의 수집을 점점 더 필요로 하고 있다.메타데이터 표준이 합의되어 있지 않고, 이러한 분야에서 생성되는 다양한 데이터 타입이 있기 때문에, 이러한 유형의 데이터 통합은, 에코 데이터나 환경 데이터에 있어서 특히 어려운 일입니다.Datanet과 같은 National Science Foundation의 이니셔티브는 사이버 인프라를 제공하고 표준을 설정하여 과학자들의 데이터 통합을 용이하게 하기 위한 것입니다.자금 지원을 받는 5개의 Datanet 이니셔티브는 뉴멕시코 대학의 William Michener가 주도하는 Data ONE입니다.^[23]데이터 Conservancy,[24]. 세이드 처드 허리 존스 홉킨스 대학의;씨이드:지속 가능한 환경에 의해 상계 가능 Data,[25]마가렛 Hedstrom 미시간 대학이 이끄는 연구를 통해 그 DataNet 연맹 Consortium,[26]레이건 무어는 노스 캐롤라이나 대학의;그리고 테라 Populus,[27]스티븐 Ruggles은 Universi의 이끄는 데 일조했습니다.미네소타 tyResearch Data ^[28]Alliance는 최근 글로벌 데이터 통합 프레임워크 구축을 검토하고 있습니다.유럽 연합 혁신 의약품 이니셔티브(European Union Innovative Medicine Initiative Informatics Institute, Royal Society of Chemistry, UniProt, WikiPathways 및 DrugBank와 같은 공급자의 데이터 세트를 연결하여 약물 발견 플랫폼을 구축했습니다.

「」를 참조해 주세요.

비즈니스 의미 관리
데이터 캡처 변경
핵심 데이터 통합
고객 데이터 통합
사이버 인프라스트럭처
데이터 블렌딩
데이터 큐레이션
데이터 융합
데이터 매핑
데이터 경합
데이터베이스 모델
데이터스페이스
에지 데이터 통합
엔터프라이즈 애플리케이션 통합
엔터프라이즈 아키텍처 프레임워크
엔터프라이즈 정보 통합(EII)
엔터프라이즈 통합
Geodi: 지구과학 데이터 통합
정보 통합
정보 서버
정보 사일로
통합 컴피턴시 센터
통합 컨소시엄
ISO 15926:석유 및 가스 생산시설을 포함한 프로세스 플랜트의 라이프 사이클 데이터 통합
JXTA
마스터 데이터 관리
객체-관계 매핑
텍스트 열기
스키마 매칭
3가지 스키마 어프로치
UDEF
웹 데이터 통합
웹 서비스

레퍼런스

^ ^a ^b ^c Maurizio Lenzerini (2002). "Data Integration: A Theoretical Perspective" (PDF). PODS 2002. pp. 233–246.
^ Frederick Lane (2006). "IDC: World Created 161 Billion Gigs of Data in 2006". Archived from the original on 2015-07-15.
^ mikben. "Data Coherency - Win32 apps". docs.microsoft.com. Retrieved 2020-11-23.
^ 정, P.; 정, S. H. (2013-05)"비즈니스 인텔리전스 개발을 위한 데이터 통합 및 데이터 마이닝에 대하여." 2013 IEEE Long Island Systems, Applications and Technology Conference(LISAT): 1~6. doi:10.1109/LISAT.2013.6578235.
^ John Miles Smith; et al. (1982). "Multibase: integrating heterogeneous distributed database systems". AFIPS '81 Proceedings of the May 4–7, 1981, National Computer Conference. pp. 487–499.
^ Steven Ruggles, J. David Hacker, and Matthew Sobek (1995). "Order out of Chaos: The Integrated Public Use Microdata Series". Historical Methods. Vol. 28. pp. 33–39.{{cite news}}: CS1 maint: 여러 이름: 작성자 목록(링크)
^ Jennifer Widom (1995). "Research problems in data warehousing". CIKM '95 Proceedings of the Fourth International Conference on Information and Knowledge Management. pp. 25–30.
^ Pautasso, Cesare; Wilde, Erik (2009-04-20). "Why is the web loosely coupled? a multi-faceted metric for service design". Proceedings of the 18th International Conference on World Wide Web. WWW '09. Madrid, Spain: Association for Computing Machinery: 911–920. doi:10.1145/1526709.1526832. ISBN 978-1-60558-487-4. S2CID 207172208.
^ "What is GAV (Global as View)?". GeeksforGeeks. 2020-04-18. Retrieved 2020-11-23.
^ "Local-as-View", Wikipedia (in German), 2020-07-24, retrieved 2020-11-23
^ Shubhra S. Ray; et al. (2009). "Combining Multi-Source Information through Functional Annotation based Weighting: Gene Function Prediction in Yeast" (PDF). IEEE Transactions on Biomedical Engineering. 56 (2): 229–236. CiteSeerX 10.1.1.150.7928. doi:10.1109/TBME.2008.2005955. PMID 19272921. S2CID 10848834.
^ Michael Mireku Kwakye (2011). "A Practical Approach To Merging Multidimensional Data Models". hdl:10393/20457.
^ "Hub Lake and Warehouse search trends".
^ "Data mining in business analytics". Western Governors University. May 15, 2020. Retrieved November 22, 2020.
^ Surani, Ibrahim (2020-03-30). "Data Integration for Business Intelligence: Best Practices". DATAVERSITY. Retrieved 2020-11-23.
^ Alagić, Suad; Bernstein, Philip A. (2002). Database Programming Languages. Lecture Notes in Computer Science. Vol. 2397. pp. 228–246. doi:10.1007/3-540-46093-4_14. ISBN 978-3-540-44080-2.
^ "Nested Mappings: Schema Mapping Reloaded" (PDF).
^ "The Common Framework Initiative for algebraic specification and development of software" (PDF).
^ Christoph Koch (2001). "Data Integration against Multiple Evolving Autonomous Schemata" (PDF). Archived from the original (PDF) on 2007-09-26.
^ Jeffrey D. Ullman (1997). "Information Integration Using Logical Views". ICDT 1997. pp. 19–40.
^ ^a ^b Alon Y. Halevy (2001). "Answering queries using views: A survey" (PDF). The VLDB Journal. pp. 270–294.
^ George Konstantinidis; et al. (2011). "Scalable Query Rewriting: A Graph-based Approach" (PDF). in Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD'11, June 12–16, 2011, Athens, Greece.
^ William Michener; et al. "DataONE: Observation Network for Earth". www.dataone.org. Retrieved 2013-01-19.
^ Sayeed Choudhury; et al. "Data Conservancy". dataconservancy.org. Retrieved 2013-01-19.
^ Margaret Hedstrom; et al. "SEAD Sustainable Environment - Actionable Data". sead-data.net. Retrieved 2013-01-19.
^ Reagan Moore; et al. "DataNet Federation Consortium". datafed.org. Retrieved 2013-01-19.
^ Steven Ruggles; et al. "Terra Populus: Integrated Data on Population and the Environment". terrapop.org. Retrieved 2013-01-19.
^ Bill Nichols. "Research Data Alliance". rd-alliance.org. Retrieved 2014-10-01.

외부 링크

[refone-1] Maurizio Lenzerini (2002). "Data Integration: A Theoretical Perspective" (PDF). PODS 2002. pp. 233–246.

[DataExplode-2] Frederick Lane (2006). "IDC: World Created 161 Billion Gigs of Data in 2006". Archived from the original on 2015-07-15.

[3] . "Data Coherency - Win32 apps". docs.microsoft.com. Retrieved 2020-11-23.

[4] 정, P.; 정, S. H. (2013-05)"비즈니스 인텔리전스 개발을 위한 데이터 통합 및 데이터 마이닝에 대하여." 2013 IEEE Long Island Systems, Applications and Technology Conference(LISAT): 1~6. doi:10.1109/LISAT.2013.6578235.

[5] John Miles Smith; et al. (1982). "Multibase: integrating heterogeneous distributed database systems". AFIPS '81 Proceedings of the May 4–7, 1981, National Computer Conference. pp. 487–499.

[6] Steven Ruggles, J. David Hacker, and Matthew Sobek (1995). "Order out of Chaos: The Integrated Public Use Microdata Series". Historical Methods. Vol. 28. pp. 33–39.{{cite news}}: CS1 maint: 여러 이름: 작성자 목록(링크)

[7] Jennifer Widom (1995). "Research problems in data warehousing". CIKM '95 Proceedings of the Fourth International Conference on Information and Knowledge Management. pp. 25–30.

[8] Pautasso, Cesare; Wilde, Erik (2009-04-20). "Why is the web loosely coupled? a multi-faceted metric for service design". Proceedings of the 18th International Conference on World Wide Web. WWW '09. Madrid, Spain: Association for Computing Machinery: 911–920. doi:10.1145/1526709.1526832. ISBN 978-1-60558-487-4. S2CID 207172208.

[9] "What is GAV (Global as View)?". GeeksforGeeks. 2020-04-18. Retrieved 2020-11-23.

[10] "Local-as-View", Wikipedia (in German), 2020-07-24, retrieved 2020-11-23

[11] Shubhra S. Ray; et al. (2009). "Combining Multi-Source Information through Functional Annotation based Weighting: Gene Function Prediction in Yeast" (PDF). IEEE Transactions on Biomedical Engineering. 56 (2): 229–236. CiteSeerX 10.1.1.150.7928. doi:10.1109/TBME.2008.2005955. PMID 19272921. S2CID 10848834.

[12] Michael Mireku Kwakye (2011). "A Practical Approach To Merging Multidimensional Data Models". hdl:10393/20457.

[13] "Hub Lake and Warehouse search trends".

[14] "Data mining in business analytics". Western Governors University. May 15, 2020. Retrieved November 22, 2020.

[15] Surani, Ibrahim (2020-03-30). "Data Integration for Business Intelligence: Best Practices". DATAVERSITY. Retrieved 2020-11-23.

[16] Alagić, Suad; Bernstein, Philip A. (2002). Database Programming Languages. Lecture Notes in Computer Science. Vol. 2397. pp. 228–246. doi:10.1007/3-540-46093-4_14. ISBN 978-3-540-44080-2.

[17] "Nested Mappings: Schema Mapping Reloaded" (PDF).

[18] "The Common Framework Initiative for algebraic specification and development of software" (PDF).

[refseven-19] Christoph Koch (2001). "Data Integration against Multiple Evolving Autonomous Schemata" (PDF). Archived from the original (PDF) on 2007-09-26.

[reffive-20] Jeffrey D. Ullman (1997). "Information Integration Using Logical Views". ICDT 1997. pp. 19–40.

[refsix-21] Alon Y. Halevy (2001). "Answering queries using views: A survey" (PDF). The VLDB Journal. pp. 270–294.

[refgqr-22] George Konstantinidis; et al. (2011). "Scalable Query Rewriting: A Graph-based Approach" (PDF). in Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD'11, June 12–16, 2011, Athens, Greece.

[23] William Michener; et al. "DataONE: Observation Network for Earth". www.dataone.org. Retrieved 2013-01-19.

[24] Sayeed Choudhury; et al. "Data Conservancy". dataconservancy.org. Retrieved 2013-01-19.

[25] Margaret Hedstrom; et al. "SEAD Sustainable Environment - Actionable Data". sead-data.net. Retrieved 2013-01-19.

[26] Reagan Moore; et al. "DataNet Federation Consortium". datafed.org. Retrieved 2013-01-19.

[27] Steven Ruggles; et al. "Terra Populus: Integrated Data on Population and the Environment". terrapop.org. Retrieved 2013-01-19.

[28] Bill Nichols. "Research Data Alliance". rd-alliance.org. Retrieved 2014-10-01.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[17]

[18]

[16]

[19]

[20]

[21]

[22]

[23]

[28]

Search

데이터 통합

네임스페이스

더

목차

역사

예

이론.

정의들

쿼리 처리

의학과 생명과학

「」를 참조해 주세요.

레퍼런스

외부 링크

Search

데이터 통합

역사

예

이론.

정의들

쿼리 처리

의학과 생명과학

「 」를 참조해 주세요.

레퍼런스

외부 링크

「」를 참조해 주세요.