불확실한 자료

Uncertain data

컴퓨터 과학에서 불확실한 데이터는 정확하고 의도된 또는 원래 값에서 벗어나게 하는 노이즈를 포함하는 데이터다.빅데이터 시대에 불확실성이나 데이터의 진실성은 데이터의 정의적 특성 중 하나이다.데이터는 볼륨, 다양성, 속도 및 불확실성(1/확실성)에서 지속적으로 증가하고 있다.불확실한 데이터는 오늘날 웹, 센서 네트워크, 기업의 정형 및 비정형 소스 모두에서 풍부하게 발견된다.예를 들어, 기업 데이터 집합의 고객 주소나 센서 노후화로 인해 센서에 의해 포착된 온도 판독값과 관련하여 불확실성이 있을 수 있다.2012년 IBM은 세계를 변화시킬 중요하고 파괴적인 기술을 식별하기 위해 향후 3년에서 10년을 내다보는 종합적인 분석을 제시하는 글로벌 기술 전망 보고서에서[1] 불확실한 데이터를 규모에 맞게 관리해야 한다고 주장했다.실제 데이터에 기반한 신뢰할 수 있는 비즈니스 결정을 내리기 위해서는 분석이 반드시 매우 많은 양의 데이터에 존재하는 다양한 종류의 불확실성을 설명해야 한다.불확실한 데이터에 기초한 분석은 후속 결정의 품질에 영향을 미칠 것이므로, 이 불확실한 데이터의 부정확성과 유형을 무시할 수 없다.

불확실한 데이터는 센서 네트워크 영역에서 발견된다. 소셜 미디어, 웹 및 구조화 및 구조화되지 않은 데이터가 오래되었거나, 구식이거나, 또는 쉽게 부정확할 수 있는 기업 내에서 소음이 많은 텍스트, 수학적 모델이 실제 프로세스의 근사치일 수 있는 모델링에서.데이터베이스에서 그러한 데이터를 나타낼 때, 다양한 값의 정확성에 대한 일부 표시도 추정할 필요가 있다.

불확실한 데이터의 데이터베이스에는 세 가지 주요 모델이 있다.속성 불확실성에서 튜플의 불확실한 각 속성은 자체적인 독립 확률 분포를 따른다.[2]예를 들어, 온도 및 풍속을 판독하는 경우, 한 측정치에 대한 판독치를 알면 다른 측정치에 대한 정보를 제공하지 않기 때문에 각각의 측정값은 자체 확률 분포로 설명될 것이다.

상관된 불확실성에서는 다중 속성을 공동 확률 분포로 설명할 수 있다.[2]예를 들어, 물체의 위치를 판독하고 x 좌표와 y 좌표가 저장된 경우, 다른 값의 확률은 기록된 좌표로부터의 거리에 따라 달라질 수 있다.거리는 두 좌표에 따라 다르므로 이들 좌표는 독립적이지 않기 때문에 이 좌표에 대해 공동 분포를 사용하는 것이 적절할 수 있다.

튜플 불확실성에서 튜플의 모든 속성은 공동 확률 분포를 따른다.이것은 상관관계가 있는 불확실성의 경우를 포함하지만, 튜플이 관련 관계에 속하지 않을 확률이 있는 경우를 포함하며, 이는 1에 포함되지 않는 모든 확률로 표시된다.[2]예를 들어, 확률론적 데이터베이스에서 다음과 같은 튜플을 얻었다고 가정해 보십시오.

(a, 0.4) (b, 0.5)

그러면 튜플은 데이터베이스에 존재하지 않을 확률이 10%이다.

참조

  1. ^ Global Technology Outlook (PDF) (Report). 2012.
  2. ^ a b c Prabhakar, Sunil. "ORION: Managing Uncertain (Sensor) Data" (PDF). {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)
  • Volk, Habich; Clemens Utzny, Ralf Dittmann, Wolfgang Lehner. "Error-Aware Density-Based Clustering of Imprecise Measurement Values". Seventh IEEE International Conference on Data Mining Workshops, 2007. ICDM Workshops 2007. IEEE.{{cite conference}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  • Rosentahl, Volk; Martin Hahmann, Dirk Habich, Wolfgang Lehner. "Clustering Uncertain Data With Possible Worlds". Proceedings of the 1st Workshop on Management and mining Of Uncertain Data in conjunction with the 25th International Conference on Data Engineering, 2009. IEEE.{{cite conference}}: CS1 maint : 복수이름 : 작성자 목록(링크)