노이즈 데이터

Noisy data

노이즈가 많은 데이터는 손상되거나 왜곡되거나 신호 대 잡음 비율이 낮은 데이터다. 데이터의 잡음을 빼기 위한 부적절한 절차(또는 부적절하게 문서화된 절차)는 잘못된 정확성 또는 잘못된 결론으로 이어질 수 있다.

데이터 = 참 신호 + 노이즈

노이즈 데이터는 노이즈라고 불리는 그 안에 많은 양의 무의미한 정보가 추가되어 있는 데이터다.[1] 여기에는 데이터 손상이 포함되며 이 용어는 종종 부패 데이터의 동의어로 사용된다.[1] 또한 사용자 시스템이 올바르게 이해하고 해석할 수 없는 모든 데이터를 포함한다. 예를 들어, 많은 시스템이 비정형 텍스트를 사용할 수 없다. 잡음이 심한 데이터는 데이터 분석 결과에 악영향을 미치고 제대로 처리하지 않으면 결론을 왜곡할 수 있다. 통계적 분석은 때때로 소음이 많은 데이터에서 소음을 제거하기 위해 사용된다.[1]

소음원

이 특이치 및 필터링 예에서 점 t2는 특이치입니다. 특이치와의 원활한 전환은 필터링에서 비롯되며, 또한 유효한 데이터가 아니라 더 많은 노이즈가 발생한다. 필터링된 결과(평활된 전환)를 실제 측정값으로 제시하면 잘못된 결론이 나올 수 있다.
이러한 유형의 필터(이동 평균)는 데이터를 오른쪽으로 이동시킨다. 주어진 시간의 이동평균가격은 보통 당시의 실제가격과 크게 다르다.

실제 측정값과 실제 측정값의 차이는 측정에 영향을 미치는 여러 요인에 의해 발생한다.[2]

무작위 노이즈는 종종 데이터 노이즈의 큰 구성 요소다.[3] 신호의 무작위 노이즈는 신호 대 잡음 비로서 측정된다. 무작위 소음은 광범위한 주파수의 거의 동일한 양을 포함하고 있으며, 백색 소음이라고도 불린다(빛의 색이 결합하여 백색을 만들 때). 무작위 소음은 피할 수 없는 문제다. 데이터 수집 및 데이터 준비 프로세스에 영향을 미치며, 일반적으로 오류가 발생한다. 노이즈에는 두 가지 주요 원인이 있다: 측정 도구에 의해 유입된 오류와 데이터가 수집될 때 처리 또는 전문가에 의해 유입된 무작위 오류.[4]

필터링된 신호가 직접 측정된 신호인 것처럼 처리되면 잘못된 필터링은 노이즈를 추가할 수 있다. 예를 들어 평균 이동과 같은 콘볼루션형 디지털 필터는 시차나 피크 절단과 같은 부작용을 일으킬 수 있다. 디지털 필터를 차별화하면 원본 데이터의 무작위 노이즈가 증폭된다.

특이치 데이터는 데이터 집합에 속하지 않는 것으로 보이는 데이터다. 숫자 전치, 잘못 표기, 프로그래밍 버그 등 인간의 실수로 인해 발생할 수 있다. 실제 특이치를 데이터 세트에서 제거하지 않으면 상황에 따라 소량 또는 다량으로 결과를 손상시킨다. 유효한 데이터가 특이치로 식별되고 실수로 제거되면 결과도 손상된다.

사기: 개인은 의도적으로 데이터를 왜곡하여 결과에 영향을 미칠 수 있다. 특이치가 거의 없어 보이는 데이터는 이를 수집하는 개인에게 잘 반영되기 때문에 특이치로 더 많은 데이터를 제거하거나 데이터를 보다 매끄럽게 보이도록 하는 인센티브가 있을 수 있다.

참조

  1. ^ a b c "What is noisy data? - Definition from WhatIs.com".
  2. ^ "Noisy Data in Data Mining - Soft Computing and Intelligent Information Systems". sci2s.ugr.es.
  3. ^ R.Y. Wang, V.C. Storey, C.P. Firth, A 데이터 품질 연구 분석 프레임워크, IEEE 지식 및 데이터 엔지니어링 7 (1995) 623-640 doi: 10.1109/69.404034)
  4. ^ X. Zhu, X. 우, 클래스 노이즈 vs. 특성 노이즈: 정량적 연구, 인공지능 리뷰 22(2004) 177-210 doi: 10.1007/s10462-004-0751-8