데이터 전처리

Data Preprocessing

데이터 전처리는 성능을 보장하거나 향상시키기 위해 데이터를 사용하기 전에 데이터를 조작하거나 삭제하는 것을 의미할 수 [1]있으며 데이터 마이닝 프로세스에서 중요한 단계입니다. "garbage in, garbage out"이라는 문구는 특히 데이터 마이닝기계 학습 프로젝트에 적용할 수 있습니다. 데이터 수집 방법은 종종 느슨하게 제어되어 범위를 벗어난 값, 데이터 조합이 불가능한 값, 누락된 값 등의 문제가 발생합니다.

이러한 문제에 대해 신중하게 선별되지 않은 데이터를 분석하면 오해의 소지가 있는 결과를 얻을 수 있습니다. 따라서 분석을 실행하기 전에 데이터의 표현과 품질이 필요합니다.[2] 종종 데이터 전처리는 특히 계산 생물학에서 기계 학습 프로젝트의 가장 중요한 단계입니다.[3] 관련성이 없고 중복되는 정보가 존재하거나 소음이 많고 신뢰할 수 없는 데이터의 비율이 높으면 교육 단계에서 지식을 발견하는 것이 더 어려울 수 있습니다. 데이터 준비 및 필터링 단계는 상당한 처리 시간이 소요될 수 있습니다. 데이터 전처리에 사용되는 방법의 예로는 클리닝, 인스턴스 선택, 정규화, 원-핫 인코딩, 데이터 변환, 특징 추출 및 특징 선택이 있습니다.

적용들

데이터 마이닝

데이터 전처리의 기원은 데이터 마이닝에 있습니다.[citation needed] 콘텐츠에서 기존 정보와 검색을 종합하는 것이 아이디어입니다. 나중에 기계 학습과 신경망을 위해서도 데이터 전처리 단계가 필요하다는 것을 인식했습니다. 그래서 그것은 일반적으로 컴퓨팅에 사용되는 보편적인 기술이 되었습니다.

데이터 전처리를 통해 데이터 클리닝을 사용하여 원하지 않는 데이터를 제거할 수 있으며, 이를 통해 사용자는 데이터 마이닝 프로세스의 후반부에서 데이터 조작을 위한 전처리 단계 이후에 더 가치 있는 정보를 포함할 수 있는 데이터 세트를 가질 수 있습니다. 이러한 데이터 세트를 올바른 데이터 손상 또는 인간 오류로 편집하는 것은 의료 진단에 일반적으로 사용되는 혼동 행렬에서 발견되는 참 양성, 참 음성, 거짓 양성 거짓 음성과 같은 정확한 정량자를 얻기 위한 중요한 단계입니다. 사용자는 데이터 파일을 함께 결합하고 사전 처리를 사용하여 데이터에서 불필요한 노이즈를 필터링하여 정확도를 높일 수 있습니다. 사용자는 Panders 라이브러리와 함께 제공되는 Python 프로그래밍 스크립트를 사용하여 쉼표로 구분된 에서 데이터를 데이터 프레임으로 가져올 수 있습니다. 그런 다음 데이터 프레임을 사용하여 엑셀에서 실행하기 어려운 데이터를 조작할 수 있습니다. 팬더(소프트웨어)는 데이터 분석과 조작을 가능하게 하는 강력한 도구로 데이터 시각화, 통계 작업 등을 훨씬 쉽게 해줍니다. 또한 많은 사람들이 R 프로그래밍 언어를 사용하여 이러한 작업을 수행합니다.

사용자가 기존 파일을 새 파일로 변환하는 이유는 여러 가지 이유 때문입니다. 데이터 전처리에는 결측값, 집계 정보, 범주(데이터 비닝)가 있는 데이터 레이블을 추가하고 궤적을 매끄럽게 하는 목적이 있습니다.[citation needed] 주성분 분석 및 특징 선택과 같은 보다 발전된 기술은 통계 공식과 함께 작동하며 GPS 추적기 및 모션 캡처 장치에 의해 기록되는 복잡한 데이터 세트에 적용됩니다.

의미자료 전처리

시맨틱 데이터 마이닝은 데이터 마이닝의 하위 집합으로, 공식 시맨틱과 같은 도메인 지식을 데이터 마이닝 프로세스에 통합하려고 합니다. 도메인 지식은 데이터가 처리된 환경에 대한 지식입니다. 도메인 지식은 전처리 단계에서 중복되거나 일관성 없는 데이터를 필터링하는 등 데이터 마이닝의 여러 측면에서 긍정적인 영향을 미칠 수 있습니다.[4] 도메인 지식도 제약 조건으로 작동합니다. 사전 지식의 집합으로 작업하여 검색에 필요한 공간을 줄이고 데이터에 대한 가이드 역할을 수행함으로써 이를 수행합니다. 즉, 의미 사전 처리는 해당 데이터의 원래 환경을 사용하여 데이터를 보다 정확하고 효율적으로 필터링하려고 합니다.

기존 정보를 더 잘 분석하기 위해 보다 정교한 기술로 해결해야 하는 복잡한 문제들이 점점 더 많아지고 있습니다.[fact or opinion?] 서로 다른 수치를 하나의 값으로 집계하는 간단한 스크립트를 만드는 것이 아니라 의미론적 기반의 데이터 전처리에 초점을 맞추는 것이 합리적입니다.[5] 이 아이디어는 전용 온톨로지를 구축하는 것이며, 이는 문제가 무엇인지 더 높은 수준에서 설명합니다.[6] 의미 데이터 마이닝 및 의미 사전 처리와 관련하여 온톨로지는 의미 지식 및 데이터를 개념화하고 공식적으로 정의하는 방법입니다. Protégé(소프트웨어)는 온톨로지를 구성하기 위한 표준 도구입니다.[citation needed] 일반적으로 온톨로지의 사용은 시맨틱 미스매치에서 발생하는 데이터, 애플리케이션, 알고리즘 및 결과 사이의 격차를 메웁니다. 결과적으로 온톨로지와 결합된 의미 데이터 마이닝은 의미론적 모호성이 데이터 시스템의 유용성과 효율성에 영향을 미칠 수 있는 많은 응용 분야를 가지고 있습니다.[citation needed] 응용 프로그램에는 의료 분야, 언어 처리, 은행 [7]및 과외 [8]등이 포함됩니다.

의미론적 데이터 마이닝 및 존재론적 기반 접근 방식을 사용하는 데에는 다양한 강점이 있습니다. 앞서 언급한 바와 같이, 이러한 툴은 데이터 세트에서 바람직하지 않은 데이터를 필터링함으로써 처리별 단계에서 도움이 될 수 있습니다. 또한 잘 설계된 온톨로지에 통합된 잘 구성된 형식적 의미론은 기계가 쉽게 읽고 처리할 수 있는 강력한 데이터를 반환할 수 있습니다.[9] 이에 대한 구체적인 유용한 예는 의미 데이터 처리의 의학적 사용에 있습니다. 예를 들어, 환자는 의료 응급 상황을 겪고 병원으로 급히 이송되고 있습니다. 응급구조사들은 환자를 돕기 위해 가장 좋은 약을 투여하기 위해 노력하고 있습니다. 정상적인 데이터 처리에서는 환자가 최상의 치료를 받고 있는지 확인하기 위해 환자의 모든 의료 데이터를 검색하는 데 시간이 너무 오래 걸리고 환자의 건강이나 생명까지 위험할 수 있습니다. 그러나 의미론적으로 처리된 온톨로지를 사용하여 첫 번째 응답자는 환자의 생명을 구할 수 있습니다. 의미론적 추론과 같은 도구는 온톨로지를 사용하여 환자의 진료 기록에 사용된 자연어를 조사하는 것만으로 특정 암이나 다른 질환이 있는 경우와 같은 환자의 병력을 기반으로 환자에게 투여할 최적의 약이 무엇인지 추론할 수 있습니다.[10] 이를 통해 의미론적 추론자는 이미 이 데이터를 분석하고 해결책을 찾았을 것이기 때문에 첫 번째 응답자는 환자의 병력 자체에 대해 걱정하지 않고 빠르고 효율적으로 약을 검색할 수 있습니다. 일반적으로 의미 데이터 마이닝 및 온톨로지 사용의 놀라운 강점을 보여줍니다. 의미론적으로 사전 처리된 데이터와 데이터에 대해 구축된 온톨로지가 이미 이러한 변수의 많은 부분을 설명했기 때문에 사용자가 설명할 변수가 적기 때문에 사용자 측에서 더 빠르고 효율적인 데이터 추출을 허용합니다. 그러나 이 접근 방식에는 몇 가지 단점이 있습니다. 즉, 상대적으로 작은 데이터 세트에도 높은 연산력과 복잡도가 필요합니다.[11] 이로 인해 시맨틱 데이터 처리 시스템을 구축하고 유지하는 데 더 많은 비용과 어려움이 발생할 수 있습니다. 이는 데이터 세트가 이미 잘 구성되고 포맷되어 있는 경우에는 어느 정도 완화될 수 있지만, 그 경우에도 표준 데이터 처리와 비교할 때 복잡성이 더 높습니다.[tone]

아래는 일부 프로세스, 특히 의미 데이터 마이닝과 온톨로지에서의 사용을 결합한 간단한 다이어그램입니다.

SimpleSemanticDataMiningDiagram

이 다이어그램은 데이터 세트를 도메인의 특성, 즉 도메인 지식, 그리고 실제 획득된 데이터의 두 부분으로 나누어 보여줍니다. 그런 다음 도메인 특성을 처리하여 데이터에 적용할 수 있는 사용자가 이해할 수 있는 도메인 지식이 됩니다. 한편, 데이터 세트는 도메인 지식이 적용될 수 있도록 처리 및 저장되어 프로세스가 계속 진행될 수 있습니다. 이 애플리케이션은 온톨로지를 형성합니다. 거기서 온톨로지를 사용하여 데이터를 분석하고 결과를 처리할 수 있습니다.

퍼지 전처리는 복잡한 문제를 해결하기 위한 또 다른 고급 기술입니다. 퍼지 사전 처리 및 퍼지 데이터 마이닝은 퍼지 집합을 사용합니다. 이러한 데이터 집합은 집합과 0과 1로 구성된 집합에 대한 멤버쉽 함수의 두 가지 요소로 구성됩니다. 퍼지 전처리는 이 퍼지 데이터 세트를 사용하여 언어 정보와 함께 수치 값을 접지합니다. 원시 데이터는 자연어로 변환됩니다. 결국 퍼지 데이터 마이닝의 목표는 불완전한 데이터베이스와 같은 부정확한 정보를 처리하는 데 도움이 되는 것입니다. 현재 퍼지 전처리 및 기타 퍼지 기반 데이터 마이닝 기술은 신경망 및 인공 지능에 자주 사용됩니다.[12]

참고문헌

  1. ^ "Guide To Data Cleaning: Definition, Benefits, Components, And How To Clean Your Data". Tableau. Retrieved 2021-10-17.
  2. ^ 파일, D., 1999. 데이터 마이닝을 위한 데이터 준비. 모건 카우프만 출판사, 로스 알토스, 캘리포니아.
  3. ^ Chicco D (December 2017). "Ten quick tips for machine learning in computational biology". BioData Mining. 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465.
  4. ^ Dou, Deijing and Wang, Hao and Liu, Haishan. "Semantic Data Mining: A Survey of Ontology-based Approaches" (PDF). University of Oregon.{{cite web}}: CS1 maint: 다중 이름: 저자 목록 (링크)
  5. ^ Culmone, Rosario and Falcioni, Marco and Quadrini, Michela (2014). An ontology-based framework for semantic data preprocessing aimed at human activity recognition. SEMAPRO 2014: The Eighth International Conference on Advances in Semantic Processing. Alexey Cheptsov, High Performance Computing Center Stuttgart (HLRS). S2CID 196091422.{{cite conference}}: CS1 maint: 다중 이름: 저자 목록 (링크)
  6. ^ David Perez-Rey and Alberto Anguita and Jose Crespo (2006). OntoDataClean: Ontology-Based Integration and Preprocessing of Distributed Data. Biological and Medical Data Analysis. Springer Berlin Heidelberg. pp. 262–272. doi:10.1007/11946465_24.
  7. ^ Yerashenia, Natalia and Bolotov, Alexander and Chan, David and Pierantoni, Gabriele (2020). "Semantic Data Pre-Processing for Machine Learning Based Bankruptcy Prediction Computational Model". 2020 IEEE 22nd Conference on Business Informatics (CBI) (PDF). IEEE. pp. 66–75. doi:10.1109/CBI49978.2020.00015. ISBN 978-1-7281-9926-9. S2CID 219499599.{{cite book}}: CS1 maint: 다중 이름: 저자 목록 (링크)
  8. ^ Chang, Maiga and D'Aniello, Giuseppe and Gaeta, Matteo and Orciuoli, Franceso and Sampson, Demetrois and Simonelli, Carmine (2020). "Building Ontology-Driven Tutoring Models for Intelligent Tutoring Systems Using Data Mining". IEEE Access. IEEE. 8: 48151–48162. doi:10.1109/ACCESS.2020.2979281. S2CID 214594754.{{cite journal}}: CS1 maint: 다중 이름: 저자 목록 (링크)
  9. ^ Dou, Deijing and Wang, Hao and Liu, Haishan. "Semantic Data Mining: A Survey of Ontology-based Approaches" (PDF). University of Oregon.{{cite web}}: CS1 maint: 다중 이름: 저자 목록 (링크)
  10. ^ Kahn, Atif and Doucette, John A. and Jin, Changjiu and Fu Lijie and Cohen, Robin. "AN ONTOLOGICAL APPROACH TO DATA MINING FOR EMERGENCY MEDICINE" (PDF). University of Waterloo.{{cite web}}: CS1 maint: 다중 이름: 저자 목록 (링크)
  11. ^ Sirichanya, Chanmee and Kraisak Kesorn (2021). "Semantic data mining in the information age: A systematic review". International Journal of Intelligent Systems. 36 (8): 3880–3916. doi:10.1002/int.22443. S2CID 235506360.
  12. ^ Wong, Kok Wai and Fung, Chun Che and Law, Kok Way (2000). "Fuzzy preprocessing rules for the improvement of an artificial neural network well log interpretation model". 2000 TENCON Proceedings. Intelligent Systems and Technologies for the New Millennium (Cat. No.00CH37119). Vol. 1. IEEE. pp. 400–405. doi:10.1109/TENCON.2000.893697. ISBN 0-7803-6355-8. S2CID 10384426.{{cite book}}: CS1 maint: 다중 이름: 저자 목록 (링크)

외부 링크