데이터 마이닝을 위한 산업 간 표준 프로세스

Cross-industry standard process for data mining

CRIP-DM으로 알려진 산업 간 데이터 마이닝 표준 프로세스데이터 마이닝 전문가가 사용하는 일반적인 접근방식을 설명하는 개방형 표준 프로세스 모델이다.[1]가장 널리 사용되는 분석 모델이다.[2]null

2015년에 IBM은 CRIP-DM을 조정하고 확장하는 Analytics Solutions Unified Method for Data Mining/Predictive Analytics[3][4](ASUM-DM이라고도 함)라는 새로운 방법론을 발표했다.

역사

CRIP-DM은 1996년에 구상되었고 1997년에 ESPRIT 자금 지원 계획에 따라 유럽 연합 프로젝트가 되었다.이 프로젝트는 다음과 같은 5개 회사가 주도했다.ISL(Integrated Solutions Ltd), Teradata, Daimler AG, NCR Corporation 및 보험 회사인 OHRA.null

이 핵심 컨소시엄은 이 프로젝트에 다른 경험을 가져왔다.ISL, 나중에 인수되어 SPSS로 병합되었다.컴퓨터 대기업 NCR은 테라데이터 데이터 웨어하우스와 자체 데이터 마이닝 소프트웨어를 생산했다.다임러-벤츠에는 중요한 데이터 마이닝 팀이 있었다.OHRA는 이제 막 데이터 마이닝의 잠재적인 사용에 대해 탐구하기 시작했다.null

방법론의 첫 번째 버전은 1999년 3월 브뤼셀에서 열린 제4차 CRFH-DM SIG 워크숍에서 발표되었으며,[5] 그해 말 단계별 데이터 마이닝 가이드로 발표되었다.[6]null

2006년과 2008년 사이에 CRFH-DM 2.0 SIG가 형성되었고 CRFH-DM 프로세스 모델 업데이트에 대한 논의가 있었다.[7]이러한 노력의 현주소는 알려지지 않았다.그러나 리뷰에서 인용한 원본 crisp-dm.org 웹사이트와 [8][9]CRFH-DM 2.0 SIG 웹사이트는[7] 둘 다 더 이상 활성화되지 않는다.null

IBM 이외의 많은 데이터 마이닝 실무자들이 CRIP-DM을 사용하지만,[10][11][12] IBM은 현재 CRIP-DM 프로세스 모델을 사용하는 주요 기업이다.그것은 오래된 CRFH-DM 문서들 중 일부를 다운로드[6] 할 수 있게 하고 그것을 SPSS Modeler 제품에 통합했다.null

현재 연구에 따르면 CRIP-DM은 데이터 마이닝 산업의 기존 문제를 해결하는 다양한 장점 때문에 가장 널리 사용되는 형태의 데이터 마이닝 모델이다.이 모델의 단점 중 일부는 프로젝트 관리 활동을 수행하지 않는다는 것이다.CRIP-DM의 성공 배경에는 산업, 도구 및 애플리케이션 중립성이 있다.[13]null

주요 단계

CRFH-DM의 여러 단계 간의 관계를 보여주는 프로세스 다이어그램

CRIP-DM은 데이터 마이닝 프로세스를 6가지 주요 단계로 구분:[14]

  • 비즈니스 이해
  • 데이터 이해
  • 데이터 준비
  • 모델링.
  • 평가하기
  • 배치

단계 순서는 엄격하지 않고 항상 필요한 만큼 다른 단계 사이를 왔다 갔다 한다.프로세스 다이어그램의 화살표는 단계 간 가장 중요하고 빈번한 종속성을 나타낸다.다이어그램의 바깥쪽 원은 데이터 마이닝 자체의 순환적 성격을 상징한다.솔루션을 구축한 후에도 데이터 마이닝 프로세스가 계속된다.이 과정에서 습득한 교훈은 종종 보다 집중적인 새로운 비즈니스 질문을 유발할 수 있으며, 이후 데이터 마이닝 프로세스는 이전의 경험에서 이익을 얻을 것이다.null

여론 조사

2002년, 2004년, 2007년, 2014년 같은 웹사이트(KDNuggets)에서 실시한 여론조사에 따르면, 조사에 응하기로 한 산업 데이터 광부들이 사용하는 선도적인 방법론이었다.[10][11][12][15]이 여론 조사에서 명명된 유일한 다른 데이터 마이닝 접근방식은 SEMMA였다. 그러나 SAS Institute는 SEMMA가 데이터 마이닝 방법론이 아니라 "SAS Enterprise Miner의 기능 툴셋의 논리적 조직"이라고 분명히 밝히고 있다. 2009년 데이터 마이닝 프로세스 모델에 대한 검토와 비평은 CRFL-DM을 "사실상의 표준"이라고 불렀다.데이터 마이닝 및 지식 검색 프로젝트 수행."[16]CRISP-DM과 데이터 마이닝 과정 모델의 다른 리뷰 쿠르간과 Musilek의 2006년 review,[8]과 Azevedo과 CRISP-DM과 SEMMA.[9]사회의 노력의 산토스의 2008년 비교 방법론은 업데이트할 2006년지만 2015년 6월로, 새로운 버전으로 오지 않고,"SIG"(SIG)웹 사이트에 책임 지고 시작했다 등이 있다. 오래사라졌다(CRFH-DM의 역사 참조).

참조

  1. ^ Chearer C, The CRFH-DM 모델: 데이터 마이닝의 새로운 청사진 J 데이터 웨어하우징(2000), 5:13-22
  2. ^ Forbes에서 2015년 7월 29일 발표한 데이터 마이닝 프로세스에 대해 IT가 알아야 할 사항 2018년 6월 24일 발표
  3. ^ ASUM-DM, 2015년 10월 16일 Jason Haffar, SPSS Prediction Analytics, IBM Archived 2016년 3월 8일 Wayback Machine에서 ASUM-DM을 보셨습니까?
  4. ^ Analytics Solutions Unified Method - IBM에서 발표한 신속한 변화를 위한 원칙을 사용한 구현, 2016년 3월 1일 2018년 10월 5일 검색
  5. ^ 피트 채프먼(1999);CRIP-DM 사용 설명서.
  6. ^ a b 피트 채프먼, 줄리안 클린턴, 랜디 커버, 토마스 하바자, 토마스 리나르츠, 콜린 쉬어러, 뤼디거 위스(2000년)CRIP-DM 사용자 안내서(PDF 링크 포함) (고해상도 그래픽이 포함된 PDF 버전)
  7. ^ a b 콜린 시어러(2006);첫 번째 CRIP-DM 2.0 워크샵 개최
  8. ^ a b 루카스 쿠르간 및 페트르 무실렉(2006);지식 검색 데이터 마이닝 프로세스 모델대한 설문 조사.지식 엔지니어링 검토.제21권 2006년 3월 1-24 페이지, 뉴욕, 뉴욕, 캠브리지 대학 출판부: 10.1017/S0269888906000737.
  9. ^ a b 아제베도, A.와 산토스, M. F. (2008); KDD, SEMMACRFH-DM: 병렬 개요.IADIS 2008 유럽 데이터 마이닝 회의의 절차에서 182–185페이지.
  10. ^ a b Gregory Piatetsky-Shapiro(2002); KDnuggets 방법론 여론조사
  11. ^ a b Gregory Piatetsky-Shapiro(2004); KDnuggets 방법론 여론조사
  12. ^ a b Gregory Piatetsky-Shapiro(2007); KDnuggets 방법론 여론조사
  13. ^ Mariscal,G.,Marban,O.,Fernandez,C. "A Survey of Data Mining and knowledge discovery process Models and methodologies". The Knowledge Engineering Review. doi:10.1017/S0269888910000032.{{cite news}}: CS1 maint : 복수이름 : 작성자 목록(링크)
  14. ^ Harper, Gavin; Stephen D. Pickett (August 2006). "Methods for mining HTS data". Drug Discovery Today. 11 (15–16): 694–699. doi:10.1016/j.drudis.2006.06.006. PMID 16846796.
  15. ^ Gregory Piatetsky-Shapiro(2014), KDnuggets 방법론 여론조사
  16. ^ Martínez-Plumed, Fernando; Contreras-Ochando, Lidia; Ferri, Cèsar; Flach, Peter; Hernández-Orallo, José; Kull, Meelis; Lachiche, Nicolas; Ramírez-Quintana, María José (19 September 2017). "CASP-DM: Context Aware Standard Process for Data Mining". arXiv:1709.09003 [cs.DB].