데이터 스트림 마이닝
Data stream mining데이터 스트림 마이닝(Stream Learning이라고도 함)은 지속적이고 신속한 데이터 기록에서 지식 구조를 추출하는 과정이다. 데이터 스트림은 많은 데이터 스트림 마이닝 애플리케이션에서 제한된 컴퓨팅 및 스토리지 기능을 사용하여 한 번만 또는 소수의 횟수만 읽을 수 있는 순서의 인스턴스다.[1]
많은 데이터 스트림 마이닝 애플리케이션에서 목표는 데이터 스트림에서 이전 인스턴스의 클래스 멤버쉽 또는 값에 대한 약간의 지식이 주어진 데이터 스트림에서 새로운 인스턴스의 클래스 또는 가치를 예측하는 것이다.[2] 기계 학습 기법은 라벨이 부착된 예에서 자동화된 방식으로 이 예측 작업을 학습하는 데 사용될 수 있다. 구조 변화, 온라인 학습, 실시간 수요에 대응하기 위해 증분 학습 분야의 개념이 적용되는 경우가 많다. 많은 애플리케이션, 특히 비가역적 환경 내에서 운용되는 많은 애플리케이션에서, 인스턴스나 그 라벨링의 기초가 되는 규칙이 시간이 지남에 따라 변할 수 있다. 즉, 예측의 목표, 예측될 클래스 또는 예측될 목표값은 시간이 지남에 따라 변할 수 있다.[3] 이 문제를 개념 표류라고 한다. 데이터 스트림 마이닝은 개념 드리프트를 감지하는 것이 핵심 사안이다.[4][5] 스트리밍 데이터에 머신러닝을 적용할 때 발생하는 다른 문제로는[6] 라벨링 데이터의 부분적 및 지연,[7] 개념 변화로부터의 복구,[1] 시간적 의존성 등이 있다.[8]
데이터 스트림의 예로는 컴퓨터 네트워크 트래픽, 전화 통화, ATM 거래, 웹 검색, 센서 데이터 등이 있다. 데이터 스트림 마이닝은 데이터 마이닝, 머신러닝, 지식 발견의 하위 분야로 간주될 수 있다.
데이터 스트림 마이닝용 소프트웨어
- MOA(Massive Online Analysis): Java에서 개발된 개념 표류를 사용하여 데이터 스트림을 채굴하기 위한 무료 오픈 소스 소프트웨어. 몇 가지 머신러닝 알고리즘(분류, 회귀, 클러스터링, 특출한 검출 및 추천자 시스템)을 가지고 있다. 또한 선행 평가 방법, EDDM 개념 드리프트 방법, ARFF 리얼 데이터셋의 판독기, SEA 개념으로서의 인공 스트림 생성기, STAGER, 회전 하이퍼플레인, 무작위 트리, 무작위 반지름 기반 기능 등이 포함되어 있다. MOA는 Weka(기계학습)와의 양방향 상호작용을 지원한다.
- scikit-multiflow: Python에서 구현된 다중 출력/멀티 라벨 및 스트림 데이터를 위한 머신러닝 프레임워크.[9] scikit-멀티플로우는 스트림 생성기, 단일 타겟 및 다중 타겟에 대한 스트림 학습 방법, 개념 드리프트 검출기, 평가 및 시각화 방법 등을 포함한다.(이 소프트웨어는 중단됨)[10]
- 스트림DM: 스트림DM은 핵심 스파크 API의 스파크 스트리밍[11] 확장을 이용하는 빅데이터 스트림 마이닝용 오픈소스 프레임워크다. 스트림DM이 기존 프레임워크와 비교했을 때 얻을 수 있는 한 가지 장점은 고장난 데이터, 장애로부터의 복구 등 기초 데이터 소스의 복잡한 문제를 많이 처리하는 스파크 스트리밍 API에서 직접 이익을 얻는다는 것이다.
- RapidMiner: 지식 검색, 데이터 마이닝 및 머신러닝을 위한 상용 소프트웨어도 데이터 스트림 마이닝, 학습 시간 변동 개념 및 추적 표류 개념(데이터 스트림 마이닝 플러그인(이전의: Concept Driple 플러그인)과 함께 사용되는 경우)을 특징으로 한다.
- RiverML: River는 온라인 머신러닝을 위한 파이썬 도서관이다. 크레임과 스키킷-멀티플로우가 합병한 결과다. River의 야망은 스트리밍 데이터에서 머신러닝을 하는 데 필요한 도서관이 되는 것이다.[12]
이벤트
- 2013년 8월 3~5일 중국 베이징에서 열린 국제인공지능학회(IJCAI)와 연계해 열린 유비쿼터스 데이터 마이닝 국제 워크숍.
- 2007년 9월 폴란드 바르샤바에서 열린 제18차 유럽 머신러닝 회의(ECML) 및 제11차 유럽 데이터베이스 지식 검색 원칙 및 실천 회의(PKDD)와 연계하여 열린 유비쿼터스 데이터 스트림에서의 지식 검색에 관한 국제 워크숍.
- 2007년 3월 서울에서 열린 2007년 응용컴퓨팅 심포지엄(SAC-2007)과 연계해 열린 응용컴퓨팅 데이터 스트림 트랙에 관한 ACM 심포지엄.
- 2006년 12월 홍콩에서 열린 2006 IEEE 국제 데이터 마이닝 컨퍼런스(ICDM-2006)와 연계해 개최되는 IEEE 국제 마이닝 및 스트리밍 데이터 워크숍(IWMESD 2006).
- Fourth International Workshop on Knowledge Discovery from Data Streams (IWKDDS) to be held in conjunction with the 17th European Conference on Machine Learning (ECML) and the 10th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD) (ECML/PKDD-2006) in Berlin, Germany, in September 2006.
참고 항목
책들
- Bifet, Albert; Gavaldà, Ricard; Holmes, Geoff; Pfahringer, Bernhard (2018). Machine Learning for Data Streams with Practical Examples in MOA. Adaptive Computation and Machine Learning. MIT Press. p. 288. ISBN 9780262037792.
- Gama, João; Gaber, Mohamed Medhat, eds. (2007). Learning from Data Streams: Processing Techniques in Sensor Networks. Springer. p. 244. doi:10.1007/3-540-73679-4. ISBN 9783540736783.
- Ganguly, Auroop R.; Gama, João; Omitaomu, Olufemi A.; Gaber, Mohamed M.; Vatsavai, Ranga R., eds. (2008). Knowledge Discovery from Sensor Data. Industrial Innovation. CRC Press. p. 215. ISBN 9781420082326.
- Gama, João (2010). Knowledge Discovery from Data Streams. Data Mining and Knowledge Discovery. Chapman and Hall. p. 255. ISBN 9781439826119.
- Lughofer, Edwin (2011). Evolving Fuzzy Systems - Methodologies, Advanced Concepts and Applications. Studies in Fuzziness and Soft Computing. Vol. 266. Heidelberg: Springer. p. 456. doi:10.1007/978-3-642-18087-3. ISBN 9783642180866.
- Sayed-Mouchaweh, Moamar; Lughofer, Edwin, eds. (2012). Learning in Non-Stationary Environments: Methods and Applications. New York: Springer. p. 440. CiteSeerX 10.1.1.709.437. doi:10.1007/978-1-4419-8020-5. ISBN 9781441980199.
참조
- ^ a b Gomes, Heitor M.; Bifet, Albert; Read, Jesse; Barddal, Jean Paul; Enembreck, Fabrício; Pfharinger, Bernhard; Holmes, Geoff; Abdessalem, Talel (2017-10-01). "Adaptive random forests for evolving data stream classification". Machine Learning. 106 (9): 1469–1495. doi:10.1007/s10994-017-5642-8. ISSN 1573-0565.
- ^ Medhat, Mohamed; Zaslavsky; Krishnaswamy (2005-06-01). "Mining data streams". ACM SIGMOD Record. 34 (2): 18–26. doi:10.1145/1083784.1083789. S2CID 705946.
- ^ Lemaire, Vincent; Salperwyck, Christophe; Bondu, Alexis (2015), Zimányi, Esteban; Kutsche, Ralf-Detlef (eds.), "A Survey on Supervised Classification on Data Streams", Business Intelligence: 4th European Summer School, eBISS 2014, Berlin, Germany, July 6–11, 2014, Tutorial Lectures, Lecture Notes in Business Information Processing, Springer International Publishing, pp. 88–125, doi:10.1007/978-3-319-17551-5_4, ISBN 978-3-319-17551-5
- ^ Webb, Geoffrey I.; Lee, Loong Kuan; Petitjean, François; Goethals, Bart (2017-04-02). "Understanding Concept Drift". arXiv:1704.00362 [cs.LG].
- ^ Gama, João; Žliobaitė; Bifet; Pechenizkiy; Bouchachia (2014-03-01). "A survey on concept drift adaptation" (PDF). ACM Computing Surveys. 46 (4): 1–37. doi:10.1145/2523813. S2CID 207208264.
- ^ Gomes, Heitor Murilo; Read; Bifet; Barddal; Gama (2019-11-26). "Machine learning for streaming data". ACM SIGKDD Explorations Newsletter. 21 (2): 6–22. doi:10.1145/3373464.3373470. S2CID 208607941.
- ^ Grzenda, Maciej; Gomes, Heitor Murilo; Bifet, Albert (2019-11-16). "Delayed labelling evaluation for data streams". Data Mining and Knowledge Discovery. 34 (5): 1237–1266. doi:10.1007/s10618-019-00654-y. ISSN 1573-756X.
- ^ Žliobaitė, Indrė; Bifet, Albert; Read, Jesse; Pfahringer, Bernhard; Holmes, Geoff (2015-03-01). "Evaluation methods and decision theory for classification of streaming data with temporal dependence". Machine Learning. 98 (3): 455–482. doi:10.1007/s10994-014-5441-4. ISSN 1573-0565.
- ^ Montiel, Jacob; Read, Jesse; Bifet, Albert; Abdessalem, Talel (2018). "Scikit-Multiflow: A Multi-output Streaming Framework". Journal of Machine Learning Research. 19 (72): 1–5. arXiv:1807.04662. Bibcode:2018arXiv180704662M. ISSN 1533-7928.
- ^ Features, scikit-multiflow, 2021-10-09, retrieved 2021-10-11
- ^ Zaharia, Matei; Das, Tathagata; Li, Haoyuan; Hunter, Timothy; Shenker, Scott; Stoica, Ion (2013). "Discretized streams". Proceedings of the Twenty-Fourth ACM Symposium on Operating Systems Principles - SOSP '13. New York, New York, USA: ACM Press: 423–438. doi:10.1145/2517349.2522737. ISBN 978-1-4503-2388-8.
- ^ online-ml/river, OnlineML, 2021-10-11, retrieved 2021-10-11