Oracle 데이터 마이닝
Oracle Data MiningOracle Data Mining(ODM)은 Oracle Database Enterprise Edition의 옵션입니다.여기에는 분류, 예측, 회귀, 연관성, 기능 선택, 이상 탐지, 기능 추출 및 전문 분석을 위한 여러 데이터 마이닝 및 데이터 분석 알고리즘이 포함되어 있습니다.데이터베이스 환경 내에서 데이터 마이닝 모델을 작성, 관리 및 운용하기 위한 수단을 제공합니다.
개발자 | 오라클 코퍼레이션 |
---|---|
안정된 릴리스 | 11gR2 / 2009년9월 |
유형 | 데이터 마이닝 및 분석 |
면허증. | 전매의 |
웹 사이트 | Oracle 데이터 마이닝 |
개요
Oracle Corporation은 Oracle Database 관계형 데이터베이스 제품 내에 다양한 데이터 마이닝 알고리즘을 구현했습니다.이러한 구현은 Oracle 데이터베이스 커널과 직접 통합되어 관계형 데이터베이스 테이블에 저장된 데이터에 대해 기본적으로 작동합니다.따라서 데이터를 추출하거나 독립형 마이닝/분석 서버로 전송할 필요가 없습니다.관계형 데이터베이스 플랫폼을 활용하여[by whom?] 모델을 안전하게 관리하고 대량의 데이터에 대해 SQL 쿼리를 효율적으로 실행합니다.이 시스템은 데이터 마이닝 기능을 위한 일반적인 통합 인터페이스를 제공하는 몇 가지 일반적인 작업을 중심으로 구성되어 있습니다.이러한 작업에는 데이터 마이닝 모델을 생성, 적용, 테스트 및 조작하는 기능이 포함됩니다.모델은 데이터베이스 개체로 생성 및 저장되며, 데이터베이스 내에서 관리됩니다. 테이블, 뷰, 인덱스 및 기타 데이터베이스 개체와 유사합니다.
데이터 마이닝에서 아직 발생하지 않은 동작에 대한 예측이나 설명을 도출하기 위해 모델을 사용하는 과정을 "채점"이라고 합니다.기존 분석 워크벤치에서는 분석 엔진에 내장된 모델을 미션 크리티컬 시스템에 배치하여 새로운 데이터를 채점하거나 데이터를 관계형 테이블에서 분석 워크벤치로 이동해야 합니다.대부분의 워크벤치는 독자적인 채점 인터페이스를 제공합니다.ODM은 데이터베이스에 바로 저장된 데이터에 점수를 매기는 Oracle SQL 함수를 제공하여 모델 배포를 간소화합니다.이렇게 하면 사용자/애플리케이션 개발자는 Oracle SQL의 모든 기능을 활용할 수 있습니다.여러 레벨에 걸쳐 결과를 파이프라인 및 조작할 수 있으며 성능을 위해 데이터 액세스를 병렬화하고 분할할 수 있습니다.
모델은 여러 가지 방법 중 하나로 생성 및 관리할 수 있습니다.Oracle Data Miner는 사용자가 모델을 작성, 테스트 및 적용하는 프로세스(예: CRISP-DM 방법론)를 단계별로 수행하는 그래픽 사용자 인터페이스를 제공합니다.애플리케이션 및 툴 개발자는 PL/SQL 또는 Java API를 사용하여 예측 및 기술 마이닝 기능을 내장할 수 있습니다.비즈니스 분석가는 전용 Microsoft Excel 어댑터 인터페이스인 Oracle Spreadsheet Add-In for Predictive Analytics를 사용하여 예측 분석 기능을 신속하게 실험하거나 시연할 수 있습니다.ODM은 의사결정 트리, Naigive Bayes, 지원 벡터 머신, 예측 마이닝을 위한 GLM(Generalized Linear Model), 연관 규칙, K-평균 및 직교 파티션[1][2] 클러스터링, 기술 마이닝을 위한 비-부정 매트릭스 인수화 등 잘 알려진 기계 학습 접근 방식을 제공합니다.또한 주어진 문제에 대한 입력 마이닝 속성의 상대적 중요도를 평가하기 위한 최소 기술 길이 기반 기술도 제공된다.또한 대부분의 Oracle 데이터 마이닝 함수는 텍스트(비구조화 데이터) 속성을 입력으로 받아들여 텍스트 마이닝을 허용합니다.사용자는 텍스트 마이닝 옵션을 구성할 필요가 없습니다. Database_options 데이터베이스 옵션은 이 작업을 백그라운드에서 처리합니다.
역사
Oracle Data Mining은 2002년에 처음 도입되었으며, 해당 Oracle 데이터베이스 릴리스에 따라 이름이 지정되었습니다.
- Oracle Data Mining 9iR2 (9.2.0.1.0 - 2002년 5월)
- Oracle Data Mining 10gR1 (10.1.0.2.0 - 2004년 2월)
- Oracle Data Mining 10gR2 (10.2.0.1.0 - 2005년 7월)
- Oracle Data Mining 11gR1 (11.1 - 2007년 9월)
- Oracle Data Mining 11gR2 (11.2 - 2009년 9월)
Oracle Data Mining은 1990년대 중반 Thinking Machines Corporation이 개발한 Darwin 데이터 마이닝 툴셋의 논리적 후속 제품으로, 1999년 Thinking Machines 인수 후 Oracle에 의해 배포되었습니다.그러나 제품 자체는 완전히 재설계되고 처음부터 다시 씁니다.Darwin은 전형적인 GUI 기반의 분석 워크벤치였지만 ODM은 Oracle Data Miner GUI와 함께 Oracle 데이터베이스에 통합된 데이터 마이닝 개발/도입 플랫폼을 제공합니다.
Oracle Data Miner 11gR2 New Workflow GUI는 Oracle Open World 2009에서 프리뷰되었습니다.업데이트된 Oracle Data Miner GUI가 2012년에 출시되었습니다.이는 무료이며 Oracle SQL Developer 3.1의 확장 기능으로 사용할 수 있습니다.
기능
릴리스 11gR1의 Oracle Data Mining에는 다음과 같은 데이터 마이닝 기능이 포함되어 있습니다.
- 데이터 변환 및 모델 분석:
- 기능 선택(Attribute Importance).
- 최소 설명 길이(MDL).
- 분류.
- 이상 검출
- 1클래스 지원 벡터 머신(SVM)
- 회귀
- 클러스터링:
- 연결 규칙 학습:
- 기능의 추출.
- Non--negative matrix factorization(NMF; 음이 아닌 행렬 인수분해
- 텍스트 및 공간 마이닝:
- 입력 데이터의 텍스트 열과 텍스트 열이 결합되었습니다.
- 공간/GIS 데이터.
입력원 및 데이터 준비
대부분의 Oracle Data Mining 함수는 하나의 관계형 테이블 또는 보기를 입력으로 받아들입니다.플랫 데이터는 네스트된 열을 사용하여 트랜잭션 데이터와 결합할 수 있으므로 일대다 관계(예: 스타 스키마)를 포함하는 데이터 마이닝이 가능합니다.SQL의 모든 기능은 날짜, 공간 데이터 등 데이터 마이닝을 위한 데이터를 준비할 때 사용할 수 있습니다.
Oracle Data Mining은 숫자, 범주형 및 비정형(텍스트) 속성을 구분합니다.또한 이 제품은 특이치 처리, 이산화, 정규화 및 비닝(일반적으로 정렬)과 같은 모델 구축 전 데이터 준비 단계를 위한 유틸리티도 제공합니다.
그래피컬 사용자 인터페이스:Oracle 데이터 마이너
사용자는 Oracle Data Miner를 통해 Oracle Data Miner에 액세스할 수 있습니다. Oracle Data Miner는 데이터 마이닝 기능 및 구조화된 템플릿(마이닝 활동이라고 함)에 액세스하여 작업 순서를 자동으로 지정하고 필요한 데이터 변환을 수행하고 모델 매개 변수를 설정할 수 있습니다.또한 사용자 인터페이스를 통해 데이터 마이닝 작업과 관련된 Java 및/또는 SQL 코드를 자동으로 생성할 수 있습니다.Java Code Generator는 Oracle JDeveloper의 확장판입니다.또한 Microsoft Excel에서 Oracle Data Mining Predictive Analytics PL/SQL 패키지에 액세스할 수 있는 예측 분석용 스프레드시트 추가 기능도 있습니다.
Oracle 데이터베이스 버전 11.2부터 Oracle Data [3]Miner는 Oracle SQL Developer와 통합됩니다.
PL/SQL 및 Java 인터페이스
Oracle Data Mining은 모델을 작성, 파기, 설명, 적용, 테스트, 내보내기 및 Import하기 위한 네이티브 PL/SQL 패키지(DBMS_DATA_MININING)를 제공합니다.다음 코드는 분류 모델을 구축하기 위한 일반적인 호출을 보여줍니다.
시작한다. DBMS_DATA_MINING.CREATE_MODEL ( model_name => 'credit_risk_model', 기능. => DBMS_DATA_MINING.분류, data_table_name => 'credit_card_data', case_id_column_name => 'customer_id', target_column_name => 'credit_risk', settings_table_name => 'credit_risk_model_credit'); 끝.;
여기서 'credit_risk_model'은 미래 고객의 'credit_risk'를 분류하기 위한 명확한 목적으로 작성된 모델명으로, 각 사례는 고유한 'credit_id'로 구분되며, 나머지 모델 매개변수는 'credit_risk_model_model_model' 표에서 지정된다.
또한 Oracle Data Mining은 Java Data Mining(JDM) 표준 데이터 마이닝(JSR-73)에 부합하는 Java API를 지원하여 웹 및 Java EE 애플리케이션과의 통합을 지원하고 플랫폼 간 이동성을 향상시킵니다.
SQL 스코어링 함수
릴리스 10gR2에서 Oracle Data Mining에는 데이터 마이닝 모델의 스코어링을 위한 SQL 함수가 내장되어 있습니다.이러한 단일 행 함수는 분류, 회귀, 이상 검출, 클러스터링 및 기능 추출을 지원합니다.다음 코드는 분류 모델의 일반적인 사용법을 보여줍니다.
선택한다. customer_name 부터 credit_card_data 어디에 예측 (credit_risk_model 사용. *) = '낮다' 그리고. customer_value(고객의 가치) = '높다';
PMML
Release 11gR2(11.2.0.2)에서는 ODM은 일부 데이터 마이닝모델에 대해 외부에서 작성된PMML Import를 지원합니다.PMML은 데이터 마이닝 모델을 나타내기 위한 XML 기반 표준입니다.
예측 분석 Microsoft Excel 애드인
PL/SQL 패키지 DBMS_PREDISTABLE_ANALYTICES는 데이터 전처리, 모델 구축 및 평가, 새로운 데이터 점수 매기기 등의 데이터 마이닝 프로세스를 자동화합니다.PREDICT 연산은 목표값 분류 또는 회귀를 예측하는 데 사용되며, EXPLIDE는 목표 열 피쳐 선택을 설명하는 데 영향을 미치는 순서대로 속성을 순위를 매긴다.새로운 11g 기능 PROFLE은 타깃 속성이 지정된 고객 세그먼트와 그 프로파일을 찾습니다.이러한 작업은 실행 가능한 결과를 제공하는 운영 파이프라인의 일부로 사용하거나 최종 사용자가 해석할 수 있도록 표시할 수 있습니다.
참고 자료 및 추가 자료
- T. H. Davenport, Competing on Analytics, Harvard Business Review, 2006년 1월
- I. Ben-Gal, 이상 검출: Maimon O.와 Rockach L. (Eds)데이터 마이닝 및 지식 발견 핸드북:실무자와 연구자를 위한 완전한 가이드" Kluwer Academic Publishers, 2005, ISBN0-387-24435-2.
- M. M. Campos, P. J. Stengard 및 B. L. Milenova, 데이터 중심 자동 데이터 마이닝2005년 12월 15-17일 제4회 기계학습 및 응용 국제회의의 진행에 있어서, pp8, ISBN 0-7695-2495-8
- M.F. 호닉, 에릭 마르카데, 수닐 벤카얄라.Java 데이터 마이닝: 전략, 표준 및 프랙티스.Morgan-Kaufmann, 2006, ISBN 0-12-370452-9.
- B. L. 밀레노바, J. S. 야무스, M. M. 캄포스.Oracle 데이터베이스 10g의 SVM: 지원 벡터 머신의 광범위한 채택에 대한 장벽을 제거합니다.제31회 초대형 데이터베이스 국제회의의 속행 (노르웨이 트론하임, 2005년 8월 30일~9월 2일)pp1152-1163, ISBN 1-59593-154-6.
- B. L. 밀레노바와 M. M. 캄포스O-클러스터: 대규모 고차원 데이터 세트의 확장 가능한 클러스터링.2002년 IEEE 국제 데이터 마이닝 회의: ICDM 2002. pp290-297, ISBN 0-7695-1754-4.
- P. 타마요, C.Berger, M. Campos, J. S. Yarmus, B. L.Milenova, A. Mozes, M.태프트, M. 호닉, R. 크리슈난, S.토마스, M. Kelly, D.Mukhin, R. Haberstroh, S. Stephens, J. Myczkowski.Oracle 데이터 마이닝 - 데이터베이스 환경에서의 데이터 마이닝.데이터 마이닝 및 지식 발견 핸드북 파트 VII, Maimon, O.; L. (Eds.) 2005, p315-13429, ISBN 0-387-24435-2.
- Brendan Tierney, Oracle Data Miner를 사용한 예측 분석: 데이터 과학자, Oracle 분석가, Oracle 개발자 및 DBA, Oracle Press, McGraw Hill, 2014년 봄.
「 」를 참조해 주세요.
- Oracle LogMiner - 일반적인 데이터 마이닝과는 달리 Oracle 데이터베이스의 내부 로그에서 정보를 추출하는 것을 목표로 합니다.
레퍼런스
- ^ a b 미국 특허 7174344, Campos, Marcos M. & Milenova, Boriana L., "직교 파티션 클러스터링", 2007-02-06 발행, Oracle International Corporation에 할당
- ^ a b 보리아나 L. 밀레노바와 마르코스 M.Campos (2002); O-Cluster: 대규모 고차원 데이터 세트의 스케일러블 클러스터링, ICDM '02 데이터 마이닝에 관한 2002 IEEE 국제회의의 진행, 290-297페이지, ISBN 0-7695-1754-4.
- ^ "Oracle Data Miner". Oracle technology Network. Oracle Corporation. 2014. Retrieved 2014-07-17.
The Oracle Data Miner is an Oracle SQL Developer extension that enables data analysts to work directly with data inside the database, explore the data graphically, build and evaluate multiple data mining models, apply Oracle Data Mining models to new data and deploy Oracle Data Mining's predictions and insights throughout the enterprise. [...] Oracle Data Miner is comprised of three components: Oracle Database 12c or Oracle Database 11g Release 2 SQL Developer (client) which bundles the Oracle Data Miner work flow GUI Data Miner Repository - installed in the Oracle Database
외부 링크
- Oracle Technology Network에서의 Oracle 데이터 마이닝.
- Oracle 데이터 마이닝 블로그
- Oracle Technology Network의 Oracle Database 11g.
- Oracle Data Mining and Analytics 블로그.
- 데이터 마이닝용 Oracle Wiki.
- Oracle 데이터 마이닝 RSS 피드입니다.
- Oracle Technology Network에서의 Oracle 데이터 마이닝.
- Oracle Data Mining 관련 블로그 Brendan Tierney (Oracle ACE Director)
- Oracle 데이터 마이닝 예시(Panoply Technology).