예측 모델 마크업 언어
Predictive Model Markup Language예측 모델 마크업 언어(PMML)는 XML 기반의 예측 모델 교환 형식이며, 당시 시카고 소재 일리노이 대학 국립 데이터 마이닝 센터장이었던 Robert Lee Grossman 박사가 고안했습니다.PMML은 데이터 마이닝 및 머신 러닝 알고리즘에 의해 생성된 예측 모델을 해석 어플리케이션에서 기술하고 교환할 수 있는 방법을 제공합니다.로지스틱 회귀 분석 및 기타 피드포워드 신경망과 같은 공통 모델을 지원합니다.버전 0.9는 [1]1998년에 발행되었습니다.후속 버전은 데이터 마이닝 [2]그룹에 의해 개발되었습니다.
PMML은 XML 기반의 표준이므로 사양은 XML 스키마 형식으로 제공됩니다.PMML 자체는 30개 이상의 조직이 PMML을 [3]지원하는 제품을 발표한 성숙한 표준입니다.
PMML 컴포넌트
PMML 파일은 다음 [4][5]컴포넌트로 설명할 수 있습니다.
- Header: 모델 저작권 정보, 모델 설명 및 모델 생성에 사용되는 응용 프로그램에 대한 정보(예: 이름 및 버전)와 같은 PMML 문서에 대한 일반적인 정보가 포함되어 있습니다.또한 모델 생성 날짜를 지정하는 데 사용할 수 있는 타임스탬프의 속성도 포함됩니다.
- 데이터 사전: 모델에서 사용할 수 있는 모든 필드에 대한 정의를 포함합니다.여기서 필드는 연속형, 범주형 또는 순서형(속성 옵션형)으로 정의됩니다.이 정의에 따라 적절한 값 범위와 데이터 유형(예: 문자열 또는 이중)이 정의됩니다.
- 데이터 변환: 변환을 통해 마이닝 모델에서 사용하는 보다 바람직한 형태로 사용자 데이터를 매핑할 수 있습니다.PMML은 몇 가지 간단한 데이터 변환을 정의합니다.
- 정규화: 값을 숫자에 매핑합니다. 입력은 연속 또는 이산일 수 있습니다.
- 이산화: 연속된 값을 이산 값에 매핑합니다.
- 값 매핑: 이산 값을 이산 값에 매핑합니다.
- 함수(커스텀 및 빌트인): 함수를 하나 이상의 파라미터에 적용하여 값을 도출합니다.
- 집약: 값 그룹을 요약하거나 수집하는 데 사용됩니다.
- Model: 데이터 마이닝 모델의 정의를 포함합니다.예를 들어, 다층 피드포워드 뉴럴 네트워크는 PMML에서 다음과 같은 속성을 포함하는 "Neural Network" 요소에 의해 표시됩니다.
- 모델명(속성 modelName)
- 함수명(속성 functionName)
- Algorithm Name(아트리뷰트 algorithm Name)
- 액티베이션 기능(속성 액티베이션)기능)
- 레이어 수(아트리뷰트 number Of Layer)
- 그런 다음 이 정보는 PMML 문서에서 표현되는 뉴럴 네트워크 모델의 아키텍처를 지정하는 세 가지 종류의 뉴럴 레이어에 이어 이어집니다.이러한 속성은 NeuralInputs, NeuralLayer 및 NeuralOutputs입니다.신경 네트워크 외에도 PMML은 지원 벡터 머신, 연관 규칙, Naigive Bayes 분류기, 클러스터링 모델, 텍스트 모델, 의사결정 트리 및 다른 회귀 모델을 포함한 많은 다른 유형의 모델을 표현할 수 있도록 합니다.
- 마이닝 스키마: 모델에 사용된 모든 필드의 목록입니다.이것은 데이터 사전에 정의된 필드의 하위 집합일 수 있습니다.여기에는 다음과 같은 각 필드에 대한 특정 정보가 포함되어 있습니다.
- 이름(속성 이름): 데이터 사전의 필드를 참조해야 합니다.
- Usage Type(속성 usage Type): 모델에서 필드를 사용하는 방법을 정의합니다.일반적인 값은 active, predicted 및 supplementary입니다.예측 필드는 모형에 의해 값이 예측되는 필드입니다.
- 특이치 처리(속성 특이치): 사용할 특이치 처리를 정의합니다.PMML에서 특이치는 결측값, 극단값(특정 필드에 대한 상한값 및 하한값의 정의에 기초함) 또는 그대로 취급할 수 있습니다.
- Missing Value Replacement 정책(attribute missing Value Replacement): 이 속성을 지정하면 결측값이 지정된 값으로 자동으로 대체됩니다.
- 결측값 처리(속성 missingValueTreating): 결측값 치환이 도출된 방법(예: 값, 평균 또는 중위수)을 나타냅니다.
- 목표값: 모델의 출력이 연속적인 경우 스케일링 형식으로 예측값을 후처리할 수 있습니다.대상을 분류 태스크에도 사용할 수 있습니다.이 경우 previorProbability 속성은 대응하는 타깃카테고리의 디폴트 확률을 지정합니다.예측 로직 자체에서 결과가 나오지 않은 경우에 사용합니다.예를 들어 입력값이 누락되어 있고 결측값을 처리하는 다른 방법이 없는 경우 이러한 현상이 발생할 수 있습니다.
- 출력: 이 요소를 사용하여 모델에서 예상되는 모든 출력 필드의 이름을 지정할 수 있습니다.이러한 기능은 예측 필드의 특징이며, 일반적으로 예측 값 자체, 확률, 클러스터 선호도(클러스터 모델의 경우), 표준 오류 등도 마찬가지입니다.모델 출력의 일반적인 후처리를 가능하게 하는 PMML의 최신 릴리스, PMML 4.1 확장 출력.PMML 4.1에서는 원래 전처리에서만 사용 가능했던 내장 기능과 커스텀 기능을 모두 후처리에서도 사용할 수 있게 되었습니다.
PMML 4.0, 4.1, 4.2 및 4.3
PMML 4.0은 2009년 [6][7][8]6월 16일에 출시되었습니다.
신기능의 예는 다음과 같습니다.
- 향상된 전처리 기능:내장 함수에는 부울 연산 범위와 If-Then-Else 함수가 추가됩니다.
- 시계열 모델:새로운 지수 평활 모형. 또한 ARIMA, 계절 추세 분해 및 스펙트럼 밀도 추정에 대한 홀더를 배치하여 가까운 미래에 지원할 예정입니다.
- 모델 설명: PMML 파일 자체에 평가 및 모델 퍼포먼스 측정값 저장
- 다중 모델: 모델 구성, 앙상블 및 분할 기능(예: 회귀 및 의사결정 트리의 결합).
- 기존 요소의 확장:서포트 벡터 머신에 대한 다중 클래스 분류 추가, 관련 규칙 표현 개선 및 Cox 회귀 모델 추가.
PMML 4.1은 2011년 [9][10]12월 31일에 출시되었습니다.
새로운 기능:
- 스코어카드, KNN(k-Nearest Neighbors) 및 기준선 모델을 나타내는 새로운 모델 요소.
- 복수 모델의 심플화.PMML 4.1에서는 모델 분할, 앙상블 및 체인을 나타내는 데 동일한 요소가 사용됩니다.
- 필드 범위 및 필드 이름의 전체 정의.
- 모델이 실가동 환경에 도입할 준비가 되어 있는지 아닌지를 각 모델 요소에 대해 식별하는 새로운 속성.
- (Output 요소를 통해) 향상된 후 처리 기능.
PMML 4.2는 2014년 [11][12]2월 28일에 출시되었습니다.
신기능은 다음과 같습니다.
- 변환:텍스트 마이닝을 구현하기 위한 새로운 요소
- match, concat 및 replace 정규 표현을 구현하기 위한 새로운 내장 함수
- 후처리용 심플한 출력
- 스코어 카드 및 Naigive Bayes 모델 요소 확장
PMML 4.3은 2016년 [13][14]8월 23일에 출시되었습니다.
신기능은 다음과 같습니다.
- 새 모델 유형:
- 가우스 프로세스
- 베이지안 네트워크
- 새로운 내장 기능
- 사용방법의 명확화
- 문서의 개량점
버전 4.4는 2019년 [15][16]11월에 출시되었습니다.
릴리스 이력
버전 | 발매일 |
---|---|
버전 0.7 | 1997년 7월 |
버전 0.9 | 1998년 7월 |
버전 1.0 | 1999년 8월 |
버전 1.1 | 2000년 8월 |
버전 2.0 | 2001년 8월 |
버전 2.1 | 2003년 3월 |
버전 3.0 | 2004년 10월 |
버전 3.1 | 2005년 12월 |
버전 3.2 | 2007년 5월 |
버전 4.0 | 2009년 6월 |
버전 4.1 | 2011년 12월 |
버전 4.2 | 2014년 2월 |
버전 4.2.1 | 2015년 3월 |
버전 4.3 | 2016년 8월 |
버전 4.4 | 2019년 11월 |
데이터 마이닝 그룹
데이터 마이닝 그룹은 2008년에 [17]설립된 비영리 단체인 Computational Science Research, Inc.에 의해 관리되는 컨소시엄입니다.데이터 마이닝 그룹은 또한 PMML을 보완하는 Portable Format for Analytics(PFA)라는 표준을 개발했습니다.
「 」를 참조해 주세요.
레퍼런스
- ^ "The management and mining of multiple predictive models using the predictive modeling markup language". ResearchGate. doi:10.1016/S0950-5849(99)00022-1. Retrieved 2015-12-21.
- ^ "Data Mining Group". Retrieved December 14, 2017.
The DMG is proud to host the working groups that develop the Predictive Model Markup Language (PMML) and the Portable Format for Analytics (PFA), two complementary standards that simplify the deployment of analytic models.
- ^ "PMML Powered". Data Mining Group. Retrieved December 14, 2017.
- ^ A. 과젤리, M. 젤러, W. 첸, G.윌리엄스.PMML: 모델 공유를 위한 오픈 스탠다드.R저널, 제1권, 2009년 5월
- ^ A. Guazzelli, W. Lin, T. Jena(2010).PMML 실행 중 (제2판): 데이터 마이닝 및 예측 분석을 위한 개방형 표준의 힘 활용[ Create Space ]를 선택합니다.
- ^ Data Mining Group 웹사이트 PMML 4.0 - PMML 3.2로부터의 변경사항 아카이브 2012-07-28. 오늘 아카이브.
- ^ "Zementis website PMML 4.0 is here!". Archived from the original on 2011-10-03. Retrieved 2009-06-17.
- ^ R. 페치터PMML의 개요와 PMML 4.0의 신기능ACM SIGKDD 탐색 뉴스레터 제11/1권, 2009년 7월
- ^ Data Mining Group 웹사이트 PMML 4.1 - PMML 4.0과의 변경 사항
- ^ Predictive Analytics Info 웹 사이트 PMML 4.1이 여기에 있습니다!
- ^ Data Mining Group 웹 사이트 PMML 4.2 - PMML 4.1에서 변경 사항 아카이브 2014-05-20 오늘 아카이브.
- ^ Predictive Analytics Info 웹 사이트 PMML 4.2가 여기에 있습니다!
- ^ Data Mining Group 웹사이트 PMML 4.3 - PMML 4.2.1로부터의 변경 사항
- ^ 예측 모델 마크업 언어 제품 웹사이트 프로젝트 활동
- ^ "The Data Mining Group releases Predictive Model Markup Language v4.4". Retrieved 12 July 2021.
- ^ "PMML 4.4.1 - General Structure". Data Mining Group. Retrieved 12 July 2021.
- ^ "2008 EO 990". Retrieved 16 Oct 2014.
외부 링크
- PMML 및 ADAPA에서의 데이터 전처리 - 프라이머
- ACM 데이터 마이닝 그룹을 위한 Alex Guazzelli 박사의 PMML 프레젠테이션 비디오 (Linked In 주최)
- PMML 3.2 사양
- PMML 4.0 사양
- PMML 4.1 사양
- PMML 4.2.1 사양
- PMML 4.3 사양
- PMML에서 예측 솔루션 표현: 원시 데이터에서 예측으로 전환 - IBM developerWorks 웹 사이트에 게시된 기사.
- 의료 분야의 예측 분석: 개방형 표준의 중요성 - IBM developerWorks 웹 사이트에 게시된 문서입니다.