예측 모델 마크업 언어

Predictive Model Markup Language
PMML Logo.png

예측 모델 마크업 언어(PMML)는 XML 기반의 예측 모델 교환 형식이며, 당시 시카고 소재 일리노이 대학 국립 데이터 마이닝 센터장이었던 Robert Lee Grossman 박사가 고안했습니다.PMML은 데이터 마이닝 및 머신 러닝 알고리즘에 의해 생성된 예측 모델을 해석 어플리케이션에서 기술하고 교환할 수 있는 방법을 제공합니다.로지스틱 회귀 분석 및 기타 피드포워드 신경망과 같은 공통 모델을 지원합니다.버전 0.9는 [1]1998년에 발행되었습니다.후속 버전은 데이터 마이닝 [2]그룹에 의해 개발되었습니다.

PMML은 XML 기반의 표준이므로 사양은 XML 스키마 형식으로 제공됩니다.PMML 자체는 30개 이상의 조직이 PMML을 [3]지원하는 제품을 발표한 성숙한 표준입니다.

PMML 컴포넌트

PMML 파일은 다음 [4][5]컴포넌트로 설명할 수 있습니다.

  • Header: 모델 저작권 정보, 모델 설명 및 모델 생성에 사용되는 응용 프로그램에 대한 정보(예: 이름 및 버전)와 같은 PMML 문서에 대한 일반적인 정보가 포함되어 있습니다.또한 모델 생성 날짜를 지정하는 데 사용할 수 있는 타임스탬프의 속성도 포함됩니다.
  • 데이터 사전: 모델에서 사용할 수 있는 모든 필드에 대한 정의를 포함합니다.여기서 필드는 연속형, 범주형 또는 순서형(속성 옵션형)으로 정의됩니다.이 정의에 따라 적절한 값 범위와 데이터 유형(예: 문자열 또는 이중)이 정의됩니다.
  • 데이터 변환: 변환을 통해 마이닝 모델에서 사용하는 보다 바람직한 형태로 사용자 데이터를 매핑할 수 있습니다.PMML은 몇 가지 간단한 데이터 변환을 정의합니다.
    • 정규화: 값을 숫자에 매핑합니다. 입력은 연속 또는 이산일 수 있습니다.
    • 이산화: 연속된 값을 이산 값에 매핑합니다.
    • 값 매핑: 이산 값을 이산 값에 매핑합니다.
    • 함수(커스텀 및 빌트인): 함수를 하나 이상의 파라미터에 적용하여 값을 도출합니다.
    • 집약: 값 그룹을 요약하거나 수집하는 데 사용됩니다.
  • Model: 데이터 마이닝 모델의 정의를 포함합니다.예를 들어, 다층 피드포워드 뉴럴 네트워크는 PMML에서 다음과 같은 속성을 포함하는 "Neural Network" 요소에 의해 표시됩니다.
    • 모델명(속성 modelName)
    • 함수명(속성 functionName)
    • Algorithm Name(아트리뷰트 algorithm Name)
    • 액티베이션 기능(속성 액티베이션)기능)
    • 레이어 수(아트리뷰트 number Of Layer)
그런 다음 이 정보는 PMML 문서에서 표현되는 뉴럴 네트워크 모델의 아키텍처를 지정하는 세 가지 종류의 뉴럴 레이어에 이어 이어집니다.이러한 속성은 NeuralInputs, NeuralLayer 및 NeuralOutputs입니다.신경 네트워크 외에도 PMML은 지원 벡터 머신, 연관 규칙, Naigive Bayes 분류기, 클러스터링 모델, 텍스트 모델, 의사결정 트리 및 다른 회귀 모델을 포함한 많은 다른 유형의 모델을 표현할 수 있도록 합니다.
  • 마이닝 스키마: 모델에 사용된 모든 필드의 목록입니다.이것은 데이터 사전에 정의된 필드의 하위 집합일 수 있습니다.여기에는 다음과 같은 각 필드에 대한 특정 정보가 포함되어 있습니다.
    • 이름(속성 이름): 데이터 사전의 필드를 참조해야 합니다.
    • Usage Type(속성 usage Type): 모델에서 필드를 사용하는 방법을 정의합니다.일반적인 값은 active, predicted 및 supplementary입니다.예측 필드는 모형에 의해 값이 예측되는 필드입니다.
    • 특이치 처리(속성 특이치): 사용할 특이치 처리를 정의합니다.PMML에서 특이치는 결측값, 극단값(특정 필드에 대한 상한값 및 하한값의 정의에 기초함) 또는 그대로 취급할 수 있습니다.
    • Missing Value Replacement 정책(attribute missing Value Replacement): 이 속성을 지정하면 결측값이 지정된 값으로 자동으로 대체됩니다.
    • 결측값 처리(속성 missingValueTreating): 결측값 치환이 도출된 방법(예: 값, 평균 또는 중위수)을 나타냅니다.
  • 목표값: 모델의 출력이 연속적인 경우 스케일링 형식으로 예측값을 후처리할 수 있습니다.대상을 분류 태스크에도 사용할 수 있습니다.이 경우 previorProbability 속성은 대응하는 타깃카테고리의 디폴트 확률을 지정합니다.예측 로직 자체에서 결과가 나오지 않은 경우에 사용합니다.예를 들어 입력값이 누락되어 있고 결측값을 처리하는 다른 방법이 없는 경우 이러한 현상이 발생할 수 있습니다.
  • 출력: 이 요소를 사용하여 모델에서 예상되는 모든 출력 필드의 이름을 지정할 수 있습니다.이러한 기능은 예측 필드의 특징이며, 일반적으로 예측 값 자체, 확률, 클러스터 선호도(클러스터 모델의 경우), 표준 오류 등도 마찬가지입니다.모델 출력의 일반적인 후처리를 가능하게 하는 PMML의 최신 릴리스, PMML 4.1 확장 출력.PMML 4.1에서는 원래 전처리에서만 사용 가능했던 내장 기능과 커스텀 기능을 모두 후처리에서도 사용할 수 있게 되었습니다.

PMML 4.0, 4.1, 4.2 및 4.3

PMML 4.0은 2009년 [6][7][8]6월 16일에 출시되었습니다.

신기능의 예는 다음과 같습니다.

PMML 4.1은 2011년 [9][10]12월 31일에 출시되었습니다.

새로운 기능:

  • 스코어카드, KNN(k-Nearest Neighbors) 및 기준선 모델을 나타내는 새로운 모델 요소.
  • 복수 모델의 심플화.PMML 4.1에서는 모델 분할, 앙상블 및 체인을 나타내는 데 동일한 요소가 사용됩니다.
  • 필드 범위 및 필드 이름의 전체 정의.
  • 모델이 실가동 환경에 도입할 준비가 되어 있는지 아닌지를 각 모델 요소에 대해 식별하는 새로운 속성.
  • (Output 요소를 통해) 향상된 후 처리 기능.

PMML 4.2는 2014년 [11][12]2월 28일에 출시되었습니다.

신기능은 다음과 같습니다.

  • 변환:텍스트 마이닝을 구현하기 위한 새로운 요소
  • match, concat 및 replace 정규 표현을 구현하기 위한 새로운 내장 함수
  • 후처리용 심플한 출력
  • 스코어 카드 및 Naigive Bayes 모델 요소 확장

PMML 4.3은 2016년 [13][14]8월 23일에 출시되었습니다.

신기능은 다음과 같습니다.

  • 새 모델 유형:
    • 가우스 프로세스
    • 베이지안 네트워크
  • 새로운 내장 기능
  • 사용방법의 명확화
  • 문서의 개량점

버전 4.4는 2019년 [15][16]11월에 출시되었습니다.

릴리스 이력

버전 발매일
버전 0.7 1997년 7월
버전 0.9 1998년 7월
버전 1.0 1999년 8월
버전 1.1 2000년 8월
버전 2.0 2001년 8월
버전 2.1 2003년 3월
버전 3.0 2004년 10월
버전 3.1 2005년 12월
버전 3.2 2007년 5월
버전 4.0 2009년 6월
버전 4.1 2011년 12월
버전 4.2 2014년 2월
버전 4.2.1 2015년 3월
버전 4.3 2016년 8월
버전 4.4 2019년 11월

데이터 마이닝 그룹

데이터 마이닝 그룹은 2008년에 [17]설립된 비영리 단체인 Computational Science Research, Inc.에 의해 관리되는 컨소시엄입니다.데이터 마이닝 그룹은 또한 PMML을 보완하는 Portable Format for Analytics(PFA)라는 표준을 개발했습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ "The management and mining of multiple predictive models using the predictive modeling markup language". ResearchGate. doi:10.1016/S0950-5849(99)00022-1. Retrieved 2015-12-21.
  2. ^ "Data Mining Group". Retrieved December 14, 2017. The DMG is proud to host the working groups that develop the Predictive Model Markup Language (PMML) and the Portable Format for Analytics (PFA), two complementary standards that simplify the deployment of analytic models.
  3. ^ "PMML Powered". Data Mining Group. Retrieved December 14, 2017.
  4. ^ A. 과젤리, M. 젤러, W. 첸, G.윌리엄스.PMML: 모델 공유를 위한 오픈 스탠다드.R저널, 제1권, 2009년 5월
  5. ^ A. Guazzelli, W. Lin, T. Jena(2010).PMML 실행 중 (제2판): 데이터 마이닝예측 분석을 위한 개방형 표준의 활용[ Create Space ]를 선택합니다.
  6. ^ Data Mining Group 웹사이트 PMML 4.0 - PMML 3.2로부터의 변경사항 아카이브 2012-07-28. 오늘 아카이브.
  7. ^ "Zementis website PMML 4.0 is here!". Archived from the original on 2011-10-03. Retrieved 2009-06-17.
  8. ^ R. 페치터PMML의 개요와 PMML 4.0의 신기능ACM SIGKDD 탐색 뉴스레터 제11/1권, 2009년 7월
  9. ^ Data Mining Group 웹사이트 PMML 4.1 - PMML 4.0과의 변경 사항
  10. ^ Predictive Analytics Info 웹 사이트 PMML 4.1이 여기에 있습니다!
  11. ^ Data Mining Group사이트 PMML 4.2 - PMML 4.1에서 변경 사항 아카이브 2014-05-20 오늘 아카이브.
  12. ^ Predictive Analytics Info 웹 사이트 PMML 4.2가 여기에 있습니다!
  13. ^ Data Mining Group 웹사이트 PMML 4.3 - PMML 4.2.1로부터의 변경 사항
  14. ^ 예측 모델 마크업 언어 제품 웹사이트 프로젝트 활동
  15. ^ "The Data Mining Group releases Predictive Model Markup Language v4.4". Retrieved 12 July 2021.
  16. ^ "PMML 4.4.1 - General Structure". Data Mining Group. Retrieved 12 July 2021.
  17. ^ "2008 EO 990". Retrieved 16 Oct 2014.

외부 링크