연속 기능의 분리
Discretization of continuous features통계학 및 기계학습에서 이산화는 연속 속성, 특징 또는 변수를 이산화된 속성/특징/변수/간격으로 변환하거나 분할하는 과정을 말한다.이것은 확률 질량 함수를 생성할 때, 공식적으로 밀도 추정에서 유용할 수 있습니다.이것은 일반적으로 이산화의 한 형태이며 히스토그램 작성과 같이 비닝의 한 형태이기도 합니다.연속적인 데이터가 디스커버리 될 때마다 항상 어느 정도의 디스커버리 에러가 발생합니다.목표는 현재 모델링 목적으로 무시할 수 있는 수준까지 양을 줄이는 것입니다.
일반적으로 데이터는 K개의 동일한 길이/폭(등간격) 또는 총 데이터(등주파수)[1]의 K%로 분할됩니다.
연속 데이터의 디스커버리 메커니즘에는 Fayyad & Irani의 MDL [2]메서드가 있으며[3], 상호 정보를 사용하여 최적의 빈, CAIM, CACC, Ameva 등을 재귀적으로 정의한다.
많은 기계 학습 알고리즘은 연속 [4]속성을 이산화하여 더 나은 모델을 생성하는 것으로 알려져 있다.
소프트웨어
MDL 알고리즘을 실장하는 소프트웨어의 일부를 나타냅니다.
- 일반적인 CRF 구현과 연동되도록 설계된 discretize 4crf 도구(C++)
- R 패키지의 discretization에서의 mdlp
- R 패키지 RWeka에서 분리
「 」를 참조해 주세요.
레퍼런스
- ^ Clarke, E. J.; Barton, B. A. (2000). "Entropy and MDL discretization of continuous variables for Bayesian belief networks" (PDF). International Journal of Intelligent Systems. 15: 61–92. doi:10.1002/(SICI)1098-111X(200001)15:1<61::AID-INT4>3.0.CO;2-O. Retrieved 2008-07-10.
- ^ 파이야드, 우사마 M.; 이란, 케키 B.(1993), 제13차 국제사법위원회. 공동 회의 (Q334).I571 1993), 페이지 1022-1027
- ^ 도허티, 코하비, 코하비, 사하미, M. (1995년)"연속 피쳐의 감독 및 비감독 이산화"A. Prieditis & S. J. Russell, eds.Morgan Kaufmann, 194-202페이지
- ^ Kotsiantis, S.; Kanellopoulos, D (2006). "Discretization Techniques: A recent survey". GESTS International Transactions on Computer Science and Engineering. 32 (1): 47–58. CiteSeerX 10.1.1.109.3084.