랜덤 부분공간법
Random subspace method머신러닝에서 속성[2] 배깅 또는 피쳐 배깅이라고도 불리는 랜덤 서브스페이스 [1]방법은 전체 피쳐 세트가 아닌 임의의 피쳐 샘플에 대해 앙상블의 추정기 사이의 상관관계를 줄이려는 앙상블 학습 방법이다.
동기
앙상블 학습에서는 여러 학습자가 만든 모델을 원래 학습자보다 더 잘 하는 앙상블에 결합하려고 합니다.학습자를 결합하는 한 가지 방법은 부트스트랩 집계 또는 배깅으로, 각 학습자에게 무작위로 샘플링된 교육 포인트의 서브셋을 보여줌으로써 학습자가 합리적으로 [a]평균을 낼 수 있는 다른 모델을 만들 수 있습니다.배깅에서는 전체 트레이닝 세트에서 교체한 트레이닝 포인트를 샘플링합니다.
랜덤 부분 공간 방법은 특성("속성", "예측 변수", "독립 변수")이 각 학습자에 대해 대체와 함께 무작위로 샘플링된다는 점을 제외하면 배깅과 유사합니다.비공식적으로, 이 때문에, 학습자는 트레이닝 세트내에서 예측성이 높고 서술성이 높은 기능에 너무 집중하지 않게 됩니다만, 그 세트외의 포인트에 대해서는 예측성이 떨어집니다.이러한 이유로 fMRI[3] 데이터 또는 유전자 발현 [4]데이터에서 학습하는 것과 같이 특징의 수가 훈련 포인트 수보다 훨씬 많은 고차원 문제에 있어 랜덤 하위 공간은 매력적인 선택이다.
랜덤 부분 공간 방법은 의사결정 트리에 사용되어 왔다. 의사결정 트리의 "일반적인" 배깅과 결합되었을 때, 결과 모델은 [5]랜덤 포레스트라고 불린다.선형 분류기,[6] 지원 벡터 머신,[7] 가장 가까운[8][9] 이웃 및 기타 유형의 분류기에도 적용되어 왔다.이 메서드는 단일 클래스 [10][11]분류자에도 적용할 수 있습니다.최근 랜덤 서브스페이스 방식은 기본적으로 배깅을 기반으로 하는 기존 리샘플링 포트폴리오보다 우수함을 보여주는 포트폴리오[12][13] 선택 문제에 사용되고 있다.
고차원 희박한 문제를 해결하기 위해 RaSE([14]Random Subspace Ensemble)라는 프레임워크가 개발되었다.RaaS는 무작위 하위 공간에서 훈련한 약한 학습자를 2계층 구조 및 반복 [15]프로세스와 결합한다.RaaS는 매력적인 이론적 특성과 실용적인 [14]성능을 즐기는 것으로 나타났습니다.
알고리즘.
랜덤 서브스페이스 방법을 사용하는 모델의 앙상블은 다음 알고리즘을 사용하여 구성할 수 있다.
- 훈련 포인트의 수를 N으로 하고 훈련 데이터의 특징 수를 D로 합니다.
- L을 앙상블의 개별 모델 수로 합니다.
- 각 모델 l에 대해 n(nl < N)을l 선택하여 l의 입력점 수를 지정합니다.일반적으로 모든 개별 모형에 대해 n 값이l 하나만 지정됩니다.
- 각 개별 모델 l에 대해 D에서 치환 피쳐를 d개 선택하여l 트레이닝 세트를 작성하고 모델을 트레이닝합니다.
이제 앙상블 모델을 보이지 않는 지점에 적용하려면 다수결 또는 사후 확률을 결합하여 L 개별 모델의 출력을 결합합니다.
각주
레퍼런스
- ^ Ho, Tin Kam (1998). "The Random Subspace Method for Constructing Decision Forests" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 20 (8): 832–844. doi:10.1109/34.709601. Archived from the original (PDF) on 2019-05-14.
- ^ Bryll, R. (2003). "Attribute bagging: improving accuracy of classifier ensembles by using random feature subsets". Pattern Recognition. 36 (6): 1291–1302. doi:10.1016/s0031-3203(02)00121-8.
- ^ Kuncheva, Ludmila; et al. (2010). "Random Subspace Ensembles for fMRI Classification" (PDF). IEEE Transactions on Medical Imaging. 29 (2): 531–542. CiteSeerX 10.1.1.157.1178. doi:10.1109/TMI.2009.2037756.
- ^ Bertoni, Alberto; Folgieri, Raffaella; Valentini, Giorgio (2005). "Bio-molecular cancer prediction with random subspace ensembles of support vector machines" (PDF). Neurocomputing. 63: 535–539. doi:10.1016/j.neucom.2004.07.007. hdl:2434/9370.
- ^ Ho, Tin Kam (1995). Random Decision Forest (PDF). Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282.
- ^ Skurichina, Marina (2002). "Bagging, boosting and the random subspace method for linear classifiers". Pattern Analysis and Applications. 5 (2): 121–135. doi:10.1007/s100440200011.
- ^ Tao, D. (2006). "Asymmetric bagging and random subspace for support vector machines-based relevance feedback in image retrieval" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (7): 1088–99. doi:10.1109/tpami.2006.134. PMID 16792098.
- ^ Ho, Tin Kam (1998). Nearest Neighbors in Random Subspaces. Joint IAPR International Workshops on Statistical Techniques in Pattern Recognition (SPR) and Structural and Syntactic Pattern Recognition (SSPR). Lecture Notes in Computer Science. Vol. 1451. pp. 640–648. doi:10.1007/BFb0033288. ISBN 978-3-540-64858-1.
- ^ Tremblay, G. (2004). Optimizing Nearest Neighbour in Random Subspaces using a Multi-Objective Genetic Algorithm (PDF). 17th International Conference on Pattern Recognition. pp. 208–211. doi:10.1109/ICPR.2004.1334060. ISBN 978-0-7695-2128-2.
- ^ Nanni, L. (2006). "Experimental comparison of one-class classifiers for online signature verification". Neurocomputing. 69 (7): 869–873. doi:10.1016/j.neucom.2005.06.007.
- ^ Cheplygina, Veronika; Tax, David M. J. (2011-06-15). Sansone, Carlo; Kittler, Josef; Roli, Fabio (eds.). Multiple Classifier Systems. Lecture Notes in Computer Science. Springer Berlin Heidelberg. pp. 96–105. doi:10.1007/978-3-642-21557-5_12. ISBN 9783642215568.
- ^ Shen, Weiwei; Wang, Jun (2017), "Portfolio Selection via Subset Resampling", Proceedings of AAAI Conference on Artificial Intelligence (AAAI2017)
- ^ Shen, Weiwei; Wang, Bin; Pu, Jian; Wang, Jun (2019), "The Kelly growth optimal portfolio with ensemble learning", Proceedings of AAAI Conference on Artificial Intelligence (AAAI2019)
- ^ a b Tian, Ye; Feng, Yang (2021). "RaSE: Random Subspace Ensemble Classification". Journal of Machine Learning Research. 22 (45): 1–93. ISSN 1533-7928.
- ^ Tian, Ye; Feng, Yang (2021). "R Package "RaSEn": Random Subspace Ensemble Classification and Variable Screening". CRAN.