앙상블 학습

Ensemble learning

통계기계 학습에서 앙상블 방법은 구성 학습 알고리즘만으로 [1][2][3]얻을 수 있는 것보다 더 나은 예측 성능을 얻기 위해 다중 학습 알고리즘을 사용한다.통계역학에서의 통계 앙상블과는 달리, 기계학습 앙상블은 구체적인 유한한 대안 모델 집합으로만 구성되지만, 일반적으로 그러한 대안들 사이에 훨씬 더 유연한 구조가 존재할 수 있다.

개요

지도 학습 알고리즘은 특정 [4]문제에 대해 좋은 예측을 할 수 있는 적절한 가설을 찾기 위해 가설 공간을 탐색하는 작업을 수행합니다.가설 공간에 특정 문제에 매우 적합한 가설이 포함된다고 해도, 좋은 가설을 찾는 것은 매우 어려울 수 있습니다.앙상블은 여러 가설을 결합하여 더 나은 가설을 형성합니다.앙상블이라는 용어는 일반적으로 동일한 기본 [according to whom?]학습자를 사용하여 여러 가설을 생성하는 방법을 위해 사용됩니다.다중 분류 시스템의 더 넓은 용어는 또한 동일한 [citation needed]기본 학습자에 의해 유도되지 않은 가설의 교배도 포함한다.

앙상블의 예측을 평가하려면 일반적으로 단일 모형의 예측을 평가하는 것보다 더 많은 계산이 필요합니다.어떤 의미에서 앙상블 학습은 많은 추가 계산을 수행함으로써 부족한 학습 알고리즘을 보완하는 방법으로 생각될 수 있다.반면에, 다른 대안은 앙상블이 아닌 하나의 시스템에 대해 훨씬 더 많은 학습을 하는 것입니다.앙상블 시스템은 동일한 계산, 스토리지 또는 통신 자원의 증가에 대해 단일 방법에 대한 리소스 사용을 증가시킴으로써 개선되는 것보다 두 가지 이상의 방법으로 증가함으로써 전체적인 정확도를 향상시키는데 더 효율적일 수 있습니다.의사결정 트리와 같은 빠른 알고리즘은 앙상블 방법(를 들어 랜덤 포레스트)에서 일반적으로 사용되지만 느린 알고리즘은 앙상블 기술에서도 이점을 얻을 수 있다.

유추적으로 앙상블 기법은 예를 들어 합의 클러스터링 또는 이상 감지와 같은 비감독 학습 시나리오에서도 사용되었다.

앙상블 이론

경험적으로,[5][6] 앙상블은 모델들 사이에 상당한 다양성이 있을 때 더 나은 결과를 낳는 경향이 있다.따라서 많은 앙상블 방법들은 그들이 [7][8]결합하는 모델들 사이의 다양성을 촉진하려고 한다.직관적이지 않을 수도 있지만, (랜덤 의사 결정 나무와 같은) 더 많은 랜덤 알고리즘을 사용하여 (엔트로피를 감소시키는 [9]의사 결정 나무와 같은) 매우 신중한 알고리즘보다 더 강력한 앙상블을 만들 수 있다.그러나 다양한 강력한 학습 알고리즘을 사용하는 것이 다양성을 [10]촉진하기 위해 모델을 하향 조정하는 기술을 사용하는 것보다 더 효과적인 것으로 나타났다.회귀 작업에 상관관계를 사용하거나 분류 [12]작업에 교차 엔트로피와 같은 정보 척도를 사용하여 모델의 교육 단계에서 다양성을 높일 수 있다.

앙상블 사이즈

앙상블의 성분 분류기의 수는 예측의 정확성에 큰 영향을 미치지만, 이 문제를 다루는 연구는 제한적이다.앙상블 크기, 빅데이터 스트림의 볼륨 및 속도의 선험적 결정은 온라인 앙상블 분류기에 더욱 중요합니다.대부분의 통계적 검정은 성분의 적절한 수를 결정하기 위해 사용되었습니다.보다 최근에 이론적인 프레임워크는 이 개수보다 많거나 적으면 정확도가 저하될 수 있는 앙상블에 이상적인 수의 성분 분류기가 있다고 제안했다.그것은 "앙상블 건설 수익 체감의 법칙"이라고 불립니다.이들의 이론적 프레임워크는 클래스 라벨과 동일한 수의 독립 성분 분류자를 사용하는 것이 가장 [13][14]높은 정확도를 제공한다는 것을 보여준다.

일반적인 유형의 앙상블

베이즈 최적 분류기

Bayes 최적 분류기는 분류 기법입니다.그것은 가설 공간에 있는 모든 가설의 집합체이다.평균적으로 어떤 앙상블도 그것을 [15]능가할 수 없다.Naigive Bayes 최적 분류자는 데이터가 클래스 상에서 조건부로 독립되어 있다고 가정하고 계산을 보다 실현 가능하게 하는 버전입니다.각 가설은 해당 가설이 참일 경우 교육 데이터 세트가 시스템에서 샘플링될 가능성에 비례하여 투표가 이루어집니다.유한한 크기의 훈련 데이터를 용이하게 하기 위해 각 가설의 투표에 해당 가설의 이전 확률도 곱합니다.베이즈 최적 분류기는 다음 방정식으로 나타낼 수 있습니다.

서 y y 예측 클래스,(\ C 가능한 모든 클래스 집합,(\ H 가설 공간,(\ P 확률, T 교육 데이터입니다.앙상블로서 베이즈 최적 분류기는 반드시 H H에는 가설을 나타낸다.그러나 베이즈 최적 분류기로 표현되는 가설은 앙상블 공간(H\ H에서 의 가설이다.

이 공식은 Bayes의 정리를 사용하여 다시 기술할 수 있는데, Bayes의 정리는 후면이 전자의 우도에 비례한다는 것이다.

이런 이유로,

부트스트랩 집약(백)

부트스트랩 집약(배깅) 프로세스의 첫 번째 단계는 부트스트랩 데이터 세트라고 불리는 것을 생성하는 것입니다.부트스트랩된 각 세트에 대해 선택한 요소의 수는 원래 교육 데이터 세트와 동일하지만 요소는 교체와 함께 랜덤으로 선택됩니다.따라서 원래 트레이닝 세트의 샘플은 부트스트랩된 세트 내에서 0회, 1회 또는 여러 번 발생할 수 있습니다.부트스트래핑 프로세스에서는 아웃오브백세트의 부작용도 생성됩니다.Out-of-Bag 데이터 세트는 원래 교육 세트 중 특정 부트스트랩 세트에 없는 모든 항목의 세트입니다.따라서 부트스트랩된 각 데이터 세트에는 아웃오브백 세트가 빈 세트인 경우에도 하나의 아웃오브백 세트가 있습니다.

원본 교육 세트에서 가능한 부트스트랩 데이터 세트의 예제입니다.이러한 샘플은 치환과 함께 선택되기 때문에 부트스트랩된 세트로 트레이닝 세트의 단일 샘플이 여러 번 발생할 수 있습니다.

부트스트랩 세트가 생성된 후, 각 세트가 앙상블에 의해 사용되는 학습 모델의 인스턴스(예를 들어 의사결정 트리)에 주어진다.모델 인스턴스는 부트스트랩 세트를 트레이닝에 사용합니다.트레이닝이 완료되면 앙상블의 개인이 됩니다.각 부트스트랩 세트가 랜덤으로 선택되기 때문에 세트가 다양해지고 그 결과 앙상블의 각 개인은 원래의 트레이닝 세트에 대해 다른 관점을 갖게 됩니다.훈련 프로세스 중 및 훈련용 랜덤 부트스트랩 세트를 보유하는 것 외에 개별 모델은 결정이 내려질 때마다 검토되는 기능의 범위(예: 의사결정 트리의 노드)에 제한을 둘 수 있습니다.이 범위를 제한하면 앙상블의 각 개인이 고려하지 [16]않을 수 있는 기능을 탐색하도록 장려할 수 있습니다.원하는 경우, 이러한 방식으로 개인을 구성한 후, 각 개인의 개별 자루 세트를 검증 목적으로 사용하여 개별 모델을 교육 [17]세트에 과도하게 적합시킬 위험을 줄일 수 있습니다.

부트스트랩 세트와 특징 고려사항에서의 로컬 정보의 차이는 앙상블 이론과 함께 앙상블 개인들 간의 다양성을 촉진하고 [18]앙상블을 강화할 수 있다.이러한 다양성의 강점을 활용하기 위해 집계를 사용한다.집계는 앙상블이 일련의 개별 평가에서 샘플의 단일 집합 평가로 변환하는 방법입니다.앙상블을 위한 통합 과정은 앙상블의 각 모델에 대한 개별 평가를 수집하는 것을 수반한다.그런 다음 개별 평가가 계산되고 앙상블에서 가장 많은 개인이 도달한 결론이 앙상블의 전체 평가로 간주됩니다.

아래는 단일 노드 깊이의 4개의 의사결정 트리 앙상블에 대한 집계 프로세스의 그림입니다.분류할 4개의 나무 각각에 대해 단일 샘플이 제공됩니다.각 샘플은 개별적으로 분류되어 카운트됩니다.3개의 표본이 양의 분류로 분류되었지만 단 1개의 표본만이 음의 분류를 나타냈기 때문에 앙상블의 표본에 대한 전반적인 분류는 양이다.

An example of the aggregation process for an ensemble of decision trees. Individual classifications are aggregated, and an overall classification is derived.

부트스트랩 집약 프로세스의 일반적인 응용 프로그램 중 하나는 다음과 같은 랜덤 포레스트입니다.랜덤 포레스트는 개별 의사결정 트리보다 더 높은 분류 정확도를 달성하기 위해 앙상블에 있는 의사결정 트리의 집합이다.

부스팅

부스팅에는 이전 모델이 잘못 분류한 교육 인스턴스를 강조하기 위해 각 새로운 모델 인스턴스를 교육함으로써 앙상블을 점진적으로 구축하는 작업이 포함됩니다.경우에 따라 부스팅은 배깅보다 정확도가 더 좋은 것으로 나타났지만 교육 데이터를 과도하게 적합시킬 가능성도 더 높습니다.지금까지 부스팅의 가장 일반적인 구현은 Adaboost이지만 일부 새로운 알고리즘이 더 나은 결과를 [citation needed]달성한다고 보고되었다.

부스팅에서는 첫 번째 라운드에서 표본 훈련 데이터(예: D1)에 동일한 가중치(균일한 확률 분포)가 주어집니다.그런 다음 이 데이터(D1)가 기본 학습자(예: L1)에게 제공됩니다.L1에 의해 잘못 분류된 인스턴스에는 올바르게 분류된 인스턴스보다 가중치가 높게 할당되지만 총 확률 분포는 1이 된다는 점에 유의하십시오.이 증가된 데이터(D2)는 2차 학습자(L2)에게 제공됩니다.그 결과는 투표의 형태로 결합된다.

베이지안 모델 평균화

베이지안 모델 평균(BMA)은 데이터가 [19]주어진 각 모델의 사후 확률에 의해 주어진 가중치를 갖는 여러 모델에 대한 평균을 사용하여 예측한다.BMA는 일반적으로 단일 모델보다 더 나은 답을 제공하는 것으로 알려져 있으며, 특히 교육 세트에서 매우 다른 모델이 거의 동일한 성능을 가지지만 그렇지 않으면 상당히 다르게 수행될 수 있는 경우 단계적 회귀를 통해 얻어진다.

베이즈 정리를 사용하는 기법의 가장 명백한 질문은 각 모델이 주어진 목적에 가장 적합한 확률의 사양(주관적, 아마도 주관적)이다.개념적으로 BMA는 모든 이전 버전과 함께 사용할 수 있습니다.앙상블 BR을 위한 MA 및 BMA[21] 패키지는 Raftery(1995)[22]에 이어 베이지안 정보 기준(BIC)에 의해 암시된 이전 버전을 사용한다[20].R을 위한 BAS 패키지는 AIC(Akaike Information Criteria) 및 대체 모델에 대한 기타 기준과 [23]계수에 대한 우선 순위에서 암시된 우선 순위 사용을 지원한다.

BIC와 AIC의 차이점은 절약 선호의 강점이다.모델의 복잡성에 대한 은 BIC의 경우 ln ( )k \ ) 、 AIC의 경우 2 \ 2k 입니다.대형 표본 점근 이론은 최적의 모델이 있을 경우 표본 크기가 증가할수록 BIC는 강하게 일관되며, AIC는 필요 이상으로 복잡한 모델에 과도한 사후 확률을 계속 배치할 수 있기 때문에 거의 확실하게 찾을 수 없다는 것을 입증했다.반면에 효율성, 즉 최소 평균 제곱 예측 오류에 더 관심이 있다면 점근적으로 AIC와 AICc는 "효율적"이지만 BIC는 그렇지 않다.[24]

Burnham과 Anderson(1998, 2002)은 베이지안 모델 평균화의 기본 아이디어를 더 많은 청중에게 소개하고 방법론을 [25]대중화하는 데 크게 기여했다.위에서 언급한 것 외에 R을 위한 다른 무료 오픈 소스 패키지를 포함한 소프트웨어의 가용성은 더 많은 사용자가 [26]이 방법에 접근할 수 있도록 하는 데 도움이 되었습니다.

호슬러 외 연구진(1994)은 BMA가 분류에 사용될 때 예상되는 오차는 베이즈 최적 분류기의 [27]예상 오차보다 최대 두 배라는 것을 보여주었다.

베이지안 모델 조합

베이지안 모델 조합(BMC)은 베이지안 모델 평균(BMA)에 대한 알고리즘 보정입니다.앙상블의 각 모델을 개별적으로 샘플링하는 대신 가능한 앙상블의 공간에서 표본을 추출합니다(모수가 균일한 디리클레 분포에서 랜덤하게 추출된 모델 가중치로).이러한 수정은 BMA가 단일 모델에 모든 무게를 부여하는 쪽으로 수렴하는 경향을 극복합니다.BMC는 BMA보다 계산 비용이 다소 더 들지만 훨씬 더 나은 결과를 낳는 경향이 있습니다.BMC의 결과는 BMA보다 평균적으로 (통계적으로 유의한) 더 나은 것으로 나타났다.[28]

Bayes의 법칙을 사용하여 모형 가중치를 계산하려면 각 모형에 주어진 데이터의 확률을 계산해야 합니다.일반적으로 앙상블의 어떤 모델도 훈련 데이터가 생성된 정확한 분포가 아니기 때문에 모든 모델은 이 기간 동안 0에 가까운 값을 올바르게 받습니다.전체 모델 공간을 표본으로 추출할 수 있을 만큼 앙상블이 크면 잘 작동하지만, 거의 가능하지 않습니다.따라서 훈련 데이터의 각 패턴은 훈련 데이터의 분포에 가장 가까운 앙상블의 모델을 향해 앙상블의 무게를 이동시킵니다.기본적으로 모델 선택을 위해 불필요하게 복잡한 방법으로 축소됩니다.

앙상블에 대한 가능한 가중치는 심플렉스 위에 놓여 있는 것으로 시각화할 수 있습니다.심플렉스의 각 정점에서 모든 가중치가 앙상블 내의 단일 모델에 주어진다.BMA는 교육 데이터의 분포에 가장 가까운 정점으로 수렴됩니다.반면 BMC는 이 분산이 심플렉스에 투영되는 지점을 향해 수렴합니다.즉, 생성 분포에 가장 가까운 모형을 선택하는 대신 생성 분포에 가장 가까운 모형 조합을 찾습니다.

BMA의 결과는 종종 교차 검증을 사용하여 모형 버킷에서 최적의 모형을 선택하여 근사치를 구할 수 있습니다.마찬가지로 BMC의 결과는 교차 검증을 사용하여 가능한 가중치의 랜덤 샘플링에서 최적의 앙상블 조합을 선택하여 근사할 수 있습니다.

모델 버킷

"모델 버킷"은 모델 선택 알고리즘을 사용하여 각 문제에 가장 적합한 모델을 선택하는 앙상블 기법입니다.한 가지 문제만으로 테스트하는 경우, 한 버킷의 모형은 집합 내 최고의 모형보다 더 나은 결과를 얻을 수 없지만, 여러 문제에 걸쳐 평가하면 일반적으로 집합 내 어떤 모형보다 훨씬 더 나은 결과를 얻을 수 있습니다.

모델 선택에 사용되는 가장 일반적인 접근법은 교차 검증 선택입니다(때로는 "제빵 경쟁"이라고도 함).이것은, 다음의 의사 코드로 설명되고 있습니다.

버킷의 각 모델 m에 대해:실행 횟수: (여기서 'c'는 일정 부분) 교육 데이터 세트를 무작위로 A와 B의 두 데이터 세트로 나눕니다.Train m with A Test m with B 평균 점수가 가장 높은 모델을 선택합니다.

Cross-Validation Selection은 다음과 같이 요약할 수 있습니다. "트레이닝 세트를 사용하여 모든 것을 시험하고 가장 적합한 것을 선택합니다."[29]

게이트는 교차 검증 선택을 일반화한 것입니다.이 과정에는 버킷의 어떤 모델이 문제를 해결하는 데 가장 적합한지 결정하기 위한 다른 학습 모델을 교육하는 작업이 포함됩니다.게이트 모델에는 퍼셉트론이 사용되는 경우가 많습니다.이 값을 사용하여 "최적" 모형을 선택하거나 버킷의 각 모형 예측에 선형 가중치를 부여할 수 있습니다.

모델 버킷을 사용하여 많은 문제를 해결할 경우 훈련에 오랜 시간이 걸리는 일부 모델은 훈련하지 않는 것이 좋습니다.랜드마크 러닝은 이 문제를 해결하기 위한 메타 러닝 접근법입니다.버킷 내의 고속 알고리즘(단, 부정확한)만을 트레이닝하고 나서, 이러한 알고리즘의 퍼포먼스를 사용해, 어느 쪽의 저속(단, 정확한) 알고리즘이 [30]최적으로 동작할 가능성이 높은지를 판단합니다.

스태킹

스태킹(스택형 일반화라고도 함)에는 다른 여러 학습 알고리즘의 예측을 결합하기 위한 학습 알고리즘 훈련이 포함됩니다.먼저, 다른 모든 알고리즘은 이용 가능한 데이터를 사용하여 훈련되고, 결합기 알고리즘은 다른 알고리즘의 모든 예측을 추가 입력으로 사용하여 최종 예측을 하도록 훈련된다.임의 결합기 알고리즘을 사용하는 경우 이론적으로 이 문서에서 설명하는 앙상블 기법 중 하나를 적층할 수 있지만 실제로는 로지스틱 회귀 모델이 결합기로 사용되는 경우가 많습니다.

일반적으로 스태킹은 훈련을 받은 모델 [31]중 어느 모델보다 뛰어난 성능을 발휘합니다.그것은 지도 학습 과제(회귀,[32] 분류 및 거리 학습)와 비지도 학습(밀도 추정)[34] 모두에서 성공적으로 사용되어 왔다.또한 배깅 오류율을 [3][35]추정하는 데에도 사용되었습니다.베이지안 모델 [36]평균보다 성능이 뛰어난 것으로 보고되었습니다.넷플릭스 경쟁사의 두 최고 실적은 [37]쌓기의 한 형태라고 할 수 있는 블렌딩을 활용했다.

통계 패키지 구현

  • R: 베이지안 모델 평균화 [38]도구를 제공하는 패키지는 최소 3개입니다.BMS([39]Bayesian Model Selection의 [40]약자), BAS(Bayesian Adaptive Sampling의 약자) 패키지 및 BMA 패키지.[41]
  • Python: Scikit-learn, Python의 머신 러닝용 패키지는 배깅 및 평균 방법을 위한 패키지를 포함하여 앙상블 학습용 패키지를 제공합니다.
  • MATLAB: 분류 앙상블은 Statistics and Machine Learning [42]Toolbox에 구현되어 있습니다.

앙상블 학습 어플리케이션

최근 몇 년 동안, 합리적인 기간 내에 대규모 앙상블 학습을 훈련시킬 수 있는 컴퓨팅 능력이 증가했기 때문에, 그 응용 프로그램의 수는 점점 [43]더 증가하고 있습니다.앙상블 분류기의 응용 프로그램에는 다음이 포함됩니다.

리모트 센싱

랜드 커버 맵핑

육지 커버 매핑은 원격 감지지리 공간 데이터를 사용하여 대상 영역의 표면에 위치한 물질과 물체를 식별하는 지구 관측 위성 센서의 주요 응용 프로그램 중 하나입니다.일반적으로 대상 재료의 등급에는 도로, 건물, 하천, 호수 및 [44]식물이 포함됩니다.인공 신경 네트워크,[45] 커널 주성분 분석(KPCA),[46] 부스팅,[47] 랜덤[44] 포레스트 및 다중 분류기 [48]시스템의 자동 설계를 기반으로 하는 가지 다른 앙상블 학습 접근법이 효율적으로 식별하기 위해 제안된다.

변경 검출

변화검출이미지 분석의 문제로 시간이 지남에 따라 육지 커버가 변경된 장소를 식별하는 것으로 구성됩니다.변화 감지 기능은 도시 성장, 산림식생 역학, 토지 이용 및 재해 [49]모니터링과 같은 분야에서 널리 사용됩니다.변화 감지에서 앙상블 분류기의 최초 적용은 다수결,[50] 베이지안 평균 및 최대 사후 [51]확률로 설계된다.

컴퓨터 보안

분산 서비스 거부

분산 서비스 거부인터넷 서비스 [43]공급자에게 발생할 수 있는 가장 위협적인 사이버 공격 중 하나입니다.앙상블 분류기는 단일 분류기의 출력을 조합함으로써 이러한 공격을 검출하고 합법적인 플래시 [52]군중으로부터 식별하는 총 오류를 줄입니다.

멀웨어 검출

컴퓨터 바이러스, 컴퓨터 웜, 트로이 목마, 랜섬웨어스파이웨어같은 악성코드 분류는 문서 분류 [53]문제에서 영감을 얻었습니다.앙상블 학습 시스템은 이 [54][55]분야에서 적절한 효과를 보여 왔다.

침입 검출

침입검출시스템은 컴퓨터 네트워크 또는 컴퓨터 시스템감시하여 이상검출 프로세스와 같은 침입자 코드를 식별한다.앙상블 학습은 이러한 모니터링 시스템이 전체 [56][57]오류를 줄이는 데 성공적으로 도움이 됩니다.

얼굴인식

최근 가장 인기 있는 패턴 인식 연구 분야 중 하나로 떠오르고 있는 얼굴 인식디지털 [58]이미지로 인물을 식별하거나 확인하는 것을 다룬다.

Gabor Fisher 분류기에 기초한 계층적 앙상블과 독립적 성분 분석 전처리 기법은 이 [59][60][61]분야에서 사용된 초기 앙상블의 일부입니다.

감정인식

구글, 마이크로소프트, IBM같은 이 분야의 대부분의 업계 참여자들이 음성 인식의 핵심 기술이 이러한 접근법에 기반한다고 밝히고 있기 때문에 음성 인식은 주로 딥 러닝에 기반하지만, 음성 기반 감정 인식 또한 앙상블 [62][63]학습에 만족스러운 성과를 낼 수 있다.

그것은 얼굴 [64][65][66]감정 인식에도 성공적으로 사용되고 있다.

부정행위 검출

사기 탐지는 자금 세탁, 신용카드 사기, 통신 사기 은행 사기의 식별을 다루며, 이러한 사기는 방대한 연구 영역과 기계 학습의 응용 분야를 가지고 있습니다.앙상블 학습은 정상적인 행동 모델링의 건전성을 향상시키므로, 은행 [67][68]및 신용카드 시스템에서 그러한 사기 사례와 활동을 탐지하는 효율적인 기술로 제안되어 왔다.

재무상의 의사결정

사업 실패 예측의 정확성은 재무적 의사결정에 있어 매우 중요한 문제이다.따라서, 재정 위기와 재정 [69]곤란을 예측하기 위해 서로 다른 집합 분류기가 제안된다.또 매매업자가 매매행위를 통해 주가를 조작하려는 거래기반조작 문제에서는 주식시장 데이터의 변화를 분석하고 주가조작[69]의심증상을 포착하는 앙상블 분류기가 필요하다.

앙상블 분류기는 MRI 데이터 [70][71][72]세트 및 자궁경부 세포학 [73][74]분류에 기초한 신경인지 장애(즉 알츠하이머 또는 근위축증) 검출과 같이 신경과학, 단백질학의학 진단에 성공적으로 적용되었다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Opitz, D.; Maclin, R. (1999). "Popular ensemble methods: An empirical study". Journal of Artificial Intelligence Research. 11: 169–198. doi:10.1613/jair.614.
  2. ^ Polikar, R. (2006). "Ensemble based systems in decision making". IEEE Circuits and Systems Magazine. 6 (3): 21–45. doi:10.1109/MCAS.2006.1688199. S2CID 18032543.
  3. ^ a b Rokach, L. (2010). "Ensemble-based classifiers". Artificial Intelligence Review. 33 (1–2): 1–39. doi:10.1007/s10462-009-9124-7. S2CID 11149239.
  4. ^ Blockeel H. (2011). "Hypothesis Space". Encyclopedia of Machine Learning: 511–513. doi:10.1007/978-0-387-30164-8_373. ISBN 978-0-387-30768-8.
  5. ^ Kuncheva, L. 및 Whitaker, C., 분류기 앙상블의 다양성 측정, 기계학습, 51, 페이지 181-207, 2003
  6. ^ Sollich, P. 및 Krogh, A. 앙상블을 통한 학습: 과적합이 얼마나 유용할 수 있는가, 신경 정보 처리 시스템의 발전, 제8권, 190-196페이지, 1996.
  7. ^ Brown, G. and Wiret, J. and Harris, R. and Yao, X. 다양성 생성 방법: 조사분류, 정보 융합, 6(1), 페이지 5-20, 2005.
  8. ^ Adeva, J. J. García; Cerviño, Ulises; Calvo, R. (December 2005). "Accuracy and Diversity in Ensembles of Text Categorisers" (PDF). CLEI Journal. 8 (2): 1:1–1:12. doi:10.19153/cleiej.8.2.1.
  9. ^ Ho, T., 무작위 의사결정 숲, 문서 분석인식에 관한 제3차 국제회의의 진행, 페이지 278-282, 1995.
  10. ^ Gashler, M.; Giraud-Carrier, C.; Martinez, T. (2008). "Decision Tree Ensemble: Small Heterogeneous Is Better Than Large Homogeneous" (PDF). The Seventh International Conference on Machine Learning and Applications. 2008: 900–905. doi:10.1109/ICMLA.2008.154. ISBN 978-0-7695-3495-4. S2CID 614810.
  11. ^ Liu, Y.; Yao, X. (December 1999). "Ensemble learning via negative correlation". Neural Networks. 12 (10): 1399–1404. doi:10.1016/S0893-6080(99)00073-8. ISSN 0893-6080. PMID 12662623.
  12. ^ Shoham, Ron; Permuter, Haim (2019). "Amended Cross-Entropy Cost: An Approach for Encouraging Diversity in Classification Ensemble (Brief Announcement)". Cyber Security Cryptography and Machine Learning. Lecture Notes in Computer Science. 11527: 202–207. doi:10.1007/978-3-030-20951-3_18. ISBN 978-3-030-20950-6. S2CID 189926552.
  13. ^ R. Bonab, Hamed; Can, Fazli (2016). A Theoretical Framework on the Ideal Number of Classifiers for Online Ensembles in Data Streams. CIKM. USA: ACM. p. 2053.
  14. ^ R. Bonab, Hamed; Can, Fazli (2019). Less Is More: A Comprehensive Framework for the Number of Components of Ensemble Classifiers. TNNLS. USA: IEEE. arXiv:1709.02925.
  15. ^ Tom M. Mitchell, 머신 러닝, 1997, 페이지 175
  16. ^ Salman, R., Alzaatreh, A., Sulieman, H. 및 Faisal, S. (2021년)기능 선택 메서드 내 및 기능 선택 메서드 간의 집약을 위한 부트스트랩 프레임워크.엔트로피(스위스), 23(2), 200.doi:10.3390/e23020200
  17. ^ Brodeur, Z. P., Herman, J. D. 및 Steinschneider, S. (2020)저장소 제어 정책 검색의 과적합을 줄이기 위한 부트스트랩 집약 및 교차 검증 방법.수자원연구, 56, e2020WR027184.doi:10.1029/2020WR027184
  18. ^ Breiman, L., Bagging Predictors, 머신러닝, 24(2), 페이지 123-140, 1996.doi:10.1007/BF00058655
  19. ^ 예:
  20. ^ Chris Fraley; Adrian Raftery; J. McLean Sloughter; Tilmann Gneiting, ensembleBMA: Probabilistic Forecasting using Ensembles and Bayesian Model Averaging, Wikidata Q98972500
  21. ^ 를 클릭합니다Adrian Raftery; Jennifer A. Hoeting; Chris Volinsky; Ian Painter; Ka Yee Yeung, BMA: Bayesian Model Averaging, Wikidata Q91674106.
  22. ^ Adrian Raftery (1995). "Bayesian model selection in social research". Sociological Methodology: 111–196. ISSN 0081-1750. Wikidata Q91670340.
  23. ^ 를 클릭합니다Merlise A. Clyde; Michael L. Littman; Quanli Wang; Joyee Ghosh; Yingbo Li; Don van den Bergh, BAS: Bayesian Variable Selection and Model Averaging using Bayesian Adaptive Sampling, Wikidata Q98974089.
  24. ^ Gerda Claeskens; Nils Lid Hjort (2008), Model selection and model averaging, Cambridge University Press, Wikidata Q62568358, 제4장.
  25. ^ 케네스 P. 버넘;DavidR.앤더슨(1998년), 모델 선정과 추론:실용적인information-theoretic 접근, 스프링거 Science+Business 미디어 위키 데이터 Q62670082 그리고 케네스 P. 버넘;DavidR.앤더슨(2002년), 모델 선정과 Multimodel 추론:실용적인information-theoretic 접근, 스프링거 Science+Business 미디어 위키 데이터 Q76889160.
  26. ^ R 패키지 검색에 관한 Wikdiversity 기사에는 이와 같은 패키지를 찾는 몇 가지 방법이 나와 있습니다.예를 들어 R 내의 "sos::findFn('{Bayesian model averaging})'"은 검색어가 포함된 기여 패키지 내의 도움말 파일을 검색하여 기본 브라우저에서 두 개의 탭을 엽니다.첫 번째는 발견된 모든 도움말 파일을 패키지별로 정렬하여 나열합니다.두 번째는 발견된 패키지를 일치의 겉보기 강도에 따라 정렬하여 요약한 것입니다.
  27. ^ Haussler, David; Kearns, Michael; Schapire, Robert E. (1994). "Bounds on the sample complexity of Bayesian learning using information theory and the VC dimension". Machine Learning. 14: 83–113. doi:10.1007/bf00993163.
  28. ^ Monteith, Kristine; Carroll, James; Seppi, Kevin; Martinez, Tony. (2011). Turning Bayesian Model Averaging into Bayesian Model Combination (PDF). Proceedings of the International Joint Conference on Neural Networks IJCNN'11. pp. 2657–2663.
  29. ^ Bernard Zenko, Saso Dzeroski, Bernard Zenko, 분류기 조합은 최고의 분류기 선정보다 낫다, 머신러닝, 2004, 페이지 255-273
  30. ^ Bensusan, Hilan; Giraud-Carrier, Christophe (2000). "Discovering Task Neighbourhoods through Landmark Learning Performances" (PDF). Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science. Vol. 1910. pp. 325–330. doi:10.1007/3-540-45372-5_32. ISBN 978-3-540-41066-9.
  31. ^ Wolpert (1992). "Stacked Generalization". Neural Networks. 5 (2): 241–259. doi:10.1016/s0893-6080(05)80023-1.
  32. ^ Breiman, Leo (1996). "Stacked regressions". Machine Learning. 24: 49–64. doi:10.1007/BF00117832.
  33. ^ Ozay, M.; Yarman Vural, F. T. (2013). "A New Fuzzy Stacked Generalization Technique and Analysis of its Performance". arXiv:1204.0171. Bibcode:2012arXiv1204.0171O. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  34. ^ Smyth, Padhraic; Wolpert, David (1999). Machine Learning (PDF). 36: 59–83. doi:10.1023/A:1007511322260. S2CID 16006860 https://link.springer.com/content/pdf/10.1023/A:1007511322260.pdf. {{cite journal}}:누락 또는 비어 있음 title=(도움말)
  35. ^ Wolpert, David H.; MacReady, William G. (1999). Machine Learning (PDF). 35: 41–55. doi:10.1023/A:1007519102914. S2CID 14357246 https://link.springer.com/content/pdf/10.1023/A:1007519102914.pdf. {{cite journal}}:누락 또는 비어 있음 title=(도움말)
  36. ^ Clarke, B., Bayes 모델 근사 오차를 무시할 수 없는 경우 모델 평균화스태킹, Journal of Machine Learning Research, pp 683-712, 2003
  37. ^ Sill, J.; Takacs, G.; Mackey, L.; Lin, D. (2009). "Feature-Weighted Linear Stacking". arXiv:0911.0460. Bibcode:2009arXiv0911.0460S. {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  38. ^ Amini, Shahram M.; Parmeter, Christopher F. (2011). "Bayesian model averaging in R" (PDF). Journal of Economic and Social Measurement. 36 (4): 253–287. doi:10.3233/JEM-2011-0350.
  39. ^ "BMS: Bayesian Model Averaging Library". The Comprehensive R Archive Network. 2015-11-24. Retrieved September 9, 2016.
  40. ^ "BAS: Bayesian Model Averaging using Bayesian Adaptive Sampling". The Comprehensive R Archive Network. Retrieved September 9, 2016.
  41. ^ "BMA: Bayesian Model Averaging". The Comprehensive R Archive Network. Retrieved September 9, 2016.
  42. ^ "Classification Ensembles". MATLAB & Simulink. Retrieved June 8, 2017.
  43. ^ a b Woźniak, Michał; Graña, Manuel; Corchado, Emilio (March 2014). "A survey of multiple classifier systems as hybrid systems". Information Fusion. 16: 3–17. doi:10.1016/j.inffus.2013.04.006. hdl:10366/134320. S2CID 11632848.
  44. ^ a b Rodriguez-Galiano, V.F.; Ghimire, B.; Rogan, J.; Chica-Olmo, M.; Rigol-Sanchez, J.P. (January 2012). "An assessment of the effectiveness of a random forest classifier for land-cover classification". ISPRS Journal of Photogrammetry and Remote Sensing. 67: 93–104. Bibcode:2012JPRS...67...93R. doi:10.1016/j.isprsjprs.2011.11.002.
  45. ^ Giacinto, Giorgio; Roli, Fabio (August 2001). "Design of effective neural network ensembles for image classification purposes". Image and Vision Computing. 19 (9–10): 699–707. CiteSeerX 10.1.1.11.5820. doi:10.1016/S0262-8856(01)00045-2.
  46. ^ Xia, Junshi; Yokoya, Naoto; Iwasaki, Yakira (March 2017). A novel ensemble classifier of hyperspectral and LiDAR data using morphological features. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). pp. 6185–6189. doi:10.1109/ICASSP.2017.7953345. ISBN 978-1-5090-4117-6. S2CID 40210273.
  47. ^ Mochizuki, S.; Murakami, T. (November 2012). "Accuracy comparison of land cover mapping using the object-oriented image classification with machine learning algorithms". 33rd Asian Conference on Remote Sensing 2012, ACRS 2012. 1: 126–133.
  48. ^ Giacinto, G.; Roli, F.; Fumera, G. (September 2000). Design of effective multiple classifier systems by clustering of classifiers. Proceedings 15th International Conference on Pattern Recognition. ICPR-2000. Vol. 2. pp. 160–163. CiteSeerX 10.1.1.11.5328. doi:10.1109/ICPR.2000.906039. ISBN 978-0-7695-0750-7. S2CID 2625643.
  49. ^ Du, Peijun; Liu, Sicong; Xia, Junshi; Zhao, Yindi (January 2013). "Information fusion techniques for change detection from multi-temporal remote sensing images". Information Fusion. 14 (1): 19–27. doi:10.1016/j.inffus.2012.05.003.
  50. ^ Bruzzone 등에 의해 정의된다.(2002) "가장 많은 표를 받은 데이터 클래스를 입력 패턴의 클래스로 한다"는 점에서 이는 단순 다수이며, 보다 정확하게는 복수 투표라고 표현된다.
  51. ^ Bruzzone, Lorenzo; Cossu, Roberto; Vernazza, Gianni (December 2002). "Combining parametric and non-parametric algorithms for a partially unsupervised classification of multitemporal remote-sensing images" (PDF). Information Fusion. 3 (4): 289–297. doi:10.1016/S1566-2535(02)00091-X.
  52. ^ Raj Kumar, P. Arun; Selvakumar, S. (July 2011). "Distributed denial of service attack detection using an ensemble of neural classifier". Computer Communications. 34 (11): 1328–1341. doi:10.1016/j.comcom.2011.01.012.
  53. ^ Shabtai, Asaf; Moskovitch, Robert; Elovici, Yuval; Glezer, Chanan (February 2009). "Detection of malicious code by applying machine learning classifiers on static features: A state-of-the-art survey". Information Security Technical Report. 14 (1): 16–29. doi:10.1016/j.istr.2009.03.003.
  54. ^ Zhang, Boyun; Yin, Jianping; Hao, Jingbo; Zhang, Dingxing; Wang, Shulin (2007). Malicious Codes Detection Based on Ensemble Learning. Autonomic and Trusted Computing. Lecture Notes in Computer Science. Vol. 4610. pp. 468–477. doi:10.1007/978-3-540-73547-2_48. ISBN 978-3-540-73546-5.
  55. ^ Menahem, Eitan; Shabtai, Asaf; Rokach, Lior; Elovici, Yuval (February 2009). "Improving malware detection by applying multi-inducer ensemble". Computational Statistics & Data Analysis. 53 (4): 1483–1494. CiteSeerX 10.1.1.150.2722. doi:10.1016/j.csda.2008.10.015.
  56. ^ Locasto, Michael E.; Wang, Ke; Keromytis, Angeles D.; Salvatore, J. Stolfo (2005). FLIPS: Hybrid Adaptive Intrusion Prevention. Recent Advances in Intrusion Detection. Lecture Notes in Computer Science. Vol. 3858. pp. 82–101. CiteSeerX 10.1.1.60.3798. doi:10.1007/11663812_5. ISBN 978-3-540-31778-4.
  57. ^ Giacinto, Giorgio; Perdisci, Roberto; Del Rio, Mauro; Roli, Fabio (January 2008). "Intrusion detection in computer networks by a modular ensemble of one-class classifiers". Information Fusion. 9 (1): 69–82. CiteSeerX 10.1.1.69.9132. doi:10.1016/j.inffus.2006.10.002.
  58. ^ Mu, Xiaoyan; Lu, Jiangfeng; Watta, Paul; Hassoun, Mohamad H. (July 2009). Weighted voting-based ensemble classifiers with application to human face recognition and voice recognition. 2009 International Joint Conference on Neural Networks. pp. 2168–2171. doi:10.1109/IJCNN.2009.5178708. ISBN 978-1-4244-3548-7. S2CID 18850747.
  59. ^ Yu, Su; Shan, Shiguang; Chen, Xilin; Gao, Wen (April 2006). Hierarchical ensemble of Gabor Fisher classifier for face recognition. Automatic Face and Gesture Recognition, 2006. FGR 2006. 7th International Conference on Automatic Face and Gesture Recognition (FGR06). pp. 91–96. doi:10.1109/FGR.2006.64. ISBN 978-0-7695-2503-7. S2CID 1513315.
  60. ^ Su, Y.; Shan, S.; Chen, X.; Gao, W. (September 2006). Patch-based gabor fisher classifier for face recognition. Proceedings - International Conference on Pattern Recognition. Vol. 2. pp. 528–531. doi:10.1109/ICPR.2006.917. ISBN 978-0-7695-2521-1. S2CID 5381806.
  61. ^ Liu, Yang; Lin, Yongzheng; Chen, Yuehui (July 2008). Ensemble Classification Based on ICA for Face Recognition. Proceedings - 1st International Congress on Image and Signal Processing, IEEE Conference, CISP 2008. pp. 144–148. doi:10.1109/CISP.2008.581. ISBN 978-0-7695-3119-9. S2CID 16248842.
  62. ^ Rieger, Steven A.; Muraleedharan, Rajani; Ramachandran, Ravi P. (2014). Speech based emotion recognition using spectral feature extraction and an ensemble of kNN classifiers. Proceedings of the 9th International Symposium on Chinese Spoken Language Processing, ISCSLP 2014. pp. 589–593. doi:10.1109/ISCSLP.2014.6936711. ISBN 978-1-4799-4219-0. S2CID 31370450.
  63. ^ Krajewski, Jarek; Batliner, Anton; Kessel, Silke (October 2010). Comparing Multiple Classifiers for Speech-Based Detection of Self-Confidence - A Pilot Study (PDF). 2010 20th International Conference on Pattern Recognition. pp. 3716–3719. doi:10.1109/ICPR.2010.905. ISBN 978-1-4244-7542-1. S2CID 15431610.
  64. ^ Rani, P. Ithaya; Muneeswaran, K. (25 May 2016). "Recognize the facial emotion in video sequences using eye and mouth temporal Gabor features". Multimedia Tools and Applications. 76 (7): 10017–10040. doi:10.1007/s11042-016-3592-y. S2CID 20143585.
  65. ^ Rani, P. Ithaya; Muneeswaran, K. (August 2016). "Facial Emotion Recognition Based on Eye and Mouth Regions". International Journal of Pattern Recognition and Artificial Intelligence. 30 (7): 1655020. doi:10.1142/S021800141655020X.
  66. ^ Rani, P. Ithaya; Muneeswaran, K (28 March 2018). "Emotion recognition based on facial components". Sādhanā. 43 (3). doi:10.1007/s12046-018-0801-6.
  67. ^ Louzada, Francisco; Ara, Anderson (October 2012). "Bagging k-dependence probabilistic networks: An alternative powerful fraud detection tool". Expert Systems with Applications. 39 (14): 11583–11592. doi:10.1016/j.eswa.2012.04.024.
  68. ^ Sundarkumar, G. Ganesh; Ravi, Vadlamani (January 2015). "A novel hybrid undersampling method for mining unbalanced datasets in banking and insurance". Engineering Applications of Artificial Intelligence. 37: 368–377. doi:10.1016/j.engappai.2014.09.019.
  69. ^ a b Kim, Yoonseong; Sohn, So Young (August 2012). "Stock fraud detection using peer group analysis". Expert Systems with Applications. 39 (10): 8986–8992. doi:10.1016/j.eswa.2012.02.025.
  70. ^ Savio, A.; García-Sebastián, M.T.; Chyzyk, D.; Hernandez, C.; Graña, M.; Sistiaga, A.; López de Munain, A.; Villanúa, J. (August 2011). "Neurocognitive disorder detection based on feature vectors extracted from VBM analysis of structural MRI". Computers in Biology and Medicine. 41 (8): 600–610. doi:10.1016/j.compbiomed.2011.05.010. PMID 21621760.
  71. ^ Ayerdi, B.; Savio, A.; Graña, M. (June 2013). Meta-ensembles of classifiers for Alzheimer's disease detection using independent ROI features. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). Lecture Notes in Computer Science. Vol. 7931. pp. 122–130. doi:10.1007/978-3-642-38622-0_13. ISBN 978-3-642-38621-3.
  72. ^ Gu, Quan; Ding, Yong-Sheng; Zhang, Tong-Liang (April 2015). "An ensemble classifier based prediction of G-protein-coupled receptor classes in low homology". Neurocomputing. 154: 110–118. doi:10.1016/j.neucom.2014.12.013.
  73. ^ Xue, Dan; Zhou, Xiaomin; Li, Chen; Yao, Yudong; Rahaman, Md Mamunur; Zhang, Jinghua; Chen, Hao; Zhang, Jinpeng; Qi, Shouliang; Sun, Hongzan (2020). "An Application of Transfer Learning and Ensemble Learning Techniques for Cervical Histopathology Image Classification". IEEE Access. 8: 104603–104618. doi:10.1109/ACCESS.2020.2999816. ISSN 2169-3536. S2CID 219689893.
  74. ^ Manna, Ankur; Kundu, Rohit; Kaplun, Dmitrii; Sinitca, Aleksandr; Sarkar, Ram (December 2021). "A fuzzy rank-based ensemble of CNN models for classification of cervical cytology". Scientific Reports. 11 (1): 14538. Bibcode:2021NatSR..1114538M. doi:10.1038/s41598-021-93783-8. ISSN 2045-2322. PMC 8282795. PMID 34267261.

추가 정보

외부 링크