다중 라벨 분류

Multi-label classification

기계학습에서 다중라벨 분류와 다중출력 분류의 강한 관련 문제는 각 인스턴스에 여러 개의 라벨을 할당할 수 있는 분류 문제의 변형이다.멀티라벨 분류는 멀티클래스 분류의 일반화입니다.이것은 인스턴스를 3개 이상의 클래스 중 하나로 정확하게 분류하는 단일 라벨 문제입니다.멀티 라벨 문제에서는 인스턴스를 할당할 수 있는 클래스의 수에 제한이 없습니다.

형식적으로 다중 레이블 분류는 입력 x를 이진 벡터 y에 매핑하는 모형을 찾는 문제입니다. 즉, y의 각 요소(레이블)에 0 또는 1의 값을 할당합니다.

문제 변환 방법

멀티 라벨 분류에는 몇 가지 문제 변환 방법이 있으며, 대략 다음과 같이 나눌 수 있습니다.

  • 바이너리 분류 문제변환: 바이너리 관련성 [1]방법이라고 불리는 베이스라인 접근법은 각 라벨에 대해 하나의 바이너리 분류기를 독립적으로 훈련시키는 것과 같다.보이지 않는 표본을 지정하면 결합 모형은 각 분류기가 양의 결과를 예측하는 이 표본의 모든 레이블을 예측합니다.태스크를 여러 개의 바이너리 태스크로 분할하는 이 방법은 표면적으로는 멀티클래스 분류를 위한 One-vs.-all(OvA) 및 One-vs.-rest(OvR) 방식과 유사할 수 있지만, 기본적으로는 두 가지 방법 모두와 다릅니다. 왜냐하면 바이너리 관련성이 있는 단일 분류자는 다른 라벨과 관계없이 모두 취급하기 때문입니다.분류자 체인은 다중 라벨 분류 문제를 여러 이진 분류 문제로 변환하는 대체 방법입니다.이는 라벨이 순차적으로 예측되고 이전의 모든 분류기(특정 라벨에 대한 양의 또는 음의)의 출력이 후속 분류기에 [1]특징으로서 입력된다는 점에서 이진 관련성과 다르다.예를 들어 HIV 약물 내성 예측에 분류기 체인이 적용되었다.[2][3]베이지안 네트워크는 분류자 [4]체인의 분류자를 최적으로 정렬하기 위해서도 적용되고 있습니다.
  • 다중 클래스 분류 문제로 변환:Label powerset(LP) 변환에서는 트레이닝 세트에 존재하는 각 라벨 조합에 대해 1개의 바이너리 분류기가 생성됩니다.예를 들어, 가능한 라벨이 A, B 및 C인 경우, 이 문제의 라벨 파워셋은 클래스 [0 0 0], [1 0 0], [0 1 0], [0 1], [1 1 0], [0 1], [0 1], [0 1]의 멀티 클래스 분류 문제입니다.[1 1 1 ] 여기서 [1 0 1]은 라벨 A와 C가 존재하고 라벨 B가 존재하지 않는 예를 나타냅니다.[5]
  • 앙상블 메서드: 멀티클래스 분류기 세트를 사용하여 멀티라벨 앙상블 분류기를 작성할 수 있습니다.예를 들어, 각 분류자는 단일 클래스(멀티 라벨 문제의 단일 라벨에 대응)를 출력합니다.그런 다음 이러한 예측은 앙상블 방법, 일반적으로 개별 분류기로부터 필요한 비율의[6] 표를 받는 모든 클래스가 다중 라벨 출력의 현재 라벨로 예측되는 투표 체계에 의해 결합된다.그러나 위원회 기계와 같이 더 복잡한 앙상블 방법이 존재합니다.또 다른 변형은 랜덤 k-라벨셋(RAKEL) 알고리즘으로, 각 분류기는 실제 라벨의 랜덤 서브셋에 대해 훈련되며, 라벨 예측은 투표 [7]방식에 의해 수행됩니다.멀티라벨 분류기 세트를 사용하여 멀티라벨 앙상블 분류기를 작성할 수 있습니다.이 경우 각 분류자는 단일 레이블이 아니라 예측되는 각 레이블에 대해 한 번 투표합니다.

적응 알고리즘

일부 분류 알고리즘/모델은 문제 변환 없이 다중 라벨 작업에 맞게 조정되었습니다.예를 들어 멀티라벨 데이터를 포함합니다.

  • k-nearest neighbors: ML-kNN 알고리즘은 k-NN 분류자를 멀티 라벨 [8]데이터로 확장합니다.
  • 의사결정 트리: "Clare"는 다중 라벨 분류에 적합한 C4.5 알고리즘이다. 수정에는 엔트로피 [9]계산이 포함된다.MMC, MMDT 및 SSC 정밀 MMDT는 속성을 단일 값으로 변환하지 않고 다중 값 속성을 기반으로 다중 레이블 데이터를 분류할 수 있습니다.그것들은 또한 다중값 및 다중 라벨 의사결정 트리 분류 [10][11][12]방법이라고 불린다.
  • 벡터 출력용 커널 메서드
  • 뉴럴 네트워크: BP-MLL은 멀티 라벨 [13]학습에 널리 사용되는 역전파 알고리즘을 채택한 입니다.

학습 패러다임

학습 패러다임에 따라 기존의 다중 라벨 분류 기법은 배치 학습과 온라인 기계 학습으로 분류할 수 있다.배치 학습 알고리즘에서는 사전에 모든 데이터 샘플을 사용할 수 있어야 합니다.전체 교육 데이터를 사용하여 모형을 교육한 다음 찾은 관계를 사용하여 검정 표본을 예측합니다.반면 온라인 학습 알고리즘은 순차적으로 모델을 구축합니다.반복 t에서 온라인 알고리즘은 샘플 x를t 수신하고 현재 모델을 사용하여 라벨 θ를t 예측합니다.그 후 알고리즘은 x의 진정한t 라벨인 y를t 수신하고 샘플 라벨 쌍(xt, yt)에 근거해 모델을 갱신합니다.

다중 라벨 스트림 분류

데이터 스트림은 시간이 [14]지남에 따라 지속적으로 빠르게 증가하는 무한한 데이터 시퀀스일 수 있습니다.Multiple-Label Stream Classification(MLSC; 다중 라벨 스트림 분류)은 데이터 스트림에서 실행되는 다중 라벨 분류 태스크 버전입니다.온라인 다중 레이블 분류라고도 합니다.다중 라벨 분류의 어려움(가능한 라벨 세트의 지수 수, 라벨 간의 의존성 캡처)은 데이터 스트림의 어려움(시간 및 메모리 제약, 유한한 평균, 개념 표류)과 결합됩니다.

많은 MLSC 방법은 예측 성능을 높이고 개념 표류를 처리하기 위해 앙상블 방법에 의존한다.다음은 문헌에서 가장 널리 사용되는 앙상블 방식입니다.

  • Online Bagging[15](OzaBagging) 기반 방법: 부트스트랩 샘플에서 K가 특정 데이터 포인트의 대부분을 가질 확률이 빅 데이터셋의 경우 대략 Poisson(1)이라는 것을 관찰하면 데이터 스트림의 각 착신 데이터 인스턴스는 Poisson(1) 분포에 비례하여 가중치를 부여하여 온라인 환경에서 부트스트랩을 모방할 수 있습니다.이것은 온라인 배깅(OzaBagging)이라고 불립니다.온라인 배깅을 사용하는 많은 다중 라벨 방법이 문헌에 제안되어 있으며, 각각 다른 문제 변환 방법을 사용한다.EBR,[1] [1]ECC, EPS,[16] ERTB,[17] EMTB,[17] ML-Random 규칙이[18] 이러한 방법의 예입니다.
  • ADWIN 배깅 기반의[19] 방법:MLSC의 온라인 배깅 방법은 ADWIN(Adaptive Window)과[20] 같은 명시적 개념 드리프트 감지 메커니즘과 결합되기도 합니다.ADWIN은 가변 크기의 창을 유지하여 데이터 분포의 변화를 검출하고 수신 데이터에 드리프트가 있을 때 성능이 떨어지는 컴포넌트를 리셋하여 앙상블을 개선합니다.일반적으로 문자 'a'는 이러한 앙상블 이름의 첨자로 사용되며 ADW의 사용을 나타냅니다.IN 변경 검출기.EBRa,[19] [19]ECCa, EHT는aPS[19] 이러한 멀티 라벨 앙상블의 예입니다.
  • Goowe-ML[21] 기반 방식:라벨 공간의 벡터로 앙상블의 각 구성요소의 관련성 점수를 해석하고 각 배치의 마지막에 최소 제곱 문제를 해결함으로써 다중 라벨 분류를 위한 기하학적 최적 온라인 가중치 앙상블(GOOE-ML)을 제안한다.앙상블은 배치에 걸쳐 각 인스턴스의 성분 가중 예측과 지상 참치 벡터 사이의 거리를 최소화하려고 합니다.온라인 배깅이나 ADWIN 배깅과는 달리, GOOWE-ML은 앙상블의 더 나은 성과 컴포넌트에 무게가 주어지는 가중 투표 방식을 사용합니다.GOWE-ML 앙상블은 시간이 지남에 따라 증가하며, 배치 종료 시 최소 무게의 컴포넌트가 가득 차면 새 컴포넌트로 교체됩니다.GOBR,[21] GOCC,[21] GOPS,[21] GORT는[21] 제안된 GOWE-ML 기반의 멀티 라벨 앙상블입니다.
  • 여러[22] Windows : 여기서 슬라이딩 윈도우를 사용하는 BR 모델은 라벨별로 2개의 윈도우로 대체됩니다.하나는 관련성이 있는, 다른 하나는 관련이 없는 예에 해당합니다.인스턴스는 이 두 창 사이에 유지되는 부하 계수에 따라 오버샘플링되거나 언더샘플링됩니다.이것에 의해, 각 라벨에 대해서 독립된 개념의 드리프트를 검출해, 클래스 불일치(관련 예와 무관한 예에 있어서의 skewness)를 처리할 수 있습니다.

통계 및 평가 지표

i 데이터 샘플의 세트라고 하면(단순히 이 샘플에 속하는 모든 라벨의 집합이다), 데이터 세트가 다중 라벨인 정도는 두 가지 통계로 캡처할 수 있습니다.

  • 라벨 카디널리티는 세트 내의 예당 평균 라벨 N i { { { \ _ { }^{ } N { N}은 데이터 샘플의 총수입니다.
  • 라벨 밀도는 샘플당 라벨 수를 총 라벨 수로 나눈 값입니다. 평균은 1 N L i} \_ { {{ {\} { 입니다.사용 가능한 클래스의 수(})할 수 있는 요소의 최대 수)

다중 라벨 분류 성능에 대한 평가 지표는 분류 문제의 본질적인 차이로 인해 다중 클래스(또는 이진) 분류에 사용되는 평가 지표와 본질적으로 다르다.T가 주어진 샘플에 대한 실제 라벨 세트를 나타내고 P가 예측 라벨 세트를 나타내는 경우, 다음 메트릭을 해당 샘플에 정의할 수 있습니다.

  • 해밍 손실: 라벨의 총수에 대한 잘못된 라벨의 비율(: N L i N j L ( ,j , ) { style \ {} { \ L } } \ { i1 . 타겟, i { 예측입니다. ) { }(\)은 타겟과 예측이 동일할 때 0을 반환하는 "Exclusive, or" 연산자입니다.이것은 손실 함수이므로 최적값은 0이고 상한값은 1입니다.
  • 멀티라벨 설정에서 Intersection over 도 하는 밀접하게 관련된 Jaccard 인덱스는 예측된 라벨과 참된 라벨의 조합( P \ \ { T \ cap P } { T \ cupP )으로 올바르게 예측된 라벨의 수로 정의됩니다 T 각각 예측 라벨과 참 라벨의 세트입니다.
  • 정밀도, 리콜 점수: 는 T P P {\style P} { P { P }}, T {\ style { P } { }}{\ F} } }는 조화입니다.
  • 정확한 일치(서브셋 정확도라고도 함): 가장 엄격한 메트릭으로, 모든 라벨이 올바르게 분류된 샘플의 비율을 나타냅니다.

다중 라벨 설정의 교차 검증은 일반적인 (이진수/멀티클래스) 계층화 표본 추출 방법이 작동하지 않는다는 사실로 인해 복잡하다. 대략적인 계층화 표본 추출 방법이 [24]제안되었다.

구현 및 데이터셋

다중 라벨 알고리즘의 Java 구현은 Weka를 기반으로 MulanMeka 소프트웨어 패키지로 제공됩니다.

skit-learn Python 패키지는 몇 가지 멀티 라벨 알고리즘과 메트릭을 구현합니다.

skikit-multilearn Python 패키지는 멀티 라벨 분류에 특화되어 있습니다.SVM, kNN 등 여러 가지 잘 알려진 기술의 멀티라벨 구현을 제공합니다.이 패키지는 Scikit-Learn 에코시스템 위에 구축되어 있습니다.

이항 관련성[25] 방법, 분류자 체인 및 많은 다른 기본 학습자가 있는 기타 멀티라벨 알고리즘은 R 패키지 mlr에 구현된다.

일반적으로 사용되는 다중 레이블 데이터 집합 목록은 Mulan 웹 사이트에서 확인할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b c d 제시 리드, 베른하르트 파링거, 제프 홈즈, 에이브 프랭크다중 라벨 분류용 분류자 체인.머신 러닝 저널스프링거.Vol. 85(3), (2011)
  2. ^ Heider, D; Senge, R; Cheng, W; Hüllermeier, E (2013). "Multilabel classification for exploiting cross-resistance information in HIV-1 drug resistance prediction". Bioinformatics. 29 (16): 1946–52. doi:10.1093/bioinformatics/btt331. PMID 23793752.
  3. ^ Riemenschneider, M; Senge, R; Neumann, U; Hüllermeier, E; Heider, D (2016). "Exploiting HIV-1 protease and reverse transcriptase cross-resistance information for improved drug resistance prediction by means of multi-label classification". BioData Mining. 9: 10. doi:10.1186/s13040-016-0089-1. PMC 4772363. PMID 26933450.
  4. ^ Soufan, Othman; Ba-Alawi, Wail; Afeef, Moataz; Essack, Magbubah; Kalnis, Panos; Bajic, Vladimir B. (2016-11-10). "DRABAL: novel method to mine large high-throughput screening assays using Bayesian active learning". Journal of Cheminformatics. 8: 64. doi:10.1186/s13321-016-0177-8. ISSN 1758-2946. PMC 5105261. PMID 27895719.
  5. ^ Spolaôr, Newton; Cherman, Everton Alvares; Monard, Maria Carolina; Lee, Huei Diana (March 2013). "A Comparison of Multi-label Feature Selection Methods using the Problem Transformation Approach". Electronic Notes in Theoretical Computer Science. 292: 135–151. doi:10.1016/j.entcs.2013.02.010. ISSN 1571-0661.
  6. ^ "Discrimination Threshold — yellowbrick 0.9 documentation". www.scikit-yb.org. Retrieved 2018-11-29.
  7. ^ Tsoumakas, Grigorios; Vlahavas, Ioannis (2007). Random k-labelsets: An ensemble method for multilabel classification (PDF). ECML. Archived from the original (PDF) on 2014-07-29. Retrieved 2014-07-26.
  8. ^ Zhang, M.L.; Zhou, Z.H. (2007). "ML-KNN: A lazy learning approach to multi-label learning". Pattern Recognition. 40 (7): 2038–2048. CiteSeerX 10.1.1.538.9597. doi:10.1016/j.patcog.2006.12.019.
  9. ^ Madjarov, Gjorgji; Kocev, Dragi; Gjorgjevikj, Dejan; Džeroski, Sašo (2012). "An extensive experimental comparison of methods for multi-label learning". Pattern Recognition. 45 (9): 3084–3104. doi:10.1016/j.patcog.2012.03.004.
  10. ^ Chen, Yen-Liang; Hsu, Chang-Ling; Chou, Shih-chieh (2003). "Constructing a multi-valued and multi-labeled decision tree". Expert Systems with Applications. 25 (2): 199–209. doi:10.1016/S0957-4174(03)00047-2.
  11. ^ Chou, Shihchieh; Hsu, Chang-Ling (2005-05-01). "MMDT: a multi-valued and multi-labeled decision tree classifier for data mining". Expert Systems with Applications. 28 (4): 799–812. doi:10.1016/j.eswa.2004.12.035.
  12. ^ Li, Hong; Guo, Yue-jian; Wu, Min; Li, Ping; Xiang, Yao (2010-12-01). "Combine multi-valued attribute decomposition with multi-label learning". Expert Systems with Applications. 37 (12): 8721–8728. doi:10.1016/j.eswa.2010.06.044.
  13. ^ Zhang, M.L.; Zhou, Z.H. (2006). Multi-label neural networks with applications to functional genomics and text categorization (PDF). IEEE Transactions on Knowledge and Data Engineering. Vol. 18. pp. 1338–1351.
  14. ^ Aggarwal, Charu C., ed. (2007). Data Streams. Advances in Database Systems. Vol. 31. doi:10.1007/978-0-387-47534-9. ISBN 978-0-387-28759-1.
  15. ^ Oza, Nikunj (2005). "Online Bagging and Boosting". IEEE International Conference on Systems, Man and Cybernetics. hdl:2060/20050239012.
  16. ^ Read, Jesse; Pfahringer, Bernhard; Holmes, Geoff (2008-12-15). Multi-label Classification Using Ensembles of Pruned Sets. IEEE Computer Society. pp. 995–1000. doi:10.1109/ICDM.2008.74. hdl:10289/8077. ISBN 9780769535029. S2CID 16059274.
  17. ^ a b Osojnik, Aljaź; Panov, PanăźE; DźEroski, Sašo (2017-06-01). "Multi-label classification via multi-target regression on data streams". Machine Learning. 106 (6): 745–770. doi:10.1007/s10994-016-5613-5. ISSN 0885-6125.
  18. ^ Sousa, Ricardo; Gama, João (2018-01-24). "Multi-label classification from high-speed data streams with adaptive model rules and random rules". Progress in Artificial Intelligence. 7 (3): 177–187. doi:10.1007/s13748-018-0142-z. ISSN 2192-6352. S2CID 32376722.
  19. ^ a b c d Read, Jesse; Bifet, Albert; Holmes, Geoff; Pfahringer, Bernhard (2012-02-21). "Scalable and efficient multi-label classification for evolving data streams". Machine Learning. 88 (1–2): 243–272. doi:10.1007/s10994-012-5279-6. ISSN 0885-6125.
  20. ^ Bifet, Albert; Gavaldà, Ricard (2007-04-26), "Learning from Time-Changing Data with Adaptive Windowing", Proceedings of the 2007 SIAM International Conference on Data Mining, Society for Industrial and Applied Mathematics, pp. 443–448, CiteSeerX 10.1.1.215.8387, doi:10.1137/1.9781611972771.42, ISBN 9780898716306
  21. ^ a b c d e Büyükçakir, Alican; Bonab, Hamed; Can, Fazli (2018-10-17). A Novel Online Stacked Ensemble for Multi-Label Stream Classification. ACM. pp. 1063–1072. arXiv:1809.09994. doi:10.1145/3269206.3271774. ISBN 9781450360142. S2CID 52843253.
  22. ^ Xioufis, Eleftherios Spyromitros; Spiliopoulou, Myra; Tsoumakas, Grigorios; Vlahavas, Ioannis (2011-07-16). Dealing with concept drift and class imbalance in multi-label stream classification. AAAI Press. pp. 1583–1588. doi:10.5591/978-1-57735-516-8/IJCAI11-266. ISBN 9781577355144.
  23. ^ Godbole, Shantanu; Sarawagi, Sunita (2004). Discriminative methods for multi-labeled classification (PDF). Advances in Knowledge Discovery and Data Mining. pp. 22–30.
  24. ^ Sechidis, Konstantinos; Tsoumakas, Grigorios; Vlahavas, Ioannis (2011). On the stratification of multi-label data (PDF). ECML PKDD. pp. 145–158.
  25. ^ 필립 프로브스트, 퀘이아우, 주세페 카살리치오, 클레멘스 스타클, 베른트 비슐R 패키지 mlr을 사용한 멀티 라벨 분류.R 저널 (2017) 9:1 페이지, 352-369.

추가 정보

  • Madjarov, Gjorgji; Kocev, Dragi; Gjorgjevikj, Dejan; Džeroski, Sašo (2012). "An extensive experimental comparison of methods for multi-label learning". Pattern Recognition. 45 (9): 3084–3104. doi:10.1016/j.patcog.2012.03.004.