인스턴스 선택

Instance selection

인스턴스 선택(또는 데이터 세트 감소 또는 데이터 집합)은 많은 기계 학습(또는 데이터 마이닝)[1] 작업에 적용할 수 있는 중요한 데이터 전처리 단계입니다.인스턴스 선택 접근방식을 적용하여 원래 데이터 세트를 관리 가능한 볼륨으로 줄일 수 있으므로 학습 프로세스를 수행하는 데 필요한 계산 리소스를 줄일 수 있습니다.학습 알고리즘을 적용하기 전에 인스턴스 선택 알고리즘을 적용하여 노이즈가 많은 인스턴스를 제거할 수도 있습니다.이 단계는 분류 문제의 정확도를 향상시킬 수 있습니다.

인스턴스 선택 알고리즘은 데이터 마이닝(또는 머신 러닝) 어플리케이션의 원래 목적을 달성하기 위해 전체 데이터가 사용된 것처럼 사용 가능한 총 데이터의 서브셋을 식별해야 합니다.이를 고려하면 IS의 최적의 결과는 사용 가능한 전체 데이터를 사용하여 작업을 수행할 때 달성되는 성능과 비교하여 성능 손실 없이 동일한 작업을 수행할 수 있는 최소 데이터 서브셋이 될 것이다.따라서 모든 인스턴스 선택 전략은 데이터 세트의 감소율과 분류 품질 사이의 균형을 고려해야 합니다.

인스턴스 선택 알고리즘

문헌에는 인스턴스 선택을 위한 몇 가지 다른 알고리즘이 나와 있습니다.그것들은 몇 가지 다른 기준에 따라 서로 구별될 수 있다.이를 고려하여 인스턴스 선택 알고리즘은 선택하는 인스턴스에 따라 두 가지 주요 클래스로 그룹화할 수 있습니다.클래스의 경계에서 인스턴스를 유지하는 알고리즘과 클래스의 내부 인스턴스를 유지하는 알고리즘입니다.경계에서 인스턴스를 선택하는 알고리즘 범주 내에서 DROP3,[2] ICF[3] 및 LSBo를 [4]인용할 수 있습니다.한편, 내부 인스턴스를 선택하는 알고리즘의 카테고리에서는 ENN과 LSSm을 [4]언급할[5] 수 있습니다.일반적으로 ENN 및 LSSm과 같은 알고리즘은 데이터 집합에서 유해한(소음) 인스턴스를 제거하기 위해 사용됩니다.경계 인스턴스를 선택하는 알고리즘으로 데이터를 줄이지는 않지만 데이터 마이닝 태스크에 부정적인 영향을 미치는 경계 인스턴스를 제거합니다.다른 인스턴스 선택 알고리즘에서 필터링 단계로 사용할 수 있습니다.예를 들어 첫 번째 스텝으로 ENN 알고리즘이 DROP3에 의해 사용되며 LSSm 알고리즘이 LSBo에 의해 사용됩니다.

다른 선택 기준을 채택하는 또 다른 알고리즘 그룹도 있다.예를 들어 알고리즘 LDIS,[6] CDIS[7] 및 XLDIS는[8] 임의의 네이버에서 가장 밀도가 높은 인스턴스를 선택합니다.선택한 인스턴스에는 테두리 및 내부 인스턴스를 모두 포함할 수 있습니다.LDIS 및 CDIS 알고리즘은 매우 단순하며 원래 데이터 세트를 대표하는 서브셋을 선택합니다.게다가 각 클래스의 대표 인스턴스에 의해서 개별적으로 검색되기 때문에, DROP3, ICF등의 다른 알고리즘에 비해(시간 복잡도나 유효 실행 시간 면에서) 고속입니다.

이 외에도 데이터 세트의 실제 인스턴스를 선택하는 대신 프로토타입(합성 인스턴스일 수 있음)을 선택하는 세 번째 범주의 알고리즘이 있습니다.이 카테고리에는 PSSA,[9] PSDSP[10] 및 PSSP를 [11]포함할 수 있습니다.세 가지 알고리즘은 유사한 경우를 식별하기 위한 공간 분할(초직각) 개념을 채택하고 유사한 사례의 각 세트에 대한 프로토타입을 추출한다.일반적으로 이러한 접근 방식은 데이터 세트의 실제 인스턴스를 선택하기 위해 수정할 수도 있습니다.알고리즘[11] ISDSP는 (시제품이 아닌) 실제 인스턴스를 선택할 때 유사한 접근방식을 채택합니다.

레퍼런스

  1. ^ S. Garcia, J. Luengo 및 F.에레라, 데이터 마이닝에서의 데이터 전처리.스프링거, 2015년
  2. ^ D. R. Wilson과 T. R. Martinez, 사례 기반 학습 알고리즘을 위한 감소 기법, 기계 학습, vol. 38, no. 3, 페이지 257–286, 2000.
  3. ^ H. 브라이튼과 C.Mellish, 사례 기반 학습 알고리즘, 데이터 마이닝 및 지식 발견, vol.6, no.2, 페이지 153–172, 2002에 대한 사례 선택 향상.
  4. ^ a b E. 레이바, A. 곤살레스, R.Pérez, 로컬세트를 기반으로 한3가지 새로운 인스턴스 선택 방식:이중 객관적 관점에서 몇 가지 접근방식을 사용한 비교 연구, 패턴 인식, vol. 48, no. 4, 페이지 1523–1537, 2015.
  5. ^ D. L. Wilson, "편집된 데이터를 사용하는 가장 가까운 이웃 규칙의 점근 특성", 시스템, 맨 및 사이버네틱스, IEEE 트랜잭션, 3, 페이지 408-421, 1972.
  6. ^ 카르보네라, 조엘 루이스, 마라 아벨.인스턴스 선택을 위한 밀도 기반 접근법.IEEE 27회 인공 지능 도구 국제 회의(ICTAI), 2015.
  7. ^ 카르보네라, 조엘 루이스, 마라 아벨.인스턴스 선택을 위한 새로운 밀도 기반 접근법입니다.IEEE 28회 인공 지능 도구 국제 회의(ICTAI), 2016.
  8. ^ Carbonera, Joel Luís (2017), "An Efficient Approach for Instance Selection", Big Data Analytics and Knowledge Discovery, Lecture Notes in Computer Science, vol. 10440, Springer International Publishing, pp. 228–243, doi:10.1007/978-3-319-64283-3_17, ISBN 9783319642826
  9. ^ Carbonera, Joel Luís; Abel, Mara (2018), "An Efficient Prototype Selection Algorithm Based on Spatial Abstraction", Big Data Analytics and Knowledge Discovery, Springer International Publishing, pp. 177–192, doi:10.1007/978-3-319-98539-8_14, ISBN 9783319985381
  10. ^ Carbonera, Joel Luís; Abel, Mara (2018), "An Efficient Prototype Selection Algorithm Based on Dense Spatial Partitions", Artificial Intelligence and Soft Computing, Springer International Publishing, pp. 288–300, doi:10.1007/978-3-319-91262-2_26, ISBN 9783319912615
  11. ^ a b Carbonera, Joel Luis; Abel, Mara (November 2017). Efficient Prototype Selection Supported by Subspace Partitions. 2017 IEEE 29th International Conference on Tools with Artificial Intelligence (ICTAI). IEEE. doi:10.1109/ictai.2017.00142. ISBN 9781538638767.