클래스 유사성의 소프트 독립 모델링

Soft independent modelling of class analogies

SIMCA(soft independent modeling by class abilities)는 감독된 데이터 분류를 위한 통계 방법이다.메서드에는 속성 집합과 클래스 구성원 자격을 가진 샘플(또는 개체)로 구성된 교육 데이터 세트가 필요합니다.소프트(soft)라는 용어는 분류자가 샘플을 여러 등급에 속하는 것으로 식별할 수 있으며 반드시 중복되지 않는 등급으로 분류할 필요는 없다는 사실을 의미한다.

방법

분류 모델을 구축하기 위해서는 각 분류에 속하는 표본을 주성분분석(PCA)을 사용하여 분석해야 하며, 중요한 성분만 보존된다.

특정 클래스에 대해 결과 모델은 회선(1개의 주요 컴포넌트 또는 PC용), 평면(2대의 PC용) 또는 하이퍼 플레인(2대 이상의 PC용) 중 하나를 나타냅니다.모델링된 각 클래스에 대해 선, 평면 또는 초평면에서 훈련 데이터 표본의 평균 직교 거리(잔차 표준 편차로 계산)를 사용하여 분류에 필요한 임계 거리를 결정합니다.이 임계 거리는 F-분포를 기반으로 하며 일반적으로 95% 또는 99% 신뢰 구간을 사용하여 계산됩니다.

새로운 관측치가 각 PC 모델에 투영되어 계산된 잔류 거리가 계산됩니다.관측치는 모형으로부터의 잔류 거리가 클래스의 통계 한계보다 작을 때 모형 클래스에 할당됩니다.관측치는 여러 클래스에 속하며 관측치가 여러 클래스로 분류된 경우의 수에서 모형의 우수성에 대한 측도를 찾을 수 있습니다.분류 효율은 보통 수신기의 작동 특성에 의해 나타납니다.

원래의 SIMCA 방법에서는 유지된 주성분 축을 따라 통계제어 한계(즉 점수값의 ±0.5배 스코어 표준편차)를 설정함으로써 각 클래스의 하이퍼플레인 끝을 닫는다.

SIMCA 방법의 최근 적용은 타원체(예: Hoteling의 T 또는2 Mahalanobis 거리)의 구성에 의해 하이퍼 평면을 차단한다.이러한 수정된 SIMCA 방법을 사용하여 객체를 분류하려면 모델로부터의 직교 거리 및 모델 내 투영(즉, 타원체에 의해 정의된 영역 내 점수 값)이 유의하지 않아야 한다.

어플

분류 방법으로서의 SIMCA는 특히 화학측정학 및 분광 데이터 분석과 같은 응용 통계 분야에서 널리 사용되고 있다.

레퍼런스

  • Wold, Svante, and Sjostrom, 1977, Michael, SIMCA: 코왈스키, B.R., ed., Chemometrics Theory and Application, American Chemical Society Symposium Series 52, Wash, DC, 24, Americanic Societric society.의 유사성과 유추에 관한 분석 방법.