로컬 케이스-컨트롤 샘플링

Local case-control sampling

머신러닝에서 로컬 사례-컨트롤 샘플링로지스틱 회귀 분류기 훈련의 복잡성을 줄이기 위해 사용되는 알고리즘이다.알고리즘은 훈련을 위한 원본 데이터 세트의 작은 하위 샘플을 선택하여 훈련 복잡성을 줄인다.매개변수에 대한 (신뢰할 수 없는) 파일럿 추정의 가용성을 가정한다.그런 다음 파일럿 추정을 사용하여 전체 데이터 집합에 단일 패스를 수행하여 가장 "놀라운" 샘플을 식별한다.실제로 파일럿은 데이터 집합의 하위 표본을 사용하여 사전 지식 또는 훈련을 받을 수 있다.알고리즘은 기본 데이터 세트의 균형이 맞지 않을 때 가장 효과적이다.그것은 대/소문자 대조 표본 추출 및 가중 사례 대조 표본 추출과 같은 대체 방법보다 더 효율적으로 조건부 불균형 데이터 집합의 구조를 이용한다.

불균형 데이터 집합

In classification, a dataset is a set of N data points , where is a feature vector, is a label.직관적으로, 데이터 집합은 특정한 중요한 통계 패턴이 드물 때 불균형을 이룬다.특정 패턴에 대한 관찰의 부족이 항상 무관함을 의미하는 것은 아니다.예를 들어 희귀질환에 대한 의학연구에서는 소수의 감염환자(사례)가 진단과 치료에 가장 귀중한 정보를 전달한다.

정규적으로 불균형 데이터 집합은 다음 속성 중 하나 이상을 나타낸다.

  • 한계 불균형.한 클래스가 다른 클래스에 비해 드물면 데이터 집합의 균형이 약간 맞지 않는다.즉, = 1) 0
  • 조건부 불균형.데이터 집합은 대부분의 경우 정확한 라벨을 예측하기 쉬울 때 조건부 불균형이다.For example, if , the dataset is conditionally imbalanced if and .

알고리즘 개요

In logistic regression, given the model , the prediction is made according to . The local-case control sampling algorithm assumes the availability of a pilot model . Given the pilot model, the algorithm performs a single pass over the entire dataset to select the s로지스틱 회귀 모형을 교육하는 데 포함할 표본 집합.샘플, ) 의 경우 확률을 a( , y)= - ~ ~ (x) 알고리즘은 다음과 같이 진행한다

  1. ~ (x , )
  2. Fit a logistic regression model to the subsample , obtaining the unadjusted estimates .
  3. The output model is , where and 화살표 {\}}{\

알고리즘은 파일럿 모델을 놀라게 하는 샘플을 선택하는 것으로 이해할 수 있다.직관적으로 이 표본들은 분류자의 결정 경계선에 더 가깝고 따라서 더 유용하다.

파일럿 모델 획득

실제로 파일럿 모델을 자연스럽게 이용할 수 있는 경우 알고리즘을 직접 적용해 훈련의 복잡성을 줄일 수 있다.자연 조종사가 존재하지 않는 경우에는 다른 샘플링 기법을 통해 선택한 서브샘플을 이용한 견적을 대신 사용할 수 있다.알고리즘을 기술한 원본 논문에서 저자들은 할당된 샘플링 예산의 절반으로 가중치 있는 케이스 컨트롤 샘플링을 사용할 것을 제안한다.예를 들어 = 크기의 하위 샘플을 사용하는 것이 목적이라면 먼저 사례 제어 샘플링에서 N = 샘플을 사용하여 ~ 을 추정한 후 다른 N = 500 {\500을 수집하십시오국소적인 케이스-컨트롤 샘플링을 사용한 mples.

표본 크기 더 크거나 더 작음

끊임없이 c{\displaystyle c}의 허용 확률을 곱한 샘플 크기를 통제할 더 큰 표본 크기, min(a(x, y c나는)에 허용 확률을 조정하 c1{\displaystyle c> 1}, 받아, 1){\displaystyle \min(({나는},y_{나는 x_ ca}),1)}도 가능합니다. 들어 더 작은 샘플 size t그는 같은 전략을 적용한다.원하는 표본 수가 정확한 경우, 편리한 대체 방법은 국소적인 사례-제어 표본 추출에 의해 선택된 더 큰 하위 표본에서 균일하게 표본을 추출하는 것이다.

특성.

알고리즘에는 다음과 같은 속성이 있다.파일럿이 일관성이 있을 때, 국소적인 케이스-컨트롤 샘플링의 샘플을 사용한 추정치는 모델 오타입에서도 일관된다.모형이 올바르면 알고리즘은 전체 데이터 집합에 대한 로지스틱 회귀 분석의 점근 분산의 정확히 두 배를 가진다.> }을를) 가진 더 큰 표본 크기의 경우 인자 1 + c{\ 1로 개선된다

참조

  1. ^ Fithian, William; Hastie, Trevor (2014). "Local case-control sampling: Efficient subsampling in imbalanced data sets". The Annals of Statistics. 42 (5): 1693–1724. arXiv:1306.3706. doi:10.1214/14-aos1220. PMC 4258397. PMID 25492979. {{cite journal}}:외부 링크 위치 ref=(도움말)