로컬 케이스-컨트롤 샘플링

머신러닝에서 로컬 사례-컨트롤 샘플링은 로지스틱 회귀 분류기 훈련의 복잡성을 줄이기 위해 사용되는 알고리즘이다.알고리즘은 훈련을 위한 원본 데이터 세트의 작은 하위 샘플을 선택하여 훈련 복잡성을 줄인다.매개변수에 대한 (신뢰할 수 없는) 파일럿 추정의 가용성을 가정한다.그런 다음 파일럿 추정을 사용하여 전체 데이터 집합에 단일 패스를 수행하여 가장 "놀라운" 샘플을 식별한다.실제로 파일럿은 데이터 집합의 하위 표본을 사용하여 사전 지식 또는 훈련을 받을 수 있다.알고리즘은 기본 데이터 세트의 균형이 맞지 않을 때 가장 효과적이다.그것은 대/소문자 대조 표본 추출 및 가중 사례 대조 표본 추출과 같은 대체 방법보다 더 효율적으로 조건부 불균형 데이터 집합의 구조를 이용한다.

불균형 데이터 집합

In classification, a dataset is a set of N data points $(x_{i},y_{i})_{i=1}^{N}$ , where $x_{i}\in \mathbb {R} ^{d}$ is a feature vector, $y_{i}\in \{0,1\}$ is a label.직관적으로, 데이터 집합은 특정한 중요한 통계 패턴이 드물 때 불균형을 이룬다.특정 패턴에 대한 관찰의 부족이 항상 무관함을 의미하는 것은 아니다.예를 들어 희귀질환에 대한 의학연구에서는 소수의 감염환자(사례)가 진단과 치료에 가장 귀중한 정보를 전달한다.

정규적으로 불균형 데이터 집합은 다음 속성 중 하나 이상을 나타낸다.

한계 불균형.한 클래스가 다른 클래스에 비해 드물면 데이터 집합의 균형이 약간 맞지 않는다.즉, $\mathbb {P} (Y=1)\approx 0$ = 1 $\mathbb {P} (Y=1)\approx 0$ ) $\mathbb {P} (Y=1)\approx 0$ $\mathbb {P} (Y=1)\approx 0$ ${\displaystyle \mathb {P}(Y=1)\약$ 0 $\mathbb {P} (Y=1)\approx 0$
조건부 불균형.데이터 집합은 대부분의 경우 정확한 라벨을 예측하기 쉬울 때 조건부 불균형이다.For example, if $X\in \{0,1\}$ , the dataset is conditionally imbalanced if $\mathbb {P} (Y=1\mid X=0)\approx 0$ and $\mathbb {P} (Y=1\mid X=1)\approx 1$ .

알고리즘 개요

In logistic regression, given the model $\theta =(\alpha ,\beta )$ , the prediction is made according to ${\displaystyle \mathbb {P} (Y=1\mid X;\theta )={\tilde {p}}_{\theta }(x)={\frac {\exp(\alpha +\b$ $eta ^{T}x)}{1+\exp(\alpha +\beta ^{T}x)}}}$ . The local-case control sampling algorithm assumes the availability of a pilot model ${\tilde {\theta }}=({\tilde {\alpha }},{\tilde {\beta }})$ . Given the pilot model, the algorithm performs a single pass over the entire dataset to select the s로지스틱 회귀 모형을 교육하는 데 포함할 표본 집합.샘플 $(x,y)$ , $(x,y)$ ) ${\displaystyle (x,$ $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ $)}$ 의 경우 $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ 확률을 a $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ ( $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ , y $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ ) $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ = $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ - $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ ~ $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ ~ ( $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ x $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$ ) $displaysty a(x,y)= y-{p}_{\tildea{\tildea}}}}}}$ 알고리즘은 다음과 같이 진행한다 $a(x,y)=|y-{\tilde {p}}_{\tilde {\theta }}(x)|$

$i\in \{1,\ldots ,N\}$ $z_{i}\sim {\text{Bernoulli}}(a(x_{i},y_{i}))$ ~ $z_{i}\sim {\text{Bernoulli}}(a(x_{i},y_{i}))$ $z_{i}\sim {\text{Bernoulli}}(a(x_{i},y_{i}))$ ( $z_{i}\sim {\text{Bernoulli}}(a(x_{i},y_{i}))$ x $z_{i}\sim {\text{Bernoulli}}(a(x_{i},y_{i}))$ , $z_{i}\sim {\text{Bernoulli}}(a(x_{i},y_{i}))$ $z_{i}\sim {\text{Bernoulli}}(a(x_{i},y_{i}))$ ) ${\displaystyle z_{i}\sim {\text{Bernouli}}}(a(x_{i},y_{i}}})}($ $){\displaysty i\in \{1$
Fit a logistic regression model to the subsample $S=\{(x_{i},y_{i}):z_{i}=1\}$ , obtaining the unadjusted estimates ${\hat {\theta }}_{S}=({\hat {\alpha }}_{S},{\hat {\beta }}_{S})$ .
The output model is ${\hat {\theta }}=({\hat {\alpha }},{\hat {\beta }})$ , where ${\hat {\alpha }}\leftarrow {\hat {\alpha }}_{S}+{\tilde {\alpha }}$ and ${\displaystyle {\hat {\beta$ $}}}}\왼쪽$ 화살표 {\ $hat {\beta$ }} $_{S}+{\tilde$ {\ $beta$

알고리즘은 파일럿 모델을 놀라게 하는 샘플을 선택하는 것으로 이해할 수 있다.직관적으로 이 표본들은 분류자의 결정 경계선에 더 가깝고 따라서 더 유용하다.

파일럿 모델 획득

실제로 파일럿 모델을 자연스럽게 이용할 수 있는 경우 알고리즘을 직접 적용해 훈련의 복잡성을 줄일 수 있다.자연 조종사가 존재하지 않는 경우에는 다른 샘플링 기법을 통해 선택한 서브샘플을 이용한 견적을 대신 사용할 수 있다.알고리즘을 기술한 원본 논문에서 저자들은 할당된 샘플링 예산의 절반으로 가중치 있는 케이스 컨트롤 샘플링을 사용할 것을 제안한다.예를 들어 $N=1000$ = $N=1000$ $N=1000$ 크기의 하위 샘플을 사용하는 것이 목적이라면 먼저 $N_{h}=500$ 사례 제어 샘플링에서 N $N_{h}=500$ = $N_{h}=500$ $N_{h}=500$ 샘플을 사용하여 ${\tilde {\theta }}$ $N_{h}=500$ ${\tilde {\theta }}$ $N_{h}=500$ ~ ${\$ 을 추정한 후 다른 N = 500 {\ $displaysty N_{h}500$ 500을 수집하십시오 $.$ 국소적인 케이스-컨트롤 샘플링을 사용한 mples.

표본 크기 더 크거나 더 작음

끊임없이 c{\displaystyle c}의 허용 확률을 곱한 샘플 크기를 통제할 더 큰 표본 크기, min(a(x, y c나는)에 허용 확률을 조정하 c1{\displaystyle c> 1}, 받아, 1){\displaystyle \min(({나는},y_{나는 x_ ca}),1)}도 가능합니다. 들어 더 작은 샘플 size t그는 같은 전략을 적용한다.원하는 표본 수가 정확한 경우, 편리한 대체 방법은 국소적인 사례-제어 표본 추출에 의해 선택된 더 큰 하위 표본에서 균일하게 표본을 추출하는 것이다.

특성.

알고리즘에는 다음과 같은 속성이 있다.파일럿이 일관성이 있을 때, 국소적인 케이스-컨트롤 샘플링의 샘플을 사용한 추정치는 모델 오타입에서도 일관된다.모형이 올바르면 알고리즘은 전체 데이터 집합에 대한 로지스틱 회귀 분석의 점근 분산의 정확히 두 배를 가진다. $c>1$ > $c>1$ ${\displaystyle c>1$ }을 $($ 를) 가진 더 큰 표본 크기의 경우 $c>1$ 인자 $1+{\frac {1}{c}}$ 는 $1+{\frac {1}{c}}$ 1 + $1+{\frac {1}{c}}$ c $1+{\frac {1}{c}}$ {\ $displaystyle$ 1 $+{\frac{1}{c}}$ 로 개선된다 $1+{\frac {1}{c}}$

참조

^ Fithian, William; Hastie, Trevor (2014). "Local case-control sampling: Efficient subsampling in imbalanced data sets". The Annals of Statistics. 42 (5): 1693–1724. arXiv:1306.3706. doi:10.1214/14-aos1220. PMC 4258397. PMID 25492979. {{cite journal}}:외부 링크 위치 ref=(도움말)

[LCC-1] Fithian, William; Hastie, Trevor (2014). "Local case-control sampling: Efficient subsampling in imbalanced data sets". The Annals of Statistics. 42 (5): 1693–1724. arXiv:1306.3706. doi:10.1214/14-aos1220. PMC 4258397. PMID 25492979. {{cite journal}}:외부 링크 위치 ref=(도움말)

Search

로컬 케이스-컨트롤 샘플링

네임스페이스

더

목차

불균형 데이터 집합

알고리즘 개요

파일럿 모델 획득

표본 크기 더 크거나 더 작음

특성.

참조