k-param 네이버알고리즘

통계학에서 k-근접 이웃 알고리즘(k-NN)은 1951년 ^[1]Evelyn Fix와 Joseph Hodges에 의해 처음 개발된 비모수적 지도 학습 방법이며, 후에 Thomas ^[2]Cover에 의해 확장되었다.분류 및 회귀에 사용됩니다.두 경우 모두 입력은 데이터 집합에서 k개의 가장 가까운 훈련 예시로 구성됩니다.출력은 k-NN이 분류에 사용되는지 또는 회귀에 사용되는지에 따라 달라집니다.

k-NN 분류에서 출력은 클래스 멤버십입니다.오브젝트는 그 네이버의 복수 투표에 의해 분류되며 오브젝트는 k개의 가장 가까운 네이버 중 가장 일반적인 클래스에 할당된다(k는 정의 정수이며 일반적으로 작다).k = 1일 경우 오브젝트는 단순히 가장 가까운 단일 네이버 클래스에 할당됩니다.

k-NN 회귀 분석에서 출력은 객체의 속성 값입니다.이 값은 k개의 가장 가까운 네이버 값의 평균입니다.

k-NN은 함수가 국소적으로만 근사되고 함수가 평가될 때까지 모든 계산이 지연되는 분류 유형입니다.이 알고리즘은 분류에 거리에 의존하기 때문에 특징이 다른 물리 단위를 나타내거나 매우 다른 척도로 나타나는 경우 훈련 데이터를 정규화하면 정확도가 크게 ^[3]^[4]향상될 수 있습니다.

분류와 회귀 모두에서 유용한 기술은 네이버의 기여에 가중치를 할당하여 가까운 네이버가 먼 네이버보다 평균에 더 많이 기여하도록 하는 것입니다.예를 들어, 공통 가중치 방식은 각 네이버에 1/d의 가중치를 부여하는 것으로 구성됩니다.여기서 d는 ^[5]네이버까지의 거리입니다.

네이버는 클래스(k-NN 분류용) 또는 오브젝트 속성 값(k-NN 회귀용)이 알려진 오브젝트 세트에서 가져옵니다.이것은 알고리즘의 트레이닝 세트라고 생각할 수 있지만, 명시적인 트레이닝 스텝은 필요 없습니다.

k-NN 알고리즘의 특징은 데이터의 로컬 구조에 민감하다는 것입니다.

통계 설정

$(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ $(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ , $(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ 1 $(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ ( $(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ , $(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ 2 $(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ $(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ ( $(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ n , $(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ n $),$ ( X n $(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ ( X _ {1 $}$ $, Y_{1}$ , ( $X$ _ { $2}$ )의 페어가 있다고 합니다. $Y_{2}), \dots ,(X_{n}).$ $Y_{n})$ 는 $(X_{1},Y_{1}),(X_{2},Y_{2}),\dots ,(X_{n},Y_{n})$ R $\mathbb {R} ^{d}\times \{1,2\}$ × { $\mathbb {R} ^{d}\times \{1,2\}$ , 2 $}$ （ \ $displaystyle$ \ $mathbb$ { R } $\mathbb {R} ^{d}\times \{1,2\}$ ^ { $d$ $X|Y=r\sim P_{r}$ $\mathbb {R} ^{d}\times \{1,2\}$ } \ $times \$ { 1, $\mathbb {R} ^{d}\times \{1,2\}$ \ $\mathbb {R} ^{d}\times \{1,2\}$ ）。 $X|Y=r\sim P_{r}$ 서 Y는 X의 $클래스$ 라벨이므로 $X|Y=r\sim P_{r}$ $=$ r ~ $X|Y=r\sim P_{r}$ r ( $xisplay$ X Y = $r\sim P_r$ ) $= r$ $,$ $1$ r, 2 r, r. $\mathbb {R} ^{d}$ d $\mathbb {R} ^{d}$ \ $display$ $style$ $\|\cdot \|$ \ $mathbb { R$ } $^$ { $d$ } $x\in \mathbb {R} ^{d}$ $\|\cdot \|$ displaydisplaydisplay display x $display$ \ $displaystyle$ x \ $in$ $x\in \mathbb {R} ^{d}$ \ $\|\cdot \|$ $mathbb$ { $R$ } ^ { $d$ } $x\in \mathbb {R} ^{d}$ $(X_{(1)},Y_{(1)}),\dots ,(X_{(n)},Y_{(n)})$ [ $(X_{(1)},Y_{(1)}),\dots ,(X_{(n)},Y_{(n)})$ $(X_{(1)},Y_{(1)}),\dots ,(X_{(n)},Y_{(n)})$ [ $(X_{(1)},Y_{(1)}),\dots ,(X_{(n)},Y_{(n)})$ ] $(X_{(1)},Y_{(1)}),\dots ,(X_{(n)},Y_{(n)})$ 、 [ $(X_{(1)},Y_{(1)}),\dots ,(X_{(n)},Y_{(n)})$ 、 [ $(X_{(1)},Y_{(1)}),\dots ,(X_{(n)},Y_{(n)})$ （ $(X_{(1)},Y_{(1)}),\dots ,(X_{(n)},Y_{(n)})$ $(X_{(1)},Y_{(1)}),\dots ,(X_{(n)},Y_{(n)})$ " $\|X_{(1)}-x\|\leq \dots \leq \|X_{(n)}-x\|$ ( $\|X_{(1)}-x\|\leq \dots \leq \|X_{(n)}-x\|$ ) - x " $\|X_{(1)}-x\|\leq \dots \leq \|X_{(n)}-x\|$ " $\|X_{(1)}-x\|\leq \dots \leq \|X_{(n)}-x\|$ ( n ) - $\|X_{(1)}-x\|\leq \dots \leq \|X_{(n)}-x\|$ $"$ x " $\|X_{(1)}-x\|\leq \dots \leq \|X_{(n)}-x\|$ \ $displaystyle$ \ X $_$ { X _ { (1) $}$ - $x \ leq$ \ dots \ $leq$ \ X _ { ( n ) } - $x$ \ $\|X_{(1)}-x\|\leq \dots \leq \|X_{(n)}-x\|$ 등의 데이터를 입력합니다.

알고리즘.

k-NN 분류의 예.검정 표본(녹색 점)은 파란색 정사각형 또는 빨간색 삼각형으로 분류해야 합니다.k = 3(실선 원)인 경우 내부 원 안에는 2개의 삼각형이 있고 1개의 정사각형만 있기 때문에 빨간색 삼각형에 할당됩니다.k = 5(직선 원)이면 파란색 정사각형(3개 대 외부 원 내부의 삼각형 2개)에 할당됩니다.

트레이닝 예는 다차원 피쳐 공간에 있는 벡터이며, 각각 클래스 라벨이 붙어 있습니다.알고리즘의 교육 단계는 교육 샘플의 특징 벡터와 클래스 라벨을 저장하는 것으로만 구성됩니다.

분류 단계에서 k는 사용자 정의 상수이며, 그 쿼리 포인트에 가장 가까운 k개의 트레이닝 샘플 중 가장 빈도가 높은 라벨을 할당함으로써 라벨이 없는 벡터(쿼리 또는 테스트 포인트)를 분류한다.

연속형 변수에 일반적으로 사용되는 거리 메트릭은 유클리드 거리입니다.텍스트 분류와 같은 이산 변수의 경우 중첩 메트릭(또는 해밍 거리)과 같은 다른 메트릭을 사용할 수 있습니다.예를 들어 유전자 발현 마이크로어레이 데이터의 맥락에서 k-NN은 피어슨 및 스피어맨과 같은 상관 계수와 ^[6]함께 메트릭으로 사용되었다.종종 거리 메트릭을 Large Margin Nears 또는 Neighborhood 성분 분석과 같은 특수 알고리즘으로 학습하면 k-NN의 분류 정확도가 크게 향상될 수 있다.

기본 "다수 투표" 분류의 단점은 클래스 분포가 치우쳐 있을 때 발생합니다.즉,^[7] 보다 빈도가 높은 클래스의 예에서는 새로운 예의 예측이 지배적인 경향이 있습니다.이는 그 수가 많기 때문에 k개의 가장 가까운 인접 라우터에서 공통되는 경향이 있기 때문입니다.이 문제를 해결하는 한 가지 방법은 테스트 포인트부터 각 k개의 가장 가까운 네이버까지의 거리를 고려하여 분류에 무게를 두는 것입니다.각 k개의 가장 가까운 점의 클래스(또는 회귀 문제에서는 값)에 해당 지점에서 테스트 지점까지의 거리의 역수에 비례하는 가중치를 곱합니다.왜곡을 극복하는 또 다른 방법은 데이터 표현을 추상화하는 것입니다.예를 들어 자기조직화맵(SOM)에서 각 노드는 원래의 훈련 데이터에서의 밀도에 관계없이 유사한 포인트의 클러스터의 대표(중심)가 된다.그런 다음 SOM에 K-NN을 적용할 수 있습니다.

파라미터 선택

k의 최선의 선택은 데이터에 따라 다릅니다. 일반적으로 k의 값이 클수록 ^[8]분류에 대한 소음의 영향은 감소하지만 클래스 간의 경계가 덜 명확해집니다.좋은 k는 다양한 경험적 기법을 통해 선택할 수 있습니다(하이퍼 파라미터 최적화 참조).클래스가 가장 가까운 훈련 표본의 클래스(즉, k = 1)가 될 것으로 예측되는 특수한 경우를 가장 가까운 인접 알고리즘이라고 합니다.

k-NN 알고리즘의 정확도는 노이즈가 많거나 관련이 없는 기능이 존재하거나 기능의 스케일이 그 중요도와 일치하지 않으면 크게 저하될 수 있습니다.분류를 개선하기 위해 피쳐를 선택하거나 크기를 조정하는 데 많은 연구가 투입되었습니다.특히 일반적인^{[citation needed]} 접근방식은 기능 ^[9]확장을 최적화하기 위해 진화 알고리즘을 사용하는 것입니다.또 다른 일반적인 접근법은 훈련 데이터와 훈련 ^{[citation needed]}클래스의 상호 정보를 바탕으로 기능을 확장하는 것입니다.

2진수(2개 클래스) 분류 문제에서는 k를 홀수로 선택하는 것이 도움이 됩니다.이는 동수표를 회피하기 때문입니다.이 설정에서 경험적으로 최적의 k를 선택하는 일반적인 방법 중 하나는 부트스트랩 ^[10]방식을 사용하는 것입니다.

가장 가까운 네이버 분류자

가장 직관적인 가장 가까운 네이버 유형 분류자는 특징 공간 내의 가장 가까운 네이버 클래스에 $포인트x$ 를 할당하는 가장 가까운 네이버 분류자1개입니다. $C_{n}^{1nn}(x)=Y_{(1)}$ , $C_{n}^{1nn}(x)=Y_{(1)}$ $C_{n}^{1nn}(x)=Y_{(1)}$ $C_{n}^{1nn}(x)=Y_{(1)}$ $C_{n}^{1nn}(x)=Y_{(1)}$ $C_{n}^{1nn}(x)=Y_{(1)}$ $C_{n}^{1nn}(x)=Y_{(1)}$ ( $C_{n}^{1nn}(x)=Y_{(1)}$ ) $C_{n}^{1nn}(x)=Y_{(1)}$ { $displaystyle C_{n}^1n}(x$ ) $=$ $Y_{(1$

훈련 데이터 세트의 크기가 무한대에 가까워짐에 따라 가장 가까운 인접 분류자는 Bayes 오류율(데이터 분포에 따라 달성 가능한 최소 오류율)의 2배 이하의 오류율을 보장합니다.

가중치 근접 네이버 분류자

k-가장 가까운 인접 라우터 분류자는 k개의 가장 가까운 인접 $라우터$ 에 $1/k$ 1/ $(\displaystyle$ 1/ $k)$ 를 $1/k$ 할당하고 다른 $모든$ 0의 가중치를 할당하는 것으로 볼 수 있습니다.이는 가중치 근접 근접 분류기로 일반화할 수 있습니다.즉, 가장 가까운 인접 $라우터$ 에 $w_{ni}$ 가 $할당$ 되어 $\sum _{i=1}^{n}w_{ni}=1$ 여기서 i $\sum _{i=1}^{n}w_{ni}=1$ $\sum _{i=1}^{n}w_{ni}=1$ $\sum _{i=1}^{n}w_{ni}=1$ $\sum _{i=1}^{n}w_{ni}=1$ n $\sum _{i=1}^{n}w_{ni}=1$ $w_{ni}$ $\sum _{i=1}^{n}w_{ni}=1$ $\sum _{i=1}^{n}w_{ni}=1$ { $displaystyle \sum$ _ { $i=1}^{n} w_{ni$ }=1 $\sum _{i=1}^{n}w_{ni}=1$ 이 할당되어 있습니다.가중된 가장 가까운 인접 라우터의 강력한 일관성에 대한 결과도 유지됩니다.^[11]

$\{w_{ni}\}_{i=1}^{n}$ $C_{n}^{wnn}$ $C_{n}^{wnn}$ n { $style$ C _ { $n$ }^ $wnn$ { style C $\{w_{ni}\}_{i=1}^{n}$ { n $\{w_{ni}\}_{i=1}^{n}$ $i$ $\{w_{ni}\}_{i=1}^{n}$ $\{w_{ni}\}_{i=1}^{n}$ { $displaystyle$ \ { w $_$ { $ni }$ _ { i $\{w_{ni}\}_{i=1}^{n}$ = $1$ }^ $n$ 의 가중치 가장 가까운 분류기를 나타냅니다. 클래스 분포의 규칙성 조건에^{[further explanation needed]} 따라 초과 위험은 다음과 같은 점근팽창이합니다^[12].

({displaystyle {R}_{\mathcal {R}}_{\mathcal {R}}_{\mathcal {R}}_{\mathcal {R}}_{Bayes})=\left(B_{1}s_{n}^2}+B_{2}t_{n}^2}\right)\{1+o(1)\}

$B_{1}$ $B_{1}$ 1 $({$ 및 $B_{1}$ $B_{2}$ 2({ $displaystyle$ $B_{2})$ 의 $B_{2}$ 경우, $s_{n}^{2}=\sum _{i=1}^{n}w_{ni}^{2}$ 서 s $s_{n}^{2}=\sum _{i=1}^{n}w_{ni}^{2}$ 2 $s_{n}^{2}=\sum _{i=1}^{n}w_{ni}^{2}$ $s_{n}^{2}=\sum _{i=1}^{n}w_{ni}^{2}$ $s_{n}^{2}=\sum _{i=1}^{n}w_{ni}^{2}$ 1 $s_{n}^{2}=\sum _{i=1}^{n}w_{ni}^{2}$ $s_{n}^{2}=\sum _{i=1}^{n}w_{ni}^{2}$ n i $s_{n}^{2}=\sum _{i=1}^{n}w_{ni}^{2}$ $({$ $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ }^{ $n2}=\sum$ _ { $i=1}^{n_2}^{$ 2 $s_{n}^{2}=\sum _{i=1}^{n}w_{ni}^{2}$ }} = $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ - $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ 2 / $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ i $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ = 1 n = 1 w = n = 1 n = 1 n = 1 n $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ $t_{n}=n^{-2/d}\sum _{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d}\}$ 、 n $_{i=1}^{n}w_{ni}\{i^{1+2/d}-(i-1)^{1+2/d$

위의 디스플레이에서 두 용어의 균형을 맞추는 최적의 가중치 체계 $\{w_{ni}^{*}\}_{i=1}^{n}$ { $\{w_{ni}^{*}\}_{i=1}^{n}$ $\{w_{ni}^{*}\}_{i=1}^{n}$ $\{w_{ni}^{*}\}_{i=1}^{n}$ $\{w_{ni}^{*}\}_{i=1}^{n}$ $\{w_{ni}^{*}\}_{i=1}^{n}$ $\{w_{ni}^{*}\}_{i=1}^{n}$ $\{w_{ni}^{*}\}_{i=1}^{n}$ $\{w_{ni}^{*}\}_{i=1}^{n}$ { $displaystyle$ \ { w _ { w _ { $ni$ } } $_$ { i = $1$ n }^{ n } _ { i = { i }^{ n $\{w_{ni}^{*}\}_{i=1}^{n}$ } }는 다음과 같습니다. $k^{*}=\lfloor Bn^{\frac {4}{d+4}}\rfloor$ k $k^{*}=\lfloor Bn^{\frac {4}{d+4}}\rfloor$ b $k^{*}=\lfloor Bn^{\frac {4}{d+4}}\rfloor$ d + $4$ \ $floor$ { $displaystylfr }$ { $frac }$

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

n

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

k

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

[

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

+

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

-

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

2

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

2 /

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

{

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

1 +

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

/

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

-

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

(

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

i -

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

)

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

+

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

/

w_{ni}^{*}={\frac {1}{k^{*}}}\left[1+{\frac {d}{2}}-{\frac {d}{2{k^{*}}^{2/d}}}\{i^{1+2/d}-(i-1)^{1+2/d}\}\right]

{

displaystyle w

_ {

ni

}^*} =

specfrac {1}

{

k^{*}}

\

left

[ 1 +

frac

{ 2 - d

}

w_{ni}^{*}=0

i=k^{*}+1,\dots ,n

n

w_{ni}^{*}=0

w_{ni}^{*}=0

w_{ni}^{*}=0

{

display

style w

_

{

ni

}^{ * } =

0

}(

i=k^{*}+1,\dots ,n

i=k^{*}+1,\dots ,n

k

i=k^{*}+1,\dots ,n

+

i=k^{*}+1,\dots ,n

1 ,

i=k^{*}+1,\dots ,n

,

n

{ \

display

i

i=k^{*}+1,\dots ,n

=

k^

{ * } + 1

,

\ display

, n

i=k^{*}+1,\dots ,n

）。

최적 가중치에서는 초과 위험의 점근적 확장에서 지배적인 ${\mathcal {O}}(n^{-{\frac {4}{d+4}}})$ 는 ${\mathcal {O}}(n^{-{\frac {4}{d+4}}})$ O ${\mathcal {O}}(n^{-{\frac {4}{d+4}}})$ - ${\mathcal {O}}(n^{-{\frac {4}{d+4}}})$ d ${\mathcal {O}}(n^{-{\frac {4}{d+4}}})$ + $4 )({$ style { $mathcal$ { $O}}(n^{-{\frac {4}{d+$ 4 ${\mathcal {O}}(n^{-{\frac {4}{d+4}}})$ 이다. 유사한 결과는 봉지로 둘러싸인 가장 가까운 이웃 분류기를 사용했을 때도 해당된다.

특성.

k-NN은 균일한 ^[13]커널을 가진 가변 대역폭 커널 밀도 "풍선" 추정기의 특별한 경우입니다.^[14]

알고리즘의 순진한 버전은 테스트 예에서 저장된 모든 예까지의 거리를 계산함으로써 구현하기 쉽지만 대규모 훈련 세트에 대해 계산 집약적입니다.근접 근접 근접 검색 알고리즘을 사용하면 대규모 데이터 세트에서도 k-NN을 계산적으로 다루기 쉬워집니다.많은 근접 근접 근접 탐색 알고리즘이 수년간 제안되어 왔다. 이러한 알고리즘은 일반적으로 실제로 수행되는 거리 평가의 수를 줄이려고 한다.

k-NN에는 몇 가지 강력한 일관성 결과가 있습니다.데이터의 양이 무한대에 가까워짐에 따라 2클래스 k-NN 알고리즘은 Bayes 오류율(데이터 ^[15]분포에 따라 달성 가능한 최소 오류율)의 2배 이하의 오류율을 산출할 수 있습니다.근접 ^[16]그래프를 사용하여 k-NN 속도를 다양하게 개선할 수 있습니다.

다중 클래스 k-NN 분류의 경우 커버 및 하트(1967)는 다음과 같은 상한 오류율을 증명한다.

\displaystyle R^{*}\leq \R_{k\mathrm {NN}}\left(2-{\frac {MR^{*}}{M-1}}\오른쪽)

$R^{*}$ 서 R ${\$ { \ $displaystyle$ R $^$ { * } the $R^{*}$ 、 Bayes error rate (최소 에러율)입니다. $R_{kNN}$ k $R_{kNN}$ N \ $displaystyle$ R _ { $k$ } $NN}}$ 은 $R_{kNN}$ k-NN $오류율$ 이고 M은 문제의 클래스 수입니다.M $M=2$ {\ $displaystyle$ M $=2}$ 의 $M=2$ $M=2$ , 그리고 베이지안 $R^{*}$ R ${\$ {\ $displaystyle$ R $^{*}}$ 이 $R^{*}$ 0에 가까워지면 이 한계는 "베이지안 오류율의 2배 이하"로 감소한다.

에러율

$k개$ 의 가장 가까운 네이버 ^[17]분류자의 오류율에는 많은 결과가 있습니다.k-displaystyle $(X,Y)$ k $:$ $n\to \infty$ $k_{n}$ 이 $k:=k_{n}$ (가) 분산되고 $/$ (\ $displaystyle$ k_{n}/ $n}$ 이 $k_{n}/n$ $($ 가) $n\to \infty$ 0으로 $n\to \infty$ 되는 $k:=k_{n}$ $k-displaystyle$ k_ ${n}/$ n $n\to \infty$ 인접 라우터 $분류자는$ ( $즉$ $(X,Y)$ ( $,$ Y $(X,Y)$ 의 모든 공동 분포에 대해) 일치합니다 $.$

$C_{n}^{knn}$ $C_{n}^{knn}$ k $C_{n}^{knn}$ n n { $style$ C _ { $n$ }^ $knn$ } let $C_{n}^{knn}$ 、 $크기$ n의 트레이닝 세트에 근거해 k개의 가장 $가까운$ 인접 분류자를 나타냅니다.특정 규칙성 조건 하에서 초과 위험은 다음과 같은 점근^[12] 확장을 일으킨다.

{\mathcal {R}_{\mathcal {R}}(C_{n}^{kn})-{\mathcal {R}_{\mathcal {R}}(C^{Bayes})=\left\{B_{1}{\frac {1}{k}}+B_{2}\left({\frac {k}{n}}\right\}\{1+o(1)\}},

일부 $B_{1}$ $({$ $B_{2}$ $({$ 의 경우.

$k^{*}=\lfloor Bn^{\frac {4}{d+4}}\rfloor$ k $k^{*}=\lfloor Bn^{\frac {4}{d+4}}\rfloor$ B $k^{*}=\lfloor Bn^{\frac {4}{d+4}}\rfloor$ 4 $k^{*}=\lfloor Bn^{\frac {4}{d+4}}\rfloor$ + 4 $k^{*}=\lfloor Bn^{\frac {4}{d+4}}\rfloor$ { $displaystyle$ k^ { * } = \ $lfloor$ Bn^ { \ $frac$ { $4$ } { $d$ + $4}$ } \ $loor$ }는 $k^{*}=\lfloor Bn^{\frac {4}{d+4}}\rfloor$ 위의 디스플레이의 두 용어 사이에서 트레이드오프를 제공합니다.이 경우 $k^{*}$ \ $displaystyle$ k $^$ {*}} - rate는 $k^{*}$ 최적의 에러율로 베이악스로 수렴합니다. $isplaystyle({mathcal {O}})(n^{-{\frac {4}{d+4$

메트릭 러닝

K-근접 네이버 분류 성능은 종종 (감독) 메트릭 학습을 통해 크게 향상될 수 있습니다.널리 사용되는 알고리즘은 근린 성분 분석과 가장 가까운 큰 마진 인접 알고리즘이다.감시 메트릭 학습 알고리즘은 라벨 정보를 사용하여 새로운 메트릭 또는 의사 메트릭을 학습합니다.

기능 추출

알고리즘에 대한 입력 데이터가 너무 커서 처리할 수 없고 중복이 의심되는 경우(예: 피트와 미터로 동일한 측정) 입력 데이터는 축소된 표현 기능 세트(피처 벡터라고도 함)로 변환됩니다.입력 데이터를 피쳐 세트로 변환하는 것을 피쳐 추출이라고 합니다.추출된 피쳐를 신중하게 선택하면 피쳐 세트가 풀사이즈 입력 대신 이 축소된 표현을 사용하여 원하는 태스크를 수행하기 위해 입력 데이터에서 관련 정보를 추출할 것으로 예상된다.형상 추출은 형상 공간의 변환된 데이터에 k-NN 알고리즘을 적용하기 전에 원시 데이터에 대해 수행됩니다.

특징 추출 및 치수 축소 전처리 단계(일반적으로 OpenCV와 함께 구현됨)를 포함한 k-NN을 이용한 얼굴 인식을 위한 전형적인 컴퓨터 비전 계산 파이프라인의 예:

하얼 얼굴 검출
평균 이동 추적 분석
PCA 또는 Fisher LDA를 피쳐 공간에 투영한 후 k-NN 분류

치수 축소

고차원 데이터(예를 들어 10개 이상의 치수)의 경우, 차원 저주의 영향을 피하기 위해 k-NN 알고리즘을 적용하기 전에 차원 축소를 보통 수행한다.^[18]

k-NN 컨텍스트에서 차원성의 저주는 기본적으로 모든 벡터가 검색 쿼리 벡터에 거의 등거리이기 때문에 유클리드 거리가 고차원에서는 도움이 되지 않는다는 것을 의미합니다(쿼리 포인트를 중심에 두고 원 위에 더 또는 더 적게 놓여 있는 여러 점을 상상한다; 검색 공간에서 모든 데이터 지점까지의 거리 i).거의 같습니다).

특징 추출과 치수 축소는 전처리 단계로서 주성분 분석(PCA), 선형 판별 분석(LDA) 또는 표준 상관 분석(CCA) 기술을 사용하여 한 단계로 결합할 수 있으며, 이어서 축소 차원 공간에서의 특징 벡터에 대한 k-NN 클러스터링을 통해 결합할 수 있다.이 과정을 저차원 ^[19]매립이라고도 합니다.

very-high-dimensional 데이터 셋을 들어(예를 들어 때 라이브 비디오 스트림, DNA나high-dimensional 시간 시리즈에 유사점 검색을 수행하는) 빠른 대략적인 k-NN 검색 VLDB 도구 상자에서 존재하는 곳 민감한 해시,"임의의 예측"[20]"스케치"[21]또는 다른high-dimensional 유사 검색 기법을 사용하여 실행할 수 있을지도 모르니까 onl.베feasible 옵션.

의사결정 경계

가장 가까운 네이버규칙은 사실상 암묵적으로 결정경계를 계산합니다.또한 결정 경계를 명시적으로 계산하고 효율적으로 계산할 수 있으므로 계산 복잡도는 ^[22]경계 복잡성의 함수이다.

data 축소

데이터 감소는 대규모 데이터 세트를 사용하는 작업에 있어 가장 중요한 문제 중 하나입니다.일반적으로 정확한 분류를 위해 필요한 데이터 포인트는 일부뿐입니다.이러한 데이터를 프로토타입이라고 하며 다음과 같이 찾을 수 있습니다.

클래스 아웃라이어, 즉 k-NN별로 잘못 분류된 교육 데이터를 선택합니다(특정 k에 대해).
나머지 데이터는 (i) 분류 결정에 사용되는 시제품과 (ii) 시제품을 사용하여 k-NN에서 정확하게 분류할 수 있는 흡수 지점 두 세트로 구분한다.그런 다음 흡수된 포인트를 교육 세트에서 제거할 수 있습니다.

클래스 아웃라이어 선택

다른 클래스의 예제로 둘러싸인 훈련 예제를 클래스 특이치라고 합니다.클래스 특이치의 원인은 다음과 같습니다.

랜덤 오차
이 클래스의 불충분한 교육 예(클러스터 대신 분리된 예제가 표시됨)
중요한 기능이 누락됨(클래스는 우리가 모르는 다른 차원으로 분리됨)
다른 클래스의 트레이닝 예(불균형 클래스)가 너무 많아 특정 소규모 클래스에 대해 "불균형" 배경을 만듭니다.

k-NN이 있는 클래스 특이치는 노이즈를 생성합니다.검출하여 향후 분석을 위해 분리할 수 있습니다.k > r > 0 의 2 개의 자연수를 지정했을 경우, k 개의 가장 가까운 인접 라우터에 다른 클래스의 예가 r 개 이상 포함되어 있는 경우는, 트레이닝의 예를 (k,r)NN 클래스 아웃라이어라고 부릅니다.

데이터 감소를 위한 축약된 가장 가까운 인접 라우터

축약된 가장 가까운 이웃(CNN, Hart 알고리즘)은 k-NN ^[23]분류를 위해 데이터 세트를 줄이도록 설계된 알고리즘입니다.또한 교육 데이터에서 프로토타입 U 세트를 선택하여 U를 사용하는 1NN이 전체 데이터 세트에 대해 1NN이 예제를 분류하는 것과 거의 동일한 수준으로 분류할 수 있습니다.

테두리 비율 계산.

시제품, 클래스 아웃라이어 및 흡수된 점의 세 가지 유형입니다.

트레이닝 세트 X가 주어지면 CNN은 반복적으로 동작한다.

X의 모든 요소를 스캔하여 U에서 가장 가까운 프로토타입의 레이블이 x와 다른 요소 x를 찾습니다.
X에서 x를 제거하고 U에 추가합니다.
시제품이 U에 더 이상 추가되지 않을 때까지 스캔을 반복합니다.

분류에는 X 대신 U를 사용합니다.프로토타입이 아닌 예제를 "흡수" 점이라고 합니다.

테두리 ^[24]비율을 낮추기 위해 훈련 예제를 스캔하는 것이 효율적입니다.훈련 예 x의 경계 비율은 다음과 같이 정의됩니다.

a(x) =.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px} x'-y / x-y

$여기$ 서 x-y는 x와 다른 색을 가진 가장 가까운 예제 y까지의 거리이고, $x'-y$ 는 x와 같은 레이블로 y에서 가장 가까운 예제 x'까지의 거리입니다.

x $'-y$ 는 $x-y$ 를 초과하지 않기 $때문$ 에 경계비는 [0,1] 간격입니다.이 순서는 클래스 경계에 우선하여 프로토타입 U 세트에 포함되도록 합니다. x가 아닌 다른 레이블의 점을 x 외부라고 합니다.테두리 비율의 계산은 오른쪽 그림에 나타나 있습니다.데이터 점에는 색상으로 레이블이 지정됩니다. 초기 점은 x이고 레이블은 빨간색입니다.외부 포인트는 파란색과 녹색입니다.x 외부 점에 가장 가까운 것은 y입니다.y 빨간색 점에 가장 가까운 것은 x'입니다.경계 $비율$ a $(x)$ = $x'- y$ / $x-y$ 는 초기 점 x의 속성입니다.

아래는 CNN의 일련의 그림이다.세 가지 클래스(빨강, 초록, 파랑)가 있습니다.그림 1: 처음에는 각 등급에 60점이 있습니다.그림 2는 1NN 분류 맵을 나타내며, 각 픽셀은 모든 데이터를 사용하여 1NN으로 분류된다.그림 3은 5NN 분류맵이다.흰색 영역은 5NN 투표가 동수인 미분류 영역에 대응합니다(예를 들어 가장 가까운5개의 네이버 중 녹색, 빨간색, 파란색 포인트가 2개 있는 경우).그림 4는 축소된 데이터 세트를 보여줍니다.교차선은 (3,2)NN 규칙에 의해 선택된 클래스 아웃라이어(이러한 인스턴스(instance)의 가장 가까운 세 이웃이 모두 다른 클래스에 속함)입니다. 정사각형이 프로토타입이고 빈 원이 흡수된 점입니다.왼쪽 하단 모서리에는 세 가지 클래스 모두에 대한 클래스 아웃라이어, 프로토타입 및 흡수된 포인트가 표시됩니다.이 예제의 프로토타입 수는 클래스에 따라 15%에서 20%까지 다양합니다.그림 5는 프로토타입의 1NN 분류 맵이 초기 데이터 세트의 것과 매우 유사하다는 것을 보여줍니다.이 수치는 Mirkes ^[24]애플릿을 사용하여 작성되었습니다.

k-NN 분류기에 대한 CNN 모델 감소
그림 1. 데이터 세트
그림 2. 1NN 분류도
그림 3. 5NN 분류도
그림 4. CNN은 데이터 세트를 줄였다.
그림 5. CNN에서 추출한 시제품에 기초한 1NN 분류 지도.

k-NN 회귀

k-NN 회귀 분석에서 k-NN^{[citation needed]} 알고리즘은 연속형 변수를 추정하는 데 사용됩니다.이러한 알고리즘 중 하나는 가장 가까운 k개의 네이버에 대한 가중평균을 사용하여 거리의 역수를 가중치 부여합니다.이 알고리즘은 다음과 같이 동작합니다.

쿼리 예제에서 레이블이 지정된 예제까지의 유클리드 또는 마할라노비스 거리를 계산합니다.
거리를 늘려 레이블이 지정된 예제를 정렬합니다.
RMSE를 기반으로 경험적으로 가장 가까운 인접 라우터 수 k를 찾습니다.이는 교차 검증을 사용하여 수행됩니다.
k-가장 가까운 다변량 이웃을 사용하여 역거리 가중 평균을 계산합니다.

k-NN 이상치

k번째 가장 가까운 인접 라우터까지의 거리는 로컬 밀도 추정치로서도 볼 수 있으므로 이상 검출에서 자주 사용되는 특이치 점수이기도 합니다.k-NN까지의 거리가 클수록 로컬 밀도가 낮을수록 쿼리 점이 ^[25]특이치일 가능성이 높아집니다.대규모 실험 ^[26]분석에 따르면, 이 특이치 모델은 매우 간단하지만 또 다른 고전적인 데이터 마이닝 방법인 로컬 특이치 요소와 함께 보다 최신적이고 복잡한 접근 방식에 비해 매우 잘 작동합니다.

결과의 검증

혼동 행렬 또는 "일치 행렬"은 k-NN 분류의 정확성을 검증하는 도구로 자주 사용됩니다.우도비 검정과 같은 보다 강력한 통계 방법도 ^[how?]적용할 수 있다.

「」를 참조해 주세요.

레퍼런스

^ Fix, Evelyn; Hodges, Joseph L. (1951). Discriminatory Analysis. Nonparametric Discrimination: Consistency Properties (PDF) (Report). USAF School of Aviation Medicine, Randolph Field, Texas. Archived (PDF) from the original on September 26, 2020.
^ Altman, Naomi S. (1992). "An introduction to kernel and nearest-neighbor nonparametric regression" (PDF). The American Statistician. 46 (3): 175–185. doi:10.1080/00031305.1992.10475879. hdl:1813/31637.
^ Piryonesi S. Madeh; El-Diraby Tamer E. (2020-06-01). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/JPEODX.0000175. S2CID 216485629.
^ Hastie, Trevor. (2001). The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations. Tibshirani, Robert., Friedman, J. H. (Jerome H.). New York: Springer. ISBN 0-387-95284-5. OCLC 46809224.
^ 이 계획은 선형 보간법의 일반화이다.
^ Jaskowiak, Pablo A.; Campello, Ricardo J. G. B. (2011). "Comparing Correlation Coefficients as Dissimilarity Measures for Cancer Classification in Gene Expression Data". Brazilian Symposium on Bioinformatics (BSB 2011): 1–8. CiteSeerX 10.1.1.208.993.
^ Coomans, Danny; Massart, Desire L. (1982). "Alternative k-nearest neighbour rules in supervised pattern recognition : Part 1. k-Nearest neighbour classification by using alternative voting rules". Analytica Chimica Acta. 136: 15–27. doi:10.1016/S0003-2670(01)95359-0.
^ Everitt, Brian S., Sabine, Leese, Morven, and Stahl, Daniel, "기타 클러스터링 방법" (2011), 클러스터 분석, 제5판, John Wiley & Sons, Ltd, Chichester,
^ Nigsch, Florian; Bender, Andreas; van Buuren, Bernd; Tissen, Jos; Nigsch, Eduard; Mitchell, John B. O. (2006). "Melting point prediction employing k-nearest neighbor algorithms and genetic parameter optimization". Journal of Chemical Information and Modeling. 46 (6): 2412–2422. doi:10.1021/ci060149f. PMID 17125183.
^ Hall, Peter; Park, Byeong U.; Samworth, Richard J. (2008). "Choice of neighbor order in nearest-neighbor classification". Annals of Statistics. 36 (5): 2135–2152. arXiv:0810.5276. Bibcode:2008arXiv0810.5276H. doi:10.1214/07-AOS537. S2CID 14059866.
^ Stone, Charles J. (1977). "Consistent nonparametric regression". Annals of Statistics. 5 (4): 595–620. doi:10.1214/aos/1176343886.
^ ^a ^b Samworth, Richard J. (2012). "Optimal weighted nearest neighbour classifiers". Annals of Statistics. 40 (5): 2733–2763. arXiv:1101.5783. doi:10.1214/12-AOS1049. S2CID 88511688.
^ Terrell, George R.; Scott, David W. (1992). "Variable kernel density estimation". Annals of Statistics. 20 (3): 1236–1265. doi:10.1214/aos/1176348768.
^ Mills, Peter (2012-08-09). "Efficient statistical classification of satellite measurements". International Journal of Remote Sensing.
^ Cover, Thomas M.; Hart, Peter E. (1967). "Nearest neighbor pattern classification" (PDF). IEEE Transactions on Information Theory. 13 (1): 21–27. CiteSeerX 10.1.1.68.2616. doi:10.1109/TIT.1967.1053964.
^ Toussaint, Godfried T. (April 2005). "Geometric proximity graphs for improving nearest neighbor methods in instance-based learning and data mining". International Journal of Computational Geometry and Applications. 15 (2): 101–150. doi:10.1142/S0218195905001622.
^ Devroye, Luc; Gyorfi, Laszlo; Lugosi, Gabor (1996). A probabilistic theory of pattern recognition. Springer. ISBN 978-0-3879-4618-4.
^ Beyer, Kevin; et al. "When is "nearest neighbor" meaningful?" (PDF). Database Theory—ICDT'99. 1999: 217–235.
^ Shaw, Blake; Jebara, Tony (2009), "Structure preserving embedding" (PDF), Proceedings of the 26th Annual International Conference on Machine Learning (published June 2009), pp. 1–8, doi:10.1145/1553374.1553494, ISBN 9781605585161, S2CID 8522279
^ Bingham, Ella 및 Manila, Heikki; "Dimensity reduction: Applications to Image and Text data", 제7회 ACM SIGKDD 국제회의, ACM, 2001년
^ 라이언, 도나(편집자);하이 퍼포먼스 디스커버리 인 타임 시리즈, 베를린: Springer, 2004, ISBN 0-387-00857-8
^ Bremner, David; Demaine, Erik; Erickson, Jeff; Iacono, John; Langerman, Stefan; Morin, Pat; Toussaint, Godfried T. (2005). "Output-sensitive algorithms for computing nearest-neighbor decision boundaries". Discrete and Computational Geometry. 33 (4): 593–604. doi:10.1007/s00454-004-1152-0.
^ Hart, Peter E. (1968). "The Condensed Nearest Neighbor Rule". IEEE Transactions on Information Theory. 18: 515–516. doi:10.1109/TIT.1968.1054155.
^ ^a ^b Markes, Evgeny M., KNN 및 Potential Energy: 애플릿, 레스터 대학교, 2011
^ Ramaswamy, Sridhar; Rastogi, Rajeev; Shim, Kyuseok (2000). "Efficient algorithms for mining outliers from large data sets". Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00. Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00. pp. 427–438. doi:10.1145/342009.335437. ISBN 1-58113-217-4.
^ Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). "On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study". Data Mining and Knowledge Discovery. 30 (4): 891–927. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.

추가 정보

Dasarathy, Belur V., ed. (1991). Nearest Neighbor (NN) Norms: NN Pattern Classification Techniques. ISBN 978-0818689307.
Shakhnarovich, Gregory; Darrell, Trevor; Indyk, Piotr, eds. (2005). Nearest-Neighbor Methods in Learning and Vision. MIT Press. ISBN 978-0262195478.

[1] Fix, Evelyn; Hodges, Joseph L. (1951). Discriminatory Analysis. Nonparametric Discrimination: Consistency Properties (PDF) (Report). USAF School of Aviation Medicine, Randolph Field, Texas. Archived (PDF) from the original on September 26, 2020.

[2] Altman, Naomi S. (1992). "An introduction to kernel and nearest-neighbor nonparametric regression" (PDF). The American Statistician. 46 (3): 175–185. doi:10.1080/00031305.1992.10475879. hdl:1813/31637.

[:0-3] Piryonesi S. Madeh; El-Diraby Tamer E. (2020-06-01). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 146 (2): 04020022. doi:10.1061/JPEODX.0000175. S2CID 216485629.

[4] Hastie, Trevor. (2001). The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations. Tibshirani, Robert., Friedman, J. H. (Jerome H.). New York: Springer. ISBN 0-387-95284-5. OCLC 46809224.

[5] 이 계획은 선형 보간법의 일반화이다.

[6] Jaskowiak, Pablo A.; Campello, Ricardo J. G. B. (2011). "Comparing Correlation Coefficients as Dissimilarity Measures for Cancer Classification in Gene Expression Data". Brazilian Symposium on Bioinformatics (BSB 2011): 1–8. CiteSeerX 10.1.1.208.993.

[Coomans_Massart1982-7] Coomans, Danny; Massart, Desire L. (1982). "Alternative k-nearest neighbour rules in supervised pattern recognition : Part 1. k-Nearest neighbour classification by using alternative voting rules". Analytica Chimica Acta. 136: 15–27. doi:10.1016/S0003-2670(01)95359-0.

[8] Everitt, Brian S., Sabine, Leese, Morven, and Stahl, Daniel, "기타 클러스터링 방법" (2011), 클러스터 분석, 제5판, John Wiley & Sons, Ltd, Chichester,

[9] Nigsch, Florian; Bender, Andreas; van Buuren, Bernd; Tissen, Jos; Nigsch, Eduard; Mitchell, John B. O. (2006). "Melting point prediction employing k-nearest neighbor algorithms and genetic parameter optimization". Journal of Chemical Information and Modeling. 46 (6): 2412–2422. doi:10.1021/ci060149f. PMID 17125183.

[HPS2008-10] Hall, Peter; Park, Byeong U.; Samworth, Richard J. (2008). "Choice of neighbor order in nearest-neighbor classification". Annals of Statistics. 36 (5): 2135–2152. arXiv:0810.5276. Bibcode:2008arXiv0810.5276H. doi:10.1214/07-AOS537. S2CID 14059866.

[Stone-11] Stone, Charles J. (1977). "Consistent nonparametric regression". Annals of Statistics. 5 (4): 595–620. doi:10.1214/aos/1176343886.

[Samworth12-12] Samworth, Richard J. (2012). "Optimal weighted nearest neighbour classifiers". Annals of Statistics. 40 (5): 2733–2763. arXiv:1101.5783. doi:10.1214/12-AOS1049. S2CID 88511688.

[Terrell_Scott1992-13] Terrell, George R.; Scott, David W. (1992). "Variable kernel density estimation". Annals of Statistics. 20 (3): 1236–1265. doi:10.1214/aos/1176348768.

[Mills2010-14] Mills, Peter (2012-08-09). "Efficient statistical classification of satellite measurements". International Journal of Remote Sensing.

[15] Cover, Thomas M.; Hart, Peter E. (1967). "Nearest neighbor pattern classification" (PDF). IEEE Transactions on Information Theory. 13 (1): 21–27. CiteSeerX 10.1.1.68.2616. doi:10.1109/TIT.1967.1053964.

[16] Toussaint, Godfried T. (April 2005). "Geometric proximity graphs for improving nearest neighbor methods in instance-based learning and data mining". International Journal of Computational Geometry and Applications. 15 (2): 101–150. doi:10.1142/S0218195905001622.

[PTPR-17] Devroye, Luc; Gyorfi, Laszlo; Lugosi, Gabor (1996). A probabilistic theory of pattern recognition. Springer. ISBN 978-0-3879-4618-4.

[18] Beyer, Kevin; et al. "When is "nearest neighbor" meaningful?" (PDF). Database Theory—ICDT'99. 1999: 217–235.

[19] Shaw, Blake; Jebara, Tony (2009), "Structure preserving embedding" (PDF), Proceedings of the 26th Annual International Conference on Machine Learning (published June 2009), pp. 1–8, doi:10.1145/1553374.1553494, ISBN 9781605585161, S2CID 8522279

[20] Bingham, Ella 및 Manila, Heikki; "Dimensity reduction: Applications to Image and Text data", 제7회 ACM SIGKDD 국제회의, ACM, 2001년

[21] 라이언, 도나(편집자);하이 퍼포먼스 디스커버리 인 타임 시리즈, 베를린: Springer, 2004, ISBN 0-387-00857-8

[22] Bremner, David; Demaine, Erik; Erickson, Jeff; Iacono, John; Langerman, Stefan; Morin, Pat; Toussaint, Godfried T. (2005). "Output-sensitive algorithms for computing nearest-neighbor decision boundaries". Discrete and Computational Geometry. 33 (4): 593–604. doi:10.1007/s00454-004-1152-0.

[23] Hart, Peter E. (1968). "The Condensed Nearest Neighbor Rule". IEEE Transactions on Information Theory. 18: 515–516. doi:10.1109/TIT.1968.1054155.

[MirkesKnn-24] Markes, Evgeny M., KNN 및 Potential Energy: 애플릿, 레스터 대학교, 2011

[25] Ramaswamy, Sridhar; Rastogi, Rajeev; Shim, Kyuseok (2000). "Efficient algorithms for mining outliers from large data sets". Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00. Proceedings of the 2000 ACM SIGMOD international conference on Management of data – SIGMOD '00. pp. 427–438. doi:10.1145/342009.335437. ISBN 1-58113-217-4.

[CamposZimek2016-26] Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). "On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study". Data Mining and Knowledge Discovery. 30 (4): 891–927. doi:10.1007/s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[22]

[23]

[24]

[25]

[26]

Search

k-param 네이버알고리즘

네임스페이스

더

목차

통계 설정

알고리즘.

파라미터 선택

가장 가까운 네이버 분류자

가중치 근접 네이버 분류자

특성.

에러율

메트릭 러닝

기능 추출

치수 축소

의사결정 경계

data 축소

클래스 아웃라이어 선택

데이터 감소를 위한 축약된 가장 가까운 인접 라우터

k-NN 회귀

k-NN 이상치

결과의 검증

「」를 참조해 주세요.

레퍼런스

추가 정보

Search

k-param 네이버알고리즘

통계 설정

알고리즘.

파라미터 선택

가장 가까운 네이버 분류자

가중치 근접 네이버 분류자

특성.

에러율

메트릭 러닝

기능 추출

치수 축소

의사결정 경계

data 축소

클래스 아웃라이어 선택

데이터 감소를 위한 축약된 가장 가까운 인접 라우터

k-NN 회귀

k-NN 이상치

결과의 검증

「 」를 참조해 주세요.

레퍼런스

추가 정보

「」를 참조해 주세요.