원샷 학습

One-shot learning

원샷 학습은 주로 컴퓨터 시야에서 발견되는 객체 분류 문제다.대부분의 머신러닝 기반 객체 분류 알고리즘은 수백 또는 수천 개의 샘플에 대한 훈련을 필요로 하는 반면, 원샷 학습은 하나의 샘플 또는 소수의 샘플에서 객체를 분류하는 것을 목표로 한다.

동기

소수의 예로부터, 그리고 빠른 속도로, 물체 범주를 배우는 능력은 인간에게 증명되었다.[1][2]아이는 6세까지 전 세계 1만~3만 개의 물체 범주를 거의 다 배우는 것으로 추정된다.[3]이것은 인간의 정신의 계산력뿐만 아니라, 이전에 학습한 다른 범주에 대한 기존의 정보로부터 새로운 개체 범주를 합성하고 학습하는 능력 때문이다.두 가지 객체 범주에서 두 가지 예를 들면, 하나는 친숙한 모양으로 구성된 미지의 물체, 두 번째는 알려지지 않은 무정형의 형상으로 구성되는 미지의 물체, 즉 인간이 전자를 인식하는 것이 후자보다 훨씬 쉬우며, 이는 인간이 이전에 배운 범주를 새로운 범주를 배울 때 사용한다는 것을 시사한다.원샷 학습을 푸는 핵심 동기는 인간과 마찬가지로 시스템이 객체 카테고리에 대한 지식을 활용해 새로운 사물을 분류할 수 있다는 점이다.[4][5]

배경

대부분의 분류 체계와 마찬가지로 원샷 학습에는 다음과 같은 세 가지 주요 과제가 수반된다.

  • 표현:개체와 범주를 어떻게 설명해야 하는가?
  • 학습:어떻게 그런 묘사가 만들어질 수 있을까?
  • 인식:폐색, 관점, 조명에 관계 없이 어떻게 알려진 물체가 잡동사니를 감싸는 것을 걸러낼 수 있는가?[6]

원샷 학습은 기존에 학습한 카테고리를 활용하는 지식 전달을 강조한다는 점에서 단일 객체 인식 및 표준 카테고리 인식 알고리즘과 다르다.

  • 모형 모수: 이전 범주와 새 범주의 유사성을 기반으로 모형 모수를 재사용하십시오.카테고리는 처음에는 수많은 교육 예제에서 학습한 다음, 초기 카테고리로부터 모델 매개변수의 변환을 사용하거나 분류자에 대한 관련 매개변수를 선택하여 새로운 카테고리를 학습한다.[7]
  • 기능 공유:여러 범주에 걸쳐 객체의 일부 또는 특징을 공유한다.하나의 알고리즘은 패치의 상호 정보를 극대화하여 이미 학습된 범주에서 "진단 정보"를 추출한 후, 이러한 특징을 새로운 범주의 학습에 적용한다.예를 들어, 개 범주는 말과 소 범주에 대한 이전의 지식으로부터 한 번에 배울 수 있다. 개 범주는 유사한 구별되는 패치를 포함할 수 있기 때문이다.[8]
  • 상황별 정보:물체가 나타나는 장면에 대한 글로벌 지식의 호소.이러한 글로벌 정보는 객체를 인식하는 조건부 무작위 필드 프레임워크에서 주파수 분포로 사용될 수 있다.[9]또는 상황에 따라 카메라 높이와 장면 형상을 고려할 수 있다.[10]이런 유형의 알고리즘은 두 가지 장점이 있다.첫째, 그들은 비교적 다른 개체 범주를 배우고, 둘째, 이미지를 손으로 그리고 정렬하지 않은 특별한 상황에서 좋은 성과를 낸다.[11]

이론

베이지안 원샷 학습 알고리즘은 별자리 모델의 혼합에 의해 파라메트리된 이미지의 전경과 배경을 나타낸다.[12]학습 단계 동안, 이러한 모델의 매개변수는 결합 밀도 매개변수 후측과 가변 베이지안 기대 최대화(VBEM)를 사용하여 학습된다.[13] 이 단계에서 이전에 학습한 객체 범주는 문맥 정보에 의한 전달을 통해 모델 매개변수의 선택을 알려준다.새로운 영상에 대한 물체 인식의 경우 학습 단계 중 얻은 후부는 베이지안 의사결정 프레임워크에서 p(물체 시험, 열차)p(배경 클러터 시험, 열차)의 비율을 추정하는데 사용된다. 여기서 p는 결과의 확률이다.[14]

베이시안 틀

쿼리 이미지에서 특정 대상을 찾는 과제를 감안할 때, 베이시안 원샷 학습 알고리즘의 전체적인 목표는 물체가 존재할 확률과 배경 잡음만 존재할 확률을 비교하는 것이다.이전의 확률이 더 높으면 알고리즘이 개체의 존재를 보고하고, 그렇지 않으면 알고리즘이 개체의 부재를 보고한다.이러한 확률을 계산하려면 예제가 포함된 (1 ~ 5) 훈련 영상의 집합에서 객체 클래스를 모델링해야 한다.

이러한 아이디어를 공식화하려면 을(를) 조회 이미지로 설정하여 포그라운드 O 의 예제를 포함하거나 일반 범주 O g {\O_{의 배경 잡음만 포함하도록 한다 을 교육의 집합이 되도록 한다.포그라운드 범주로 사용되는 이미지. 에 전경 범주의 객체가 포함되어 있는지 또는 배경 범주의 혼란만 포함되어 있는지 여부를 결정하는 방법은 다음과 같다.

where the class posteriors and have been expanded by Bayes' Theorem, yielding a ratio of likelihoods and a ratio of object category priors. 이(가) 특정 임계값 을(를) 초과할 경우 이미지 에 전경 및 배경 범주에 매개 변수etric {\} b }을(를)로 하는 파라메트릭 모델을 다음으로 소개한다.이 전경 파라메트릭 모델은 학습된 범주의 사전 정보뿐만 아니라 I 로부터 학습 단계에서 학습된다이미지 전체에 걸쳐 균일하다고 가정하는 배경 모델. p ( ) p( O g ) ( b ) 에 대한 파라메트리징 수율.

, having simplified , O ) ~ ) 까지.

교육 영상에 주어진 모델 파라미터의 후방 분포 ( I , ) 는 학습 단계에서 추정한다.이 추정에서 원샷 학습은 ( 의 적분에 근접한 전통적인 베이지안 추정 모델에서 급격히 벗어나, 이전에 학습한 범주의 이전 정보를 이용하는 가변적 접근법을 선호한다.그러나 훈련을 통해 사전에 학습한 범주뿐만 아니라 배경 모델의 경우 모델 매개변수의 전통적인 최대우도 추정치가 사용된다.[15]

객체 카테고리 모델

각 쿼리 이미지 및 교육용 이미지 에 대해 표현에 별자리 모델을 사용한다.[12][16][17]주어진 이미지 에 대해 이 모델을 얻으려면 먼저 Kadir brady sality detector를 사용하여 이미지에서 N개의 흥미로운 영역 세트를 탐지한다[18]Each region selected is represented by a location in the image, and a description of its appearance, . Letting A 훈련 영상에 대한 유사 표현으로 R에 대한 표현은 다음과 같이 된다.

우도 , ) , ) 는 별자리 모델의 혼합물로 표현된다.일반적인 별자리 모델에는 P(3~7) 부분이 있고 N(~100) 관심 영역은 있다.따라서 P-차원 벡터 h는 각 모델 부품(P 부품에 대해)에 하나의 관심 영역(N 영역 제외)을 할당한다.따라서 h는 모형에 대한 가설(모델 부품에 대한 관심 영역 할당)을 나타내며, 전체 별자리 모델은 가설 H{\에서 가능한 모든 가설 h를 합쳐서 나타낸다 마지막으로 가능성이 기록된다.

서로 다른 {\은(는 부품의 서로 다른 구성을 나타내는 반면, 다른 가설 h는 부품 Ω{\}}이(가) 주어진 부품에 대한 영역의 서로 다른 할당을 나타낸다 모델의 모양( 로 표현됨)이라는 가정 파의 집합.t 위치)와 외형은 독립적으로 , A, h, , ) A,{\},\를 외관과 형상의 두 개의 별도 우도로 고려할 수 있다.[19]

외관

각 형상의 외형은 외관공간의 점으로 표현된다(이행에서 아래에서 설명).별자리 모델의 각 부분 는) 이 공간 내에서 가우스 밀도를 가지며, 평균 및 정밀 , , , , A이로부터 위에 설명한 외관 우도는 부여 가설 h와 혼합물 성분 Ω}에 대한 모델 부품에 대한 가우스 산물로 계산된다[20]

모양

주어진 혼합물 성분 가설 h에 대한 모델의 형상은 형상 위치의 공동 가우스 밀도로 표현된다.이러한 특징들은 2차원 가우스시안 (P - 1)차원 가우스안에 의해 부품의 상대적 위치를 모델링하기 전에 척도 및 번역-변환 공간으로 변형된다.이를 통해 는 p ( , 의 표현을 완료함으로써 형상우도를 얻는다. 가설 공간 의 가설 수를 줄이기 위해서만 x-coordincoordincuffected의 순서 제약조건을 만족하는 가설이다.단조롭게 증가하는 각 부분이 고려된다. 하면 에서 P P 가설이 제거된다[20]

공극 밀도

를) 계산하기 p(, ) p( X , , O ) {을(를) 평가해야 하지만 분석적으로 난해하다.위의 객체 범주 모델은 ( X, ) 에 대한 정보를 제공하므로, 남은 것은 ( , , ) 를 조사해야 한다. 의 뒷면이며, 적분을 트랙터블(trractable)으로 렌더링하기에 충분한 근사치를 구한다.이전 작품에서는\}의 함수인 Δ{\에 의해 후면에 근사하게 되며 문제의 적분을 (, θ p,A 로 축소한다This is normally estimated using a Maximum Likelihood () or Maximum A Posteriori () procedure.그러나 원샷 학습에서는 훈련 예를 거의 사용하지 않기 때문에 함수 근사치에서 가정된 것처럼 분포가 잘 형성되지 않을 것이다.따라서 베이시안 원샷 학습 알고리즘은 이러한 전통적인 근사치 대신 "( (\ 파라메트릭 형식을 찾으려고 한다.(는) 실현 가능하다."알고리즘은 ( , A , p 이전의 결합체Normal-Wishart 분포를 사용한다. 그리고 학습 단계에서는 최대우도 방법과 동일한 계산 복잡성을 가진 변동 베이시안 방법을 사용하여 분포의 하이퍼모수자를 학습한다.그러면 ( , 는 객체 범주 모델에서 선택한 대로 가우스인의 산물이기 때문에 적분은 다변량 학생의 T 분포로 감소하여 평가할 수 있다.[21]

실행

피쳐 감지 및 표현

이미지에서 형상을 감지하여 별자리 모델로 나타낼 수 있도록 Kadir Brady 기능 검출기를 그레이 스케일 영상에 사용하여 이미지의 두드러진 영역을 찾는다.그런 다음 이러한 영역은 클러스터링되어 여러 형상(클러스터)과 형상 모수 X을(를) 생성하며 클러스터 중심으로 구성된다.카디르 브래디 검출기는 다수의 덜 중요한 영역을 생산하는 멀티스케일 해리스와 같은 특징 검출기와는 달리 더 적고 두드러진 영역을 생산하기 때문에 선택되었다.

그런 다음 이미지에서 영역을 가져와 11 x 11 픽셀의 작은 패치로 다시 압축하여 각 패치를 121차원 공간으로 나타낼 수 있다.이러한 차원성은 주성분 분석을 사용하여 감소되며, 형상 매개변수인 이(가) 각 패치의 처음 10개 주성분에서 형성된다.[22]

학습

형태와 외모를 얻기 위해 세 가지 범주(점박이 고양이, 얼굴, 비행기)를 최대우도 추정을 사용하여 학습한다.그런 다음 이러한 객체 범주 모델 매개변수를 사용하여 원하는 이전 값의 하이퍼 매개변수를 추정한다.

일련의 훈련 예제를 주어진 알고리즘은 이러한 영상에서 형상 검출기를 실행하고, 근거리 영역에서 모델 매개변수를 결정한다.피쳐를 부품에 할당하는 가설 지수는 선형 모델의 폐쇄형 솔루션을 방지하므로, p ( X , A , f g) 은(는) 변동 베이지안 기대치-최대화로 추정되며, 이는 ~ 100회 반복 후 파라미터 수렴까지 실행된다.이 패션에서 범주를 배우려면 4부 모델과 < 10개의 트레이닝 이미지가 있는 2.8GHz 기계에서 1분 미만의 시간이 걸린다.[23]

실험결과

오토바이 예

오토바이 범주에 대해 알아보려면:

  • 칼텍4 데이터셋의 오토바이 범주에서 6개의 훈련 이미지를 선택하고 카디르 브래디 검출기를 하여 t 를 부여하고 PCA를 통해 를 부여한다
  • 다음으로 이전 모델 매개변수는 점박이 고양이, 얼굴, 비행기 등 3가지 학습 범주에서 각각 10개씩30개 모델 t로 계산된다.이 선행은 "시각적 일관성이 결여된 모델들[즉 배경 잡음]이 일관성 있는 모델들로부터 매개변수 공간의 다른 부분을 차지하고 있다.
  • 다음에 수행되는 학습에서 선행은 후행 (( , , f ) 를 편향한다. 있는 모델에 해당하는 매개변수 공간의 일부를 향해 {t},= 1}을(를 허용하는 혼합물 구성 요소는 하나만 사용된다후방의 추정치는 다음과 같다.
  • 마지막으로 아래 그림은 부품의 모양과 외관을 가진 학습된 오토바이 모델과 그에 상응하는 특징을 보여준다.
  • 인식 테스트의 경우, 위의 모델은 모터바이크를 포함하는 50개의 이미지와 그렇지 않은 50개의 이미지에 적용된다.아래 이미지는 ROC 곡선을 보여주며, 거짓 검출 확률에 대한 검출 확률을 측정하고, 일부 인정된 예도 있다.

변환의 공유 밀도

또 다른 알고리즘은 모델 매개변수에 의한 지식 전달을 사용하여 이전에 학습한 범주와 외관이 유사한 새로운 객체 범주를 학습한다.이미지는 텍스처와 모양으로 표현되거나, = ( ) 로 표시되며, 변환된 잠재 이미지로 표현된다

샴 신경망은 두 개의 서로 다른 입력 벡터에서 동시에 작동하여 유사한 출력 벡터를 계산한다.[24]

콘게일링

이러한 맥락에서, 응결은 "각각의 이미지 세트의 동시 벡터화"이다.특정 범주의 교육용 이미지 세트의 경우, 각 이미지를 반복적으로 변환하여 화소별 영상 공동 엔트로피 E를 최소화한다.

"여기서 () 모든 영상에 걸쳐 특정 픽셀 p의 값으로 정의되는 이진 랜덤 변수, () 해당 변수의 이산 엔트로피 함수, leq p 영상의 픽셀 지수 집합이다."

콘겔링 알고리즘은 의 영상 집합과 해당 변환 U 로 시작하며 알고리즘의 끝에서 의 잠재 I I 변환하는 것을 나타낸다.이러한 선반 L 은(는) 픽셀 단위로 접합 엔트로피를 최소화한다.따라서 응결 알고리즘의 작업은 i를 추정하는 것이다

알고리즘 스케치:

  • I 초기화 '아이덴티티로
  • 현재 영상 세트의 조인트 픽셀 단위 엔트로피를 계산한다.
  • 각 이미지 대해 가능한 모든 아핀 변환 A회전, x-translation, y-translation, x-scale, y-scale, x-shar,를 통해 하고 {\ 엔트로피를 감소시키는지 테스트한다. = 를 설정하십시오.
  • 수렴할 때까지 이전 단계를 반복하십시오.

알고리즘 끝에서 U ()= i 그리고 = - T=는 잠복된 영상을 원래 관측된 영상으로 다시 변환한다.[25]

분류

이 모델을 분류에 사용하려면 관찰된 I 에 주어진 최대 후방 확률을 사용하여 추정해야 한다 Bayes 규칙을 P( )P 에 적용하고 변환 에 의한 파라메트리제이션은 대략적인 적분을 제공한다.그리고 테스트 이미지를 잠재 이미지에 매핑하는 최상의 변환 T을(를) 찾아야 한다.일단 이러한 변형이 발견되면 테스트 영상은 잠재된 이미지로 변환될 수 있으며, 이미지 사이의 Hausdorff 거리에 근거한 가장 가까운 이웃 분류자는 잠재된 (따라서 테스트 영상)을 특정 등급 에 속하는 것으로 분류할 수 있다

를) 찾기 위해 응결 과정을 위해 훈련 앙상블에 테스트 이미지 I를 삽입한다.테스트 영상은 c 범주 중 하나에서 그려지기 때문에congealing은 해당하는 T = -1 를 제공한다.을(를) 잠재되어 있는 I에 매핑한다.그러면 잠재된 것들은 분류될 수 있다.[26]

단일예시구분

특정 범주의 많은 이미지를 합성하여 얻은 일련의 변환 가 주어질 경우, 분류자는 새로운 c{\}의 하나의 교육 I 예만 허용되는 경우까지 확장할 수 있다. 변환 t 에 순차적으로 적용하면 에 대한 인공 훈련 세트가 생성된다이 인공 데이터 세트는 이미 알려진 많은 범주의 변환을 빌려서 더 크게 만들 수 있다. 데이터 세트를 얻으면 c 의 테스트 인스턴스인 I}을 일반 분류 절차로 분류할 수 있다.중요한 가정은 하나의 범주로부터의 변환이 다른 범주에 적용될 수 있을 정도로 충분히 유사하다는 것이다.[27]

참고 항목

인용구

  1. ^ 리, 퍼거스 & 페로나 2002. 대상
  2. ^ 소프, 피즈 & 마롯 1996.
  3. ^ 비더만 1987.
  4. ^ Li, Pergus & Perona 2006, 섹션 1.
  5. ^ 2006년 1부.
  6. ^ 리, 퍼거스 & 페로나 2006년 2부.
  7. ^ 핑크 2004.
  8. ^ Bart & Ulman 2005.
  9. ^ Murphy & et al 2004.
  10. ^ 호이엠, 에프로스 & 허버트 2005.
  11. ^ 2006년 2부.
  12. ^ a b Burl & et al 1996.
  13. ^ 아티아스 1999.
  14. ^ Li & 등 2006. sfn 오류:
  15. ^ Li, Pergus & Perona 2006, 섹션 3.1.
  16. ^ 웨버, 웰링 & 페로나 2000.
  17. ^ 퍼거스, 페로나 & 지서만 2003.
  18. ^ 카디르 & 브래디 2001.
  19. ^ Li, Pergus & Perona 2006, 섹션 3.2.
  20. ^ a b Li, Pergus & Perona 2006, 섹션 3.2.1.
  21. ^ Li, Pergus & Perona 2006, 섹션 3.4.3.
  22. ^ Li, Pergus & Perona 2006, 섹션 5.1.
  23. ^ Li, Pergus & Perona 2006, 섹션 4, 5.2.
  24. ^ Few-Shot Learning (2/3): Siamese Networks. YouTube. Archived from the original on 2021-12-10.
  25. ^ 밀러
  26. ^ Miller, Matsakis & Viola 2000, 섹션 4.
  27. ^ Miller, Matsakis & Viola 2000, 섹션 7.

참조