컴퓨터 비전에서의 백오브워즈 모델
Bag-of-words model in computer vision컴퓨터 비전에서는 영상 특징을 단어로 처리함으로써 영상 분류나 검색에 'BoW(Bag-of-Visual Words)' 모델(BoW model)을 적용할 수 있다. 문서 분류에서 단어 백은 단어 발생 카운트의 희박한 벡터, 즉 단어 위에 희박한 히스토그램이다. 컴퓨터 비전에서는 시각적 단어의 백은 지역적 이미지 특징의 어휘 발생 카운트의 벡터다.
BoW 모델을 기반으로 한 이미지 표현
BoW 모델을 사용하여 이미지를 표현하기 위해 이미지를 문서로 처리할 수 있다. 마찬가지로, 이미지의 "단어"도 정의될 필요가 있다. 이를 위해 보통 기능검출, 기능설명, 코드북 생성의 3단계를 포함한다. [1][2][3] BoW 모델의 정의는 "독립적 특징에 기초한 히스토그램 표현"[4]이 될 수 있다. 콘텐츠 기반 이미지 인덱싱 및 검색(CBIR)은 이 이미지 표현 기법의 얼리 어답터인 것으로 보인다.[5]
피쳐 표현
피쳐 검출 후 각 이미지는 여러 로컬 패치에 의해 추상화된다. 형상 표현 방법은 패치를 숫자 벡터로 표현하는 방법을 다룬다. 이러한 벡터는 피쳐 설명자라고 불린다. 훌륭한 서술자는 강도, 회전, 척도, 변형을 어느 정도 다룰 수 있는 능력이 있어야 한다. 가장 유명한 설명자 중 하나는 SIFT(Scale-invariant feature transform)이다.[6] SIFT는 각 패치를 128차원 벡터로 변환한다. 이 단계 이후 각 이미지는 동일한 차원(SIFT의 경우 128)의 벡터 모음으로, 다른 벡터의 순서는 중요하지 않다.
코드북 생성
BoW 모델의 마지막 단계는 벡터 표시 패치를 "코드워즈"(텍스트 문서의 단어와 아날로그)로 변환하는 것으로, 이 패치는 "코드북"(단어 사전과 아날로그)도 생산한다. 암호는 몇 개의 유사한 패치를 대표하는 것으로 간주될 수 있다. 한 가지 간단한 방법은 모든 벡터에 k-평균 군집화를 수행하는 것이다.[7] 그리고 나서 암호어는 학습된 군집의 중심으로 정의된다. 군집 수는 코드북 크기(단어 사전의 크기와 유사함)이다.
따라서 이미지의 각 패치는 클러스터링 프로세스를 통해 특정 코드 워드에 매핑되며 이미지는 코드 워드의 히스토그램으로 표현될 수 있다.
BoW 모델을 기반으로 한 학습 및 인식
컴퓨터 비전 연구자들은 사물 분류와 같은 이미지 관련 작업에 BoW 모델을 활용하기 위한 몇 가지 학습 방법을 개발했다. 이 방법들은 대략 두 가지 범주로 나눌 수 있는데, 비감독 모델과 감독 모델이다. 다중 라벨 분류 문제의 경우 혼동 행렬을 평가 지표로 사용할 수 있다.
무감독 모델
여기 이 섹션에 대한 몇 가지 공지가 있다. 코드북의 가 V 이라고 가정합시다
- : 각 w 은(는) 하나의 구성 요소가 0이고 다른 모든 구성 요소가 0인 V 차원 벡터(k-평균 클러스터링 설정의 경우 단일 구성 요소는 이(가) 속한 클러스터를 나타냄). 코드북의 코드 워드는 1} = 0{\ w으)로 나타낼 수 있다
- : 이미지는 w=[ ,w ,, 이미지 내의 모든 패치로 표현된다.
- : 이미지 컬렉션의 th 영상
- : 이미지의 범주
- : 패치 테마 또는 항목
- : 혼합물 비율
BoW 모델은 NLP의 BoW 모델과 유사하기 때문에 텍스트 영역으로 개발된 생성 모델도 컴퓨터 비전에 적응할 수 있다. 간단한 Naïve Bayes 모델과 계층적 Bayesian 모델이 논의된다.
나우베 베이즈
가장 간단한 것은 Naïve Bayes 분류기다.[2] 그래픽 모델의 언어를 사용하여 Naïve Bayes 분류기는 아래 방정식으로 설명된다. 이 모델의 기본 아이디어(또는 가정)는 각 범주가 코드북에 걸쳐 자체 분포를 가지고 있으며, 각 범주의 분포는 관측할 수 있게 다르다는 것이다. 얼굴 카테고리와 자동차 카테고리를 예로 들어보자. 얼굴 범주는 "노즈", "눈", "입"을 나타내는 코드 단어를 강조할 수 있고, 자동차 범주는 "바퀴"와 "창"을 나타내는 코드 단어를 강조할 수 있다. 훈련 사례의 집합에 따라 분류자는 다른 범주에 대한 다른 분포를 학습한다. 분류 결정은 다음에 의해 이루어진다.
Naïve Bayes 분류기는 단순하지만 효과적이기 때문에, 보통 비교를 위한 기준 방법으로 사용된다.
계층적 베이지안 모델
Naïve Bayes 모델의 기본적인 가정은 때때로 타당하지 않다. 예를 들어, 자연 장면 이미지는 몇 가지 다른 테마를 포함할 수 있다. 확률론적 잠재 의미 분석(pLSA)[8][9]과 잠재 디리클레 할당(LDA)[10]은 유사한 다중 "테마" 문제를 다루기 위해 텍스트 도메인에서 인기 있는 두 가지 주제 모델이다. LDA를 예로 들어보자. LDA를 사용하여 자연 장면 영상을 모델링하려면 문서 분석을 통해 다음과 같이 유추하십시오.
- 이미지 범주가 문서 범주에 매핑됨.
- 주제의 혼합비율은 주제의 혼합비율을 지도화한다.
- 테마 색인은 주제 색인에 매핑된다.
- 암호는 단어에 매핑되어 있다.
이 방법은 13개의 자연경계 분류에서 매우 유망한 결과를 보여준다.[3]
감독 모델
영상이 BoW 모델을 기반으로 표현되기 때문에 지원 벡터 머신(SVM),[2] 에이다부스트 등 텍스트 문서 분류에 적합한 차별적 모델을 모두 시도할 수 있다.[11] 커널 트릭은 SVM과 같이 커널 기반 분류기를 사용할 때도 적용된다. 피라미드 매치 커널은 BoW 모델을 기반으로 새롭게 개발되었다. 서로 다른 커널(예: EMD-커널 및 X }}커널)을 가진 기계 학습 분류기에 의해 학습된 BoW 모델 표현을 사용하는 로컬 특징 접근방식은 텍스처와 객체 인식 영역에서 광범위하게 테스트되었다.[12] 다수의 데이터 집합에 대한 매우 유망한 결과가 보고되었다. 이 접근방식은[12] PASCAL Visual Object Class Challenge에서 매우 인상적인 결과를 달성했다.
피라미드 매치 커널
피라미드 매치 커널은[13] 빠른 알고리즘(고전적 2차원의 복잡성 대신 선형적 복잡성) 커널 함수(Mercer의 조건을 만족시키는 것)로, BoW 기능 또는 고차원의 피쳐 세트를 다차원 다중해상도 히스토그램에 매핑한다. 이러한 다중 분해능 히스토그램의 장점은 동시에 발생하는 특징을 캡처할 수 있다는 것이다. 피라미드 매치 커널은 데이터 포인트를 크기가 증가하는 이산형 영역으로 바이닝하여 다중 분해능 히스토그램을 구축한다. 따라서 높은 해상도에서 일치하지 않는 점은 낮은 해상도에서 일치할 기회가 있다. 피라미드 일치 커널은 명시적인 검색이나 거리 계산 없이 대략적인 유사성 일치를 수행한다. 대신 히스토그램과 교차하여 최적 일치를 근사하게 한다. 따라서 계산 시간은 형상 수에서 선형일 뿐이다. 다른 커널 접근법에 비해 피라미드 매칭 커널은 훨씬 빠르지만 동등한 정확도를 제공한다. 피라미드 매치 커널은 ETH-80 데이터베이스와 칼텍 101 데이터베이스에 적용됐으며, 결과가 유망했다.[13][14]
제한사항 및 최근 개발
BoW의 악명 높은 단점 중 하나는 이미지 표현에서 매우 중요한 패치 사이의 공간 관계를 무시한다는 것이다. 연구원들은 공간 정보를 통합하기 위한 몇 가지 방법을 제안했다. 형상 수준 개선을 위해 상관 분석 형상은 형상의 공간적 공존을 포착할 수 있다.[15] 생성 모델의 경우, 코드 워드의 상대적 위치도[16][17] 고려한다. 인간 행동을[18] 위한 계층적 형태와 외관 모델은 혼합물 비율과 BoW 특징들 사이의 새로운 부품층(콘스텔레이션 모델)을 도입하며, 이 요소들 사이의 공간적 관계를 포착한다. 차별적 모델의 경우 공간 피라미드 일치는 이미지를[19] 점점 미세한 하위 영역으로 분할하여 피라미드 매칭을 수행하고 각 하위 영역 내에 있는 로컬 형상의 히스토그램을 계산한다. 최근, 이미지 폭과 높이로 정규화된 공간 좌표에 의한 로컬 이미지 설명자(즉, SIFT)의 증가는 BoW 모델에 공간 정보를 도입하는 강력하고 단순한 공간 좌표 코딩[20][21] 접근법임이 입증되었다.
BoW 모델은 아직 뷰포인트 불변성과 스케일 불변성에 대해 광범위하게 테스트되지 않았으며, 성능도 불분명하다. 또한 객체 세분화 및 국산화용 BoW 모델도 잘 이해되지 않는다.[4]
분류 파이프 라인의 체계적인 비교를 통해 암호 수첩 크기 감소가 첫번째와 두번째 순서통 계량(Locally 유사 업종 밀집 Descriptors의 벡터(VLAD)[22], 피셔 벡터(FV)의 인코딩)상당히 BoW에 비해 분류 정확성이 증가하였다, 따라서 암호 수첩을 계산적 노력을 낮추gen.을 발견했다eratIon.[23]게다가 BoW에 코딩과 풀링 methods[21]의 최근 상세 비교해도 두번째 주문 통계 밀집 부호화와 전력 표준화 같은 적절한 풀링과 Convolutional한 신경망의 일부 개체 recogniti에 관한 간단한 모델의 접근 결과 피셔 Vectors을 능가하게 되 보여 주고 있다.datas에옥스퍼드 플라워 데이터 세트 102와 같은 ets.
참고 항목
참조
- ^ a b J. Sivic & A. Zisserman (2003). "Video Google: A Text Retrieval Approach to Object Matching in Videos" (PDF). Proc. of ICCV.
- ^ a b c d G. Csurka; C. Dance; L.X. Fan; J. Willamowski & C. Bray (2004). "Visual categorization with bags of keypoints". Proc. of ECCV International Workshop on Statistical Learning in Computer Vision.
- ^ a b Fei-Fei Li; Perona, P. (2005). A Bayesian Hierarchical Model for Learning Natural Scene Categories. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Vol. 2. p. 524. doi:10.1109/CVPR.2005.16. ISBN 978-0-7695-2372-9. S2CID 6387937.
- ^ a b L. Fei-Fei; R. Fergus & A. Torralba. "Recognizing and Learning Object Categories, CVPR 2007 short course".
- ^ Qiu, G. (2002). "Indexing chromatic and achromatic patterns for content-based colour image retrieval" (PDF). Pattern Recognition. 35 (8): 1675–1686. Bibcode:2002PatRe..35.1675Q. doi:10.1016/S0031-3203(01)00162-5.
- ^ Vidal-Naquet; Ullman (1999). "Object recognition with informative features and linear classification" (PDF). Proceedings Ninth IEEE International Conference on Computer Vision. pp. 1150–1157. CiteSeerX 10.1.1.131.1283. doi:10.1109/ICCV.2003.1238356. ISBN 978-0-7695-1950-0. S2CID 15620181.
- ^ T. Leung; J. Malik (2001). "Representing and recognizing the visual appearance of materials using three-dimensional textons" (PDF). International Journal of Computer Vision. 43 (1): 29–44. doi:10.1023/A:1011126920638. S2CID 14915716.
- ^ T. Hoffman (1999). "Probabilistic Latent Semantic Analysis" (PDF). Proc. of the Fifteenth Conference on Uncertainty in Artificial Intelligence. Archived from the original (PDF) on 2007-07-10. Retrieved 2007-12-10.
- ^ Sivic, J.; Russell, B.C.; Efros, A.A.; Zisserman, A.; Freeman, W.T. (2005). "Discovering objects and their location in images" (PDF). Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. p. 370. CiteSeerX 10.1.1.184.1253. doi:10.1109/ICCV.2005.77. ISBN 978-0-7695-2334-7. S2CID 206769491.
- ^ D. Blei; A. Ng & M. Jordan (2003). Lafferty, John (ed.). "Latent Dirichlet allocation" (PDF). Journal of Machine Learning Research. 3 (4–5): 993–1022. doi:10.1162/jmlr.2003.3.4-5.993. Archived from the original (PDF) on 2008-08-22. Retrieved 2007-12-10.
- ^ Serre, T.; Wolf, L.; Poggio, T. (2005). "Object Recognition with Features Inspired by Visual Cortex" (PDF). 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Vol. 2. p. 994. CiteSeerX 10.1.1.71.5276. doi:10.1109/CVPR.2005.254. ISBN 978-0-7695-2372-9. S2CID 260426. Archived from the original (PDF) on 2017-07-06. Retrieved 2007-12-10.
- ^ a b Jianguo Zhang; Marcin Marszałek; Svetlana Lazebnik; Cordelia Schmid (2007). "Local Features and Kernels for Classification of Texture and Object Categories: a Comprehensive Study" (PDF). International Journal of Computer Vision. 73 (2): 213–238. doi:10.1007/s11263-006-9794-4. S2CID 1486613.
- ^ a b Grauman, K.; Darrell, T. (2005). "The pyramid match kernel: discriminative classification with sets of image features" (PDF). Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. p. 1458. CiteSeerX 10.1.1.644.6159. doi:10.1109/ICCV.2005.239. ISBN 978-0-7695-2334-7. S2CID 13036203.
- ^ Jianchao Yang; Kai Yu; Yihong Gong; Huang, T. (2009). "Linear spatial pyramid matching using sparse coding for image classification". 2009 IEEE Conference on Computer Vision and Pattern Recognition. p. 1794. doi:10.1109/CVPR.2009.5206757. ISBN 978-1-4244-3992-8.
- ^ Savarese, S.; Winn, J.; Criminisi, A. (2006). "Discriminative Object Class Models of Appearance and Shape by Correlatons" (PDF). 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06). Vol. 2. p. 2033. CiteSeerX 10.1.1.587.8853. doi:10.1109/CVPR.2006.102. ISBN 978-0-7695-2597-6. S2CID 1457124. Archived from the original (PDF) on 2013-10-29. Retrieved 2007-12-10.
- ^ Sudderth, E.B.; Torralba, A.; Freeman, W.T.; Willsky, A.S. (2005). "Learning hierarchical models of scenes, objects, and parts" (PDF). Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. p. 1331. CiteSeerX 10.1.1.128.7259. doi:10.1109/ICCV.2005.137. ISBN 978-0-7695-2334-7. S2CID 6153430.
- ^ E. Sudderth; A. Torralba; W. Freeman & A. Willsky (2005). "Describing Visual Scenes using Transformed Dirichlet Processes" (PDF). Proc. of Neural Information Processing Systems.
- ^ Niebles, Juan Carlos; Li Fei-Fei (2007). "A Hierarchical Model of Shape and Appearance for Human Action Classification" (PDF). 2007 IEEE Conference on Computer Vision and Pattern Recognition. p. 1. CiteSeerX 10.1.1.173.2667. doi:10.1109/CVPR.2007.383132. ISBN 978-1-4244-1179-5. S2CID 9213242.
- ^ Lazebnik, S.; Schmid, C.; Ponce, J. (2006). "Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories" (PDF). 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06). Vol. 2. p. 2169. CiteSeerX 10.1.1.651.9183. doi:10.1109/CVPR.2006.68. ISBN 978-0-7695-2597-6. S2CID 2421251. Archived from the original (PDF) on 2018-05-08. Retrieved 2007-12-10.
- ^ Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (2013-05-01). "Comparison of mid-level feature coding approaches and pooling strategies in visual concept detection". Computer Vision and Image Understanding. 117 (5): 479–492. doi:10.1016/j.cviu.2012.10.010. ISSN 1077-3142.
- ^ a b Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (2017-02-24). "Higher-order occurrence pooling for bags-of-words: Visual concept detection" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (2): 313–326. doi:10.1109/TPAMI.2016.2545667. hdl:10044/1/39814. ISSN 0162-8828. PMID 27019477.
- ^ Jégou, H.; Douze, M.; Schmid, C.; Pérez, P. (2010-06-01). Aggregating local descriptors into a compact image representation (PDF). 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. pp. 3304–3311. doi:10.1109/CVPR.2010.5540039. ISBN 978-1-4244-6984-0. S2CID 1912782.
- ^ Seeland, Marco; Rzanny, Michael; Alaqraa, Nedal; Wäldchen, Jana; Mäder, Patrick (2017-02-24). "Plant species classification using flower images—A comparative study of local feature representations". PLOS ONE. 12 (2): e0170629. Bibcode:2017PLoSO..1270629S. doi:10.1371/journal.pone.0170629. ISSN 1932-6203. PMC 5325198. PMID 28234999.
외부 링크
- Bag of Visual Words in Commodes에 있는 Bethea Davida의 짧은 자습서.
- L의 두 개의 단어 분류기를 위한 데모. 페이페이, R. 퍼거스, 그리고 A. 토랄바.
- Caltech Large Scale Image Search Toolbox: Bag of Words 모델을 위한 Invert File 검색을 구현하는 Matlab/C++ 툴박스. 또한 무작위화된 k-d 트리, 로컬리티에 민감한 해싱, 계층적 k-평균을 사용한 빠른 근사치 인접 검색을 위한 구현도 포함하고 있다.
- DBoW2 라이브러리: OpenCV를 지원하여 C++에서 단어의 빠른 백을 구현하는 라이브러리.
