칼텍 101
Caltech 101Caltech 101은 2003년 9월에 작성된 디지털 이미지의 데이터 세트이며 캘리포니아 공과대학의 Fei-Fei Li, Marco Andreetto, Marc 'Aurelio Ranzato 및 Pietro Perona에 의해 컴파일되었습니다.Computer Vision 연구 및 기술을 용이하게 하기 위한 것으로 이미지 인식 분류 및 분류와 관련된 기술에 가장 적합합니다.Caltech 101에는 101개의 개별 객체 카테고리(얼굴, 시계, 개미, 피아노 등)와 배경 카테고리로 분할된 총 9,146개의 이미지가 포함되어 있습니다.영상과 함께 각 영상의 윤곽을 설명하는 주석 집합이 Matlab 스크립트와 함께 제공됩니다.
목적
대부분의 컴퓨터 비전 및 기계 학습 알고리즘은 입력 예제를 교육하는 방식으로 작동합니다.효과적으로 작동하려면 크고 다양한 교육 데이터 세트가 필요합니다.예를 들어, Paul Viola와 Michael J. Jones가 사용한 실시간 얼굴 감지 방법은 4,916개의 손으로 라벨을 붙인 [1]얼굴에 대해 교육되었다.
관심 지점을 자르고 크기를 조정하고 손으로 표시하는 작업은 지루하고 시간이 많이 소요됩니다.
지금까지 컴퓨터 비전 연구에 사용되는 대부분의 데이터 세트는 작업 중인 프로젝트의 특정 요구에 맞게 조정되었습니다.컴퓨터 비전 기술을 비교할 때 가장 큰 문제는 대부분의 그룹이 자체 데이터 세트를 사용한다는 사실이다.각 세트에는 서로 다른 속성이 있을 수 있으므로 서로 다른 메서드에서 보고된 결과를 직접 비교하기가 어렵습니다.예를 들어, 이미지 크기, 이미지 품질, 이미지 내 개체의 상대 위치 및 교합 및 잡동사니 수준에 따라 다양한 [2]결과가 발생할 수 있습니다.
Caltech 101 데이터 세트는 이러한 일반적인 문제의 많은 완화를 목표로 합니다.
- 영상이 잘리고 크기가 변경됩니다.
- 단일 및 다중 클래스 인식 알고리즘 모두에 적합한 많은 범주가 표시됩니다.
- 상세한 오브젝트 윤곽이 표시됩니다.
- 일반적으로 사용할 수 있는 Caltech 101은 서로 다른 데이터 세트로 인한 편견 없이 서로 다른 알고리즘을 비교하는 공통 표준으로 기능합니다.
그러나 최근 연구에 따르면 제어되지 않은 자연 이미지에 기반한 테스트(Caltech 101 데이터 세트 등)는 심각한 오해를 불러일으킬 수 있으며, 잠재적으로 잘못된 방향으로 진행 상황을 안내할 수 있다.
데이터 세트
이미지들
Caltech 101 데이터 세트는 총 9,146개의 이미지로 구성되어 있으며 101개의 다른 객체 카테고리와 추가 배경/커터 카테고리로 분할됩니다.
각 오브젝트 카테고리에는 40~800개의 이미지가 포함되어 있습니다.얼굴 등 일반적이고 인기 있는 카테고리는 다른 카테고리보다 이미지 수가 많은 경향이 있습니다.
각 이미지는 약 300 x 200 픽셀입니다.비행기와 오토바이와 같은 지향적인 물체의 이미지를 좌우로 정렬하도록 반사하고 건물과 같은 수직 지향적인 구조물을 회전시켜 축을 벗어났다.
주석
각 영상에 대한 주석 세트가 제공됩니다.각 주석 세트에는 개체가 위치한 일반 경계 상자와 개체를 둘러싼 상세 인간 지정 윤곽이라는 두 가지 정보가 포함됩니다.
주석과 함께 Matlab 스크립트가 제공됩니다.영상과 해당 주석 파일을 로드하고 Matlab 그림으로 표시합니다.
사용하다
Caltech 101 데이터 세트는 여러 컴퓨터 비전 인식 및 분류 알고리즘을 훈련하고 테스트하는 데 사용되었습니다.Caltech 101을 사용한 첫 번째 논문은 원샷 [4]학습에 대한 증분 베이지안 접근법으로, 다른 클래스의 사전 지식을 바탕으로 몇 가지 예만 사용하여 객체를 분류하려는 시도였다.
Caltech 101 이미지는 주석과 함께 Caltech의 [5]또 다른 원샷 학습지에 사용되었습니다.
Caltech 101 데이터 세트를 사용하여 보고하는 기타 Computer Vision 문서는 다음과 같습니다.
- 낮은 왜곡 대응을 사용한 형상 매칭 및 객체 인식.알렉산더 C.버그, 타마라 L.버그, 지텐드라 말릭CVPR 2005
- 피라미드 매치 커널:이미지 피쳐 세트를 사용한 차별적 분류.K. 그라우만과 T.대럴.국제 컴퓨터 비전 회의(ICCV), 2005
- 개체 클래스 인식을 위해 생성 모델과 피셔 커널을 결합합니다.홀럽, AD웰링, M. 페로나, P.국제 컴퓨터 비전 회의(ICCV), 2005
- Visual Cortex에서 영감을 얻은 기능을 갖춘 객체 인식.T. Serre, L. Wolf, T.포지오.2005년 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2005), IEEE Computer Society Press, San Diego,[8] 2005년 6월
- SVM-KNN: 시각적 범주 인식을 위한 차별적 가장 가까운 이웃 분류.Hao Zhang, Alex Berg, Michael Maire, Jitendra Malik.CVPR, 2006[9]
- Beyond of Features : 자연경관 카테고리를 인식하기 위한 공간 피라미드 매칭.스베틀라나 라제브니크, 코델리아 슈미드, 장 폰세.CVPR, 2006[10]
- 객체 분류를 위한 다척도 필터 뱅크의 실증적 연구M.J. Mar閚-jim閞ez, N. p blez de la Blanca.2005년 12월[11]
- 스퍼스, 현지화 기능을 갖춘 멀티클래스 객체 인식Jim Mutch와 David G. Lowe, CVPR 2006, 11-18페이지, 뉴욕, IEEE Computer Society Press, 2006년 6월[12]
- 생성 프레임워크에서 종속 영역 또는 개체 분류 사용.G. Wang, Y. Zhang, L.페이페이IEEE Comp.Vis. 팻.Recog. 2006년[13]
분석 및 비교
이점
Caltech 101에는 다른 유사한 데이터 세트에 비해 다음과 같은 몇 가지 이점이 있습니다.
- 균일한 사이즈와 프레젠테이션:
- 각 카테고리내의 거의 모든 화상은, 화상 사이즈와 관심 물체의 상대적인 위치에 균일합니다.Caltech 101 사용자는 일반적으로 이미지를 사용하기 전에 잘라내거나 축소할 필요가 없습니다.
- 저수준의 잡동사니/폐색:
- 인식과 관련된 알고리즘은 일반적으로 객체에 고유한 특징을 저장함으로써 기능합니다.그러나, 대부분의 촬영된 이미지는 배경의 잡동사니 정도가 다르기 때문에, 알고리즘이 올바르게 빌드되지 않는 경우가 있습니다.
- 상세 주석
약점
Caltech 101 데이터[3][14] 세트의 약점은 의식적인 트레이드오프일 수 있지만, 그 외의 약점은 데이터 세트의 한계입니다.Caltech 101에만 의존하는 논문들은 종종 거부당한다.
약점은 다음과 같습니다.
- 데이터 세트가 너무 깨끗합니다.
- 이미지는 매우 균일한 표시로 왼쪽에서 오른쪽으로 정렬되며 일반적으로 가려지지 않습니다.그 결과, 알고리즘이 나중에 볼 수 있을 것으로 예상되는 실제 입력의 대표라고는 할 수 없습니다.실제 상황에서는 영상이 더 흐트러지고 가려지며 관심 물체의 상대적 위치 및 방향에서 더 큰 편차를 표시합니다.균일성을 통해 범주의 평균을 사용하여 개념을 도출할 수 있으며, 이는 비현실적입니다.
- 카테고리 수 제한:
- Caltech 101 데이터 세트는 가능한 객체 카테고리의 극히 일부에 불과합니다.
- 일부 카테고리에는 이미지가 거의 없습니다.
- 일부 범주는 31개 이하의 이미지를 포함하여 다른 범주와 같이 표시되지 않습니다.
- , N t \\ { } { \ { train \ 30} 입니다.트레이닝에 사용되는 이미지의 수는 30개 이하여야 합니다.이것은 모든 목적에 충분한 것은 아닙니다.
- 조작으로 인한 앨리어싱 및 아티팩트:
기타 데이터 세트
- Caltech 256은 2007년에 작성된 또 다른 이미지 데이터 세트입니다.그것은 Caltech 101의 후속작이다.그것은 Caltech 101의 약점 중 일부를 다루기 위한 것이다.전반적으로 Caltech 101보다 더 어려운 데이터 세트이지만 이와 비슷한 문제를 겪고 있습니다.다음을[3] 포함합니다.
- 30,607장의 이미지로 다수의 카테고리를 커버
- 카테고리당 최소 이미지 수(80개)
- 이미지가 좌우로 정렬되지 않음
- 이미지 표시의 변화
- LabelMe는 MIT Computer Science and 인공지능 Laboratory(CSAIL)에서 작성된 오픈 다이내믹 데이터 세트입니다.LabelMe는 다른 단점이 있는 큰 이미지 데이터 세트를 작성하는 문제에 대해 다른 접근방식을 취합니다.
- 106,739개의 이미지, 41,724개의 주석이 달린 이미지, 203,363개의 라벨이 부착된 객체.
- 사용자는 업로드로 데이터 세트에 이미지를 추가하고 기존 이미지에 라벨 또는 주석을 추가할 수 있습니다.
- LabelMe는 개방적인 성격 때문에 Caltech 101보다 훨씬 넓은 범위의 이미지를 많이 가지고 있다.그러나 업로드할 이미지와 각 이미지에 대한 레이블 지정 및 주석 지정 방법을 각 사용자가 결정하므로 이미지의 일관성이 떨어집니다.
- VOC 2008은 시각적 분류 방법을 벤치마킹하기 위한 이미지를 수집하기 위한 유럽의 노력이다.Caltech 101/256과 비교하여 수집되는 카테고리 수는 약 20개입니다.그러나 각 카테고리의 이미지 수는 더 많습니다.
- 오버헤드 이미지 리서치 데이터 세트(OBRD)는 이미지 및 [15]도구의 주석이 달린 라이브러리입니다.OBURDs v1.0은 오버헤드 이미지에 주석이 달린 승용차 객체로 구성되어 있다.OBURD의 승용차는 자동차, 트럭, 밴 등을 포함한다.OBURD에는 객체의 개요 외에도 이미지의 컨텍스트 내에서 차량을 정량화하는 주관적이고 객관적인 통계가 포함됩니다.예를 들어, 이미지 잡동사니, 선명도, 노이즈 및 차량 색상의 주관적인 척도가 지상 표본 거리(GSD), 시간 및 요일과 같은 보다 객관적인 통계와 함께 포함됩니다.
- 최대 900개의 이미지(주석이 달린 최대 이미지 포함)
- 오브젝트당 최대 30개의 주석
- 개체당 최대 60개의 통계 척도
- 오브젝트 컨텍스트의 다양한 변화
- 오버헤드 이미지에서 승용차로 제한됨
- MICC-Flickr 101은 2012년 플로렌스 대학 미디어 통합 커뮤니케이션 센터(MICC)에서 작성된 이미지 데이터 세트입니다.Caltech 101을 기반으로 Flickr에서 수집되었습니다.MICC-Flickr 101은[16] Caltech 101의 주요 단점인 클래스 간 변동성이 낮다는 점을 수정하고 사용자 태그를 통해 소셜 주석을 제공합니다.관리 가능한 수의 카테고리(101)로 구성된 표준적이고 널리 사용되는 데이터 세트를 기반으로 하기 때문에 제약이 있는 시나리오(Caltech 101)에서의 객체 분류 퍼포먼스와 동일한 101개의 카테고리에서의 객체 분류 퍼포먼스(MICC-Flickr 101)를 비교하기 위해 사용할 수 있다.
「 」를 참조해 주세요.
레퍼런스
- ^ Viola, Paul; Jones, Michael J. (2004). "Robust Real-Time Face Detection". International Journal of Computer Vision. 57 (2): 137–154. doi:10.1023/B:VISI.0000013087.49260.fb. S2CID 2796017.
- ^ Oertel, Carsten; Colder, Brian; Colombe, Jeffrey; High, Julia; Ingram, Michael; Sallee, Phil (2008). "Current challenges in automating visual perception". 2008 37th IEEE Applied Imagery Pattern Recognition Workshop. pp. 1–8. doi:10.1109/AIPR.2008.4906457. ISBN 978-1-4244-3125-0. S2CID 36669995.
- ^ a b c Pinto, Nicolas; Cox, David D.; Dicarlo, James J. (2008). "Why is Real-World Visual Object Recognition Hard?". PLOS Computational Biology. 4 (1): e27. Bibcode:2008PLSCB...4...27P. doi:10.1371/journal.pcbi.0040027. PMC 2211529. PMID 18225950.
- ^ L. Fei-Fei, R.퍼거스와 P.페로나.소수의 훈련 예로부터 생성 시각 모델을 학습한다: 101개 객체 범주에 대해 테스트된 증분 베이지안 접근법.IEEE. CVPR 2004, 생성 모델 기반 비전에 관한 워크숍.2004
- ^ L. Fei-Fei; R. Fergus; P. Perona (April 2006). "One-Shot learning of object categories" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (4): 594–611. doi:10.1109/TPAMI.2006.79. PMID 16566508. S2CID 6953475. Archived from the original (PDF) on 2007-06-09. Retrieved 2008-01-16.
- ^ 피라미드 매치 커널:이미지 피쳐 세트를 사용한 차별적 분류.K. 그라우만과 T.대럴.국제 컴퓨터 비전 회의(ICCV), 2005
- ^ Holub, AD; Welling, M; Perona, P. Combining Generative Models and Fisher Kernels for Object Class Recognition. International Conference on Computer Vision (ICCV), 2005. Archived from the original on 2007-08-14. Retrieved 2008-01-16.
- ^ Visual Cortex에서 영감을 얻은 기능을 갖춘 객체 인식.T. Serre, L. Wolf, T.포지오.2005년 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2005), IEEE Computer Society Press, 샌디에이고, 2005년 6월
- ^ SVM-KNN: 시각적 범주 인식을 위한 차별적 가장 가까운 이웃 분류.Hao Zhang, Alex Berg, Michael Maire, Jitendra Malik.CVPR, 2006
- ^ Beyond of Features : 자연경관 카테고리를 인식하기 위한 공간 피라미드 매칭. 스베틀라나 라제브니크, 코델리아 슈미드, 장 폰세.CVPR, 2006
- ^ M.J. Mar--jimezez 및 N. pezez de la Blanca의 객체 분류를 위한 다중 스케일 필터 뱅크의 실증적 연구.2005년 12월
- ^ 스퍼스, 현지화 기능을 갖춘 멀티클래스 객체 인식, Jim Mutch 및 David G. Lowe., 11-18페이지, CVPR 2006, IEEE Computer Society Press, New York, 2006년 6월
- ^ G. Wang; Y. Zhang; L. Fei-Fei (2006). "Using Dependent Regions or Object Categorization in a Generative Framework" (PDF). IEEE Comp. Vis. Patt. Recog. Archived from the original (PDF) on 2007-06-09. Retrieved 2008-01-16.
- ^ J. Ponce; T. L. Berg; M. Everingham; D. A. Forsyth; M. Hebert; S. Lazebnik; M. Marszalek; C. Schmid; B. C. Russell; A. Torralba; C. K. I. Williams; J. Zhang; A. Zisserman (2006). J. Ponce; M. Hebert; C. Schmid; A. Zisserman (eds.). "Dataset Issues in Object Recognition" (PDF). Toward Category-Level Object Recognition, Springer-Verlag Lecture Notes in Computer Science. Archived from the original (PDF) on 2016-12-24. Retrieved 2008-02-08.
- ^ F. 태너, B. 콜더, C. 풀렌, D.히지, C.OERDS(Overhead Images Research Data Set) Oertel, & P. Sallee – 컴퓨터 비전 알고리즘 개발에 도움이 되는 주석 첨부 데이터 라이브러리 및 도구, 2009년 6월, <http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Documentation Archived 2012-11-09 at the Wayback Machine> (2009년 12월 28일)
- ^ "L. Ballan, M. Bertini, A. Del Bimbo, A.M. Serain, G. Serra, B.F. Zaccone. Combining Generative and Discriminative Models for Classifying Social Images from 101 Object Categories. Int. Conference on Pattern Recognition (ICPR), 2012" (PDF). Archived from the original (PDF) on 2014-08-26. Retrieved 2012-07-11.
외부 링크
- http://www.vision.caltech.edu/Image_Datasets/Caltech101/ - Caltech 101 홈페이지 (다운로드 포함)
- http://www.vision.caltech.edu/Image_Datasets/Caltech256/ - Caltech 256 홈페이지 (다운로드 포함)
- http://labelme.csail.mit.edu/ - Label Me 홈페이지
- http://www2.it.lut.fi/project/visiq/ - 랜덤화된 Caltech 101 다운로드 페이지 (다운로드 포함)
- http://www.micc.unifi.it/vim/datasets/micc-flickr-101/ - MICC-Flickr101 홈페이지 (다운로드 포함)