방향 그라데이션 히스토그램
Histogram of oriented gradients피쳐 검출 |
---|
에지 검출 |
코너 감지 |
블롭 검출 |
능선 검출 |
Hough 변환 |
구조 텐서 |
부착 불변 피쳐 검출 |
피쳐 설명 |
축척 공간 |
HOG(Oriented Gradients, HOG) 히스토그램은 객체 탐지를 목적으로 컴퓨터 비전과 이미지 처리에 사용되는 피쳐 설명자다.이 기법은 영상의 국부적 부분에서 그라데이션 방향 발생을 카운트한다.이 방법은 에지 방향 히스토그램, 스케일 인바리어스 형상 변환 설명자, 형상 컨텍스트와 유사하지만 균일하게 간격을 두고 있는 셀의 밀집된 그리드에서 계산하고 중복 국소 대비 정규화를 사용하여 정확도를 향상시킨다는 점에서 차이가 있다.
로버트 K. 웨이랜드 리서치의 맥코넬은 1986년 특허 출원에서 HOG라는 용어를 사용하지 않고 HOG의 이면에 있는 개념을 처음 설명했다.[1]1994년에 그 개념들은 미쓰비시 전기 연구소에 의해 사용되었다.[2]그러나 2005년 프랑스 국립컴퓨터과학자동화연구소(INRIA)의 연구원인 나브네 달랄과 빌 트릭스(Bill Triggs)가 컴퓨터 비전 및 패턴인식 콘퍼런스(CVPR)에서 HOG 서술자에 대한 보충 연구 자료를 발표하면서 비로소 사용법이 널리 퍼졌다.이 작업에서 그들은 정적 이미지에서 보행자 탐지에 초점을 맞췄지만, 그 이후 그들은 다양한 일반적인 동물과 차량뿐만 아니라 비디오에 인간 탐지를 포함하도록 테스트를 확장했다.
이론
지향적인 그라데이션 설명자의 히스토그램 뒤에 숨겨진 본질적인 생각은 이미지 내의 국부적인 물체의 모양과 모양은 강도 그라데이션이나 에지 방향의 분포에 의해 설명될 수 있다는 것이다.이미지는 셀이라고 불리는 작은 연결 영역으로 나뉘며, 각 셀 내 픽셀의 경우 그라데이션 방향 히스토그램이 작성된다.설명자는 이 히스토그램들의 결합이다.정확도 향상을 위해 국소 히스토그램은 블럭이라고 하는 영상의 더 큰 영역에 걸친 강도 측정을 계산한 다음 이 값을 사용하여 블록 내의 모든 셀을 정규화함으로써 대조 정규화할 수 있다.이러한 정상화는 조명과 그림자의 변화에 더 나은 불변성을 초래한다.
HOG 설명자는 다른 설명자에 비해 몇 가지 주요 장점이 있다.국소 세포에서 작동하기 때문에 물체 방향을 제외하고는 기하학적, 광도적 변환에도 불변한다.그러한 변화는 더 큰 공간 영역에서만 나타날 것이다.게다가 달알과 트릭스가 발견한 것처럼 거친 공간 샘플링, 미세한 방향 샘플링, 강한 국소 광도 정상화는 보행자가 대략 직립 자세를 유지하는 한 보행자의 개별적인 신체 움직임을 무시할 수 있게 한다.따라서 HOG 설명자는 이미지에서 사람의 감지에 특히 적합하다.[3]
알고리즘 구현
그라데이션 연산
영상 사전 처리에서 많은 형상 검출기의 첫 번째 계산 단계는 색상과 감마 값을 정규화하는 것이다.그러나 Dalal과 Triggs가 지적하듯이, 이 단계는 HOG 설명자 계산에서 생략될 수 있다. 이어지는 설명자 표준화는 본질적으로 동일한 결과를 얻기 때문이다.따라서 영상 전처리는 성능에 거의 영향을 주지 않는다.대신, 계산의 첫 번째 단계는 구배 값의 계산이다.가장 일반적인 방법은 1-D 중심 점 이산형 파생 마스크를 수평 방향과 수직 방향 중 하나 또는 둘 다에 적용하는 것이다.특히 이 방법은 다음과 같은 필터 커널로 이미지의 색상 또는 강도 데이터를 필터링해야 한다.
달랄과 트릭스(Triggs)는 3x3 소벨 마스크나 대각선 마스크와 같은 좀 더 복잡한 마스크들을 테스트했지만, 이러한 마스크들은 일반적으로 이미지에서 인간을 감지하는 데 더 저조한 성능을 보였다.그들은 또한 파생상품 마스크를 적용하기 전에 가우스 평활을 실험했지만, 유사하게 평활을 생략하는 것이 실무에서 더 잘 수행된다는 것을 발견했다.[4]
방향 바이닝
계산의 두 번째 단계는 셀 히스토그램을 만드는 것이다.셀 내의 각 픽셀은 그라데이션 계산에서 발견된 값에 기초하여 방향 기반 히스토그램 채널에 대해 가중치를 부여한다.셀 자체는 직사각형 또는 방사형으로 만들 수 있으며, 히스토그램 채널은 그라데이션이 "서명되지 않은" 것인지 "서명되지 않은" 것인지에 따라 0~180도 또는 0~360도에 걸쳐 균등하게 퍼져 있다.Dalal과 Triggs는 9개의 히스토그램 채널과 함께 사용되는 서명되지 않은 그라데이션이 인간 검출 실험에서 가장 잘 수행된다는 것을 발견했다.투표 중량의 경우, 픽셀 기여도는 그 자체 또는 그 크기의 일부 기능이 될 수 있다.시험에서, 구배 크기 자체는 일반적으로 가장 좋은 결과를 산출한다.투표 가중치에 대한 다른 옵션에는 제곱근이나 구배 크기의 제곱 또는 일부 잘린 크기가 포함될 수 있다.[5]
설명자 블록
조도와 대비의 변화를 설명하려면 구배 강도를 국소적으로 정규화해야 하며, 이를 위해서는 셀을 더 크고 공간적으로 연결된 블록으로 그룹화해야 한다.그런 다음 HOG 설명자는 모든 블록 영역에서 정규화된 셀 히스토그램의 구성요소에 연결된 벡터가 된다.이러한 블록들은 전형적으로 중복되는데, 이는 각 셀이 최종 설명자에게 두 번 이상 기여한다는 것을 의미한다.사각형 R-HOG 블록과 원형 C-HOG 블록 등 두 가지 주요 블록 지오메트리가 존재한다.R-HOG 블록은 일반적으로 사각 격자로, 블록당 셀 수, 셀당 픽셀 수, 셀 히스토그램당 채널 수 등 세 가지 매개변수로 표현된다.달랄과 트릭스 인간탐지 실험에서 최적의 매개변수는 9개의 히스토그램 채널을 가진 블록당 4개의 8x8픽셀 셀(블록당 16x16픽셀)로 밝혀졌다.또한, 그들은 히스토그램 표를 표로 작성하기 전에 각 블록 내에 가우스 공간 창을 적용하여 약간의 성능 향상을 얻을 수 있다는 것을 알아냈다.R-HOG 블록은 SIFT(Scale-invariant feature transform) 설명자와 상당히 유사하게 보이지만, R-HOG 블록은 방향 정렬이 없는 어떤 단일 척도로 조밀한 그리드로 계산되는 반면, SIFT 설명자는 일반적으로 희소하고 척도가 낮은 주요 이미지 포인트에서 계산되어 정렬되도록 회전한다.오리엔테이션또한 R-HOG 블록은 공간 형태 정보를 인코딩하는 데 함께 사용되며 SIFT 설명자는 단독으로 사용된다.
원형 HOG 블록(C-HOG)은 하나의 중심 셀이 있는 블록과 각도로 분할된 중앙 셀의 두 가지 변형에서 찾을 수 있다.또한 이러한 C-HOG 블록은 각 및 방사상 빈의 수, 중심 빈의 반지름, 추가 방사상 빈의 반지름에 대한 확장 계수 등 4개의 매개변수로 설명할 수 있다.Dalal과 Triggs는 두 개의 주요 변형이 동일한 성능을 제공한다는 것을 발견했고, 4개의 각도 빈, 4개의 중심 반지름, 2개의 확장 계수를 가진 2개의 방사형 빈이 그들의 실험에서 최상의 성능을 제공한다는 것을 발견했다(좋은 성능을 얻기 위해, 마지막으로 이 구성을 사용).또한 가우스 가중치는 C-HOG 블록과 함께 사용할 때 아무런 이점도 제공하지 않았다.C-HOG 블록은 형상 컨텍스트 설명자와 유사하게 보이지만 C-HOG 블록이 여러 방향 채널이 있는 셀을 포함하는 반면 형상 컨텍스트는 형상화에서 단일 에지 존재 계수만 사용한다는 점에서 강하게 다르다.[6]
블록 정규화
달알과 트릭스(Triggs)는 블록 정규화를 위한 네 가지 방법을 탐구했다. 을(를) 지정된 블록의 모든 히스토그램이 포함된 비정규화된 벡터로 하고,, v \을 (를) = ,2 k에 대한 k} e }에 대한 knorm 을(정확한 상수로 한다.그러면 정규화 요인이 다음 중 하나가 될 수 있다.
- L2-norm: = + f}+e}
- L2-hys: L2-norm에 이어[7] 다음과 같이 클리핑(v의 최대값을 0.2로 제한) 및 리노말라이징(renormalizing)
- L1-norm: = ( 1+ )
- L1-sqrt: = ( + e) fv
또한, 체계 L2-hys는 먼저 L2-norm을 취하여 결과를 클리핑한 다음 다시 정규화하여 계산할 수 있다.그들의 실험에서, 달알과 트릭스는 L2-hys, L2-norm, L1-sqrt 체계가 유사한 성능을 제공하는 반면, L1-norm 체계는 약간 덜 신뢰할 수 있는 성능을 제공한다는 것을 발견했다. 그러나, 네 가지 방법 모두 비정규화된 데이터에 비해 매우 유의한 개선을 보였다.[8]
객체 인식
HOG 설명자는 기계 학습 알고리즘의 특징으로 제공함으로써 객체 인식에 사용될 수 있다.Dalal과 Trigs는 지원 벡터 머신(SVM)의 특징으로 HOG 설명자를 사용했지만,[9] HOG 설명자는 특정 머신러닝 알고리즘에 얽매이지 않는다.
퍼포먼스
원래 인간 검출 실험에서 달알과 트릭스(Trigs)는 R-HOG와 C-HOG 설명자 블록을 일반화된 하르 웨이블렛, PCA-SIFT 설명자, 형상 컨텍스트 설명자와 비교했다.일반화된 하르 파장은 하르 파장을 지향하며, 2001년 모한, 파파게오르기우, 포조오 등이 자체 물체 감지 실험에서 사용하였다.PCA-SIFT 설명자는 SIFT 설명자와 유사하지만, 주성분 분석이 정규화된 그라데이션 패치에 적용된다는 점에서 차이가 있다.PCA-SIFT 설명자는 2004년 Ke와 Sukchanar에 의해 처음 사용되었으며, 일반 SIFT 설명자보다 우수하다고 주장되었다.마지막으로, 형상 컨텍스트는 C-HOG 블록에서 사용되는 것과 유사한 원형 빈을 사용하지만, 가장자리 존재에 기초하여 표만 표시하여 방향과 관련하여 구별하지 않는다.형태 문맥은 원래 2001년에 Monetie, Malik, Puzicha에 의해 사용되었다.
시험은 두 개의 다른 데이터 집합에서 시작되었다.매사추세츠 공과대학교(MIT) 보행자 데이터베이스에는 509개의 훈련 영상과 200개의 도시 거리 보행자의 시험 영상이 담겨 있다.세트에는 인간 형상의 앞이나 뒷모습이 담긴 영상만 담겨 있으며 인간 포즈에는 거의 변화가 없다.이 세트는 잘 알려져 있으며 2000년 파파게오르지오, 포기오 등 다양한 인간탐지 실험에 이용되어 왔다.MIT 데이터베이스는 현재 https://web.archive.org/web/20041118152354/http://cbcl.mit.edu/cbcl/software-datasets/PedestrianData.html에서 연구를 위해 이용 가능하다.두 번째 세트는 달랄과 트릭스(Triggs)가 MIT 세트에서 HOG 설명자들이 거의 완벽에 가까운 성능을 발휘했기 때문에 인간 탐지 실험만을 위해 개발한 것이다.INRIA로 알려진 그들의 세트에는 1805개의 인간 사진들이 들어있다.세트에는 다양한 포즈 속 인간의 모습이 담겨 있고, 크라우드 장면 등 어려운 배경도 포함돼 있어 MIT 세트보다 복잡하다.INRIA 데이터베이스는 현재 http://lear.inrialpes.fr/data에서 연구할 수 있다.
위 사이트는 INRIA 인간탐지 데이터베이스의 예를 보여주는 이미지를 가지고 있다.
결과에 대해 C-HOG와 R-HOG 블록 설명자는 비교적으로 수행하며, C-HOG 설명자는 두 데이터 집합에 걸쳐 고정된 거짓 양성률로 검출 미스율에서 약간의 우위를 유지한다.MIT 세트에서, C-HOG와 R-HOG 설명자들은 본질적으로 10개의−4 거짓 양성률로 0의 검출 미스 레이트를 생성했다.INRIA 세트에서 C-HOG와 R-HOG 설명자는 약 0.1의 검출 미스율을 10의 거짓−4 양성률로 생성했다.일반화된 Har wavelet은 다음으로 높은 성능을 보이는 접근방식을 나타낸다. MIT 세트에서는 약−4 0.01의 미스 박스와 INRIA 세트에서는 약 0.3 미스 박스를 생성했다.PCA-SIFT 설명자와 형상 컨텍스트 설명자는 두 데이터 세트 모두에서 상당히 낮은 성능을 보였다.두 방법 모두 MIT 세트에서 10개의−4 거짓 양성률에서 0.1의 미스율을, INRIA 세트에서는 10개의−4 거짓 양성률에서 거의 0.5의 미스율을 생성했다.
추가 개발
Pascal Visual Object Class 2006 워크숍의 일환으로, Dalal과 Trigs는 자동차, 버스, 자전거와 같은 사람 이외의 이미지 개체와 개, 고양이, 소와 같은 일반적인 동물에 대한 히스토그램을 적용한 결과를 제시했다.그들은 각 사례에서 블럭 제형과 정규화를 위한 최적의 매개변수를 결과에 포함시켰다.아래 참조의 이미지는 모터바이크의 감지 예를 보여준다.[10]
2006년 유럽 컴퓨터 비전 콘퍼런스(ECCV)의 일환으로 달랄과 트릭스(Trigs)는 코델리아 슈미드(Cordelia Schmid)와 협력하여 영화와 비디오의 인간 검출 문제에 HOG 검출기를 적용했다.이들은 개별 비디오 프레임의 HOG 설명자와 후속 비디오 프레임 쌍에 새로 도입된 내부 동작 히스토그램(IMH)을 결합했다.이러한 내부 동작 히스토그램은 두 개의 연속된 프레임에서 얻은 광학 흐름장으로부터의 그라데이션 크기를 사용한다.이러한 그라데이션 크기는 HOG 설명자 접근법 내의 정적 이미지 데이터에서 생성된 것과 동일한 방식으로 사용된다.여러 동영상에서 가져온 두 개의 대형 데이터셋에서 테스트할 때, 된 HOG-IMH 방법은 - 4 거짓 양성률에서 약 0.1의 미스율을 나타냈다.[11]
2006년 지능형 차량 심포지엄에서 F. 수아드, A. 라코토마몬지, A. 벤슈라이어는 HOG 서술자를 기반으로 한 보행자 탐지를 위한 완전한 시스템을 도입했다.그들의 시스템은 두 대의 적외선 카메라를 사용하여 작동한다.적외선 영상에서 인간은 주변보다 밝게 보이기 때문에, 이 시스템은 먼저 인간이 위치할 수 있는 더 큰 시야 안에서 관심의 위치를 찾는다.그런 다음, 보행자의 존재에 관한 결정을 공식화하기 위해 이러한 작은 관심 위치에서 가져온 HOG 설명자에서 지원 벡터 기계 분류기가 작동한다.일단 보행자가 시야 안에 위치하면 스테레오 시야를 이용해 보행자의 실제 위치를 추정한다.[12]
2006년 IEEE 컴퓨터 비전 및 패턴 인식 콘퍼런스에서 장주, 샤이 아비단, 메이첸 예, 광팅 쳉은 HOG 서술자 방법을 사용하여 인간 탐지를 현저하게 가속화하는 알고리즘을 제시했다.그들의 방법은 일반적으로 얼굴 탐지에 큰 성공을 거두면서 적용되는 계단식 분류자 알고리즘과 결합하여 HOG 설명자를 사용한다.또한 균일한 크기의 블록에 의존하기보다는 크기와 위치, 가로 세로 비율이 다른 블록을 도입한다.인간 검출에 가장 적합한 블록을 분리하기 위해 에이다부스트 알고리즘을 적용해 캐스케이드에 포함할 블록을 선택했다.그들의 실험에서, 그들의 알고리즘은 원래의 달알과 트릭스 알고리즘과 비교할 만한 성능을 얻었지만, 최대 70배 빠른 속도로 작동했다.2006년, 미츠비시 전기 연구소는 이 알고리즘의 미국 특허에 출원 번호 20070237387로 출원했다.[13]
2010년 IEEE 이미지 처리에 관한 국제회의에서는 Rui Hu, Mark Banard, John Collomosse가 스케치 기반 이미지 검색(SBIR)에 사용하기 위해 HOG 설명자를 확장했다.조밀도 방향 필드는 라플라시안 평활도 제약조건에 따른 캐니 에지 검출기의 지배적 반응과 이 필드를 통해 계산된 HOG로부터 추론되었다.결과 그라데이션 필드 HOG(GF-HOG) 설명자는 스케치 또는 이미지 에지 맵에서 로컬 공간 구조를 캡처했다.이를 통해 자유손 스케치 도형으로 검색할 수 있는 콘텐츠 기반 이미지 검색 시스템 내에서 설명자를 사용할 수 있었다.[14]GF-HOG 적응은 SBIR의 과제에서 SIFT, SOUP, HOG와 같은 기존 그라데이션 히스토그램 설명자를 약 15% 능가하는 것으로 나타났다.[15]
2010년에 Martin Kruckhans는 3D 포인트클라우드용 HOG 설명자의 향상을 도입했다.[16]그는 이미지 그라데이션 대신 점(픽셀)과 평면 사이의 거리(잔차라고 함)를 사용하여 점 구름의 로컬 영역을 특성화했다.그의 HOR(지향적 잔차 설명자) 히스토그램은 3d 포인트클라우드의 객체 감지 작업에 성공적으로 사용되었다.[17]
참고 항목
참조
- ^ "Method of and apparatus for pattern recognition".
- ^ "Orientation Histograms for Hand Gesture Recognition".
- ^ "Histograms of Oriented Gradients for Human Detection" (PDF). p. 2.
- ^ "Histograms of Oriented Gradients for Human Detection" (PDF). p. 4.
- ^ "Histograms of Oriented Gradients for Human Detection" (PDF). p. 5.
- ^ "Histograms of Oriented Gradients for Human Detection" (PDF). p. 6.
- ^ D. G. 로위.확장 가능한 키포인트의 독특한 이미지 기능.IJCV, 60(2):91–110, 2004.
- ^ "Histograms of Oriented Gradients for Human Detection" (PDF). p. 6.
- ^ "Histograms of Oriented Gradients for Human Detection" (PDF). p. 1.
- ^ "Object Detection using Histograms of Oriented Gradients" (PDF). Archived from the original (PDF) on 2013-01-25. Retrieved 2007-12-10.
- ^ "Human Detection Using Oriented Histograms of Flow and Appearance" (PDF). Archived from the original (PDF) on 2008-09-05. Retrieved 2007-12-10. (원문서를 더 이상 사용할 수 없음, 유사한 용지)
- ^ "Pedestrian Detection using Infrared images and Histograms of Oriented Gradients" (PDF).
- ^ "Fast Human Detection Using a Cascade of Histograms of Oriented Gradients" (PDF).
- ^ "Gradient Field Descriptor for Sketch based Image Retrieval and Localisation" (PDF).
- ^ "A Performance Evaluation of the Gradient Field HOG Descriptor for Sketch based Image Retrieval" (PDF).
- ^ Krückhans, Martin. "Ein Detektor für Ornamente auf Gebäudefassaden auf Basis des "histogram-of-oriented-gradients"-Operators" (PDF). (독일어)
- ^ "Semantic 3D Octree Maps based on Conditional Random Fields" (PDF).
외부 링크
- http://www.mathworks.com/matlabcentral/fileexchange/33863 Matlab을 위한 구현(mex 파일)
- https://www.cs.cmu.edu/~yke/pcasift/ - PCA-SIFT 개체 탐지 코드
- http://lear.inrialpes.fr/software/ - HOG 객체 탐지를 위한 소프트웨어 툴킷(연구팀 홈페이지)
- https://web.archive.org/web/20100502032344/http://www.navneetdalal.com/software - HOG Object Detection용 소프트웨어 툴킷(Navneet Dalal 홈페이지)
- http://dlib.net/imaging.html#scan_fhog_pyramid - HOG 개체 탐지용 C++ 및 Python 소프트웨어 툴킷
- http://pascal.inrialpes.fr/data/human/ Wayback Machine에 2010-05-05 보관 - INRIA 휴먼 이미지 데이터 집합
- http://cbcl.mit.edu/software-datasets/PedestrianData.html - MIT 보행자 이미지 데이터 집합