강성 모션 세그멘테이션

Rigid motion segmentation

컴퓨터 비전에서 강체 운동 분할은 비디오 시퀀스에서 영역, 특징 또는 궤적을 공간과 시간의 일관된 하위 세트로 분리하는 과정입니다.이러한 하위 집합은 씬(scene)에서 독립적으로 엄격하게 이동하는 객체에 해당합니다.이 분할의 목적은 의미 있는 강성 모션을 배경에서 구별하고 추출하여 분석하는 것입니다.영상 분할 기술은 특정 시간에 특정 특성을 가진 픽셀의 일부가 되는 픽셀에 레이블을 지정합니다.여기서, 화소는, 비디오 시퀀스의 시간등의 기간에 걸친 상대적인 움직임에 의해서 세그먼트화 된다.

그렇게 [1]하도록 제안된 많은 방법들이 있다.문헌상의 큰 변동으로 인해 움직임 분할을 분류할 수 있는 일관된 방법은 없다.알고리즘에 사용되는 분할 기준에 따라 크게 이미지 차이, 통계 방법, 웨이브릿, 계층화, 광학 흐름 및 인수 분해로 분류할 수 있습니다.또한 필요한 뷰 수에 따라 알고리즘은 두 개 또는 여러 뷰 기반일 수 있습니다.경직된 모션 세분화는 보안 감시 및 비디오 편집의 증가로 인해 최근 응용 분야가 증가하고 있습니다.이러한 알고리즘에 대해서는, 한층 더 자세하게 설명합니다.

강성 운동 소개

일반적으로 운동은 시공간에서 물체의 변형이라고 볼 수 있다.이 변환이 객체의 크기와 모양을 유지하는 경우 이를 강성 변환이라고 합니다.견고한 변환은 회전식, 변환식, 반사식입니다.수학적으로 다음과 같이 견고한 변환을 정의합니다.

그림 1: 3-D에서의 강성 운동

여기서 F는 등각도와 공간 방향을 보존하는 경우에만 강성 변환이다.

움직임의 의미에서, 강성 변환은 공간에서의 강성 물체의 움직임입니다.그림 1과 같이 이 3-D 운동은 원래의 좌표(X,Y,Z)에서 회전행렬 R과 변환벡터 T에 의해 각각 포착된 회전과 변환의 결과인 변환된 좌표(X',Y',Z')로 변환된 것이다.그 때문에, 다음과 같이 변환됩니다.

어디에,

R R 각 축의 회전각도에 대응하는 미지수가 이고T(\ T X, Y, Z 방향의 변환을 설명하는 미지수가 ( 입니다.카메라(2-D)에 의해 캡처될 때의 이 움직임(3-D)은 비디오 시퀀스의 후속 프레임에서 픽셀의 변화에 해당합니다.이 변환은 2-D 강체 운동 또는 2-D 유클리드 변환이라고도 합니다.다음과 같이 쓸 수 있습니다.

어디에,

X→ 원래 픽셀 좌표.

X'→ 변환된 픽셀 좌표.

RT = R = I 및 R = 1인 R = 직교 정규 회전 행렬.

t → 2D 영상 공간에서 변환 벡터.

이를 시각화하려면 교통 감시 카메라의 비디오 시퀀스의 예를 고려하십시오.그것은 움직이는 차를 가질 것이고 이 움직임은 그들의 모양과 크기를 바꾸지 않을 것이다.또한, 이 움직임은 후속 비디오 프레임에 반영되는 3D 차량의 회전과 변환의 조합입니다.그래서 그 차는 단단한 움직임을 보이는 것으로 알려져 있다.

모션 세그멘테이션

그림 2: 모션 세그멘테이션 알고리즘

영상 분할 기술은 관심 영역에 따라 영상의 다른 부분을 분할하는 데 관심이 있습니다.동영상은 영상의 시퀀스이기 때문에 움직임 분할은 움직이는 물체와 배경의 영상을 다른 움직임 패턴을 겪는 물체를 분할함으로써 분해하는 것을 목표로 한다.장면에서 시각적인 특징을 다른 그룹으로 분리하여 영상 시퀀스에서 발생하는 이러한 공간적 및 시간적 변화를 분석함으로써 시각적인 정보를 추출할 수 있습니다.각 그룹은 동적 시퀀스에서 객체의 움직임에 대응합니다.가장 간단한 경우 움직임 분할은 정지된 카메라에서 움직이는 물체를 추출하는 것을 의미할 수 있지만, 카메라는 또한 움직일 수 있으며, 정적 배경의 상대적인 움직임을 유도합니다.추출된 시각적 특징의 유형에 따라 움직임 분할 알고리즘은 크게 두 가지 범주로 나눌 수 있습니다.첫 번째는 영상의 픽셀 강도를 사용하는 직접 모션 분할입니다.이러한 알고리즘은 일정한 조명을 가정합니다.알고리즘의 두 번째 카테고리는 오브젝트 상의 실제 물리 포인트에 대응하는 피쳐 세트를 계산합니다.그런 다음 이러한 스파스 피쳐를 사용하여 씬(scene)의 2-D 움직임 또는 씬(scene) 내 객체의 3-D 움직임을 특성화합니다.적절한 모션 분할 알고리즘을 설계하기 위한 몇 가지 요건이 있습니다.알고리즘은 제한된 점 수로 객체를 나타내는 뚜렷한 특징(모서리 또는 돌출점)을 추출해야 하며 폐색을 처리할 수 있어야 합니다.영상도 노이즈의 영향을 받고 결측 데이터가 있으므로 강력해야 합니다.일부 알고리즘은 하나의 객체만 감지하지만 비디오 시퀀스의 동작이 다를 수 있습니다.따라서 알고리즘은 여러 객체 디텍터여야 합니다.게다가 카메라 모델의 타입(사용하는 경우)도 알고리즘의 특성을 나타내고 있습니다.알고리즘의 객체 특성에 따라 강성, 비강성 또는 두 가지 모두를 검출할 수 있습니다.또한 단일 강체 운동을 추정하는 데 사용되는 알고리즘은 소음과 이상치에 대한 견고성과 함께 정확한 결과를 제공할 수 있지만, 여러 강체 운동으로 확장되면 실패할 수 있다.아래에 설명된 뷰 기반 분할 기술의 경우, 이것은 각 모션이 해당 모션에 대응하는 새로운 기본 매트릭스로 표현되기 때문에 단일 기본 매트릭스 가정이 위반되기 때문에 발생합니다.

세그먼트화 알고리즘

앞에서 언급한 것처럼 모션 분할 기법을 구분할 수 있는 특별한 방법은 없지만 알고리즘에 사용된 분할 기준에 따라 다음과 같이 [2]크게 분류할 수 있습니다.

이미지 차이

심플하고, 폐색이나 복수의 움직임을 처리할 수 있기 때문에, 영상의 변화를 검출하는 데 매우 유용한 기술입니다.이러한 기법은 광원의 강도가 일정하다고 가정한다.알고리즘은 먼저 한 번에 두 개의 프레임을 고려한 다음 픽셀 강도 차이로 픽셀을 계산합니다.이 계산에서는 강도 차이를 임계값으로 하고 변경을 등고선에 매핑한다.이 윤곽선을 사용하여 장면에서 움직임을 정의하는 데 필요한 공간 및 시간 정보를 추출합니다.간단한 구현 기법이지만 소음에 강하지 않습니다.이러한 기술의 또 다른 어려움은 카메라의 움직임이다.카메라가 움직이면 전체 이미지에 변화가 생깁니다.이러한 어려움을 극복하기 위해 많은 새로운 알고리즘이 도입되었습니다.[3][4][5][6]

통계학 이론

모션 분할은 각 픽셀을 배경 또는 전경으로 분류해야 하는 분류 문제로 볼 수 있습니다.이러한 분류는 통계 이론에 따라 모델링되며 분할 알고리즘에 사용할 수 있다.이러한 접근방식은 사용된 통계 프레임워크에 따라 추가로 나눌 수 있다.가장 일반적으로 사용되는 프레임워크는 최대 사후 확률(MAP),[7] 입자 필터(PF)[8]기대 최대화(EM)[9]입니다. MAP는 특정 픽셀을 사전 정의된 클래스로 분류해야 하는 구현에 Bayes의 규칙을 사용합니다.PF는 시간에 따라 가중치가 변화하는 변수의 진화 개념에 기초한다.최종 추정치는 모든 변수의 가중치 합입니다.두 방법 모두 반복적입니다.전자파 알고리즘도 반복 추정 방법입니다.결측 데이터 또는 숨겨진 데이터가 있는 경우 모형 모수의 최대우도(ML) 추정치를 계산하고 관측된 데이터의 적합성을 결정합니다.

광학적 흐름

광학 흐름(OF)은 이미지 시퀀스 내 포인트의 상대 픽셀 속도를 결정하는 데 도움이 됩니다.이미지 차이와 마찬가지로 분할에 사용되는 오래된 개념이기도 합니다.초기에 OF의 주요 단점은 소음에 대한 견고성 결여와 높은 계산 비용이었지만, 최근의 키 포인트 매칭 기법과 하드웨어 구현으로 인해 이러한 제한은 줄어들었다.OF는 일반적으로 폐색 및 일시 정지에 대한 견고성을 높이기 위해 다른 통계 또는 영상 차이 기법과 함께 사용됩니다.특히 카메라 자체가 움직이는 복잡한 시나리오의 경우, OF는 특이치가 [3]장면에서 독립적으로 움직이는 다른 물체를 나타내는 기본 매트릭스를 추정하기 위한 기초를 제공한다.또는 점 피쳐 대신 선 세그먼트에 기반한 광학 플로우를 사용하여 여러 강체 [10]모션을 세그먼트화할 수도 있습니다.

웨이브릿

이미지는 다른 주파수 [11]성분으로 구성됩니다.에지, 코너 및 평면 영역은 다른 주파수로 나타낼 수 있습니다.웨이브릿 기반 방법은 화상의 다른 주파수 성분의 분석을 수행한 후 각 성분의 척도에 일치하도록 다른 분해능을 사용하여 각 성분을 연구합니다.일반적으로 잡음을 줄이기 위해 다중 스케일 분해가 사용됩니다.이 방법은 좋은 [12]결과를 제공하지만, 사물의 움직임이 카메라 앞에만 있다고 가정하면 한계가 있다.Wavelet 기반 기법의 구현은 광학적 흐름과 같은 다른 접근법과 함께 존재하며 소음의 영향을 줄이기 위해 다양한 규모로 적용된다.

레이어

레이어 기반 기술은 이미지를 균일한 움직임을 갖는 레이어로 나눕니다.이 접근법은 이미지의 다양한 깊이 레이어를 결정하여 객체 또는 이미지의 일부가 있는 레이어를 찾습니다.이러한 기술은 깊이 거리를 계산하는 데 필요한 스테레오 비전에 사용됩니다.첫 번째 레이어 기반 기법은 [13]1993년에 제안되었다.인간도 레이어 베이스 세그멘테이션을 사용하기 때문에 이 방법은 폐색 문제에 대한 자연스러운 해결책이지만 수동 조정이 필요하기 때문에 매우 복잡합니다.

인수분해

토마시와 카나데는 첫 번째 인수분해법을 도입했다.이 방법은 일련의 이미지에서 특징을 추적하고 모양과 동작을 복구했습니다.이 기술은 시퀀스에 걸쳐 서로 다른 특징을 추적한 후 결정된 궤적 행렬 W를 두 개의 행렬, 즉 특이값 [14]분해를 사용한 움직임과 구조로 인수 분해했다.알고리즘의 단순성이 널리 사용되는 이유이지만 잡음 및 특이치민감합니다.이러한 방법의 대부분은 강직하고 독립적인 운동을 가정하여 구현된다.

표시 기반 알고리즘

추가 동작 검출 알고리즘은 뷰 수에 따라 분류할 수도 있습니다.즉, 2개의 뷰 베이스의 어프로치와 멀티 뷰 베이스의 어프로치입니다.2 뷰 베이스의 어프로치는, 보통 에피폴라 지오메트리에 근거하고 있습니다.강체의 두 가지 투시 카메라 뷰를 고려하여 특징의 대응점을 찾습니다.이러한 대응은 일반적인 강체에 대한 에피폴라 제약 또는 평면 물체에 대한 호모그래피 제약 중 하나를 충족하는 것으로 보인다.일련의 평면 운동은 배경, 정면 또는 지면 [15]운동입니다.따라서 자동차와 같은 일반적인 강체 물체와 함께 강체 운동이 퇴화된 경우입니다.따라서 우리는 여러 개의 에피폴라 제약과 호모그래피로 묘사되는 두 가지 이상의 운동을 순차적으로 볼 수 있을 것으로 예상한다.뷰 기반 알고리즘은 특이치에 민감하지만 최근 접근 방식은 랜덤 표본 합의(TRANSAC)[16] 및 향상된 Dirichlet 공정 혼합물 [3][17]모형을 사용하여 특이치를 처리합니다.다른 접근법에서는 전역 차원 최소화를 사용하여 기본 하위 공간에 해당하는 클러스터를 표시합니다.이러한 접근 방식에서는 다중 프레임 정보를 사용할 수 없기 때문에 여러 프레임을 사용할 수 있는 경우에도 모션 분할에 두 프레임만 사용합니다.멀티뷰 기반 접근법은 2뷰 기반 [18]접근법과 달리 특징점의 궤적을 활용한다.PAC([19]Principle Angle Configuration) 및 SSC([20]Sparse Subspace Clustering) 방법을 포함한 많은 접근법이 제공되었습니다.이것들은 두세 번의 모션 케이스에서 잘 작동합니다.이러한 알고리즘은 속도와의 트레이드오프(즉, 소음에 덜 민감하지만 계산이 느림)를 통해 소음에 대해서도 강력하다.다중 뷰 접근방식을 사용하는 다른 알고리즘으로는 스펙트럼 곡률 클러스터링(SCC), 잠재 하위 표현 기반 방법(LatLRR)[21] 및 ICLM 기반 [22]접근방식이 있다.이러한 알고리즘은 2 뷰 기반의 알고리즘보다 빠르고 정확하지만 정확성을 유지하기 위해서는 더 많은 프레임 수가 필요합니다.

문제

이동 객체의 공동 세분화

모션 세그멘테이션은 개선의 폭을 제공하는 많은 문제들이 있기 때문에 연구가 진행 중인 분야입니다.주요 문제 중 하나는 기능 검출과 대응 검색입니다.강력한 기능 검출 알고리즘이 있습니다만, 여전히 false positive를 제공하므로 예기치 않은 대응이 발생할 수 있습니다.이러한 픽셀 또는 특징의 대응점을 찾는 것은 어려운 작업입니다.개체와 배경의 이러한 불일치 특징점으로 인해 특이치가 발생하는 경우가 많습니다.영상 노이즈와 특이치가 있으면 SFM(Structure from motion) 추정의 정확도에 영향을 미칩니다.또 다른 문제는 모션 모델이나 모션 표현에 관한 것입니다.알고리즘에 사용되는 특정 모델에서 모션을 모델링하거나 추정해야 합니다.대부분의 알고리즘은 장면의 모션을 2-D 아핀 모션 모델로 모델링할 수 있다고 가정하여 2-D 모션 분할을 수행합니다.이론적으로 이는 2-D 변환 운동 모델이 일반적인 아핀 운동 모델로 표현될 수 있기 때문에 유효합니다.그러나 모델링에서 이러한 근사치는 부정적인 결과를 초래할 수 있습니다.변환 모델에는 2개의 파라미터가 있고 아핀 모델에는 6개의 파라미터가 있기 때문에 4개의 추가 파라미터를 추정합니다.또한, 아핀 운동 모델을 추정하기에 충분한 데이터가 없을 수 있으므로 모수 추정이 잘못될 수 있습니다.그 밖에 다음과 같은 문제가 있습니다.

  • 장면의 객체 또는 객체 수에 대한 사전 지식이 필수적이며 항상 사용할 수 있는 것은 아닙니다.
  • 움직임이 있을 때 흐릿해지는 것은 흔한 문제입니다.
  • 객체를 이동하면 폐색이 발생할 수 있으며 전체 객체가 사라졌다가 씬(scene)에 다시 나타날 수 있습니다.
  • 영상에서 3D 특징 대응 측정 시 픽셀 [clarification needed]좌표 측면에서 노이즈가 발생할 수 있습니다.

특이치를 관리하고 보다 정확하게 구현하기 위한 강력한 알고리즘이 제안되었다.토마시 및 카나데 인수분해법은 앞서 말한 인수분해법 중 하나이다.

적용들

모션 세그멘테이션에는 많은 중요한 [1]응용 프로그램이 있습니다.비디오 압축에 사용됩니다.분할에 의해, 연속하는 영상에서 같은 시각 패턴의 반복에 관련하는 용장성을 없앨 수 있다.또한 로깅, 주석 및 인덱싱과 같은 비디오 설명 작업에도 사용할 수 있습니다.Automatic Object Extraction 기술을 사용하여 객체 고유의 정보가 포함된 비디오 콘텐츠를 분리할 수 있습니다.따라서 검색 엔진과 비디오 라이브러리에서 개념을 사용할 수 있습니다.특정 응용 프로그램에는 다음과 같은 것이 있습니다.

  • 보안 애플리케이션의 비디오 감시
  • 스포츠 장면 분석
  • 지능형 차량의 도로 안전 애플리케이션
  • 비디오 인덱싱
  • 트래픽 모니터링
  • 객체 인식

외부 링크

  • 비전 랩은 GPCA, LANSAC(LANDSOM Sample Consumple Consistence) 및 LSA(Local Subspace Affinity), JCAS(Joint Category and Segmentation), LRSC(Low-Rank Subspace Clustering) 및 스파스 표현 이론을 다룹니다.Johns Hopkins University의 Vision Lab에서 Matlab을 사용한 몇 가지 구현 링크

레퍼런스

  1. ^ a b Perera, Samunda. "Rigid Body Motion Segmentation with an RGB-D Camera" (PDF).
  2. ^ Zappella, Luca; Lladó, Xavier; Salvi, Joaquim (2008). Motion Segmentation: a Review. Proceedings of the 2008 Conference on Artificial Intelligence Research and Development: Proceedings of the 11th International Conference of the Catalan Association for Artificial Intelligence Pages 398-407. pp. 398–407. ISBN 9781586039257.
  3. ^ a b c Bewley, Alex; Guizilini, Vitor; Ramos, Fabio; Upcroft, Ben (2014). "Online self-supervised multi-instance segmentation of dynamic objects" (PDF). 2014 IEEE International Conference on Robotics and Automation (ICRA) (PDF). pp. 1296–1303. doi:10.1109/ICRA.2014.6907020. ISBN 978-1-4799-3685-4. S2CID 5907733.
  4. ^ Chen, Chen-Yuan; Lin, Jeng-Wen; Lee, Wan-I; Chen, Cheng-Wu (2010). "Fuzzy Control for an Oceanic Structure: A Case Study in Time-delay TLP System". Journal of Vibration and Control.
  5. ^ Cavallaro, Andrea; Steiger, Olivier; Ebrahimi, Touradj (4 April 2005). "Tracking Video Objects in Cluttered Back- ground" (PDF). IEEE Transactions on Circuits and Systems for Video Technology. 15 (4): 575–584. CiteSeerX 10.1.1.464.7218. doi:10.1109/tcsvt.2005.844447. S2CID 15604489.
  6. ^ Li, Renjie; Yu, Songyu; Yang, Xiaokang (Aug 2007). "Efficient Spatio-temporal Segmentation for Extracting Moving Objects in Video Sequences". IEEE Transactions on Consumer Electronics. 53 (3): 1161–1167. CiteSeerX 10.1.1.227.6442. doi:10.1109/tce.2007.4341600. S2CID 2216371.
  7. ^ Shen, Huanfeng; Zhang, Liangpei; Huang, Bo; Li, Pingxiang (February 2007). "A map approach for joint motion estimation, segmentation, and super resolution" (PDF). IEEE Transactions on Image Processing. 16 (2): 479–490. Bibcode:2007ITIP...16..479S. CiteSeerX 10.1.1.692.4884. doi:10.1109/tip.2006.888334. PMID 17269640. S2CID 14221962.
  8. ^ Rathi, Y.; Vaswani, N.; Tannenbaum, A.; Yezzi, A. (2005). "Particle Filtering for Geometric Active Contours with Application to Tracking Moving and Deforming Objects" (PDF). 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). Vol. 2. pp. 2–9. CiteSeerX 10.1.1.550.156. doi:10.1109/CVPR.2005.271. ISBN 978-0-7695-2372-9. S2CID 2169573.
  9. ^ Liu, Guangcan; Lin, Zhouchen; Yu, Yong (2010). "Robust Subspace Segmentation by Low-Rank Representation" (PDF). Proceedings of the 27th International Conference on Machine Learning (ICML-10). Archived from the original (PDF) on 2010-07-14.
  10. ^ Zhang, Jing; Shi, Fanhuai; Wang, Jianhua; Liu, Yuncai (2007). 3D Motion Segmentation from Straight-Line Optical Flow. Springer Berlin Heidelberg. pp. 85–94. doi:10.1007/978-3-540-73417-8_15. ISBN 978-3-540-73417-8.
  11. ^ Gonzalez (1993). Digital image processing. Wesley Publishing Company. ISBN 9780201600780.
  12. ^ Krüger, Volker; Feris, Rogerio S. (2001). "Wavelet Subspace Method for Real-Time Face Tracking". Pattern Recognition. Lecture Notes in Computer Science. Vol. 2191. pp. 186–193. CiteSeerX 10.1.1.18.2433. doi:10.1007/3-540-45404-7_25. ISBN 978-3-540-42596-0.
  13. ^ Wang, J.Y.A.; Adelson, E.H. (1993). "Layered representation for motion analysis". Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. pp. 361–366. doi:10.1109/CVPR.1993.341105. ISBN 978-0-8186-3880-0. S2CID 5556692.
  14. ^ TOMASI, CARLO; KANADE, TAKEO (1992). "Shape and Motion from Image Streams under Orthography: a Factorization Method" (PDF). International Journal of Computer Vision. 9 (2): 137–154. CiteSeerX 10.1.1.131.9807. doi:10.1007/bf00129684. S2CID 2931825.
  15. ^ Rao, Shankar R; Yang, Allen Y; Sastry, S. Shanka (January 2010). "Robust Algebraic Segmentation of Mixed Rigid-Body and Planar Motions from Two Views" (PDF). Int J Comput Vis. 88 (3): 425–446. doi:10.1007/s11263-009-0314-1. S2CID 8343951.
  16. ^ Fischler, Martin A.; Bolles, Robert C. (June 1981). "Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography". Communications of the ACM. 24 (6): 381–395. doi:10.1145/358669.358692. S2CID 972888.
  17. ^ Chen, Chu-Song; Jian, Yong-Dian (16 January 2010). "Two-View Motion Segmentation with Model Selection and Outlier Removal by RANSAC-Enhanced Dirichlet Process Mixture Models" (PDF). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  18. ^ Jung, Heechul; Ju, Jeongwoo; Kim, Junmo. "Rigid Motion Segmentation using Randomized Voting" (PDF). {{cite journal}}:Cite 저널 요구 사항 journal=(도움말)
  19. ^ Zappella, L.; Provenzi, E.; Lladó, X.; Salvi, J. (2011). Adaptive Motion Segmentation Algorithm Based on the Principal Angles Configuration, Computer Vision – ACCV 2010. Springer Berlin Heidelberg. pp. 15–26. ISBN 978-3-642-19318-7.
  20. ^ Elhamifar, Ehsan; Vidal, Rene (2009). "Sparse subspace clustering". 2009 IEEE Conference on Computer Vision and Pattern Recognition. pp. 2790–2797. CiteSeerX 10.1.1.217.953. doi:10.1109/CVPR.2009.5206547. ISBN 978-1-4244-3992-8.
  21. ^ Liu, Guangcan; Yan, Shuicheng (Nov 2011). Latent Low-Rank Representation for subspace segmentation and feature extraction (PDF). Computer Vision (ICCV). pp. 1615–1622. doi:10.1109/ICCV.2011.6126422. ISBN 978-1-4577-1102-2. S2CID 6240314.
  22. ^ Flores-Mangas; Jepson (June 2013). Fast Rigid Motion Segmentation via Incrementally-Complex Local Models (PDF). Computer Vision and Pattern Recognition (CVPR). pp. 2259–2266. CiteSeerX 10.1.1.692.7518. doi:10.1109/CVPR.2013.293. ISBN 978-0-7695-4989-7. S2CID 6116643.