멀티모달학습

Multimodal learning

현실 세계의 정보는 보통 다른 양식으로 나온다. 예를 들어, 이미지는 대개 태그와 텍스트 설명과 연관되어 있다; 텍스트는 기사의 주요 아이디어를 더 명확하게 표현하기 위한 이미지를 포함한다. 다른 양식은 다른 통계 속성으로 특징지어진다. 예를 들어, 영상은 보통 픽셀 강도 또는 형상 추출기의 출력으로 표현되는 반면, 텍스트는 이산 워드 카운트 벡터로 표현된다. 서로 다른 정보자원의 뚜렷한 통계적 특성 때문에 서로 다른 양식의 관계를 발견하는 것이 중요하다. 멀티모달 학습은 다른 양식의 공동 표현을 나타내기에 좋은 모델이다. 멀티모달 학습 모델도 관찰된 모달리티를 바탕으로 누락된 모달리티를 제공할 수 있다. 멀티모달 학습 모델은 두 개의 깊은 볼츠만 기계를 결합하여 각각 하나의 모달리티에 해당한다. 두 개의 볼츠만 기계 위에 추가로 숨겨진 층을 배치하여 공동 표현을 생산한다.

동기

특정 유형의 데이터(예: 이미지 또는 텍스트)를 검색하고 분류하기 위해 많은 모델/알고리즘이 구현되었다(기계와의 상호작용하는 인간이 어떤 메시지일 수 있는 사진 및 텍스트의 형태로 이미지를 추출할 수 있는 위치). 그러나 데이터는 보통 서로 다른 정보를 전달하는 다른 형식(시스템 구성요소를 분리하거나 결합할 수 있는 정도)을 가지고 있다. 예를 들어, 이 이미지에 의해 제시되지 않은 정보를 전달하기 위해 이미지를 캡션하는 것은 매우 일반적이다. 마찬가지로, 때로는 텍스트에서 분명하지 않을 수 있는 정보를 설명하기 위해 이미지를 사용하는 것이 더 간단하다. 그 결과 비슷한 영상에 몇 가지 다른 단어가 나타난다면, 이 단어들은 같은 것을 묘사하는 데 매우 사용될 가능성이 높다. 반대로 일부 단어가 다른 영상에 사용되는 경우, 이러한 이미지는 동일한 개체를 나타낼 수 있다. 따라서 모델이 서로 다른 양식의 상관관계를 포착할 수 있도록 정보를 공동으로 표현할 수 있는 새로운 모델을 초빙하는 것이 중요하다. 또한 텍스트 설명에 따라 가능한 영상 객체를 예측하는 등 관찰된 형식에 따라 누락된 촬영장비를 복구할 수 있어야 한다. Multimodal Deep Boltzmann Machine 모델은 위의 목적을 만족한다.

배경: 볼츠만 기계

볼츠만 기계(Boltzmann machine)는 제프리 힌튼(Geoffrey Hinton)과 테리 세즈노우스키(Terry Sejnowski)가 1985년 발명한 확률신경망의 일종이다. 볼츠만 기계는 호프필드 네트확률적이고 생성적인 상대라고 볼 수 있다. 그것들은 통계 역학에서 볼츠만 분포의 이름을 따서 명명되었다. 볼츠만 기계에 있는 유닛은 가시적인 유닛과 숨겨진 유닛의 두 그룹으로 나뉜다. 일반 볼츠만 기계는 어떤 장치라도 연결할 수 있다. 그러나 일반적인 볼츠만 머신을 사용하는 학습은 계산 시간이 기계 크기에 비해 기하급수적이기 때문에 비현실적이다. 보다 효율적인 건축을 볼츠만 기계라고 하는데, 이 기계는 숨겨진 유닛과 눈에 보이는 유닛 사이에만 연결이 허용되는 것으로 다음 절에서 설명한다.

제한 볼츠만 기계

제한된 볼츠만 기계는[1] 확률적 가시변수와 확률적 숨은 변수를 가진 비방향 그래픽 모델이다. 각각의 눈에 보이는 변수는 각각의 숨겨진 변수에 연결된다. 모델의 에너지 함수는 다음과 같이 정의된다.

where are model parameters: represents the symmetric interaction term between visible unit and hidden unit ; and 바이어스 항이다. 시스템의 공동분포는 다음과 같이 정의된다.

여기서 () 은 정규화 상수다. 숨겨진 에 대한 조건부 분포는 모델 매개변수 측면에서 로지스틱 함수로 도출할 수 있다.

, with
, with

( )= ( 1+ e (- x)) { 로지스틱 함수다.

모델 매개변수에 대한 로그 우도의 파생상품은 모델의 기대치와 데이터 의존적 기대치의 차이로 분해될 수 있다.

가우스베르누엘리 RBM

가우스-베르누엘리 RBM[2] 픽셀 강도 같은 실제 값 벡터를 모델링하는 데 사용되는 제한된 볼츠만 기계의 변형이다. 이것은 보통 이미지 데이터를 모델링하는 데 사용된다. 가우스-베르누엘리 RBM 시스템의 에너지는 다음과 같이 정의된다.

여기서 ={ , { { {\mathbf \}}}은(는) 모델 매개 변수다. 관절 분포는 제한된 볼츠만 기계에 있는 것과 동일하게 정의된다. 이제 조건부 분포는

, with
, with

가우스-베르누이 RBM에서는 숨겨진 유닛에 조건화된 가시 단위를 가우스 분포로 모델링한다.

복제된 소프트맥스 모델

Replicated Softmax Model[3] 또한 제한된 볼츠만 기계의 변형이며 문서에서 단어 수 벡터를 모델링하는 데 일반적으로 사용된다. 일반적인 텍스트 마이닝 문제에서 을(를) 사전 크기로 하고 (를) 문서의 단어 수로 한다. 문서의 i 단어가 사전의 k 단어인 경우에만 displaystyle 을(를 두십시오. 는 사전에서 단어의 카운트를 나타낸다. 단어를 포함하는 문서에 대한 상태{ \}의 에너지는 다음과 같이 정의된다.

조건부 분포는 다음과 같이 주어진다.

딥 볼츠만 기계

깊은 볼츠만 기계[4] 일련의 숨겨진 유닛들을 가지고 있다.인접한 숨겨진 레이어들 사이의 연결뿐 아니라, 눈에 보이는 유닛과 첫 번째 숨겨진 레이어의 숨겨진 유닛들 사이의 연결만 있을 뿐이다. 시스템의 에너지 함수는 일반적인 제한 볼츠만 기계의 에너지 기능에 레이어 상호작용 용어를 추가하며 E ; ) = - = j = ( )- = 1l = ( )로 정의된다.E({\mathbf {v} ,\mathbf {h} ;\theta })=&-\sum _{i=1}^{D}\sum _{j=1}^{F_{1}}W_{ij}^{(1)}v_{i}h_{j}^{(1)}-\sum _{j=1}^{F_{1}}\sum _{l=1}^{F_{2}}W_{jl}^{(2)}h_{j}^{(1)}h_{l}^{(2)}\\&-\sum _{l=1}^{F_{2}}\sum _{p=1}^{F_{3}}W_{lp}^{(3)}h_{l}^{(2)}h_{p}^{(3)}-\sum _{i=1}^{D}b_{i}v_{i}-\sum _{j=1}^{F_{1}}b_{j}^{(1)}h_{j}^{(1)}-\sum _{l=1}^{F_{2}}b_{l}^{(2)

공동분포는

멀티모달 딥 볼츠만 기계

멀티모달 볼츠만 기계[5][6] 이미지 경로 경로를 가우스-베르눌리 DBM으로, 텍스트 경로를 복제된 소프트맥스 DBM으로 모델링하는 이미지 텍스트 바이모달 DBM을 사용하며, 각 DBM에는 2개의 숨겨진 레이어와 1개의 가시 레이어가 있다. 두 DBM은 추가적인 상단 숨겨진 계층에서 함께 결합한다. The joint distribution over the multi-modal inputs defined as T=hp(3)+∑ 나는 p W(3m)h내가(2m)hp(3)+∑ pbp(3)hp(3){\displaystyle{\begin{정렬}(\mathbf{v}^{m},\mathbf{v}^{t};\theta)&, =\sum _{\mathbf{h}^{(2m)},\mathbf{h}^{(2t)},\mathbf{h}^{(3)}}P(\mathbf{h}^{(2m)},\mathbf{h}^{(2t)},\mathbf{h}^{(3)})(\sum_{\mat.hbf

보이는 단위와 숨겨진 단위에 대한 조건부 분포는

추론과 학문

이 모델의 정확한 최대우도 학습은 난해할 수 있지만, 데이터 의존적 기대치를 추정하기 위해 평균 필드 추론을 사용하고 MCMC 기반 확률적 근사 절차를 사용하여 모델의 예상 충분한 통계량을 근사하게 만드는 가변 접근방식을 사용하여 DBM의 근사 학습을 수행할 수 있다.[7]

적용

멀티모달 딥 볼츠만 기계는 분류에 성공적으로 사용되며 데이터 검색 누락. 다중모달 딥 볼츠만 머신의 분류 정확도는 모델들을 영상-텍스트 양식과 단일 양식으로 데이터에서 시험했을 때 지원 벡터 머신, 잠재 Diriclet 할당 및 딥 믿음 네트워크를 능가한다. 멀티모달 딥 볼츠만 기계도 관찰된 형식에 비해 상당히 정밀하게 누락된 형식을 예측할 수 있다.

참고 항목

참조

  1. ^ "Restricted Boltzmann Machine" (PDF). 1986.
  2. ^ "Gaussian-Bernoulli RBM" (PDF). 1994.
  3. ^ "Replicated Softmax Model" (PDF). 2009a.
  4. ^ "Deep Boltzmann Machine" (PDF). 2009b.
  5. ^ "Multimodal Learning with Deep Boltzmann Machine" (PDF). 2012.
  6. ^ "Multimodal Learning with Deep Boltzmann Machine" (PDF). 2014.
  7. ^ "Approximations to the Likelihood Gradient" (PDF). 2008.