시청각 음성인식

AVSR(Audio Visual Speech Incognition, AVSR)은 립 리딩에서 영상 처리 기능을 사용하여 비결정론적 전화기를 인식하거나 거의 확률에 가까운 결정 중 우세를 보이는 음성인식 시스템을 지원하는 기법이다.null

각 립 리딩과 음성 인식 시스템은 개별적으로 작동하며, 그 결과는 피쳐 퓨전 단계에서 혼합된다.이름에서 알 수 있듯이, 그것은 두 부분으로 되어 있다.첫 번째는 오디오 부분이고 두 번째는 시각 부분이야.오디오 파트에서 우리는 원시 오디오 샘플로부터 로그 멜 스펙토그램, mfcc 등과 같은 특징들을 사용한다. 그리고 우리는 그것으로부터 특징 벡터를 끄집어내기 위한 모델을 만든다. 일반적으로 시각적인 부분에서는 우리는 이 두 벡터(오디오와 비주얼 )를 연결한 후 형상 벡터로 이미지를 압축하기 위해 경련 신경망의 몇몇 변형을 사용한다.목표물null