어쿠스틱 모델
Acoustic model이 글은 검증을 위해 인용구가 추가로 필요하다. – · · 책 · · (2011년 2월) (이 |
음향 모델은 음성 신호와 음소 또는 언어를 구성하는 다른 언어 단위의 관계를 나타내기 위해 자동 음성 인식에 사용된다.이 모델은 오디오 녹음 세트와 그에 상응하는 녹취록을 통해 학습된다.그것은 언어의 오디오 녹음과 그들의 텍스트 녹음, 그리고 각각의 단어를 구성하는 소리의 통계적 표현을 만들기 위해 소프트웨어를 사용함으로써 만들어진다.null
배경
현대 음성 인식 시스템은 언어의 통계적 특성을 나타내기 위해 음향 모델과 언어 모델을 모두 사용한다.음향 모델은 언어에서 오디오 신호와 음성 단위의 관계를 모델링한다.언어 모델은 언어의 워드 시퀀스 모델링을 담당한다.이 두 모델이 결합되어 주어진 오디오 세그먼트에 해당하는 최상위 워드 시퀀스를 얻는다.null
대부분의 현대적인 음성 인식 시스템은 프레임당 대략 10ms의 지속시간을 가진 프레임으로 알려진 작은 덩어리로 오디오를 작동시킨다.각 프레임에서 나오는 원시 오디오 신호는 멜-주파수 세프스트럼을 적용하여 변환할 수 있다.이 변환에서 발생하는 계수는 일반적으로 멜 주파수 쌍극 계수(MFCC)로 알려져 있으며 다른 특징과 함께 음향 모델에 대한 입력으로 사용된다.null
최근, 콘볼루션 신경 네트워크의 사용은 음향 모델링의 큰 개선으로 이어졌다.[1]null
음성 오디오 특성
오디오는 다른 샘플링 속도(즉, 초당 샘플 - 가장 일반적인 샘플: 8, 16, 32, 44.1, 48, 96 kHz)와 샘플당 다른 비트(가장 일반적인 비트: 8비트, 16비트, 24비트 또는 32비트)로 인코딩할 수 있다.음성 인식 엔진은 음성 인식 모델이 음성 인식과 동일한 샘플링 속도/비트로 녹음된 음성 오디오로 훈련된 경우 가장 잘 작동한다.null
전화 기반 음성 인식
전화 기반 음성 인식의 제한 요소는 음성 전송이 가능한 대역폭이다.예를 들어 표준 유선 전화의 대역폭은 8kHz의 샘플링 속도에서 64kbit/s의 대역폭과 샘플당 8비트(초당 샘플 8000개 * 샘플당 8비트 = 64000비트/s)의 대역폭만 가진다.따라서 전화 기반 음성 인식을 위해 음향 모델은 8kHz/8비트 음성 오디오 파일로 훈련되어야 한다.null
음성 IP의 경우 코덱은 음성 전송 샘플당 샘플링 속도/비트를 결정한다.음성 전송을 위해 샘플당 샘플링 속도/비트(음질 개선)가 높은 코덱은 샘플당 샘플링 속도/비트와 일치하는 오디오 데이터를 사용하여 음향 모델을 교육해야 한다.null
데스크톱 기반 음성 인식
표준 데스크탑 PC의 음성 인식의 경우, 제한 요소는 사운드 카드다.오늘날 대부분의 사운드 카드는 16kHz-48kHz의 오디오 샘플링 속도로 녹음할 수 있으며, 샘플당 비트 전송률은 8~16비트, 재생 속도는 최대 96kHz이다.null
일반적으로 음성 인식 엔진은 샘플당 더 높은 샘플링 속도/비트로 녹음된 음성 오디오 데이터를 사용하여 훈련된 음향 모델과 함께 더 잘 작동한다.그러나 샘플당 샘플링 속도/비트가 너무 높은 오디오를 사용하면 인식 엔진 속도가 느려질 수 있다.타협이 필요하다.따라서 데스크톱 음성 인식을 위해 현재 표준은 샘플당 16kHz/16bit의 샘플링 속도로 녹음된 음성 오디오 데이터로 훈련된 음향 모델이다.null
참조
- ^ T. Sainath 등, ICASSP, 2013년 "LVCSR용 콘볼루션 신경망"
외부 링크
- 율리우스와 함께 사용하기 위한 일본 어쿠스틱 모델
- VoxForge에서 오픈 소스 음향 모델
- HTK용 HTK WSJ 음향 모델