음성 인식
Speech recognition음성 인식은 컴퓨터 과학과 컴퓨터 언어학의 학문적 하위 분야로, 검색의 주요 이점을 가지고 컴퓨터가 구어를 인식하고 텍스트로 번역할 수 있는 방법론과 기술을 개발합니다.이것은 또한 자동 음성 인식(ASR), 컴퓨터 음성 인식 또는 음성 문자 변환(STT)으로 알려져 있다.컴퓨터 공학, 언어학 및 컴퓨터 공학 분야의 지식과 연구를 통합합니다.그 반대의 과정은 음성 합성이다.
일부 음성 인식 시스템은 개별 화자가 텍스트 또는 고립된 어휘를 시스템에서 읽는 "훈련"("등록")을 필요로 합니다.이 시스템은 그 사람의 특정 목소리를 분석하여 그 사람의 말투를 미세하게 인식하기 위해 사용하므로 정확도가 높아진다.트레이닝을 사용하지 않는 시스템을 스피커에 의존하지 [1]않는 시스템이라고 합니다.교육을 사용하는 시스템을 "스피커 의존형"이라고 합니다.
음성인식 어플리케이션에는 음성다이얼(예를 들어 "콜홈"), 콜 라우팅(예를 들어 "콜렉트 콜"), 도미틱 어플라이언스 제어, 검색 키워드(예를 들어 특정 단어가 발음된 팟캐스트 검색), 단순 데이터 입력(예를 들어 신용카드 번호 입력), 구조화된 작업 준비 등의 음성 사용자 인터페이스가 포함된다.연설자 [2]특성 결정, 음성 대 텍스트 처리(예: 워드 프로세서 또는 이메일), 항공기(일반적으로 직접 음성 입력)
음성 인식[3][4][5] 또는 스피커[6][7][8] 식별이라는 용어는 말하는 것이 아니라 말하는 사람을 식별하는 것을 의미합니다.스피커를 인식하면 특정 사용자의 음성에 대해 훈련받은 시스템에서 음성 번역 작업을 단순화할 수 있습니다.또, 보안 프로세스의 일부로서 스피커의 ID를 인증 또는 검증하기 위해서도 사용할 수 있습니다.
기술적 관점에서, 음성 인식은 오랜 역사를 가지고 있으며, 여러 주요 혁신의 물결을 이루고 있습니다.최근 이 분야는 딥 러닝과 빅데이터의 발전으로 혜택을 받고 있습니다.이러한 진보는 현장에서 발표된 학술 논문의 급증뿐만 아니라, 음성 인식 시스템의 설계 및 배치에 있어 다양한 딥 러닝 방법을 전 세계적으로 채택함으로써 입증된다.
역사
주요 성장 분야는 어휘 크기, 화자의 독립성 및 처리 속도였습니다.
1970년 이전
- 1952 – 벨 연구소의 3명의 연구원 Stephen Balashek,[9] R. Biddulph 및 K.H. Davis는 단일 스피커의 숫자 인식을 위한 "오드리"[10]라고 불리는 시스템을 만들었습니다.그들의 시스템은 각 [11]발언의 파워 스펙트럼에 포뮬레이터를 위치시켰다.
- 1960년 - 군나르 Fant는 음성 생산의 소스 필터 모델을 개발하여 발표했습니다.
- 1962 – IBM은 1962년 세계 [12]박람회에서 16단어 "Shoebox" 기계의 음성 인식 기능을 시연했습니다.
- 1966 – 음성 부호화 방법인 LPC(Linear Predictive Coding)는 음성 [13]인식을 연구하면서 나고야 대학의 이타쿠라 후미타다와 NTT의 사이토 슈조에 의해 처음 제안되었다.
- 1969년 – 1969년 영향력 있는 John Pierce가 음성 인식 [14]연구에 비판적인 공개 서한을 작성하면서 Bell Labs의 자금이 고갈되었습니다.이 디펀딩은 피어스와 제임스 L.까지 지속되었다. 플래너건이 이어받았어요
라지 레디는 1960년대 후반 스탠퍼드 대학 대학원생으로서 지속적인 음성 인식을 시작한 최초의 사람이다.이전 시스템에서는 사용자가 각 단어 뒤에 일시 중지해야 했습니다.레디의 시스템은 체스를 두기 위해 음성 명령을 내렸다.
이 무렵 소련 연구진은 동적 시간 뒤틀림(DTW) 알고리즘을 발명해 200단어 [15]어휘로 조작할 수 있는 인식기를 만들었다.DTW는 음성을 예를 들어 10ms 세그먼트와 같은 짧은 프레임으로 나누고 각 프레임을 단일 단위로 처리하여 처리했습니다.DTW는 이후 알고리즘으로 대체될 예정이지만 기법은 계속되었다.화자의 독립을 달성하는 것은 이 시기에는 미해결로 남아 있었다.
1970–1990
- 1971 – DARPA는 최소 1,000개의 단어 크기를 요구하는 음성 이해 연구, 음성 인식 연구를 위해 5년간 자금을 지원했다.그들은 음성 인식이 발전하는데 있어 음성 이해가 핵심이라고 생각했지만,[16] 나중에 사실이 아닌 것으로 판명되었다.BBN, IBM, 카네기 멜론, 스탠포드 연구소 모두 이 프로그램에 [17][18]참여했다.이에 따라 존 피어스의 음성 인식 연구 게시물이 부활했다.
- 1972 – IEEE 음향, 음성 및 신호 처리 그룹은 매사추세츠 주 뉴턴에서 컨퍼런스를 개최하였습니다.
- 1976년 – 최초의 ICASSP가 필라델피아에서 개최되었으며, 필라델피아는 그 이후로 [19]음성 인식에 관한 연구를 출판하는 주요 장소가 되었다.
1960년대 후반 레너드 바움은 국방분석연구소에서 마르코프 사슬의 수학을 개발했다.10년 후, CMU에서, Raj Reddy의 학생 James Baker와 Janet M. Baker는 음성 [20]인식에 숨겨진 마르코프 모델(HMM)을 사용하기 시작했다.James Baker는 학부 [21]교육 기간 동안 국방 분석 연구소의 여름 일을 통해 HMM에 대해 배웠습니다.HMM을 사용함으로써 연구자들은 음향, 언어 및 구문과 같은 다양한 지식 소스를 통합 확률론적 모델에서 결합할 수 있었다.
- 1980년대 중반까지 IBM의 프레드 옐리네크 박사 팀은 옐리네크의 통계 접근 방식은 인간의 뇌 과정과 HMMs.(옐리네크의 그룹 independe 같은 통계 모델링 기법으로 연설하고 조직하는 방법을 흉내내는 것을 을 덜 강조하다는20,000-word vocabulary[22]를 견딜 수 있는 목소리가 활성화 타자기 Tangora를 만들어 내다.ntlyHMM의 발화에 대한 응용을 발견했다.)[21]HMM이 [23]인간 언어의 많은 공통적인 특징을 설명하기에는 너무 단순하기 때문에 이것은 언어학자들 사이에서 논란이 되었다.그러나, HMM은 음성 모델링에 매우 유용한 방법임이 입증되었고 [24]1980년대에 지배적인 음성 인식 알고리즘이 되기 위해 동적 시간 왜곡을 대체하였다.
- 1982 – James와 Janet M.[25] Baker가 설립한 Dragon Systems는 IBM의 몇 안 되는 경쟁사 중 하나였습니다.
실용적인 음성 인식
1980년대는 또한 n그램 언어 모델이 도입되었다.
- 1987 – 백오프 모델에서는 언어 모델이 여러 길이의 n-g을 사용할 수 있었고 CSELT는[26] HMM을 사용하여 언어를 인식했습니다(소프트웨어 및 하드웨어 전용 프로세서(RIPAC 등)).
이 분야에서의 진보의 대부분은 컴퓨터의 기능이 급속히 증가하고 있기 때문입니다.1976년 DARPA 프로그램이 종료되었을 때, 연구자들이 사용할 수 있는 최고의 컴퓨터는 4MB [23]램이 장착된 PDP-10이었다.30초의 음성을 [27]해독하는 데 최대 100분이 걸릴 수 있다.
두 가지 실용적인 제품은 다음과 같습니다.
- 1984 – 최대 4096개의 워드를 지원하는 Aprilot Portable이 출시되었으며, 이 중 RAM은 한 [28]번에 64개만 저장할 수 있습니다.
- 1987 – Kurzweil Applied Intelligence의 인식자
- 1990 – 1990년에 출시된[29][30] 소비자 제품인 Dragon Direct는 1992년에 음성 인식 콜 처리 서비스를 도입하여 인간 [31]교환원을 사용하지 않고 전화를 라우팅했습니다.이 기술은 Lawrence Raviner와 벨 연구소의 다른 사람들에 의해 개발되었다.
이때까지, 전형적인 상업용 음성 인식 시스템의 어휘는 [23]인간의 평균 어휘보다 많았다.Raj Reddy의 전 학생인 Suedong Huang은 CMU에서 Sphinx-II 시스템을 개발했습니다.Sphinx-II 시스템은 스피커에 의존하지 않고 많은 어휘를 사용하며 지속적인 음성 인식을 할 수 있는 최초의 시스템이며 1992년 DARPA 평가에서 최고의 성능을 보였습니다.많은 어휘로 연속적인 음성을 다루는 것은 음성 인식 역사의 중요한 이정표였다.Huang은 1993년에 마이크로소프트에서 음성 인식 그룹을 설립했습니다.Raj Reddy의 제자인 Kai-Fu Lee는 1992년에 애플에 입사하여 Casper로 알려진 애플 컴퓨터의 음성 인터페이스 프로토타입 개발을 도왔습니다.
벨기에에 본사를 둔 음성 인식 회사인 Lernout & Hauspie는 1997년 Kurzweil Applied Intelligence, 2000년 Dragon Systems 등 여러 회사를 인수했습니다.L&H 음성 기술은 Windows XP 운영 체제에서 사용되었습니다.L&H는 2001년 회계 스캔들로 회사가 종말을 고할 때까지 업계 선두주자였다.L&H의 음성 기술은 2005년에 뉘앙스가 된 스캔 소프트에 인수되었다.애플은 원래 디지털 어시스턴트 [32]시리에게 음성 인식 기능을 제공하기 위해 뉘앙스의 소프트웨어를 라이선스했다.
2000년대
2000년대에 DARPA는 2개의 음성 인식 프로그램을 후원했습니다.2002년의 EAR(Effective Afficable Reasable Speech-to-Text)와 글로벌 자율 언어 이용(GALE)입니다.4개 팀이 EERS 프로그램에 참가했습니다.IBM은 BBN이 이끄는 팀으로서 LIMSI와 피츠버그 대학교, 캠브리지 대학교, ICSI, SRI 및 워싱턴 대학교로 구성되어 있습니다.ERS는 500명 이상의 [33]스피커로부터 260시간 동안 녹음된 대화를 담은 교환기 전화 스피치 코퍼스의 수집에 자금을 지원했습니다.GALE 프로그램은 아랍어와 중국어 방송 뉴스 스피치에 초점을 맞췄다.구글의 음성 인식에 대한 첫 번째 노력은 2007년 뉘앙스의 [34]연구원 몇 명을 고용한 후 이루어졌다.첫 번째 제품은 전화 기반 디렉토리 서비스인 GoOG-411이었다.구글-411의 녹음은 구글이 인식 시스템을 개선하는 데 도움이 되는 귀중한 데이터를 만들어냈다.Google 음성 검색은 현재 30개 이상의 언어로 지원됩니다.
미국에서, 국가안보국은 적어도 [35]2006년부터 키워드 발견을 위해 일종의 음성 인식을 사용해 왔다.이 기술을 통해 분석가는 대량의 녹음된 대화를 검색하고 키워드 언급을 분리할 수 있습니다.녹음을 인덱싱할 수 있으며 분석가는 데이터베이스에서 쿼리를 실행하여 관심 있는 대화를 찾을 수 있습니다.일부 정부 연구 프로그램은 DARPA의 EARS 프로그램과 IARPA의 Babel 프로그램과 같이 음성 인식의 인텔리전스 애플리케이션에 초점을 맞췄다.
2000년대 초, 음성 인식은 여전히 피드포워드 인공 [36]신경망과 결합된 숨겨진 마르코프 모델과 같은 전통적인 접근법에 의해 지배되었다.그러나 오늘날 음성 인식의 많은 측면은 1997년 [37]Sepp Hochreiter & Jurgen Schmidhuber에 의해 출판된 반복 신경 네트워크인 Long-Term Memory (LSTM)라고 불리는 딥 러닝 방법에 의해 대체되었다.LSTM RNN은 소멸되는 구배 문제를 피하고 수천 개의 이산 시간 단계 전에 발생한 사건에 대한 기억을 필요로 하는 "매우 깊은 학습" 태스크를[38] 학습할 수 있으며, 이는 발화에 중요하다.2007년경, Connectistist Temporal Classification(CTC;[39] 접속주의 시간 분류)에 의해 훈련된 LSTM은 특정 [40]애플리케이션에서 기존의 음성 인식을 능가하기 시작했다.2015년 구글의 음성 인식은 CTC 훈련 LSTM을 통해 49%의 극적인 성능 상승을 경험했으며, 현재 모든 스마트폰 [41]사용자가 구글 보이스에서 이용할 수 있다.
깊은 피드 포워드(non-recurrent)네트워크의 음향 모델의 사용 2009년에 제프리 힌튼은 토론토 대학에서 그의 학생들과 리 부장 Deng[42]와 동료들에 마이크로 소프트 리서치에 의해, 마이크로 소프트사와 토론토 대학의 그 후 e. 사이의 공동 연구는 처음에 소개되었다xpanIBM과 Google(따라서 2012년 검토 [43][44][45]논문의 "4개 연구 그룹의 공유 뷰" 부제목)을 포함하도록 노력했습니다.마이크로소프트의 한 연구 임원은 이 혁신을 "1979년 [46]이후 가장 극적인 정확도 변화"라고 말했습니다.지난 수십 년 동안 꾸준한 증분 개선과 대조적으로, 딥 러닝의 적용은 단어 오류율을 30% [46]줄였다.이 혁신은 전 분야에 걸쳐 빠르게 채택되었습니다.연구자들은 언어 모델링에도 딥 러닝 기술을 사용하기 시작했다.
음성 인식의 오랜 역사에서 인공 신경망의 얕은 형태와 깊은 형태(예: 반복망)는 1980년대, 1990년대 및 2000년대 [47][48][49]몇 년 동안 모두 탐구되었다.그러나 이러한 방법은 차별적으로 훈련된 [50]생성 모델에 기반한 비균일한 내부 수작업 가우스 혼합 모델/숨김 마르코프 모델(GMM-HMM) 기술을 결코 극복하지 못했다.1990년대에 신경 예측 [52][53]모델에서 구배[51] 감소와 약한 시간 상관 구조를 포함한 많은 주요 어려움이 방법론적으로 분석되었다.이러한 모든 어려움은 초기에 빅 트레이닝 데이터와 빅 컴퓨팅 파워의 부족에 더해졌습니다.따라서 이러한 장벽을 이해한 대부분의 음성 인식 연구자들은 이러한 모든 어려움을 극복한 2009-2010년 경에 시작된 딥 러닝의 최근 부활까지 신경망에서 벗어나 생성 모델링 접근법을 추구했다.Hinton et al.와 Deng et al.은 4개 그룹(토론토 대학, 마이크로소프트 대학, 구글 및 IBM)의 동료들과의 협력이 음성 [44][45][54][55]인식에 대한 심층 피드포워드 신경망의 응용의 부흥에 어떻게 불을 붙였는지에 대해 이 최근 역사의 일부를 검토했다.
2010년대
2010년대 초까지 음성 인식이라고도[56][57][58] 불리는 음성 인식은 화자 인식과 명확하게 구별되었고 화자의 독립성은 중요한 돌파구로 여겨졌다.그때까지 시스템은 "훈련" 기간이 필요했습니다.1987년 인형 광고는 "드디어, 당신을 이해하는 인형"이라는 꼬리표를 달았다. 비록 그것이 "아이들이 그들의 목소리에 반응하도록 훈련시킬 수 있다"[12]고 묘사되었음에도 불구하고.
2017년 마이크로소프트 연구진은 널리 벤치마킹된 교환기 작업에서 대화 전화 통화를 전사하는 역사적인 인간적 평가 이정표에 도달했습니다.음성 인식 정확도를 최적화하기 위해 여러 딥 러닝 모델이 사용되었다.음성인식단어 오류율은 IBM 왓슨 음성팀이 같은 [59]작업에 자금을 지원한 같은 벤치마크에서 함께 작업하는 4명의 전문 인간 문자 변환자가 낮은 것으로 보고되었다.
모델, 방법 및 알고리즘
음향 모델링과 언어 모델링은 모두 현대 통계 기반 음성 인식 알고리즘의 중요한 부분이다.숨겨진 마르코프 모델(HM)은 많은 시스템에서 널리 사용됩니다.언어 모델링은 문서 분류나 통계 기계 번역과 같은 다른 많은 자연 언어 처리 응용 프로그램에서도 사용됩니다.
숨은 마르코프 모형
현대의 범용 음성 인식 시스템은 숨겨진 마르코프 모델에 기초하고 있다.이러한 모델은 일련의 기호 또는 수량을 출력하는 통계 모델입니다.HMM은 음성 신호가 부분적인 정지 신호 또는 짧은 정지 신호로 볼 수 있기 때문에 음성 인식에 사용됩니다.단시간 척도(예를 들어 10밀리초)에서는 음성은 정지 프로세스로서 근사할 수 있다.연설은 많은 확률적 목적을 위한 마르코프 모델로 생각될 수 있다.
HMM이 인기 있는 또 다른 이유는 HMM이 자동으로 훈련될 수 있고 사용하기 쉽고 계산적으로 실현 가능하기 때문입니다.음성 인식에서, 숨겨진 마르코프 모델은 10 밀리초마다 이것들 중 하나를 출력하는 일련의 n차원 실제 값 벡터 (n은 10과 같은 작은 정수인 n은 10 밀리초마다 이것들 중 하나를 출력한다.벡터는 짧은 시간 창의 화법을 푸리에 변환하고 코사인 변환을 사용하여 스펙트럼을 장식한 다음 첫 번째(가장 유의한) 계수를 취함으로써 얻어지는 두부 계수로 구성된다.숨겨진 마르코프 모델은 각 상태에서 대각 공분산 가우시안들의 혼합인 통계적 분포를 갖는 경향이 있으며, 이것은 각 관측 벡터에 대한 우도를 제공할 것이다.각 단어, 또는 (좀 더 일반적인 음성 인식 시스템의 경우) 각각의 음소는 다른 출력 분포를 가질 것이다; 단어 또는 음소의 시퀀스에 대한 숨겨진 마르코프 모델은 분리된 단어와 음소를 위해 개별적으로 훈련된 숨겨진 마르코프 모델을 연결함으로써 만들어진다.
위에서 설명한 것은 음성 인식에 대한 가장 일반적인 HMM 기반 접근법의 핵심 요소입니다.현대의 음성 인식 시스템은 위에서 설명한 기본 접근법에 비해 결과를 개선하기 위해 많은 표준 기법의 다양한 조합을 사용한다.일반적인 큰 어휘 시스템은 음소의 문맥 의존성이 필요합니다(따라서 왼쪽과 오른쪽 문맥이 다른 음소는 HMM 상태로 인식됩니다).다른 스피커와 녹음 조건에 대해 정상화하기 위해 두부 정규화를 사용합니다.또한 스피커 정규화를 위해 성관 길이의 정규화를 사용할 수 있습니다.남성-여성 정규화를 위한 구역화(VTLN)와 보다 일반적인 스피커 적응을 위한 최대우도 선형 회귀(MLLR)를 제공합니다.특징은 음성 역학을 포착하기 위해 이른바 델타 및 델타-델타 계수를 가질 수 있으며, 또한 헤테로세카스틱 선형 판별 분석(HLDA)을 사용할 수 있으며, 델타 및 델타-델타 계수를 건너뛰고 스플라이싱과 LDA 기반 투영을 사용할 수 있으며, 그 뒤에 아마 헤테로세카스틱 선형 판별 분석 또는 글로바가 뒤따를 수 있다.l 반고정 Co 분산 변환(최대우도 선형 변환(MLLT)이라고도 함)많은 시스템은 HMM 매개변수 추정에 대한 순수 통계적 접근방식을 없애고 대신 훈련 데이터의 분류 관련 측정을 최적화하는 소위 차별적 훈련 기법을 사용한다.예를 들어 Maximum Mutual Information(MMI; 최대 상호 정보), Minimum Classification Error(MCE; 최소 분류 오류), Minimum Phone Error(MPE; 최소 전화 오류) 등이 있습니다.
음성의 디코딩(시스템이 새로운 발언으로 제시되고 가장 가능성이 높은 소스 문장을 계산해야 할 때 일어나는 일에 대한 용어)은 아마도 최적의 경로를 찾기 위해 비터비 알고리즘을 사용할 것이고, 여기에서 음향과 언어를 모두 포함하는 숨겨진 마르코프 모델을 동적으로 만드는 것 사이에 선택이 있다.모델 정보 및 정적 결합(Finite State Transducer, FST, 접근법).
복호화의 가능한 개선은 최적의 후보를 유지하는 것이 아니라 일련의 좋은 후보를 유지하고, 이러한 좋은 후보를 평가하는 더 나은 스코어링 기능(재점수)을 사용하여 이 개량된 점수에 따라 가장 좋은 후보를 선택하는 것입니다.후보 세트는 리스트(N-최적 리스트 접근법) 또는 모형의 서브셋(격자)으로 유지할 수 있습니다.재점수는 보통 베이즈 위험[60](또는 그 근사치)을 최소화함으로써 이루어진다.최대 확률로 소스 문장을 취하는 대신, 모든 가능한 전사에 대해 주어진 손실 함수의 기대를 최소화하는 문장을 취하려고 한다(즉, 추정 확률에 의해 가중치가 부여되는 다른 가능한 문장으로의 평균 거리를 최소화하는 문장을 취한다).손실 함수는 보통 Levenshtein 거리이지만, 특정 작업에 대해 다른 거리일 수 있습니다. 가능한 문자 변환 집합은 물론 추적성을 유지하기 위해 제거됩니다.효율적인 알고리즘은 [61]편집 거리가 특정 가정을 검증하는 유한 상태 변환기로 표현된 가중 유한 상태 변환기로 표현된 격자를 다시 채점하기 위해 고안되었다.
DTW(Dynamic Time Warping) 기반의 음성 인식
동적 시간 왜곡은 과거에는 음성 인식에 사용되었지만 현재는 보다 성공적인 HMM 기반 접근으로 대체되었다.
동적 시간 왜곡은 시간 또는 속도가 다를 수 있는 두 시퀀스 간의 유사성을 측정하는 알고리즘입니다.예를 들어, 한 비디오에서 사람이 천천히 걷고 다른 비디오에서 더 빨리 걷고 있거나 한 관찰 과정에서 가속과 감속이 있었더라도 보행 패턴의 유사성이 감지될 것이다.DTW는 비디오, 오디오 및 그래픽에 적용되어 있습니다.실제로 DTW를 사용하여 선형 표현으로 변환할 수 있는 모든 데이터를 분석할 수 있습니다.
잘 알려진 어플리케이션은 다양한 말하기 속도에 대처하기 위한 자동 음성 인식이다.일반적으로 컴퓨터는 특정 제한에 따라 주어진 두 시퀀스(예: 시계열) 간에 최적의 일치를 찾을 수 있습니다.즉, 시퀀스는 서로 일치하도록 비선형적으로 "뒤틀림"됩니다.이 시퀀스 정렬 방법은 숨겨진 마르코프 모델의 맥락에서 종종 사용됩니다.
뉴럴 네트워크
신경망은 1980년대 후반 ASR에서 매력적인 음향 모델링 접근법으로 등장했다.그 이후로, 신경 네트워크는 음소 분류,[62] 다목적 진화 알고리즘을 [63]통한 음소 분류, 고립된 단어 인식,[64] 시청각 음성 인식, 시청각 스피커 인식 및 스피커 적응과 같은 음성 인식의 많은 측면에서 사용되어 왔다.
신경망은 HMM보다 특징 통계 속성에 대한 명시적 가정을 덜 하고 음성 인식을 위한 매력적인 인식 모델을 만드는 몇 가지 특성을 가지고 있다.음성 특징 세그먼트의 확률을 추정하기 위해 사용될 때, 신경 네트워크는 자연스럽고 효율적인 방법으로 차별적인 훈련을 가능하게 한다.그러나 개별 음소와 고립된 [65]단어와 같은 짧은 시간 단위를 분류하는 효과에도 불구하고, 초기 신경망은 시간 의존성을 모델링하는 제한된 능력 때문에 지속적인 인식 작업에 거의 성공하지 못했다.
이 제한에 대한 한 가지 접근법은 신경망을 HMM 기반 인식보다 먼저 전처리, 특징 변환 또는 차원 [66]감소로 사용하는 것이었습니다.그러나 최근에는 LSTM 및 관련 반복 신경망(RNN)[37][41][67][68]과 시간 지연 신경망(TDNN)[69]이 이 영역에서 향상된 성능을 보여주었다.
심층 피드포워드 및 반복 뉴럴 네트워크
Deep Neural Networks와 Denoising Autoencoders도[70] 조사 중입니다.딥 피드포워드 뉴럴 네트워크(DNN)는 입력 [44]레이어와 출력 레이어 사이에 여러 개의 숨겨진 유닛 레이어가 있는 인공 뉴럴 네트워크입니다.얕은 뉴럴 네트워크와 마찬가지로 DNN은 복잡한 비선형 관계를 모델링할 수 있습니다.DNN 아키텍처는 구성 모델을 생성하며, 여기서 추가 계층은 하위 계층에서 특징을 구성할 수 있게 하여, 큰 학습 능력을 제공하고, 따라서 음성 [71]데이터의 복잡한 패턴을 모델링할 수 있는 잠재력을 제공한다.
대규모 어휘 음성 인식에서 DNN의 성공은 2010년 산업 연구자들에 의해 학계 연구자들과 협력하여 이루어졌으며, 여기에서 의사결정 트리에 의해 구축된 문맥 의존적 HMM 상태에 기초한 DNN의 대규모 출력 계층이 [72][73]채택되었다.[74] Microsoft [75]Research의 최신 Springer 책에서 2014년 10월 현재 이 개발과 최신 기술에 대한 포괄적인 리뷰를 확인하십시오.자동 음성 인식의 관련 배경과 딥 러닝을 포함한 다양한 기계 학습 패러다임의 영향도 최근 개요 [76][77]기사에서 참조하십시오.
딥 러닝의 기본 원칙 중 하나는 수작업으로 만든 기능 엔지니어링을 없애고 원시 기능을 사용하는 것입니다.이 원리는 "원시" 스펙트로그램 또는 선형 필터 뱅크 [78]특징에 대한 딥 오토 인코더 아키텍처에서 처음 성공적으로 연구되었으며, 스펙트럼에서 고정 변환의 몇 단계를 포함하는 멜-셉스트랄 특징보다 우수함을 보여주었다.음성의 진정한 "원시" 특징인 파형은 보다 최근에 뛰어난 대규모 음성 인식 결과를 [79]만들어 내는 것으로 나타났다.
엔드 투 엔드 자동 음성 인식
2014년 이후, "엔드 투 엔드" ASR에 대한 많은 연구 관심이 있었습니다.기존의 음성 기반(즉, 모든 HMM 기반 모델) 접근방식은 발음, 음향 및 언어 모델에 대한 별도의 구성요소와 훈련이 필요했다.엔드 투 엔드 모델은 음성 인식기의 모든 구성 요소를 공동으로 학습합니다.이것은, 트레이닝 프로세스와 도입 프로세스를 심플하게 하기 때문에 중요합니다.예를 들어, 모든 HMM 기반 시스템에는 n그램 언어 모델이 필요하며, 일반적인 n그램 언어 모델은 종종 수 기가바이트의 메모리가 소요되므로 모바일 [80]장치에 배포하는 데 실용적이지 않습니다.따라서 Google과 Apple의 최신 상용 ASR 시스템(2017년 기준[update])은 클라우드에 배치되어 로컬 장치가 아닌 네트워크 연결이 필요합니다.
엔드 투 엔드 ASR의 첫 번째 시도는 [81]2014년 Google DeepMind의 Alex Graves와 토론토 대학의 Navdeep Jaitly가 도입한 Connectist Temporal Classification(CTC) 기반 시스템입니다.이 모델은 반복 신경망과 CTC 계층으로 구성되었다.RNN-CTC 모델은 공동으로 발음과 음향 모델을 학습하지만, HMM과 유사한 조건부 독립성 가정 때문에 언어를 학습할 수 없다. 결과적으로, CTC 모델은 음성 음향을 영어 문자에 매핑하는 것을 직접 배울 수 있지만, 모델은 많은 흔한 철자 오류를 범하고 의존해야 한다.성적표를 정리하기 위한 별도의 언어 모델입니다.이후 Baidu는 매우 큰 데이터셋으로 작업을 확장하여 중국어 만다린과 [82]영어로 상업적 성공을 거두었습니다.2016년 옥스퍼드 대학교는 제한된 문법 데이터 [84]집합에서 인간 수준의 성능을 능가하는 시공간적 컨볼루션을 사용하여 최초의 엔드 투 엔드 문장 수준 립리딩 모델인 LipNet을 [83]선보였다.구글 딥마인드는 2018년 대규모 CNN-RNN-CTC 아키텍처를 발표해 [85]인간 전문가보다 6배 더 뛰어난 성능을 구현했다.
CTC 기반 모델에 대한 대체 접근법은 주의 기반 모델입니다.주의 기반 ASR 모델은 2016년 [86][87]카네기 멜론 대학의 찬 외 연구원과 몬트리올 대학의 구글 브레인 및 바다나우 외 연구원이 동시에 도입했다."Listen, Attendant and Spell"(LAS)이라는 이름의 모델은 말 그대로 음향 신호에 "Listens", "Attendant and Spell"(듣기, 참석 및 맞춤법)로, 신호의 여러 부분에 "주의"를 기울이며 한 번에 한 글자씩 대본을 "스펠링"합니다.CTC 기반 모델과 달리 주의 기반 모델은 조건 독립적 가정을 가지고 있지 않으며 발음, 음향 및 언어 모델을 포함한 음성 인식기의 모든 구성 요소를 직접 학습할 수 있습니다.즉, 도입 시에 언어 모델을 가지고 다닐 필요가 없기 때문에 메모리가 한정되어 있는 애플리케이션에 매우 실용적입니다.2016년 말까지 주의 기반 모델은 CTC 모델(외부 언어 [88]모델 유무에 관계없이)을 능가하는 등 상당한 성공을 거두었습니다.원래 LAS 모델 이후 다양한 확장이 제안되어 왔습니다.잠재 시퀀스 분해(LSD)는 Carnegie Mellon University, MIT 및 Google Brain에 의해 영어 [89]문자보다 자연스러운 하위 단어 단위를 직접 방출하기 위해 제안되었습니다. 옥스포드 대학과 Google DeepMind는 LAS를 확장하여 입술 판독 성능을 [90]능가하는 성능을 처리하도록 했습니다.
적용들
차내 시스템
일반적으로 수동 제어 입력(예: 스티어링 휠의 손가락 제어)은 음성 인식 시스템을 활성화하고 오디오 프롬프트를 통해 운전자에게 신호를 보냅니다.오디오 프롬프트에 이어 음성 입력을 [citation needed]수신하는 "듣기 창"이 나타납니다.
간단한 음성 명령어를 사용하여 전화를 걸거나 라디오 방송국을 선택하거나 호환되는 스마트폰, MP3 플레이어 또는 음악 탑재 플래시 드라이브에서 음악을 재생할 수 있습니다.음성 인식 기능은 자동차 메이커와 모델에 따라 다릅니다.최신[when?] 차량 모델 중 일부는 고정된 명령어 세트 대신 자연어 음성 인식을 제공하여 운전자가 완전한 문장과 일반적인 문구를 사용할 수 있도록 합니다.따라서 이러한 시스템에서는 사용자가 일련의 고정 명령어를 [citation needed]기억할 필요가 없습니다.
헬스케어
의료 문서
의료 분야에서 음성 인식은 의료 문서 프로세스의 프런트 엔드 또는 백엔드에서 구현될 수 있다.프런트 엔드 음성 인식은 제공자가 음성 인식 엔진에 지시하고 인식된 단어가 음성 인식 시 표시되며 독재자는 문서의 편집과 서명을 책임집니다.백엔드 또는 지연 음성 인식은 프로바이더가 디지털 받아쓰기 시스템에 지시하고 음성은 음성 인식기를 통해 라우팅되며 인식된 초안 문서는 원본 음성 파일과 함께 편집자에게 라우팅되며, 편집자는 초안을 편집하고 보고서를 완성한다.지연 음성 인식은 현재 업계에서 널리 사용되고 있습니다.
의료에서 음성 인식 사용과 관련된 주요 문제 중 하나는 "의미 있는 사용" 표준에 따라 EMR을 사용하는 의사에게 상당한 재정적 혜택을 제공하는 2009년 미국 회복 및 재투자법(ARRA)이다.이러한 표준에서는 EMR(현재는 일반적으로 전자 건강 기록(EHR)이라고 함)에 의해 상당한 양의 데이터가 유지되어야 한다.음성 인식의 사용은 방사선/병리학 해석, 경과 노트 또는 퇴원 요약의 일부로서 서술 텍스트의 생성에 보다 자연스럽게 적합하다. 음성 인식을 사용하여 구조화된 이산 데이터를 입력할 경우(예: 목록 또는 통제된 어휘의 숫자 값 또는 코드) 인체공학적 이득은 상대적으로 작다.시각장애인과 키보드와 마우스를 조작할 수 있는 사람에게 적합하지 않다.
보다 중요한 문제는 대부분의 EHR이 음성 인식 기능을 이용하도록 명시적으로 조정되지 않았다는 것입니다.임상의와 EHR과의 상호작용의 대부분은 메뉴를 사용한 사용자 인터페이스를 통한 내비게이션과 탭/버튼 클릭을 수반하며 키보드와 마우스에 크게 의존합니다.음성 기반 내비게이션은 약간의 인체공학적 이점만 제공합니다.이와는 대조적으로 방사선학 또는 병리학 받아쓰기를 위해 고도로 맞춤화된 많은 시스템은 음성 "매크로스"를 구현한다. 여기서 특정 문구(예: "정상 보고서")를 사용하면 많은 수의 기본값을 자동으로 채우고/또는 검사 유형(예: 흉부 X선 대 위장 대조도)에 따라 달라지는 보일러 플레이트를 생성한다.영상 시리즈입니다.
치료용 사용
워드 프로세서와 함께 음성 인식 소프트웨어를 장기간 사용하면 절제 치료를 받은 뇌 AVM 환자의 단기 기억력 회복에 도움이 된다.방사선학적 [citation needed]기법을 사용하여 AVM을 치료한 개인에 대한 인지적 편익을 결정하기 위해 추가 연구가 수행되어야 한다.
군사의
고성능 전투기
지난 10년 동안 전투기의 음성 인식 테스트와 평가에 상당한 노력을 기울였다.특히 미국의 AFTI(Advanced Fighter Technology Integration)/F-16 항공기(F-16 VISTA) 음성 인식 프로그램, 프랑스의 Mirage 항공기 프로그램 및 영국에서 다양한 항공기 플랫폼을 다루는 기타 프로그램이 눈에 띄었다.이 프로그램들에서, 음성 인식기는 무선 주파수 설정, 자동 조종 시스템 명령, 스티어 포인트 좌표와 무기 방출 매개변수 설정, 그리고 비행 표시 제어와 같은 애플리케이션으로 성공적으로 운용되었다.
JAS-39 Gripen cockpit에서 비행하는 스웨덴 조종사와 함께 작업한 결과, Englund(2004)는 g-하중이 증가함에 따라 인지도가 저하되었음을 발견했다.보고서는 또한 적응이 모든 경우에 결과를 크게 개선했으며 호흡 모델의 도입이 인식 점수를 크게 향상시키는 것으로 나타났다고 결론지었다.예상과는 달리 화자의 영어실패의 영향은 발견되지 않았다.즉석에서 말하는 것이 인식자에게 문제를 일으킨다는 것은 예상한 대로 명백했다.따라서 제한된 어휘, 그리고 무엇보다도 적절한 구문은 인식 정확도를 [91]크게 향상시킬 것으로 기대할 수 있다.
현재 영국 RAF에서 운용되고 있는 유로파이터 타이푼은 스피커 의존 시스템을 채용하고 있어 각 조종사가 템플릿을 작성해야 합니다.이 시스템은 무기 방출 또는 언더캐리지 하강과 같은 안전상 중요한 작업이나 무기상 중요한 작업에는 사용되지 않지만, 기타 조종석 기능에는 광범위하게 사용됩니다.음성 명령은 시각적 및/또는 청각적 피드백을 통해 확인됩니다.이 시스템은 조종사의 작업 [92]부하를 줄이는 주요 설계 기능으로 간주되며 조종사는 두 개의 간단한 음성 명령으로 자신의 항공기에 목표물을 할당하거나 다섯 개의 [93]명령만으로 그의 윙맨에게 목표물을 할당할 수 있습니다.
스피커에 의존하지 않는 시스템도 개발되어 F35 라이트닝 II(JSF)와 알레니아 아에르마치 M-346 마스터 도입 전투기 트레이너용으로 테스트되고 있습니다.이 시스템은 98%[94]가 넘는 단어 정확도 점수를 산출했습니다.
헬리콥터
응력과 소음에서 높은 인식 정확도를 달성하는 문제는 제트 전투기 환경뿐만 아니라 헬리콥터 환경에서도 특히 관련이 있다.소음 수준이 높을 뿐만 아니라 일반적으로 헬리콥터 조종사가 안면 마스크를 착용하지 않기 때문에 음향 소음 문제는 실제로 헬리콥터 환경에서 더 심각하다. 이는 마이크의 음향 소음을 감소시킬 수 있다.지난 10년 동안 헬리콥터의 음성 인식 시스템 애플리케이션에서 상당한 테스트 및 평가 프로그램이 수행되었으며, 특히 미국 육군 항공 연구 개발 활동(AVRADA)과 영국 왕립 항공 우주 협회(RAE)가 이를 주도했다.프랑스에서의 작업은 푸마 헬리콥터의 음성 인식을 포함하고 있다.캐나다에서도 많은 유용한 일이 있었다.결과는 고무적이었고 음성 애플리케이션에는 통신 무선 제어, 내비게이션 시스템 설정 및 자동 표적 핸드오버 시스템 제어가 포함되었습니다.
전투기 적용에서와 마찬가지로, 헬리콥터의 음성에 대한 가장 중요한 문제는 조종사의 효율성에 대한 영향이다.AVRADA 테스트에 대한 고무적인 결과는 보고되지만, 이는 테스트 환경에서 실현 가능한 시연일 뿐이다.운용환경에서 일관된 성능향상을 달성하기 위해서는 음성인식 및 전체적인 음성기술 양쪽에서 해야 할 일이 많다.
항공 교통 관제사 교육
ATC(Air Traffic Controller) 훈련은 음성 인식 시스템에 대한 훌륭한 응용 프로그램입니다.많은 ATC 훈련 시스템은 현재 훈련 중인 관제사와 음성 대화에 참여하는 "의사 조종사" 역할을 할 것을 요구하고 있으며, 이는 관제사가 실제 ATC 상황에서 조종사와 함께 수행해야 할 대화를 시뮬레이션한다.음성 인식 및 합성 기술은 사람이 의사 조종사로 활동할 필요성을 제거하여 훈련 및 지원 인력을 줄일 수 있는 잠재력을 제공합니다.이론적으로, 항공 관제사 업무는 또한 관제사의 주요 출력물로서 고도로 구조화된 음성으로 특징지어지므로 음성 인식 업무의 난이도를 낮출 수 있어야 한다.실제로는 거의 그렇지 않습니다.FAA 문서 7110.65에는 항공 교통 관제사가 사용해야 하는 문구가 자세히 나와 있습니다.이 문서에서는 이러한 문구의 예를 150개 미만으로 제시하지만 시뮬레이션 벤더의 음성 인식 시스템 중 하나가 지원하는 문구의 수는 500,000개를 넘습니다.
USAF, USMC, 미국 육군, 미국 해군 및 FAA를 비롯해 이탈리아, 브라질, 캐나다의 왕립 호주 공군 및 민간 항공 당국 등 다수의 국제 ATC 훈련 기관이 현재 여러 [citation needed]공급업체로부터 음성 인식을 받은 ATC 시뮬레이터를 사용하고 있습니다.
텔레포니 및 기타 도메인
ASR은 현재 텔레포니 분야에서 보편화되고 있으며 컴퓨터 게임 및 시뮬레이션 분야에서 더욱 널리 보급되고 있습니다.텔레포니 시스템에서는 ASR을 IVR 시스템과 통합함으로써 컨택센터에서 주로 사용되고 있습니다.일반적인 퍼스널 컴퓨팅에서는 워드 프로세싱과 높은 수준의 통합이 이루어지고 있지만, 문서 작성 분야에서는 ASR의 사용 증가는 예상되지 않았습니다.
모바일 프로세서 속도의 향상으로 스마트폰에서 음성 인식이 실용화되었습니다.음성은 주로 사용자 인터페이스의 일부로 사용되며 사전 정의된 음성 명령 또는 커스텀 음성 명령을 작성하기 위해 사용됩니다.
교육 및 일상생활에서의 사용
언어 학습을 위해, 음성 인식은 제2외국어를 배우는데 유용할 수 있다.그것은 적절한 발음을 가르칠 수 있을 뿐만 아니라 사람이 말하는 [95]능력을 발달시키는데 도움을 줄 수 있다.
시각장애인(시각장애 및 교육 참조) 또는 매우 낮은 시력을 가진 학생들은 이 기술을 사용하여 단어를 전달하고 컴퓨터가 암송하는 것을 들을 수 있을 뿐만 아니라 화면과 키보드를 [96]볼 필요 없이 음성으로 명령함으로써 컴퓨터를 사용할 수 있습니다.
신체적으로 장애가 있거나 상지에 반복적인 긴장 부상/기타 부상을 입은 학생들은 스피치 투 텍스트 프로그램을 사용함으로써 필기, 타이핑, 또는 학교 과제물에 대한 서기와 관련된 걱정에서 벗어날 수 있다.또한 음성 인식 기술을 이용하여 집에서 마우스와 [96]키보드를 물리적으로 조작하지 않고도 인터넷 검색이나 컴퓨터 사용을 즐길 수 있다.
음성 인식은 학습 장애가 있는 학생들이 더 나은 작가가 될 수 있게 해준다.단어를 큰 소리로 말함으로써, 그들은 글쓰기의 유동성을 증가시킬 수 있고, 철자법, 구두점, 그리고 [97]글쓰기의 다른 메커니즘에 대한 걱정을 덜 수 있다.학습 장애도 참조하십시오.
음성 인식 소프트웨어를 디지털 오디오 레코더 및 워드 프로세싱 소프트웨어를 실행하는 PC와 함께 사용하면 뇌졸중 및 개두술 개인에게 손상된 단기 기억 용량을 복원하는 데 긍정적인 것으로 입증되었습니다.
장애인
장애가 있는 사람들은 음성 인식 프로그램으로부터 혜택을 받을 수 있다.청각장애인 또는 청각장애인의 경우 음성인식 소프트웨어를 사용하여 회의실에서의 토론, 강의실 강의 및/[98]또는 종교 예배와 같은 대화의 클로즈드 캡션을 자동으로 생성합니다.
음성 인식은 또한 가벼운 반복적 스트레스 손상에서 기존의 컴퓨터 입력 장치를 사용할 수 없는 장애에 이르기까지 손을 사용하는 데 어려움을 겪는 사람들에게 매우 유용합니다.사실, 키보드를 많이 사용하고 RSI를 개발한 사람들은 음성 [99][100]인식의 긴급한 초기 시장이 되었다.음성 인식은 텍스트에 대한 보이스 메일, 릴레이 서비스, 캡션 전화기 등 청각장애 텔레포니에서 사용됩니다.생각을 종이와 교환하는 데 문제가 있는 학습장애인은 이 소프트웨어의 혜택을 받을 수 있지만(기본적으로 아이디어를 생각했지만 잘못된 처리를 통해 아이디어를 종이에서 다르게 처리함) 이 기술은 버그 [101]방지 기능은 아닙니다.또한 문자 [102]회화에 대한 모든 생각은 지적 장애인들에게 어려울 수 있다. 왜냐하면 장애를 가진 사람들에게 가르치는 기술을 배우려는 사람은 드물기 때문이다.
이런 종류의 기술은 난독증을 가진 사람들을 도울 수 있지만 다른 장애들은 여전히 의문이다.제품의 효능이 제품의 효능을 저해하는 문제입니다.비록 아이가 말을 얼마나 명확하게 하느냐에 따라 말을 할 수도 있지만, 그 기술은 그들이 다른 말을 하고 있다고 생각하고 잘못된 말을 입력할 수도 있다.수정해야 할 작업을 더 많이 [103]주고 잘못된 단어를 수정하는 데 더 많은 시간이 걸립니다.
기타 응용 프로그램
- 항공우주(우주탐사, 우주선 등)미 항공우주국(NASA)의 화성 폴라 랜더는 착륙선의[104] 화성 마이크로폰에 있는 센스사의 음성 인식 기술을 사용했다.
- 음성 인식 자동 자막 기능
- 자동 감정[105] 인식
- 시청각 제작에서의 자동 샷 리스트
- 자동 번역
- 법정 보고(실시간 연설문 작성)
- eDiscovery(법적 디스커버리)
- 핸즈프리 컴퓨팅: 음성인식 컴퓨터 사용자 인터페이스
- 홈 오토메이션
- 대화형 음성 응답
- 모바일 전자 메일을 포함한 모바일 텔레포니
- 멀티모달 인터랙션[55]
- 컴퓨터 지원 어학 학습 어플리케이션에서의 발음 평가
- 실시간 캡션[106]
- 로보틱스
- 보안(다요소 인증을[107] 위한 다른 바이오메트릭 스캐너 사용 등)
- 스피치 투 텍스트(스피치 텍스트 변환, 실시간 비디오 캡션, 법원 보고서 작성)
- 텔레매틱스(예: 차량 내비게이션 시스템)
- 문자 변환(디지털 음성 문자 변환)
- Tom Clancy의 EndWar와 Lifeline을 작업 예시로 한 비디오 게임
- 가상 어시스턴트(예: Apple의 Siri)
성능
음성 인식 시스템의 성능은 보통 정확성과 [108][109]속도의 관점에서 평가된다.정확도는 보통 WER(Word Error Rate)로 평가되며 속도는 실시간 계수로 측정됩니다.기타 정확도 측정으로는 Single Word Error Rate(SWER; 단일 단어 오류율) 및 Command Success Rate(CSR; 명령어 성공률)가 있습니다.
그러나 기계에 의한 음성 인식은 매우 복잡한 문제이다.발성은 억양, 발음, 발음, 발음, 거칠기, 비음, 음량, 속도 면에서 다양하다.음성은 배경 소음과 에코, 전기적 특성에 의해 왜곡됩니다.음성 인식의 정확도는 다음과 [110][citation needed]같이 다를 수 있습니다.
- 어휘의 크기와 혼동성
- 화자의 의존성과 독립성
- 고립, 불연속 또는 연속 음성
- 작업 및 언어 제약
- 읽기 대 자발적 음성
- 불리한 조건
정확성.
이 기사의 앞부분에서 언급했듯이, 음성 인식의 정확도는 다음 요소에 따라 달라질 수 있습니다.
- 에러율은, 어휘의 사이즈가 커집니다.
- 예를 들어, 10자리 "0"에서 "9"까지를 기본적으로 완벽하게 인식할 수 있지만, 200, 5000 또는 100000의 어휘 크기는 각각 3%, 7% 또는 45%의 오류율을 가질 수 있다.
- 어휘에 혼란스러운 단어가 포함되어 있으면 알아보기 어렵다.
- 예: 영어 알파벳의 26글자는 혼란스러운 단어이기 때문에 구별하기 어렵다(가장 악명 높은 것은 "B, C, D, E, G, P, T, V, Z - 영어 지역에 따라 "zed"가 아닌 "zee"로 발음될 경우, 이 오류율은 8%로 간주됩니다).
- 화자의 의존성 vs 독립성:
- 스피커 의존형 시스템은 단일 스피커에서 사용할 수 있습니다.
- 스피커에 의존하지 않는 시스템은, 어느 스피커에서도 사용할 수 있도록 설계되어 있습니다(어려움).
- 고립음, 불연속음 또는 연속
- 고립된 음성에서는 단일 단어가 사용되기 때문에 음성을 인식하기 쉬워집니다.
불연속 음성 완전 문장이 침묵으로 구분되어 사용되므로, 고립된 음성뿐 아니라 음성 인식도 쉬워진다.
연속적인 음성에서는 자연스럽게 말하는 문장이 사용되기 때문에, 고립된 음성이나 불연속적인 음성과는 달리, 그 음성을 알아보는 것이 어려워진다.
- 작업 및 언어 제약
- 예를 들어, 애플리케이션을 쿼리하면 "The apple is red"라는 가설을 무시할 수 있습니다.
- 예: 제약조건은 의미가 있을 수 있습니다; "The angry the apple"을 거부합니다.
- 예: 구문: "빨간색은 사과"를 거부합니다.
제약은 종종 문법에 의해 표현된다.
- 읽기와자발적 연설 – 사람이 읽을 때는 보통 미리 준비된 맥락이지만, 자발적 연설을 사용할 때는 말을 알아채기 어렵습니다. 왜냐하면 잘못된 시작, 불완전한 문장, 더듬기, 기침, 웃음 등이 있기 때문입니다.
- 불리한 조건 – 환경 소음(예: 자동차 또는 공장 내 소음)음향 왜곡(메아리, 실내 음향 등)
음성 인식은 다단계 패턴 인식 작업이다.
- 음향 신호는 음소, 단어, 구 및 문장 등의 단위 계층으로 구성된다.
- 각 레벨은 추가적인 제약을 제공합니다.
예: 더 낮은 수준에서 오류 또는 불확실성을 보상할 수 있는 알려진 단어 발음 또는 법적 단어 순서
- 이 제약 계층은 악용됩니다.모든 하위 수준에서 확률적으로 결정을 결합하고, 최고 수준에서만 보다 결정론적 결정을 함으로써, 기계에 의한 음성 인식은 여러 단계로 분할된 과정이다.계산적으로, 그것은 소리 패턴을 인식하거나 인간에게 의미를 나타내는 범주로 분류해야 하는 문제이다.모든 음향 신호는 보다 작은 기본 하위 신호로 나눌 수 있습니다.보다 복잡한 사운드 신호가 작은 서브 사운드로 분할되면 다양한 레벨이 생성됩니다.상위 레벨에서는 복잡한 사운드가 형성됩니다.복잡한 사운드는 낮은 레벨에서는 단순한 사운드로 구성됩니다.더 낮은 레벨에서는 보다 기본적이고 짧고 단순한 사운드가 생성됩니다.소리가 가장 기본적인 최저 수준에서 기계는 어떤 소리가 표현되어야 하는지에 대한 단순하고 확률적인 규칙을 점검할 것이다.이러한 소리가 상위 레벨에서 보다 복잡한 소리로 통합되면 새로운 일련의 결정론적 규칙이 새로운 복잡한 사운드가 무엇을 나타내야 하는지를 예측해야 한다.결정론적 규칙의 가장 상위 레벨은 복잡한 표현의 의미를 파악해야 합니다.음성 인식에 관한 지식을 넓히기 위해서는 신경망을 고려할 필요가 있다.뉴럴 네트워크 어프로치에는, 다음의 4개의 스텝이 있습니다.
- 인식하고 싶은 음성을 디지털화하다
전화 통화의 경우 샘플링 속도는 초당 8000샘플이다.
- 음성의 스펙트럼 영역의 특징을 계산한다(푸리에 변환 사용).
프레임이라고 불리는 10밀리초 섹션 1개를 사용하여 10밀리초마다 계산됩니다.
4단계 뉴럴 네트워크 접근법의 분석은 추가 정보로 설명할 수 있다.소리는 공기(또는 다른 매체) 진동에 의해 생성됩니다. 우리는 귀로 등록하지만 기계는 수신기로 등록합니다.기본 사운드는 진폭(진동 강도)과 주파수(진동 빈도/초)의 두 가지 설명을 가진 파형을 생성합니다.정확도는 WER(Word Error Rate)를 사용하여 계산할 수 있습니다.동적 문자열 정렬을 사용하여 인식된 단어와 참조 단어를 정렬하여 단어 오류율을 계산할 수 있습니다.이 문제는 인식된 워드와 참조된 워드의 시퀀스 길이 차이로 인해 워드 오류율을 계산할 때 발생할 수 있습니다.허락하다
치환수는 S, 결손수는 D, 삽입수는 I, 단어 참조수는 N입니다.
단어 오류율(WER)을 계산하는 공식은 다음과 같습니다.
WER = (S+D+I)§ N
Word Recognition Rate(WRR) Word Error Rate(WER; 단어 인식률)를 계산할 때 이 공식은 다음과 같습니다.
WRR = 1-WER = (N-S-D-I)µN = (H-I)µN
여기서 H는 정확하게 인식되는 단어의 수입니다.H= N-(S+D).
보안에 관한 우려
음성 인식은 공격, 도난 또는 우발적인 조작의 수단이 될 수 있습니다.예를 들어, 오디오 또는 비디오 방송에서 사용되는 "Alexa"와 같은 활성화 단어는 가정 및 사무실의 장치가 부적절하게 입력을 듣기 시작하거나 원치 않는 조치를 [111]취할 수 있습니다.음성 제어 장치는 또한 건물 방문객이나 건물 밖에서 들리는 방문객도 이용할 수 있습니다.공격자는 일정관리, 주소록 내용, 개인 메시지 및 문서와 같은 개인 정보에 액세스할 수 있습니다.또, 유저를 사칭해 메세지를 보내거나 온라인으로 구입하거나 할 수도 있습니다.
인공 소리를 사용하는 두 가지 공격이 입증되었습니다.초음파를 전송하고 주변 사람들이 [112]눈치채지 못하게 명령을 보내려고 한다.다른 하나는 특정 음성 인식 시스템이 음악을 음성으로 인식하도록 혼동을 일으키도록 특수 제작된 다른 음성이나 음악에 작은, 들리지 않는 왜곡을 가미하거나 인간의 소리에 대한 하나의 명령처럼 들리는 것을 시스템에 [113]대한 다른 명령처럼 만들도록 한다.
추가정보
회의 및 저널
매년 또는 2년마다 개최되는 음성 인식 회의에는 SpeechTEK 및 SpeechTEK Europeech, ICASSP, Interspeech/Eurospeech, IEEE ASRU 등이 포함됩니다.ACL, NAACL, EMNLP, HLT 등의 자연어 처리 분야에서의 회의는 음성 처리의 시작부터 포함됩니다.중요한 저널로는 음성 및 오디오 프로세싱에 관한 IEEE 트랜잭션(나중에 오디오, 음성 및 언어 프로세싱에 관한 IEEE 트랜잭션으로 개명, 2014년 9월부터 오디오, 음성 및 언어 프로세싱에 관한 IEEE/ACM 트랜잭션으로 개명), 컴퓨터 음성 및 언어 및 통신에 관한 트랜잭션이 있습니다.
책들
Lawrence Raviner의 "음성 인식의 기초"와 같은 책은 기초 지식을 습득하는 데 유용할 수 있지만 완전히 최신은 아닐 수도 있다.또 다른 좋은 출처로는 Frederick Jelinek의 "음성 인식을 위한 통계적 방법"과 Suedong Huang의 "음성 언어 처리(2001)", Manfred R의 "컴퓨터 음성" 등이 있습니다. Schroeder, 2004년에 발행된 제2판 및 Li Deng과 Doug O'Shaughnesey가 2003년에 발행한 "Speech Processing: A Dynamic and Optimization Oriented 접근법"입니다.Jurafsky와 Martin의 최신 교재 Speech and Language Processing(2008)은 ASR의 기본과 최첨단 기술을 제시한다.스피커 인식에도 음성 인식과 동일한 기능, 대부분의 프론트 엔드 처리 및 분류 기술이 사용됩니다."화자 인식의 기초"라는 포괄적인 교과서는 이론과 [114]실제에 대한 최신 세부 사항을 심층적으로 제공하는 자료입니다.최상의 현대 시스템에 사용되는 기술에 대한 좋은 통찰력은 DARPA에 의해 조직된 것과 같은 정부 후원 평가에 주목함으로써 얻을 수 있다(2007년 현재 진행 중인 가장 큰 음성 인식 관련 프로젝트는 음성 인식과 번역 구성요소를 모두 포함하는 GALE 프로젝트이다).
음성 인식 테크놀로지와 그 역사에 대한 훌륭하고 접근하기 쉬운 소개는 일반 청중 책인 "The Voice in the Machine"에서 제공합니다.Roberto Pieraccini(2012)의 「스피치를 이해하는 컴퓨터 구축」.
음성 인식에 관한 가장 최근의 책은 마이크로소프트 연구원 D에 의해 쓰여진 자동 음성 인식: 딥 러닝 접근법이다.Yu와 L.DNN 및 관련 [75]딥러닝 방법을 기반으로 한 최신 음성 인식 시스템에서 딥러닝 방법이 어떻게 도출되고 구현되는지에 대한 매우 수학적인 기술적 세부사항을 포함하여 2014년 말경에 출판되었습니다.2014년 초에 출판된 관련 책 "Deep Learning:"메서드와 어플리케이션"을 참조하십시오.덩과 D.Yu는 2009-2014년 DNN 기반 음성 인식에 대한 기술적인 측면은 덜하지만 방법론적인 개요를 제공합니다.이것은 음성 인식뿐만 아니라 이미지 인식, 자연어 처리, 정보 검색, 멀티태스킹 처리, 멀티태스킹 학습을 포함한 딥 러닝 애플리케이션의 일반적인 맥락에 배치됩니다.를 클릭합니다.[71]
소프트웨어
자유롭게 이용할 수 있는 자원의 관점에서, 카네기 멜론 대학의 스핑크스 툴킷은 음성 인식에 대해 배우는 것과 실험을 시작하는 것 모두를 시작할 수 있는 장소입니다.또 다른 리소스(무료이지만 저작권이 있음)는 HTK 책(및 함께 제공되는 HTK 툴킷)입니다.최신 최신 기술에 대해서는 Kaldi 툴킷을 사용할 [115]수 있습니다.2017년 Mozilla는 구글의 오픈소스 플랫폼 [118]TensorFlow를 사용하여 무료 음성인식 프로젝트인 DeepSpeech(GitHub에서 [117]무료로 이용 가능)를 구축하는 데 도움이 되는 큰 음성 데이터베이스를 수집하기 위해 Common[116] Voice라는 오픈소스 프로젝트를 시작했다.Mozilla가 2020년에 프로젝트에서 자금을 빼돌렸을 때, 원래 개발자들은 동일한 오픈 소스 [120][121]라이선스를 사용하여 Coqui[119] STT로 분할했다.
상용 클라우드 기반 음성 인식 API를 광범위하게 사용할 수 있습니다.
소프트웨어 리소스에 대한 자세한 내용은 음성 인식 소프트웨어 목록을 참조하십시오.
「 」를 참조해 주세요.
- AI 효과
- ALPAC
- 인공지능의 응용
- 조음 음성 인식
- 오디오 마이닝
- 시청각 음성 인식
- 자동 언어 번역기
- 자동차 헤드 유닛
- 캐시 언어 모델
- 드래곤 내추럴리 스피킹
- Fluency 음성 테크놀로지
- 구글 음성 검색
- IBM ViaVoice
- 키워드 스팟팅
- 키넥트
- 몬데그린
- 멀티미디어 정보 검색
- 어원
- 음성 검색 기술
- 스피커의 디알리제이션
- 스피커 인식
- 음성 분석
- 음성 인터페이스 가이드라인
- Linux용 음성 인식 소프트웨어
- 음성 합성
- 음성 검증
- 부제(자막)
- 음성 XML
- 복스 포지
- Windows 음성 인식
- 리스트
레퍼런스
- ^ "Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation". Fifthgen.com. Archived from the original on 11 November 2013. Retrieved 15 June 2013.
- ^ P. Nguyen (2010). "Automatic classification of speaker characteristics". International Conference on Communications and Electronics 2010. pp. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN 978-1-4244-7055-6. S2CID 13482115.
- ^ "British English definition of voice recognition". Macmillan Publishers Limited. Archived from the original on 16 September 2011. Retrieved 21 February 2012.
- ^ "voice recognition, definition of". WebFinance, Inc. Archived from the original on 3 December 2011. Retrieved 21 February 2012.
- ^ "The Mailbag LG #114". Linuxgazette.net. Archived from the original on 19 February 2013. Retrieved 15 June 2013.
- ^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533.
- ^ Reynolds, Douglas; Rose, Richard (January 1995). "Robust text-independent speaker identification using Gaussian mixture speaker models" (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1): 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. Archived (PDF) from the original on 8 March 2014. Retrieved 21 February 2014.
- ^ "Speaker Identification (WhisperID)". Microsoft Research. Microsoft. Archived from the original on 25 February 2014. Retrieved 21 February 2014.
When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound.
- ^ "Obituaries: Stephen Balashek". The Star-Ledger. 22 July 2012.
- ^ "IBM-Shoebox-front.jpg". androidauthority.net. Retrieved 4 April 2019.
- ^ Juang, B. H.; Rabiner, Lawrence R. "Automatic speech recognition–a brief history of the technology development" (PDF): 6. Archived (PDF) from the original on 17 August 2014. Retrieved 17 January 2015.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ a b Melanie Pinola (2 November 2011). "Speech Recognition Through the Decades: How We Ended Up With Siri". PC World. Retrieved 22 October 2018.
- ^ Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
- ^ John R. Pierce (1969). "Whither speech recognition?". Journal of the Acoustical Society of America. 46 (48): 1049–1051. Bibcode:1969ASAJ...46.1049P. doi:10.1121/1.1911801.
- ^ Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng (2008). Springer Handbook of Speech Processing. Springer Science & Business Media. ISBN 978-3540491255.
- ^ John Makhoul. "ISCA Medalist: For leadership and extensive contributions to speech and language processing". Archived from the original on 24 January 2018. Retrieved 23 January 2018.
- ^ Blechman, R. O.; Blechman, Nicholas (23 June 2008). "Hello, Hal". The New Yorker. Archived from the original on 20 January 2015. Retrieved 17 January 2015.
- ^ Klatt, Dennis H. (1977). "Review of the ARPA speech understanding project". The Journal of the Acoustical Society of America. 62 (6): 1345–1366. Bibcode:1977ASAJ...62.1345K. doi:10.1121/1.381666.
- ^ Rabiner (1984). "The Acoustics, Speech, and Signal Processing Society. A Historical Perspective" (PDF). Archived (PDF) from the original on 9 August 2017. Retrieved 23 January 2018.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ "First-Hand:The Hidden Markov Model – Engineering and Technology History Wiki". ethw.org. 12 January 2015. Archived from the original on 3 April 2018. Retrieved 1 May 2018.
- ^ a b "James Baker interview". Archived from the original on 28 August 2017. Retrieved 9 February 2017.
- ^ "Pioneering Speech Recognition". 7 March 2012. Archived from the original on 19 February 2015. Retrieved 18 January 2015.
- ^ a b c Xuedong Huang; James Baker; Raj Reddy. "A Historical Perspective of Speech Recognition". Communications of the ACM. Archived from the original on 20 January 2015. Retrieved 20 January 2015.
- ^ Juang, B. H.; Rabiner, Lawrence R. "Automatic speech recognition–a brief history of the technology development" (PDF): 10. Archived (PDF) from the original on 17 August 2014. Retrieved 17 January 2015.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ "History of Speech Recognition". Dragon Medical Transcription. Archived from the original on 13 August 2015. Retrieved 17 January 2015.
- ^ Billi, Roberto; Canavesio, Franco; Ciaramella, Alberto; Nebbia, Luciano (1 November 1995). "Interactive voice technology at work: The CSELT experience". Speech Communication. 17 (3): 263–271. doi:10.1016/0167-6393(95)00030-R.
- ^ Kevin McKean (8 April 1980). "When Cole talks, computers listen". Sarasota Journal. AP. Retrieved 23 November 2015.
- ^ "ACT/Apricot - Apricot history". actapricot.org. Retrieved 2 February 2016.
- ^ Melanie Pinola (2 November 2011). "Speech Recognition Through the Decades: How We Ended Up With Siri". PC World. Archived from the original on 13 January 2017. Retrieved 28 July 2017.
- ^ "Ray Kurzweil biography". KurzweilAINetwork. Archived from the original on 5 February 2014. Retrieved 25 September 2014.
- ^ Juang, B.H.; Rabiner, Lawrence. "Automatic Speech Recognition – A Brief History of the Technology Development" (PDF). Archived (PDF) from the original on 9 August 2017. Retrieved 28 July 2017.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ "Nuance Exec on iPhone 4S, Siri, and the Future of Speech". Tech.pinions. 10 October 2011. Archived from the original on 19 November 2011. Retrieved 23 November 2011.
- ^ "Switchboard-1 Release 2". Archived from the original on 11 July 2017. Retrieved 26 July 2017.
- ^ Jason Kincaid. "The Power of Voice: A Conversation With The Head Of Google's Speech Technology". Tech Crunch. Archived from the original on 21 July 2015. Retrieved 21 July 2015.
- ^ Froomkin, Dan (5 May 2015). "THE COMPUTERS ARE LISTENING". The Intercept. Archived from the original on 27 June 2015. Retrieved 20 June 2015.
- ^ Herve Bourlard와 Nelson Morgan, 연결주의자의 음성 인식:하이브리드 어프로치, The Kluwer International Series in Engineering and Computer Science; v. 247, 보스턴: Kluwer Academic Publishers, 1994.
- ^ a b Sepp Hochreiter; J. Schmidhuber (1997). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
- ^ Schmidhuber, Jürgen (2015). "Deep learning in neural networks: An overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
- ^ 알렉스 그레이브스, 산티아고 페르난데스, 파우스티노 고메즈, 위르겐 슈미트후버(2006).연결주의 시간 분류: 반복 신경망으로 분할되지 않은 시퀀스 데이터에 라벨을 붙인다.ICML'06의 절차, 페이지 369–376.
- ^ 산티아고 페르난데스, 알렉스 그레이브스, 위르겐 슈미트후버(2007).식별 키워드 스팟에 대한 반복 신경망의 적용.ICANN의 절차(2), 페이지 220–229.
- ^ a b Hashim Sak, Andrew Senior, Kanishka Rao, Francise Beaufays, Johan Schalkwyk(2015년 9월): "구글 음성 검색: 더 빠르고 정확합니다."2016년 3월 9일 Wayback Machine에 보관
- ^ "Li Deng". Li Deng Site.
- ^ NIPS 워크숍: 음성 인식 및 관련 애플리케이션을 위한 딥 러닝(Deep Learning for Speech Recognition and Related Applications), 2009년 12월 (주최자: Li Deng, Geoff Hinton, D. Yu).
- ^ a b c Hinton, Geoffrey; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-Rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The shared views of four research groups". IEEE Signal Processing Magazine. 29 (6): 82–97. Bibcode:2012ISPM...29...82H. doi:10.1109/MSP.2012.2205597. S2CID 206485943.
- ^ a b Deng, L.; Hinton, G.; Kingsbury, B. (2013). "New types of deep neural network learning for speech recognition and related applications: An overview". 2013 IEEE International Conference on Acoustics, Speech and Signal Processing: New types of deep neural network learning for speech recognition and related applications: An overview. p. 8599. doi:10.1109/ICASSP.2013.6639344. ISBN 978-1-4799-0356-6. S2CID 13953660.
- ^ a b Markoff, John (23 November 2012). "Scientists See Promise in Deep-Learning Programs". New York Times. Archived from the original on 30 November 2012. Retrieved 20 January 2015.
- ^ Morgan, Bourlard, Renals, Cohen, Franco(1993) "연속 음성 인식을 위한 하이브리드 신경망/숨겨진 마르코프 모델 시스템.ICASSP/IJPRAI"
- ^ T. Robinson (1992). "A real-time recurrent error propagation network word recognition system". [Proceedings] ICASSP-92: 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing. pp. 617–620 vol.1. doi:10.1109/ICASSP.1992.225833. ISBN 0-7803-0532-9. S2CID 62446313.
- ^ 와이벨, 하나자와, 힌톤, 시카노, 랑.(1989) 「시간 지연 신경망을 이용한 음성 인식.음향, 음성, 신호 처리에 관한 IEEE 트랜잭션입니다.
- ^ Baker, J.; Li Deng; Glass, J.; Khudanpur, S.; Chin-Hui Lee; Morgan, N.; O'Shaughnessy, D. (2009). "Developments and Directions in Speech Recognition and Understanding, Part 1". IEEE Signal Processing Magazine. 26 (3): 75–80. Bibcode:2009ISPM...26...75B. doi:10.1109/MSP.2009.932166. hdl:1721.1/51891. S2CID 357467.
- ^ Sepp Hochreiter(1991), Untersuchungen zu dynamischen neuronalen Netzen 2015년 3월 6일 Wayback Machine, 졸업장 논문 아카이브.연구소 f.Informatik, Technische University.뮌헨.어드바이저: J. Schmidhuber.
- ^ Bengio, Y. (1991). Artificial Neural Networks and their Application to Speech/Sequence Recognition (Ph.D.). McGill University.
- ^ Deng, L.; Hassanein, K.; Elmasry, M. (1994). "Analysis of the correlation structure for a neural predictive model with application to speech recognition". Neural Networks. 7 (2): 331–339. doi:10.1016/0893-6080(94)90027-2.
- ^ 기조 강연:심층 신경망의 최근 발전.ICASSP, 2013(Geoff Hinton 지음).
- ^ a b 기조강연: "딥러닝의 성과와 과제: 「음성 분석과 인식으로부터 언어와 멀티 모드 처리까지」인터스페크, 2014년 9월(Li Deng씨).
- ^ "Improvements in voice recognition software increase". TechRepublic.com. 27 August 2002.
Maners said IBM has worked on advancing speech recognition ... or on the floor of a noisy trade show.
- ^ "Voice Recognition To Ease Travel Bookings: Business Travel News". BusinessTravelNews.com. 3 March 1997.
The earliest applications of speech recognition software were dictation ... Four months ago, IBM introduced a 'continual dictation product' designed to ... debuted at the National Business Travel Association trade show in 1994.
- ^ Ellis Booker (14 March 1994). "Voice recognition enters the mainstream". Computerworld. p. 45.
Just a few years ago, speech recognition was limited to ...
- ^ "Microsoft researchers achieve new conversational speech recognition milestone". Microsoft. 21 August 2017.
- ^ Goel, Vaibhava; Byrne, William J. (2000). "Minimum Bayes-risk automatic speech recognition". Computer Speech & Language. 14 (2): 115–135. doi:10.1006/csla.2000.0138. Archived from the original on 25 July 2011. Retrieved 28 March 2011.
- ^ Mohri, M. (2002). "Edit-Distance of Weighted Automata: General Definitions and Algorithms" (PDF). International Journal of Foundations of Computer Science. 14 (6): 957–982. doi:10.1142/S0129054103002114. Archived (PDF) from the original on 18 March 2012. Retrieved 28 March 2011.
- ^ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (1989). "Phoneme recognition using time-delay neural networks". IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328–339. doi:10.1109/29.21701. hdl:10338.dmlcz/135496.
- ^ Bird, Jordan J.; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "Optimisation of phonetic aware speech recognition through multi-objective evolutionary algorithms" (PDF). Expert Systems with Applications. Elsevier BV. 153: 113402. doi:10.1016/j.eswa.2020.113402. ISSN 0957-4174. S2CID 216472225.
- ^ Wu, J.; Chan, C. (1993). "Isolated Word Recognition by Neural Network Models with Cross-Correlation Coefficients for Speech Dynamics". IEEE Transactions on Pattern Analysis and Machine Intelligence. 15 (11): 1174–1185. doi:10.1109/34.244678.
- ^ S. A. Zahorian, A. M. Zimmer, F.ICSLP 2002의 Meng, (2002) "청각장애인을 위한 언어 훈련을 위한 컴퓨터 기반 시각적 피드백에 대한 Vowel Classification for Computer based Visual Feedback for the Speech Training for the 청각장애인을 위한 음성 훈련"
- ^ Hu, Hongbing; Zahorian, Stephen A. (2010). "Dimensionality Reduction Methods for HMM Phonetic Recognition" (PDF). ICASSP 2010. Archived (PDF) from the original on 6 July 2012.
- ^ Fernandez, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Sequence labelling in structured domains with hierarchical recurrent neural networks" (PDF). Proceedings of IJCAI. Archived (PDF) from the original on 15 August 2017.
- ^ Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Speech recognition with deep recurrent neural networks". arXiv:1303.5778 [cs.NE]. ICASSP 2013.
- ^ Waibel, Alex (1989). "Modular Construction of Time-Delay Neural Networks for Speech Recognition" (PDF). Neural Computation. 1 (1): 39–46. doi:10.1162/neco.1989.1.1.39. S2CID 236321. Archived (PDF) from the original on 29 June 2016.
- ^ Maas, Andrew L.; Le, Quoc V.; O'Neil, Tyler M.; Vinyals, Oriol; Nguyen, Patrick; Ng, Andrew Y. (2012). "Recurrent Neural Networks for Noise Reduction in Robust ASR". Proceedings of Interspeech 2012.
- ^ a b Deng, Li; Yu, Dong (2014). "Deep Learning: Methods and Applications" (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 197–387. CiteSeerX 10.1.1.691.3679. doi:10.1561/2000000039. Archived (PDF) from the original on 22 October 2014.
- ^ Yu, D.; Deng, L.; Dahl, G. (2010). "Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition" (PDF). NIPS Workshop on Deep Learning and Unsupervised Feature Learning.
- ^ Dahl, George E.; Yu, Dong; Deng, Li; Acero, Alex (2012). "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition". IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 30–42. doi:10.1109/TASL.2011.2134090. S2CID 14862572.
- ^ 덩 L., 리, 제이, 황, 제이, 야오, 케이, 유, 디, 세이데, 에프 등마이크로소프트 스피치 리서치를 위한 딥 러닝의 최근 진보.ICASSP, 2013.
- ^ a b Yu, D.; Deng, L. (2014). "Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)".
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - ^ Deng, L.; Li, Xiao (2013). "Machine Learning Paradigms for Speech Recognition: An Overview" (PDF). IEEE Transactions on Audio, Speech, and Language Processing. 21 (5): 1060–1089. doi:10.1109/TASL.2013.2244083. S2CID 16585863.
- ^ Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.
- ^ L. 덩, M. 셀처, D유, A. 아세로, A.모하메드, 그리고 G.Hinton (2010) 딥 오토 인코더를 사용한 음성 스펙트럼의 바이너리 부호화.인터스피치
- ^ Tüske, Zoltán; Golik, Pavel; Schlüter, Ralf; Ney, Hermann (2014). "Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR" (PDF). Interspeech 2014. Archived (PDF) from the original on 21 December 2016.
- ^ Jurafsky, Daniel (2016). Speech and Language Processing.
- ^ Graves, Alex (2014). "Towards End-to-End Speech Recognition with Recurrent Neural Networks" (PDF). ICML.
- ^ Amodei, Dario (2016). "Deep Speech 2: End-to-End Speech Recognition in English and Mandarin". arXiv:1512.02595 [cs.CL].
- ^ "LipNet: How easy do you think lipreading is?". YouTube. Archived from the original on 27 April 2017. Retrieved 5 May 2017.
- ^ Assael, Yannis; Shillingford, Brendan; Whiteson, Shimon; de Freitas, Nando (5 November 2016). "LipNet: End-to-End Sentence-level Lipreading". arXiv:1611.01599 [cs.CV].
- ^ Shillingford, Brendan; Assael, Yannis; Hoffman, Matthew W.; Paine, Thomas; Hughes, Cían; Prabhu, Utsav; Liao, Hank; Sak, Hasim; Rao, Kanishka (13 July 2018). "Large-Scale Visual Speech Recognition". arXiv:1807.05162 [cs.CV].
- ^ Chan, William; Jaitly, Navdeep; Le, Quoc; Vinyals, Oriol (2016). "Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition" (PDF). ICASSP.
- ^ Bahdanau, Dzmitry (2016). "End-to-End Attention-based Large Vocabulary Speech Recognition". arXiv:1508.04395 [cs.CL].
- ^ Chorowski, Jan; Jaitly, Navdeep (8 December 2016). "Towards better decoding and language model integration in sequence to sequence models". arXiv:1612.02695 [cs.NE].
- ^ Chan, William; Zhang, Yu; Le, Quoc; Jaitly, Navdeep (10 October 2016). "Latent Sequence Decompositions". arXiv:1610.03035 [stat.ML].
- ^ Chung, Joon Son; Senior, Andrew; Vinyals, Oriol; Zisserman, Andrew (16 November 2016). "Lip Reading Sentences in the Wild". 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 3444–3453. arXiv:1611.05358. doi:10.1109/CVPR.2017.367. ISBN 978-1-5386-0457-1. S2CID 1662180.
- ^ Englund, Christine (2004). Speech recognition in the JAS 39 Gripen aircraft: Adaptation to speech at different G-loads (PDF) (Masters thesis). Stockholm Royal Institute of Technology. Archived (PDF) from the original on 2 October 2008.
- ^ "The Cockpit". Eurofighter Typhoon. Archived from the original on 1 March 2017.
- ^ "Eurofighter Typhoon – The world's most advanced fighter aircraft". www.eurofighter.com. Archived from the original on 11 May 2013. Retrieved 1 May 2018.
- ^ Schutte, John (15 October 2007). "Researchers fine-tune F-35 pilot-aircraft speech system". United States Air Force. Archived from the original on 20 October 2007.
- ^ Cerf, Vinton; Wrubel, Rob; Sherwood, Susan. "Can speech-recognition software break down educational language barriers?". Curiosity.com. Discovery Communications. Archived from the original on 7 April 2014. Retrieved 26 March 2014.
- ^ a b "Speech Recognition for Learning". National Center for Technology Innovation. 2010. Archived from the original on 13 April 2014. Retrieved 26 March 2014.
- ^ Follensbee, Bob; McCloskey-Dale, Susan (2000). "Speech recognition in schools: An update from the field". Technology And Persons With Disabilities Conference 2000. Archived from the original on 21 August 2006. Retrieved 26 March 2014.
- ^ "Overcoming Communication Barriers in the Classroom". MassMATCH. 18 March 2010. Archived from the original on 25 July 2013. Retrieved 15 June 2013.
- ^ "Speech recognition for disabled people". Archived from the original on 4 April 2008.
- ^ 프렌즈 인터내셔널 서포트 그룹
- ^ Garrett, Jennifer Tumlin; et al. (2011). "Using Speech Recognition Software to Increase Writing Fluency for Individuals with Physical Disabilities". Journal of Special Education Technology. 26 (1): 25–41. doi:10.1177/016264341102600104. S2CID 142730664.
- ^ 용서하세요, 캐런 E "어시스턴스 테크놀로지:장애를 가진 학생에게 힘을 실어주는 것"클리어 하우스 75.3 (2002년): 122 대 6.웹.
- ^ Tang, K. W.; Kamoua, Ridha; Sutan, Victor (2004). "Speech Recognition Technology for Disabilities Education". Journal of Educational Technology Systems. 33 (2): 173–84. CiteSeerX 10.1.1.631.3736. doi:10.2190/K6K8-78K2-59Y7-R9R2. S2CID 143159997.
- ^ "Projects: Planetary Microphones". The Planetary Society. Archived from the original on 27 January 2012.
- ^ Caridakis, George; Castellano, Ginevra; Kessous, Loic; Raouzaiou, Amaryllis; Malatesta, Lori; Asteriadis, Stelios; Karpouzis, Kostas (19 September 2007). Multimodal emotion recognition from expressive faces, body gestures and speech. IFIP the International Federation for Information Processing. Vol. 247. Springer US. pp. 375–388. doi:10.1007/978-0-387-74161-1_41. ISBN 978-0-387-74160-4.
- ^ "What is real-time captioning? DO-IT". www.washington.edu. Retrieved 11 April 2021.
- ^ Zheng, Thomas Fang; Li, Lantian (2017). Robustness-Related Issues in Speaker Recognition. SpringerBriefs in Electrical and Computer Engineering. Singapore: Springer Singapore. doi:10.1007/978-981-10-3238-7. ISBN 978-981-10-3237-0.
- ^ 키아라멜라, 알베르토"시제품 성능 평가 보고서"해시계 워크패키지 8000(1993)
- ^ Gerbino, E.; Baggia, P.; Ciaramella, A.; Rullent, C. (1993). "Test and evaluation of a spoken dialogue system". IEEE International Conference on Acoustics Speech and Signal Processing. pp. 135–138 vol.2. doi:10.1109/ICASSP.1993.319250. ISBN 0-7803-0946-4. S2CID 57374050.
- ^ 미국 국립 표준 기술 연구소"2013년 10월 8일 Wayback Machine에서 NIST 아카이브된 자동 음성 인식 평가의 역사"
- ^ "Listen Up: Your AI Assistant Goes Crazy For NPR Too". NPR. 6 March 2016. Archived from the original on 23 July 2017.
- ^ Claburn, Thomas (25 August 2017). "Is it possible to control Amazon Alexa, Google Now using inaudible commands? Absolutely". The Register. Archived from the original on 2 September 2017.
- ^ "Attack Targets Automatic Speech Recognition Systems". vice.com. 31 January 2018. Archived from the original on 3 March 2018. Retrieved 1 May 2018.
- ^ Beigi, Homayoon (2011). Fundamentals of Speaker Recognition. New York: Springer. ISBN 978-0-387-77591-3. Archived from the original on 31 January 2018.
- ^ Powvey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N.... & Vesely, K. (2011년)Kaldi 음성 인식 툴킷입니다.IEEE 2011 자동 음성 인식 및 이해 워크숍(No. CONF).IEEE 신호 처리 협회
- ^ "Common Voice by Mozilla". voice.mozilla.org.
- ^ "A TensorFlow implementation of Baidu's DeepSpeech architecture: mozilla/DeepSpeech". 9 November 2019 – via GitHub.
- ^ "GitHub - tensorflow/docs: TensorFlow documentation". 9 November 2019 – via GitHub.
- ^ "Coqui, a startup providing open speech tech for everyone". GitHub. Retrieved 7 March 2022.
- ^ "Māori are trying to save their language from Big Tech". Wired UK. ISSN 1357-0978. Retrieved 16 October 2021.
- ^ "Why you should move from DeepSpeech to coqui.ai". Mozilla Discourse. 7 July 2021. Retrieved 16 October 2021.
추가 정보
- Pieraccini, Roberto (2012). The Voice in the Machine. Building Computers That Understand Speech. The MIT Press. ISBN 978-0262016858.
- Woelfel, Matthias; McDonough, John (26 May 2009). Distant Speech Recognition. Wiley. ISBN 978-0470517048.
- Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007). "Conversational Interface Technologies". In Sears, Andrew; Jacko, Julie A. (eds.). The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging Applications (Human Factors and Ergonomics). Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
- Cole, Ronald; Mariani, Joseph; Uszkoreit, Hans; Varile, Giovanni Battista; Zaenen, Annie; Zampolli; Zue, Victor, eds. (1997). Survey of the state of the art in human language technology. Cambridge Studies in Natural Language Processing. Vol. XII–XIII. Cambridge University Press. ISBN 978-0-521-59277-2.
- Junqua, J.-C.; Haton, J.-P. (1995). Robustness in Automatic Speech Recognition: Fundamentals and Applications. Kluwer Academic Publishers. ISBN 978-0-7923-9646-8.
- Pirani, Giancarlo, ed. (2013). Advanced algorithms and architectures for speech understanding. Springer Science & Business Media. ISBN 978-3-642-84341-9.