오디오 마이닝

오디오 마이닝은 오디오 신호의 내용을 자동으로 분석하고 검색할 수 있는 기술이다.그것은 자동 음성 인식 분야에서 가장 일반적으로 사용되며, 분석은 오디오 내에서 어떤 음성도 식별하려고 시도한다.'오디오 마이닝'이라는 용어는 오디오 인덱싱, 음성 검색, 음성 인덱싱, 음성 인덱싱, 오디오 분석, 음성 분석, 워드 스팟팅, 정보 검색과 호환해서 사용되기도 한다.그러나 오디오 인덱싱은 주로 오디오 파일을 검색 가능한 단어 색인으로 분해하는 오디오 마이닝의 사전 프로세스를 설명하는데 사용된다.null

역사

오디오 채굴에 대한 학문적 연구는 1970년대 후반 카네기 멜론 대학, 컬럼비아 대학, 조지아 공과대학교, 텍사스 대학교와 같은 학교에서 시작되었다.^[1]오디오 데이터 인덱싱과 검색은 멀티미디어 콘텐츠가 발달하기 시작하고 오디오 콘텐츠 볼륨이 크게 늘어난 1990년대 초반부터 관심과 요구를 받기 시작했다.^[2]오디오 마이닝이 주류화되기 전에, 오디오 콘텐츠의 서면 대본을 만들어 수작업으로 분석하였다.^[3]null

과정

오디오 마이닝은 일반적으로 오디오 인덱싱, 음성 처리 및 인식 시스템, 기능 추출 및 오디오 분류의 네 가지 요소로 나뉜다.^[4]오디오는 일반적으로 음성 인식 시스템에 의해 처리되어 구어 내용에서 발생하기 쉬운 단어나 음소 단위를 식별한다.이 정보는 미리 정의된 키워드 또는 구문 검색(실시간 "워드 스팟팅" 시스템)에 즉시 사용되거나 음성 인식기의 출력이 인덱스 파일에 저장될 수 있다.그런 다음 키워드 또는 구문을 검색하기 위해 하나 이상의 오디오 마이닝 인덱스 파일을 나중에 로드할 수 있다.검색 결과는 일반적으로 히트(hits)의 관점에서, 선택한 키워드와 잘 일치하는 파일 내의 영역이다.그런 다음 사용자는 정확한 일치 항목이 발견되었는지 확인하기 위해 이러한 적중 횟수에 해당하는 오디오를 청취할 수 있다.null

오디오 인덱싱

오디오에서는 정보 검색의 주요 문제가 있다 - 검색 키가 들어 있는 텍스트 문서를 찾을 필요가 있다.인간과 달리 컴퓨터는 속도, 기분, 소음, 음악 또는 인간의 언어와 같은 다양한 종류의 오디오를 구별할 수 없다. 효과적인 검색 방법이 필요하다.따라서, 오디오 인덱싱은 음성 인식을 사용하여 파일 전체를 분석함으로써 효율적인 정보 검색을 가능하게 한다.그런 다음 추출된 오디오 기능에 초점을 맞춘 콘텐츠 인덱스가 생성되어 콘텐츠 기반 오디오 검색을 통해 단어와 그 위치를 파악한다.null

주로 LVCSR(Large Lography Continuous Speech Incognition)과 음성 기반 인덱싱의 두 가지 방법을 통해 이루어진다.null

어휘 연속 음성 인식자(LVCSR)

텍스트 기반 인덱싱 또는 큰 어휘 연속 음성 인식(LVCSR)에서 오디오 파일은 먼저 인식 가능한 음성으로 분해된다.그런 다음 수십만 개의 항목이 포함될 수 있는 사전을 통해 실행되며 단어와 구를 매치하여 전체 텍스트 대본을 만든다.사용자는 원하는 단어를 간단히 검색할 수 있으며 오디오 콘텐츠의 관련 부분이 반환될 것이다.사전에서 텍스트나 단어를 찾을 수 없는 경우, 시스템은 찾을 수 있는 가장 유사한 항목을 선택할 것이다.이 시스템은 언어 이해 모델을 사용하여 일치하는 항목에 대한 신뢰 수준을 만든다.신뢰 수준이 100% 미만이면 시스템은 발견된 모든 일치 항목의 옵션을 제공할 것이다.^[5]null

장단점

LVCSR의 주된 매력은 높은 정확도와 높은 검색 속도다.LVCSR에서는 통계적 방법을 사용하여 서로 다른 단어 시퀀스의 가능성을 예측하므로 음성 검색의 단일 단어 검색보다 정확도가 훨씬 높다.만약 그 단어가 발견될 수 있다면, 그 단어가 사용될 확률은 매우 높다.^[6]한편, 오디오의 초기 처리에는 상당한 시간이 소요되지만, 텍스트 매칭에 대한 간단한 테스트가 필요하기 때문에 검색이 빠르다.null

반면에 LVCSR은 음성 인식이라는 일반적인 문제에 취약하다.오디오의 본질적인 무작위성과 외부 노이즈의 문제는 모두 텍스트 기반 인덱싱의 정확성에 영향을 미친다.null

LVCSR의 또 다른 문제는 사전 데이터베이스에 대한 과도한 의존이다.LVCSR은 사전 데이터베이스에서 발견된 단어만 인식하며, 이러한 사전과 데이터베이스는 새로운 용어, 이름, 단어의 지속적인 진화를 따라갈 수 없다.사전에 단어를 포함하지 않으면, 시스템이 그것을 식별하거나 예측할 방법이 없다.이것은 시스템의 정확성과 신뢰성을 감소시킨다.이것은 Out-of-bush(OOV) 문제라는 이름이다.오디오 마이닝 시스템은 사용되는 사전과 언어 모델을 지속적으로 업데이트하여 OOV에 대처하려고 하지만, 여전히 문제가 유의미하며 대안을 모색하고 있다.^[7]null

또한, OOV 문제에 대처하기 위해 업무 기반 지식 및 대규모 훈련 데이터베이스를 지속적으로 업데이트하고 유지해야 하는 필요성 때문에 높은 계산 비용이 발생한다.이것은 LVCSR을 오디오 마이닝에 대한 값비싼 접근법으로 만든다.null

음성 기반 인덱싱

음성 기반 인덱싱도 오디오 파일을 인식 가능한 음성으로 분해하지만 텍스트 인덱스로 변환하는 대신 그대로 보관하고 분석하여 음성 기반 인덱스를 만든다.음성 기반 지수화 과정은 두 단계로 나눌 수 있다.첫 번째 단계는 지수화다.입력 매체를 표준 오디오 표현 형식(PCM)으로 변환하는 것으로 시작한다.그리고 나서, 연설에 어쿠스틱 모델이 적용된다.이 음향 모델은 어쿠스틱 채널(음성 및 변환기가 녹음된 환경)과 자연 언어(인류가 입력 음성을 표현하는 환경)의 특성을 모두 나타낸다.이것은 해당 음성 검색 트랙, 즉 입력 매체의 음성 내용을 고도로 압축한 표현인 음성 오디오 트랙(PAT)을 생산한다.두 번째 단계는 탐색이다.사용자의 검색 질의어는 음성사전을 이용하여 가능한 음운 문자열로 구문 분석한다.그런 다음 쿼리 용어의 해당 음소 문자열과 밀접하게 일치하는 음성 시퀀스를 한 번의 검색 동안 여러 개의 PAT 파일을 고속으로 스캔할 수 있다.^[8]^[9]null

장단점

음성 인덱싱은 인식되지 않는 단어나 철자 오류와 같은 언어적 문제에 크게 영향을 받지 않기 때문에 가장 매력적이다.음성 전처리법은 업데이트가 필요하지 않은 개방형 어휘를 유지한다.그것은 특히 사전에서 흔히 등장하지 않는 외국어의 전문용어나 단어를 검색하는데 유용하게 만든다.또한 식별 가능한 소리를 기반으로 결과를 컴파일할 수 있고 사용자가 원할 경우 원하는 항목을 찾을 때까지 옵션을 검색할 수 있기 때문에 배경 잡음 및/또는 발음이 불분명한 오디오 파일을 검색하는 것이 더 효과적이다.^[10]null

게다가 LVCSR과는 대조적으로, 그것은 언어들 사이에 독특한 음소가 거의 없기 때문에 오디오 파일을 매우 빠르게 처리할 수 있다.그러나 음운은 전체 단어처럼 효과적으로 색인화할 수 없기 때문에 음성 기반 시스템에서 검색은 느리다.^[11]

음성 인덱싱의 문제점은 낮은 정확성이다.음성 기반 검색은 텍스트 기반 인덱싱보다 더 많은 거짓 일치 결과를 낳는다.이것은 특히 다른 단어와 비슷하게 들리거나 더 큰 단어의 일부가 될 가능성이 더 높은 짧은 검색어에 널리 퍼져있다.그것은 또한 다른 언어로부터 관련 없는 결과를 반환할 수도 있다.시스템이 단어 전체를 정확히 인식하거나 언어의 음성 순서를 이해하지 않는 한, 음성 기반 인덱싱은 정확한 결과를 반환하기 어렵다.^[12]

음성 처리 및 인식 시스템

오디오 마이닝의 가장 중요하고 복잡한 요소로 간주되는 음성 인식은 인간의 음성 생산 시스템과 그 모델링에 대한 지식을 요구한다.null

인간 음성 생산 시스템에 대응하기 위해 전기 음성 생산 시스템은 다음과 같이 구성되도록 개발된다.

음성 생성
음성 인식
음성 & 음성이 없는 음성
인간 언어의 모델

전기 음성 생산 시스템은 음향 신호를 모든 음소가 표현되는 소프트웨어에서 음향 모델을 통해 말하는 이의 해당 표현으로 변환한다.통계 언어 모델은 특정 언어에서 단어가 서로 얼마나 잘 따라갈 수 있는지를 확인함으로써 그 과정을 돕는다.복잡한 확률 분석과 함께, 음성 인식 시스템은 알려지지 않은 음성 신호를 받아 프로그램의 사전을 바탕으로 단어로 변환할 수 있다.^[13]^[14]null

ASR(자동 음성 인식) 시스템에는 다음이 포함된다.

음향 분석: 입력 사운드 파형이 형상으로 변환됨
음향 모델: 음성 신호와 음소, 발음 모델과 언어 모델 사이의 관계를 설정한다.훈련 알고리즘은 음성 데이터베이스에 적용되어 각 음소의 통계적 표현을 만들어내므로 음소 집합과 그 확률 측정으로 음향 모델을 생성한다.
발음 모델:음핵은 특정 단어에 매핑된다.
언어 모델:단어는 의미 있는 문장을 형성하도록 구성된다.

음성 처리의 일부 응용 프로그램에는 음성 인식, 음성 부호화, 스피커 인증, 음성 향상 및 음성 합성이 포함된다.null

피쳐 추출

전체 음성 인식 프로세스의 전제 조건인 기능 추출은 시스템 내에서 먼저 설정되어야 한다.오디오 파일은 중요한 정보가 손실되지 않도록 처음부터 끝까지 처리해야 한다.null

음원을 음, 추, 리듬, 부조화, 자기 상관 및 신호의 예측 가능성, 통계 패턴, 동적 특성에 기반한 기타 특징을 통해 구별한다.null

형상 추출 내에서 표준화를 시행하는 것은 국제 MPEG-7 표준 형상을 통해 규제된다. 여기서 오디오 또는 음성 신호 분류를 위한 형상은 특정 형상의 측면에서 원시 데이터를 분석하고 나타내기 위해 사용되는 기법의 관점에서 고정된다.null

표준 음성 추출 기술:

LPC(Linear Prediction Coding)는 이전 음성 샘플을 분석하여 현재 음성 샘플을 추정한다.
멜빈도계수(MFCC)는 멜 척도를 이용한 파라메트릭 형식을 통한 음성 신호를 나타낸다.
사람의 말을 고려한 지각 선형 예측(PLP)

그러나 세 가지 기법은 비정전 신호가 무시되기 때문에 이상적이지 않다.비정전 신호는 푸리에와 단시간 푸리에를 사용하여 분석할 수 있으며, 시간 변동 신호는 웨이브릿과 이산 웨이브릿 변환(DWT)을 사용하여 분석한다.null

오디오 분류

오디오 분류는 감독하는 학습의 한 형태로, 오디오 녹음의 분석을 포함한다.그것은 음향 데이터 분류, 환경 음향 분류, 음악 분류, 자연 언어 발성 분류 등 몇 가지 범주로 나뉜다.^[15]이 과정에 자주 사용되는 특징은 피치, 추골, 리듬, 부조화, 오디오 상관관계 등이 있지만, 다른 특징들도 사용될 수 있다.k-Neest Neighbors 또는 naïve Bayes 분류기와 같이 기존의 분류자를 사용하여 오디오 분류하는 몇 가지 방법이 있다.기계는 주석이 달린 오디오 데이터를 사용하여 소리를 식별하고 분류하는 법을 배운다.null

또한 영상 분류와 같은 다른 분야에서 효과적이기 때문에 음성 인식과 오디오 분류를 위해 심층 신경망을 이용하는 연구도 있었다.^[16]DNN을 사용하는 한 가지 방법은 분류를 수행하기 위해 분광기로 오디오 파일을 이미지 파일로 변환하는 것이다.^[17]^[18]null

오디오 마이닝 응용 프로그램

오디오 마이닝은 음악 오디오 마이닝(음악 정보 검색이라고도 함)과 같은 영역에서 사용되는데, 이는 멜로디, 조화 또는 리듬 구조와 같은 음악의 한 조각의 지각적으로 중요한 특성을 식별하는 것과 관련이 있다.그런 다음 멜로디, 조화 및/또는 리듬 특성 면에서 유사한 음악을 찾기 위해 검색을 수행할 수 있다.null

언어학 분야에서는 음성 처리와 의미 분석에 오디오 채굴이 이용되어 왔다.^[19]시청각 데이터를 처리하는 데 있어서 오디오 마이닝의 효율성은 스피커 식별과 분할뿐만 아니라 텍스트 전사에도 도움을 준다.이 과정을 통해 음성은 정보를 식별하거나, 오디오에서 말하는 키워드를 통해 정보를 추출하기 위해 분류할 수 있다.특히, 이것은 음성 분석에 이용되어 왔다.콜센터는 이 기술을 활용해 음색, 감성, 음색 등의 변화를 파악해 실시간 분석을 실시해 의사결정엔진이나 인공지능에 의해 처리돼 추가 조치를 취하고 있다.^[20]음성 인식 및 텍스트 음성 대 음성 응용 분야에서 추가 사용이 확인되었다.null

동영상 데이터 채굴 등 프로젝트에서도 영상 채굴과 연계해 활용됐다.null

참고 항목

참조

^ Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.
^ Zhang, Zhongfei; Zhang, Ruofei (2008). Multimedia data mining: a systematic introduction to concepts and theory. CRC Press. ISBN 9781584889670.
^ Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.
^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.
^ Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.
^ Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.
^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.
^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.
^ Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.
^ Cardillo, P.; Clements, M.; Miller, M. (2002). "Phonetic Searching vs. LVCSR: How to Find What You Really Want in Audio Archives". International Journal of Speech Technology. 5 (1): 9–22. doi:10.1023/A:1013670312989. S2CID 36313454. Retrieved April 23, 2020.
^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.
^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.
^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.
^ Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.
^ Lim, Hengtee. "What is Audio Classification?". Lionbridge. Retrieved 20 April 2020.
^ Smales, Mike. "Sound Classification using Deep Learning". Medium. Retrieved 20 April 2020.
^ Hartquist, John. "Audio Classification using FastAI and On-the-Fly Frequency Transforms". towards data science. Retrieved 20 April 2020.
^ Vasani, Dipam. "Sound classification using Images, fastai". towards data science. Medium. Retrieved 21 April 2020.
^ Ezzat, Souraya; El Gayar, Neamat; Ghanem, Moustafa M. (2012). "Sentiment Analysis of Call Centre Audio Conversations using Text Classification" (PDF). International Journal of Computer Information Systems and Industrial Management Applications. 4: 619–627.
^ Klie, Leonard. "The Age of Speech Analytics Is Close at Hand". destinationCRM.com. Retrieved 12 April 2020.

추가 읽기

Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.

외부 링크

오디오 처리 및 음성 인식:개념, 기술 및 연구 개요

이 컴퓨터 언어학 관련 기사는 단조롭다.위키피디아를 확장하여 도울 수 있다.

[1] Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.

[2] Zhang, Zhongfei; Zhang, Ruofei (2008). Multimedia data mining: a systematic introduction to concepts and theory. CRC Press. ISBN 9781584889670.

[3] Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.

[4] Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.

[5] Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.

[6] Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.

[7] Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.

[8] Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.

[9] Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.

[10] Cardillo, P.; Clements, M.; Miller, M. (2002). "Phonetic Searching vs. LVCSR: How to Find What You Really Want in Audio Archives". International Journal of Speech Technology. 5 (1): 9–22. doi:10.1023/A:1013670312989. S2CID 36313454. Retrieved April 23, 2020.

[11] Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.

[12] Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.

[13] Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Audio Processing and Speech Recognition. Springer. ISBN 978-981-13-6098-5.

[14] Leavitt, Neal (2002). "Let's hear it for audio mining". Computer. 35 (10): 23–25. doi:10.1109/MC.2002.1039511.

[15] Lim, Hengtee. "What is Audio Classification?". Lionbridge. Retrieved 20 April 2020.

[16] Smales, Mike. "Sound Classification using Deep Learning". Medium. Retrieved 20 April 2020.

[17] Hartquist, John. "Audio Classification using FastAI and On-the-Fly Frequency Transforms". towards data science. Retrieved 20 April 2020.

[18] Vasani, Dipam. "Sound classification using Images, fastai". towards data science. Medium. Retrieved 21 April 2020.

[19] Ezzat, Souraya; El Gayar, Neamat; Ghanem, Moustafa M. (2012). "Sentiment Analysis of Call Centre Audio Conversations using Text Classification" (PDF). International Journal of Computer Information Systems and Industrial Management Applications. 4: 619–627.

[20] Klie, Leonard. "The Age of Speech Analytics Is Close at Hand". destinationCRM.com. Retrieved 12 April 2020.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

Search