시간 지연 신경망

Time delay neural network
TDN 도표

TDNN([1]Time delay neural network, TDNN)은 다층형 인공신경망 구조로, 1) 네트워크의 각 계층에서 시프트-상생성이 있는 패턴을 분류하고 2) 모델 컨텍스트를 갖는 것이 목적이다.

시프트 인바리어스 분류는 분류자가 분류에 앞서 명시적인 세분화를 요구하지 않는다는 것을 의미한다. 따라서 TDNN은 시간적 패턴(예: 음성)의 분류에 있어 소리의 시작점과 끝점을 구분하기 전에 결정할 필요가 없다.

TDNN의 상황별 모델링을 위해, 각 계층의 각 신경 단위는 아래 계층의 활성화/특징뿐만 아니라, 단위 출력 패턴과 그 맥락에서 입력을 수신한다. 시간 신호의 경우 각 장치는 아래 장치로부터 시간 경과에 따른 활성화 패턴을 입력으로 수신한다. TDNN은 2차원 분류(이미지, 시간 빈도 패턴)에 적용하여 좌표 공간의 시프트-인반도로 훈련할 수 있으며 좌표 공간의 정확한 분할을 방지할 수 있다.

역사

TDNN은 1980년대 후반에 도입되어 정확한 세그먼트나 형상 경계의 자동 판정이 어렵거나 불가능한 음성 신호에서 자동 음성 인식을 위한 음성 분류 작업에 적용되었다. TDNN은 음소와 음소음 및 음소음/음소음 기능을 인식하기 때문에 정적인 분류에 비해 성능을 향상시켰다.[1][2] 2차원 신호(음성에서는 시간 빈도 패턴, [3]OCR에서는[4] 공간 패턴 조정)에도 적용했다.

최대 풀링

1990년에 야마구치 외에서는 최대 풀링의 개념을 도입했다. 그들은 스피커 독립적인 독립된 단어 인식 시스템을 실현하기 위해 TDNN과 최대 풀링을 결합함으로써 그렇게 했다.[5]

개요

시간 지연 신경 네트워크는 다른 신경 네트워크와 마찬가지로 여러 개의 상호연결된 수용체 층으로 작동하며, 피드포워드 신경 네트워크로 구현된다. TDNN의 모든 뉴런(각 레이어)은 아래 레이어에 있는 뉴런의 출력으로부터 입력을 수신하지만 두 가지 차이점이 있다.

  1. 일반 다중 계층 수용체와 달리, 각 계층에서 TDNN의 모든 장치는 아래 계층에서 출력의 상황별 에서 입력을 얻는다. 시간 변화 신호(예: 음성)의 경우, 각 장치는 아래 장치로부터의 출력뿐만 아니라 동일한 장치로부터의 시간 지연(과거) 출력에도 연결된다. 이것은 유닛의 시간적 패턴/트레젝터리를 모델링한다. 2차원 신호(예: 시간 주파수 패턴 또는 영상)의 경우 각 레이어에서 2-D 컨텍스트 창이 관찰된다. 상위 계층은 하위 계층보다 넓은 컨텍스트 창에서 입력을 가지므로 일반적으로 더 강한 추상화 수준을 모델링한다.
  2. 시프트 인바이어런스는 후방 제안 훈련 중 위치 의존성을 명시적으로 제거함으로써 달성된다. 이것은 비침습성의 차원(여기서: 시간)을 가로지르는 네트워크의 시간 변화형 복사본을 만드는 것으로 이루어진다. 그런 다음 오류 구배는 전체 대상 벡터에서 이러한 모든 네트워크를 통해 백프로그래밍을 통해 계산되지만, 체중 업데이트를 수행하기 전에 시프트 복사본과 관련된 오류 구배율은 평균이 되어 공유되고 제약조건은 같아야 한다. 그러므로, 백프로포메이션 교육에서 시프트 복사본에 이르는 모든 위치 의존성은 제거되고 복사된 네트워크는 가장 두드러진 숨겨진 특징, 즉 입력 데이터의 정확한 위치와 무관하게 변한다. 시프트 인바이어런스 또한 다차원을 따라 이동되는 복사본 간에 유사한 중량 공유를 부과함으로써 다차원으로 쉽게 확장된다.[3][4]

음성 신호의 경우 입력은 시간에 따른 스펙트럼 계수다.

TDNN은 우선 정밀한 국소화를 요구하지 않고 중요한 음향-음향 기능(예: 공식 전환, 버스트, 프래케이션 등)을 학습하기 위해 시간 이동 훈련을 받는다. 시간 이동 불변도는 훈련 중 시간 전체에 걸친 체중 공유를 통해 달성된다. TDNN의 시간 이동 복사본은 입력 범위(그림 1의 왼쪽에서 오른쪽까지)를 통해 만들어진다. 그런 다음 전체 분류 대상 벡터에서 백프로파게이션을 수행한다(TDNN 다이어그램 참조, 3개의 음소수 등급 대상(/b/, /d/, /g/)이 출력 계층에 표시됨). 따라서 일반적으로 각 시간 변화형 네트워크 복사본에 따라 달라지는 그라데이션이 발생한다. 그러나 이러한 시간변형 네트워크는 사본일 뿐이므로, 중량분할에 의해 위치 의존성이 제거된다. 이 예에서는 체중 업데이트를 수행하기 전에 각 시간 변동 복사본의 그라데이션 평균을 산출하여 이 작업을 수행한다. 스피치에서 시간 이동 불변성 훈련은 입력의 정확한 위치와 독립적인 체중 매트릭스를 학습하는 것으로 나타났다. 중량 행렬은 또한 형태 변환, 버스트 등과 같이 인간의 음성 인식에 중요하다고 알려진 중요한 음향-음향 특성을 감지하는 것으로 보일 수 있다.[1] TDNN은 사전 훈련을 통해 결합되거나 성장할 수 있다.[6]

실행

TDNN(시간 지연, 레이어 수)의 정밀한 아키텍처는 대부분 분류 문제와 가장 유용한 컨텍스트 크기에 따라 설계자가 결정한다. 지연 또는 컨텍스트 창은 각 애플리케이션별로 선택된다. 또한 이러한 수동 튜닝이 제거되는 적응 가능한 시간 지연 TDNN을[7] 만드는 작업도 수행되었다.

예술 상태

TDNN 기반 음성 인식자는 HMM 기반 전화 모델과의 초기 비교에서 유리하게 비교되었다.[1][6] 현대의 심층 TDNN 아키텍처는 더 많은 숨겨진 계층과 상위 계층의 더 넓은 컨텍스트에 걸친 하위 샘플 또는 풀 연결을 포함한다. GMM 기반 음향 모델에 비해 최대 50% 워드 오차 감소를 달성했다.[8][9] TDNN의 여러 계층은 컨텍스트 너비 증가의 특징을 학습하기 위한 것이지만, 그들은 로컬 컨텍스트를 모델링한다. 장거리 관계와 패턴 시퀀스를 처리해야 하는 경우 학습 상태와 상태 순서가 중요하며 TDNN을 다른 모델링 기법과 결합할 수 있다.[10][3][4]

적용들

음성인식

TDNN은 1989년에[2] 도입되어 초기에는 변화무쌍한 음소 인식에 초점을 맞춘 음성 인식 문제를 해결하곤 했다. 스피치 사운드는 길이가 균일하지 않고 정확한 분할이 어렵거나 불가능하기 때문에 TDNN에게 잘 어울린다. TDNN은 과거와 미래에 걸친 소리를 스캔함으로써 그 소리의 핵심 요소들에 대한 모델을 시간 이동 불변형 방식으로 구성할 수 있다. 이것은 특히 소리가 반향을 통해 퍼져나가기 때문에 유용하다.[8][9] 대형 음성 TDNN은 사전 훈련과 소형 네트워크 결합을 통해 모듈형으로 구축이 가능하다.[6]

어휘가 많은 음성인식

큰 어휘 음성인식은 큰 발음 어휘의 제약에 따라 단어를 구성하는 음소의 순서를 인식할 필요가 있다. TDNN을 큰 어휘 음성 인식자에 통합하는 것은 단어를 구성하는 음소들 사이의 상태 전환과 검색을 도입함으로써 가능하다. 결과적인 다중 상태 시간 지연 신경 네트워크(MS-TDNN)는 단어 수준에서 차별적으로 훈련될 수 있으며, 따라서 음소 분류 대신 단어 인식을 향한 전체 배치를 최적화할 수 있다.[10][11][4]

스피커 독립성

스피커 독립성을 위해 TDNN의 2차원 변형이 제안되었다.[3] 여기서 시기와 빈도(화자 가변성으로 인해 후자가 발생하기 때문에) 정확한 위치와 무관한 숨겨진 특징을 학습하기 위해 주파수 축뿐만 아니라 시간에도 시프트 인바인턴스를 적용한다.

반향

음성 인식의 지속적인 문제 중 하나는 음성이 메아리와 반향에 의해 손상되었을 때 음성을 인식하는 것이다(큰 방이나 먼 마이크에서도 그러하다). 반향은 그 자체의 지연된 버전을 가진 부패한 연설로 볼 수 있다. 그러나 일반적으로 임의의 공간에 대해서는 충동 반응 함수(따라서 신호에 의해 경험되는 경련 소음)가 알려져 있지 않기 때문에 신호를 디버버버링하기는 어렵다. TDNN은 다른 수준의 반향에도 불구하고 목소리를 강하게 인식하는데 효과적인 것으로 나타났다.[8][9]

립 리딩 – 시청각 언어

또한 TDNN은 시각적으로 입술 움직임을 읽음으로써 언어의 소리가 보완되는 시청각 언어의 초기 시연에서도 성공적으로 사용되었다.[11] 여기서 TDNN 기반 인식자는 시각적 및 음향적 특징을 공동으로 사용하여 인식 정확도를 향상시켰으며, 특히 소음 발생 시 대체 촬영장비의 보완적 정보가 신경망에서 잘 융합될 수 있었다.

필기 인식

TDNN은 소형 및 고성능 필기 인식 시스템에서 효과적으로 사용되어 왔다. Shift-invariance는 또한 이미지 오프라인 필기 인식에서 공간 패턴(x/y-axes)에 맞게 조정되었다.[4]

영상분석

비디오는 TDNN을 동작 패턴을 분석하는 이상적인 솔루션으로 만드는 시간적 차원을 가지고 있다. 이 분석의 한 예는 차량 감지 및 보행자 인식의 조합이다.[12] 비디오를 검사할 때, 후속 영상이 입력으로 TDNN에 전송되며, 각 이미지는 비디오의 다음 프레임이다. TDNN의 강도는 시간이 변경됨에 따라 탐지 가능한 물체를 정의하기 위해 시간 앞뒤로 이동된 물체를 검사하는 능력에서 비롯된다. 만약 어떤 물체가 이런 방식으로 인식될 수 있다면, 애플리케이션은 미래에 발견될 그 물체에 대해 계획을 세우고 최적의 작업을 수행할 수 있다.

이미지 인식

이후 2차원 TDNN은 이미지의 x/y 축에 시프트-상변형 훈련을 적용하는 "융합 신경 네트워크"라는 이름으로 다른 이미지 인식 과제에 적용되었다.

공용 라이브러리

  • TDNN은 방법의 동등성 때문에 1차원 경련 신경 네트워크를 사용하여 거의 모든 기계 학습 프레임워크에서 구현될 수 있다.
  • Matlab: 신경망 도구상자는 시간 지연 신경망을 생성하도록 고안된 명시적 기능을 가지고 있어 시간 지연의 단계적 크기와 선택적 훈련 기능을 제공한다. 기본 훈련 알고리즘은 Levenberg-Marquardt 최적화에 기초하여 필터 가중치를 업데이트하는 감독된 학습 백프로포메이션 알고리즘이다. 이 기능은 타임라인넷(delay, hidden_layers, train_fnc)이며, 사용자가 훈련하여 입력을 제공할 수 있는 시간 지연 신경 네트워크 아키텍처를 반환한다.[13]
  • Kaldi ASR 툴킷에는 음성 인식에 몇 가지 최적화가 적용된 TDNN이 구현되어 있다.[14]

참고 항목

  • 경련 신경 네트워크 – 데이터의 시간 축을 따라 경련이 수행되는 경련 신경망은 TDNN과 매우 유사하다.
  • 재발 신경 네트워크 – 재발 신경 네트워크는 비록 다른 방식일지라도 시간 데이터를 처리한다. RNN은 시간연봉 입력 대신 과거(및 양방향 RNN의 경우, 미래) 입력을 추적하기 위해 내부 숨겨진 레이어를 유지한다.

참조

  1. ^ a b c d 알렉산더 와이벨, 하나자와 타시유키, 제프리 힌튼, 키요히토 시카노, 케빈 J. 랭, 시간 지연 신경 네트워크이용한 음성 인식, 음향, 음성 및 신호 처리에 관한 IEEE 거래, 37권, 3권, 페이지 328.8 - 339 1989년 3월.
  2. ^ a b Alexander Waibel, 시간 지연 신경 네트워크이용한 음성 인식, SP87-100, 전기, 정보통신 기술자 협회(IEICE, Electrical, Information and Communication Engineers, IEICE, 1987년 12월,일본 도쿄
  3. ^ a b c d John B. Hampshire와 Alexander Waibel, 다중 스피커 음성 인식, 신경 정보 처리 시스템의 진보, 1990, Morgan Kaufmann을 위한 연결주의 건축.
  4. ^ a b c d e Stefan Jaeger, Stefan Manke, Juergen Reichert, Alexander Waibel, 온라인 필기 인식: NPen++인정자, 국제 문서 분석 및 인식 저널 제3호, 2001년 3월
  5. ^ Yamaguchi, Kouichi; Sakamoto, Kenji; Akabane, Toshio; Fujimoto, Yoshiji (November 1990). A Neural Network for Speaker-Independent Isolated Word Recognition. First International Conference on Spoken Language Processing (ICSLP 90). Kobe, Japan.
  6. ^ a b c 알렉산더 와이벨, 사와이 히데후미, 시카노 기요히로, 대형 음소 신경망모듈성스케일링, 음향, 음성 및 신호 처리에 관한 IEEE 거래, 1989년 12월.
  7. ^ 크리스티안 쾰러와 요아힘 K. Anlauf, 영상 시퀀스 분석위한 적응형 시간 지연 신경망 알고리즘, IEEE Transactions on Neural Networks 10.6 (1999): 1531-1536
  8. ^ a b c Vijayaditya Peddinti, Daniel Poby, Sanjev Khudanpur, 긴 시간적 컨텍스트효율적인 모델링을 위한 시간 지연 신경망 아키텍처, Processions of Interspeech 2015
  9. ^ a b c David Snyder, Daniel Garcia-Romero, Daniel Pobvey, A Time-Delay Deep Neural Network-Based Universal Background Model for Speaker 인식, Process of ASRU 2015.
  10. ^ a b Patrick Haffner, Alexander Waibel, Multi-State Delay Neural Networks for Continuous Speech Incognition, Neural Information Processing Systems, 1992년, Morgan Kaufmann.
  11. ^ a b 크리스토프 브레글러, 헤르만 힐드, 스테판 맨크, 알렉산더 와이벨, 립리딩의한 연결 문자 인식 개선, 미니애폴리스에서 열린 IEEE 국제 음향, 음성 및 신호 처리에 관한 국제 회의, 1993년.
  12. ^ 크리스천 울러와 요아힘 K. Anlauf, 적응 가능한 시간 지연 신경 네트워크 알고리즘을 통해 영상 시퀀스에 대한 실시간 객체 인식 - 자율주행 차량에 대한 애플리케이션" Image and Vision Computing 19.9(2001): 593-618.
  13. ^ "Time Series and Dynamic Systems - MATLAB & Simulink". mathworks.com 2016년 6월 21일 회수.
  14. ^ Vijayaditya Peddinti, Guoguo Chen, Vimal Manohar, Tom Ko, Daniel Pobby, Sanjev Khudanpur, JHU ASPIRE 시스템: 2015년 IEEE 자동 음성 인식이해 워크숍의 진행, TDNs i-벡터 적응 및 RNN-LM이 포함된 강력한 LVCSR.