신경 컴퓨팅 음성 처리

Neurocomputational speech processing

신경전산 음성 처리(Neurocomputational speech processing)는 사람신경계(중앙신경계, 말초신경계)에서 발생하듯이 음성생성과 음성지각의 자연적 뉴런 과정을 참고하여 음성생성음성지각을 컴퓨터로 시뮬레이션하는 것이다.이 주제는 신경과학과 컴퓨터 신경과학에 기반을 두고 있다.[1]null

개요

음성 처리의 신경 컴퓨팅 모델은 복잡하다.그것들은 적어도 인지 부분, 운동 부분, 그리고 감각 부분으로 구성된다.null

음성 처리의neurocomputational 모델의 또는 언어적 인지 부분 생산성 옆에 있는 음소 표현(예를 들어, Levelt 모델 Ardi Roelofs에 의해 개발되며neurocomputational 버전뿐만 아니라의 신경계적 활성화나 세대 WEAVER++[3][2]의 신경 활성화나 세대로 구성되어 있다.에서언어 지각이나 언어 이해의 측면에 있는 주의력이나 의미.null

음성 처리의 신경 컴퓨터 모델의 모터 부분음성학적 표현으로 시작하고, 모터 계획을 활성화하며, 특정 음성 항목의 발음으로 끝난다(또한 발성 음성학 참조).null

음성 처리의 신경 컴퓨터 모델의 감각 부분은 음성 항목의 음향 신호로 시작하고(음향 음성 신호) 해당 신호에 대한 청각 표현을 생성하며 해당 음성 항목에 대한 음성 표현을 활성화한다.null

신경 컴퓨팅 음성 처리 항목

신경 컴퓨팅 음성 처리란 인공 신경 네트워크에 의한 음성 처리다.신경 지도, 지도, 아래 설명된 경로 등은 모델 구조, 즉 인공 신경망 내의 중요한 구조물이다.null

신경 지도

그림 1: 국소 활성화 패턴이 있는 2D 뉴런 맵. 자홍색: 활성도가 가장 높은 뉴런, 파란색: 활성화되지 않은 뉴런

인공신경망은 세 종류의 신경 지도로 분리될 수 있는데, "레이어"라고도 한다.

  1. 입력 맵(음성 처리의 경우: 청각 피질 내의 일차 청각 맵, 소마토센서리 피질 내의 일차 소마토센서리 맵),
  2. 출력 맵(기본 모터 피질 내의 모터 맵 포함)
  3. 상위 수준의 피질 지도("피질 도면층"이라고도 함)

피질 신경 지도가 상호 연결된 뉴런의 2D 지도(예: 자기 조직 지도와 같은, 그림 1 참조)로 모델링되어야 하기 때문에 "신경층"이라는 용어보다 여기서 "신경 지도"라는 용어가 선호된다.따라서 이 2D 지도 안에 있는 각각의 "모형 뉴런" 또는 "인공 뉴런"은 대뇌피질에서 해부학적으로 층을 이룬 구조를 보이기 때문에 생리학적으로 피질 기둥으로 표현된다.null

신경 표현(신경 상태)

인공신경망 내의 신경 표현은 특정 신경지도 내에서 일시적으로 활성화된(신경) 상태를 말한다.각각의 신경 상태는 특정한 신경 활성화 패턴으로 표현된다.이 활성화 패턴은 음성 처리 중에 바뀐다(예: 음절에서 음절까지).null

그림 2: 분산 활성화 패턴이 있는 2D 뉴런 지도예: "신경 분광법" (이 청각 신경 표현은 추측성 입니다. 아래 ACT 모델 참조)

ACT 모델(아래 참조)에서 청각 상태는 청각 상태 지도 내에서 "신경 분광법"(그림 2 참조)으로 표현될 수 있다고 가정한다.이 청각 상태 지도는 청각적 연관 피질에 있는 것으로 가정한다(대뇌 피질 참조).null

소마토센서리 상태는 촉각과 자기 기만 상태로 나눌 수 있으며, 소마토센서리 상태 지도 내의 특정 신경 활성화 패턴으로 나타낼 수 있다.이 상태 지도는 단조증 연관 피질(뇌피질, 단조증 시스템, 단조증 피질 참조)에 있는 것으로 가정한다.null

모터플랜 상태는 모터플랜을 표현하기 위해 가정할 수 있다. 즉, 특정 음절이나 긴 음성 항목(예: 단어, 짧은 구)에 대한 음성 표현 계획이다.이 상태 지도는 각 음성 아티큘레이터의 순간(또는 낮은 수준) 활성화가 1차 운동 피질 에서 일어나는 동안 전전 피질 내에 위치한다고 가정한다(모터 피질 참조).null

감각 및 운동 지도(위에서 소개한 바와 같이)에서 발생하는 신경 표현은 분산 표현이다(Hinton et al. 1968[4]).감각이나 운동 지도 안에 있는 각 뉴런은 어느 정도 활성화되어 있어 특정한 활성화 패턴으로 이어진다.null

음성 사운드 맵에서 발생하는 음성 단위의 신경 표현(아래: DIVA 모델 참조)은 시간 엄수 또는 국소 표현이다.각 음성 항목 또는 음성 단위는 여기에 특정 뉴런(모델 세포, 아래 참조)으로 표현된다.null

신경 매핑(시냅스 투영)

그림 3: ACT 모델의 일부로 음성 지도(특정 음성 상태에 대한 국소 활성화 패턴), 모터플랜 상태 지도(분산 활성화 패턴)와 청각 상태 지도(분산 활성화 패턴) 사이의 신경 지도음성 지도 내에서 승자 뉴런과의 신경 연결만 표시된다.

신경 지도는 두 개의 피질 신경 지도를 연결한다.신경 매핑(신경 경로와 대조적으로)은 신경 링크 가중치를 조정하여 훈련 정보를 저장한다(인공 신경망, 인공 신경망 참조).신경 매핑은 지각 또는 운동 상태의 분산 표현(위 참조)을 다른 지도에 있는 시간 엄수 또는 국소적 활성화(예: 음성 사운드 맵에서 모터 맵으로, 청각적 대상 지역 지도로, 또는 섬모센서리 표적 리로 시냅스 투영)을 생성하거나 활성화할 수 있다.아래에 설명된 DIVA 모델의 gion map 또는 ACT 모델에서 음성 지도에서 청각 상태 지도 및 모터플랜 상태 지도에 이르는 신경 매핑을 참조하십시오(아래 및 그림 3).null

두 신경 지도 사이의 신경 지도는 콤팩트하거나 밀도가 높다.한 신경지도의 각 뉴런은 (거의) 다른 신경지도의 각 뉴런과 상호 연결된다(다대다대다 연결, 인공신경망 참조).신경 매핑에 대한 이 밀도 기준 때문에 신경 매핑에 의해 상호 연결된 신경 맵은 서로 멀리 떨어져 있지 않다.null

신경 경로

신경 매핑과는 대조적으로 신경 경로는 멀리 떨어져 있는 신경 지도를 연결할 수 있다(예: 다른 피질 로브에서, 대뇌 피질 참조).기능적 또는 모델링 관점에서 신경 경로는 주로 이 정보를 처리하지 않고 정보를 전달한다.신경 지도에 비해 신경 통로는 신경 연결이 훨씬 덜 필요하다.신경 경로는 양쪽 신경 지도의 뉴런의 일대일 연결을 사용하여 모델링할 수 있다(토포그래픽 매핑섬광 배열을 참조).null

예:각각 1,000개의 모델 뉴런으로 구성된 두 개의 신경 지도의 경우, 신경 지도는 최대 1,000,000개의 신경 연결(다대다 연결)이 필요한 반면 신경 경로 연결의 경우 1,000개의 연결만 필요하다.null

또한 신경 경로의 경우 신경 경로의 경우 신경 연결은 훈련할 필요가 없는 반면(각 연결은 최대 표시 단위) 신경 지도 내의 연결의 연결 가중치는 훈련 중에 조정된다.null

DIBA 모델

음성 생산의 신경 컴퓨터 모델링에서 선도적인 접근법은 보스턴 대학교의 Frank H. Guenther와 그의 그룹이 개발한 DIVA 모델이다.[5][6][7][8]이 모델은 광범위한 음성 및 신경 이미지 데이터를 설명하지만, 각 신경 컴퓨터 모델과 마찬가지로 어느 정도 추측이 가능하다.null

모델의 구조

그림 4: DIVA 모델의 구성;이 그림은 Guenther 등 2006에 따른 적응형이다.

DIVA 모델의 구성이나 구조는 그림 4와 같다.

음성사운드 맵: 시작점으로서의 음소 표현

음성 사운드 맵은 브로카 영역(왼쪽 정면 오퍼큘럼)의 하부와 후부에 위치한다고 가정하며, 언어별 음성 단위(소리, 음절, 단어, 짧은 구)를 나타낸다.각 음성 단위(예: 주로 음절 및 단어 "palm" /pam/, 음절 /pa/, /ta/, /ka/, ...)는 음성 사운드 맵 내에서 특정 모델 셀로 표현된다(즉, 시간 엄수 신경 표현, 위 참조).각 모델 세포(인공 뉴런 참조)는 가까운 거리에 위치하고 함께 발화하는 소수의 뉴런 집단에 해당한다.null

피드포워드 컨트롤: 모터 표시 활성화

음성음향지도 내의 각 뉴런(모델세포, 인공신경)을 활성화할 수 있으며, 그 후 운동지도를 향해 전진 운동 명령을 활성화하여, 관절 속도 및 위치 지도라고 한다.그 모터 지도 수준에서 활성화된 신경 표현은 음성 단위의 관절성을 결정한다. 즉, 해당 음성 단위를 생성하기 위한 시간 간격 동안 모든 관절기(립스, 혀, 벨럼, 글로티스)를 제어한다.전방 제어는 또한 소뇌와 같은 아문학적 구조를 포함하며, 여기서 상세하게 모델링하지 않는다.null

음성 단위는 동일한 음소 부류에 할당될 수 있는 음성 항목의 양을 나타낸다.따라서, 각 음성 단위는 음성 음향 지도 내에서 하나의 특정 뉴런으로 표현되는 반면, 음성 단위의 실현은 어떤 표현 및 음향의 가변성을 보일 수 있다.이러한 음성 변동성은 DIVA 모델에서 감각 대상 영역을 정의하려는 동기가 된다(Guenther et al. 1998 참조).[9]null

관능적 모델: 공상감각 및 청각 피드백 정보 생성

모터 맵 내의 활성화 패턴은 음성 항목의 모든 모델 아티큘레이터(립, 혀, 벨럼, 글로티스)의 이동 패턴을 결정한다.모델에 과부하를 주지 않기 위해 신경근육계에 대한 상세한 모델링은 하지 않는다.마에다 발성 스피치 신디사이저는 발성기 움직임을 생성하기 위해 사용되는데, 이를 통해 시간 변동을 일으키는 발성체 형태와 각각의 특정 발성 항목에 대한 음향 스피치 신호 발생이 가능하다.null

인공 지능의 관점에서, 관절형 모델은 식물(즉, 뇌에 의해 제어되는 시스템)이라고 불릴 수 있다; 그것은 뉴런 음성 처리 시스템의 구현의 일부를 나타낸다.관절형 모델은 DIVA 모델에 대한 피드백 정보를 생성하기 위한 기초가 되는 감각 출력을 생성한다(아래: 피드백 제어 참조).null

피드백 제어: 감각 대상 지역, 상태 지도 및 오류 지도

한편으로, 발현 모델은 감각 정보, 즉 청각 상태 지도(분산된 표현) 내에서 자연적으로 표현되는 각 음성 단위의 청각 상태, 그리고 언어 단위의 소마토센서리 상태(분산된 표현은 wel로 표현됨)를 생성한다.l). 청각 상태 지도는 상부 측두피질에 위치하는 것으로 가정하고, 소마토센서리 상태 지도는 하부 두정피질에 위치하는 것으로 가정한다.null

한편, 스피치 사운드 맵은 특정 스피치 유닛(단일 뉴런 활성화, 정시 활성화)에 대해 활성화된 경우, 스피치 사운드 맵과 청각 표적 지역 맵 사이, 스피치 사운드 맵과 섬토센서리 표적 지역 맵 사이의 시냅스 투영에 의해 감각 정보를 활성화한다.청각 및 소마토센서리 대상 영역은 각각 고차 청각 피질 영역고차 소마토센서리 피질 영역에 위치한 것으로 가정한다.각 언어 단위에 존재하는 이러한 표적 영역 감각 활성화 패턴은 음성 획득을 통해 학습된다(모방 훈련; 아래 참조: 학습).null

결과적으로, 언어 단위가 음성 소리 지도 수준에서 활성화된 경우, 두 가지 유형의 감각 정보를 이용할 수 있다: (i) 학습된 감각 대상 영역(즉, 음성 단위의 의도된 감각 상태)과 (ii) 특정 음성 단위의 불완전한 실행(설명)으로 인한 감각 상태 활성화 패턴(즉, cu)그 특정 언어 단위의 현재 생산과 발음을 반영하는, 트렌트 감각 상태).두 가지 유형의 감각 정보는 감각 오류 맵, 즉 상측두측두피질(청각 상태 지도와 같은)에 위치한다고 가정하는 청각 오류 맵과 하측두측두측두피질(소모센서리 상태 지도와 같은)에 투영된다(그림 4 참조).null

현재 감각 상태가 의도된 감각 상태에서 벗어나는 경우, 두 오류 지도는 모두 운동 지도를 향해 투영되고 운동 활성화 패턴을 교정할 수 있는 피드백 명령을 생성하며, 이후 생산 중인 음성 단위의 발음이 가능하다.그러므로 전체적으로, 모터 맵의 활성화 패턴은 음성 유닛에 대해 학습된 특정 피드포워드 명령어(그리고 음성 사운드 맵에서 시냅스 투영에 의해 생성됨)뿐만 아니라 감각 오류 맵 수준에서 생성된 피드백 명령어에 의해서도 영향을 받는다(그림 4 참조).null

학습(모듈링 음성 획득)

(DIVA 모델의 경우 그림 4에서 제시된) 음성 처리의 신경과학적 모델의 구조는 주로 진화적 과정에 의해 결정되지만, (언어별) 지식뿐만 아니라 (언어별) 말하기 능력음성 획득 중에 학습되고 훈련된다.DIVA 모델의 경우 신생아가 이미 구조화된(언어별) 음성 사운드 맵을 사용할 수 없는 것으로 가정한다. 즉, 음성 사운드 맵 내에 어떤 뉴런도 음성 유닛과 관련되지 않는다.오히려 음성 사운드 맵의 구성과 모터 맵과 감각 대상 지역 맵에 대한 투영의 조정은 음성 획득 중에 학습되거나 훈련된다.초기 음성 획득의 두 가지 중요한 단계는 DIBA 접근방식에서 모델링된다: 재잘거리는 것과 모방을 통한 학습이다.null

바블링

재잘거리는 동안 감각 에러 맵과 모터 맵 사이의 시냅스 투영은 조정된다.이 훈련은 DIVA 모델 "babbles"와 같은 양의 반랜덤 피드포워드 명령을 생성하여 수행된다.이러한 각각의 재잘거리는 명령어는 "사전 언어론적(즉, 비언어적) 음성 항목"이라는 표식(즉, 관절형 모델은 재잘거리는 모터 명령에 기초하여 발현적 운동 패턴을 생성함)의 생산으로 이어진다.그 후, 음향 신호가 발생한다.null

발성 및 음향 신호에 기초하여 각 (언어 이전의) 음성 항목에 대한 감각 상태 지도 수준(그림 4 참조)에서 특정 청각 및 섬광 상태 패턴이 활성화된다.이 시점에서 DIVA 모델은 감각 오류 맵과 운동 맵 사이의 시냅스 투영을 조정할 수 있는 다양한 음성 항목에 대한 감각 및 관련 운동 활성화 패턴을 이용할 수 있다.따라서 DIVA 모델은 재잘거리는 동안 피드백 명령어(즉, 특정 감각 입력에 적합한 (피드백) 모터 명령을 생성하는 방법)를 학습한다.null

모조품

DIBA 모델을 모방하는 동안, DIVA 모델은 음성 사운드 맵을 구성하고 음성 사운드 맵과 모터 맵 사이의 시냅스 투영(즉, 전진 모터 명령의 튜닝)과 음성 사운드 맵과 감각 대상 영역 간의 시냅스 투영을 조정한다(그림 4 참조).모조 교육은 언어별 언어 단위(예: 고립된 음성 소리, 음절, 단어, 짧은 구)의 실현을 나타내는 음향 음성 신호 양에 모델을 노출시킴으로써 이루어진다.null

음성 음향 지도와 청각 표적 지역 지도 사이의 시냅스 투영 조정은 음성 항목의 음성 표현에 음성 음향 지도 한 개의 뉴런을 할당하고 청각 표적 지역 지도에서 활성화된 해당 음성 항목의 청각 표현과 연관시킴으로써 달성된다.청각 영역(즉, 음성 단위의 청각적 가변성의 규격)은 하나의 특정 음성 단위(즉, 하나의 특정한 음소 표현)가 여러 (약간) 다른 음향(청각) 실현에 의해 실현될 수 있기 때문에 발생한다(위 음성 항목과 음성 단위의 차이: 피드포워드 제어).

음성 사운드 맵과 모터 맵 사이의 시냅스 투영 튜닝(즉, 전진 모터 명령의 튜닝)은 피드백 명령의 도움을 받아 이루어진다. 왜냐하면 감각 오류 맵과 모터 맵 사이의 투영은 재잘거리는 훈련 동안 이미 튜닝되었기 때문이다(위 참조).따라서 DIBA 모델은 적절한 피드포워드 모터 명령을 찾으려고 시도함으로써 청각적 음성 항목을 "상상"하려고 한다.이후 모델은 결과 감각 출력(시도의 관절로 인한 현재 감각 상태)을 이미 학습된 청각 대상 영역(내부 감각 상태)과 비교한다.그런 다음 모델은 청각 피드백 시스템의 청각 오류 맵에서 생성된 현재 피드백 모터 명령에 의해 현재 피드포워드 모터 명령을 업데이트한다.이 과정은 여러 번 반복될 수 있다.DIVA 모델은 시도에서 시도까지의 청각적 상태와 현재 청각적 상태 사이의 청각적 차이가 감소하는 음성 항목을 생성할 수 있다.null

DIVA 모델은 또한 모방을 하는 동안 시냅스 투영을 음성 지도에서 섬광센서리 표적 지역 지도까지 조정할 수 있다. 각각의 새로운 모방을 시도할 때마다 음성 항목의 새로운 발음이 생성되고 따라서 해당 음성 항목의 음성 표현과 관련된 섬광 상태 패턴이 생성되기 때문이다.null

섭동실험

F1의 실시간 동요 : 청각 피드백의 영향

음성 획득 시 청각 피드백이 가장 중요하지만 모델이 각 음성 유닛에 대해 적절한 피드포워드 모터 명령을 학습한 경우 청각 피드백이 덜 활성화될 수 있다.그러나 청각적 섭동의 경우 청각적 피드백이 강하게 활성화될 필요가 있는 것으로 나타났다(예: 공식 주파수 이동, Tourville 등 2005).[10]이는 시각적 섭동(예를 들어 프리즘을 통해 사물의 위치를 이동) 중 움직임에 도달하는 시각적 피드백의 강한 영향과 비교된다.null

예상치 못한 턱 막힘: 단조로운 피드백의 영향

청각 피드백과 비교 가능한 방법으로, 언어 생산 중, 예를 들어, 턱이 예기치 않게 막히는 경우(Tourville et al. 2005)에도 둔감 피드백이 강하게 공동 활성화될 수 있다.null

ACT 모델

음성 처리의 신경 컴퓨터 모델링에서 더 많은 접근방식은 독일 RWTH Aachen 대학Bernd J. Kröger와 그의 그룹이[11] 개발한 ACT 모델이다(Kröger et al. 2014,[12] Kröger et al. 2014).2009년,[13] Kröger 등 2011년[14]).ACT 모델은 DIVA 모델과 대형 부품과 일치한다.ACT 모델은 DIVA 모델에 자세히 설명되어 있지 않은 "액션 저장소"(즉, 센서리모터 말하기 기술을 위한 저장소, 정신적 요절과 견줄 만한 레벨트 및 윌든 1994[15] 참조)에 초점을 맞추고 있다.또한 ACT 모델은 음성 항목의 생산을 위한 높은 수준의 모터 설명(모터 목표, 모터 피질 참조)을 명시적으로 도입한다.ACT 모델은 다른 신경 컴퓨터 모델과 마찬가지로 어느 정도 추측성 상태로 남아 있다.null

구조

그림 5: ACT 모델의 조직

ACT 모델의 조직 또는 구조는 그림 5에 제시되어 있다.

음성 생산의 경우, ACT 모델은 음성학적 표현(phonic map)의 활성화로 시작한다.빈번한 음절의 경우 음절 지도 수준에서 공동 활성화가 발생하여 감각 상태 지도 수준에서 의도된 감각 상태를 추가적으로 공동 활성화하고, 운동 계획 지도 수준에서 운동 계획 상태를 공동 활성화한다.간헐적인 음절의 경우, 음성 지도를 통해 음성 유사 음성 항목에 대한 모터 계획을 활성화함으로써 해당 음성 항목에 대한 모터 계획 모듈에 의해 모터 계획 시도가 발생한다(Kröger et al. 2011[16] 참조).모터 평면 또는 발성 작용 점수는 일시적으로 겹치는 발성 작용으로 구성되며, 이는 모터 프로그래밍, 실행 컨트롤 모듈에 의해 프로그래밍되고 이후에 실행된다.이 모듈은 (내부) 모터 플랜의 정확한 실행을 제어하기 위한 실시간 단조로운 피드백 정보를 얻는다.모터 프로그래밍1차 모터 맵의 레벨에서 활성화 패턴으로 이어지며, 이후 신경근육 처리를 활성화한다.모토뉴론 활성화 패턴근육의 힘을 생성하며, 이후 모든 모형 관절형(립, 혀, 벨럼, 글로티스)의 운동 패턴을 생성한다.Birkholz 3D 발성 신디사이저음향 신호 발생을 위해 사용된다.null

관음 음향 피드백 신호는 청각 및 청각 지도 쪽으로 전달되는 감각 전처리 모듈을 통해 청각 및 청각 피드백 정보를 생성하는 데 사용된다.감각-광학 처리 모듈 레벨에서는 청각 및 소마토센서리 정보가 단기 기억장치에 저장되며 외부 감각 신호(감각 피드백 루프를 통해 활성화되는 ES, 그림 5)는 이미 훈련된 감각 신호(TS, 그림 5, 음성 지도를 통해 활성화됨)와 비교할 수 있다.외부와 의도된 (훈련된) 감각 신호가 눈에 띄게 다를 경우(cf) 청각 및 섬광학적 오류 신호가 발생할 수 있다.DIBA 모델).null

그림 5의 밝은 녹색 영역은 음절을 전체 단위로 처리하는 신경 지도와 처리 모듈(특정 처리 시간대는 약 100ms 이상)을 나타낸다.이 프로세싱은 감각-광학 처리 모듈 및 직접 연결된 모터플랜 상태 맵 내에서 음성 지도와 직접 연결된 감각 상태 맵으로 구성되며, 1차 모터 맵뿐만 아니라 (1차) 청각 및 (1차) 자세 지도는 더 작은 시간 창(ACT 모델에서 약 10ms)을 처리한다.null

그림 6: ACT 모델의 신경 지도를 위한 뇌 영역의 가상 위치

ACT 모델 내에서 신경 지도의 가상 피질 위치는 그림 6과 같다.일차 모터와 일차 감각 지도의 가상 위치는 자홍색으로, 운동 계획 상태 지도와 감각 상태 지도(DIVA의 오류 지도와 유사한 감각-포네틱 처리 모듈 내)의 가상 위치는 주황색으로, 미러링된 음성 지도의 가상 위치는 적색으로 제공된다.이중 화살표는 뉴런 매핑을 나타낸다.신경 매핑은 서로 멀리 떨어져 있지 않은 신경 지도를 연결한다(위 참조).음표지도의 미러링된 두 위치는 신경 경로(위 참조)를 통해 연결되어 음표지도의 양쪽 실현을 위해 현재의 활성화 패턴을 (단순히) 일대일로 미러링하게 된다.음성 지도의 두 위치 사이의 이 신경 경로는 파시큘러스 아크쿠아투스(AF, 그림 5와 그림 6 참조)의 일부로 가정한다.null

음성 인식의 경우 모델은 외부 음향 신호(예: 외부 스피커에 의해 생성됨)로 시작한다.이 신호는 사전 처리되어 청각 지도를 통과하며 청각-음향 처리 모듈의 수준에서 각 음절 또는 단어에 대한 활성화 패턴으로 이어진다(ES: 외부 신호, 그림 5 참조).음성 인식의 복측 경로(Hickok 및 Pooppel 2007[17] 참조)는 어휘 항목을 직접 활성화하지만 ACT에서는 구현되지 않는다.오히려, ACT에서 음소거 상태의 활성화는 음소거 지도를 통해 발생하며, 따라서 해당 음성 항목에 대한 모터 표현(즉, 음성 인식의 등진 경로, ibid).null

작업 저장소

그림 7: 표준 독일어의 가장 빈번한 200개 음절에 대해 훈련된 음성 지도 한 부분에 대한 시냅스 연결 중량의 시각화.각각의 상자는 스스로 조직하는 음성 지도 안에 있는 뉴런을 나타낸다.3개의 링크 웨이트 표현은 각각 음성 지도에서 동일한 단면을 가리키므로 동일한 10×10 뉴런을 가리킨다.

음성 지도와 함께 운동계획 상태 지도, 감각 상태 지도(감각-음향 처리 모듈 내에서 발생), 음소(상태) 지도가 작용 저장소를 형성한다.음성 지도는 ACT에서 자생 신경 지도로 구현되며, 이 지도 안에서 서로 다른 뉴런(간행적 또는 국소적 표현, 위 참조: 신경 표현)으로 다른 음성 항목이 표현 항목이 표현된다.음성 지도는 다음과 같은 세 가지 주요 특징을 나타낸다.

  • 하나의 음소 상태에 대해 음성 지도 내에서 둘 이상의 음성 실현이 발생할 수 있다(그림 7: 예: 음절 /de:m/는 음절/음절 지도 내에 세 개의 뉴런으로 표현됨).
  • 음소토피:음성 지도는 다른 음성 특징에 대한 음성 항목의 순서를 보여준다(그림 7의 음소 링크 가중치 참조).세 가지 예: (i) 음절 /p@/, /t@/, /k@/ 음절은 음절 지도에서 좌측 상단에서 상향 순서로 발생하며, (ii) 음절 초창기 플롯은 음절 초창기는 음절 초창기 프리스틱은 음절 지도에서 발생하는 반면 (iii) CVC 음절과 CVC 음절은 p의 다른 영역에서도 발생한다.영예의 지도).
  • 음성 지도는 하이퍼모달 또는 멀티모달이다.음성 지도 수준에서 음성 항목의 활성화는 (i) 음소 상태(그림 7의 음소 연결 가중치 참조), (ii) 운동 계획 상태(그림 7의 모터 계획 연결 가중치 참조), (iii) 청각 상태(그림 7의 청각 연결 가중치 참조), (iv) 기면 상태(그림 7에 표시되지 않음)를 활성화한다.이러한 모든 상태는 음성 획득 중 특정 음성 상태와 관련 운동계획 및 감각 상태 지도 내의 모든 뉴런을 나타내는 음운 지도 내의 각 뉴런 사이의 시냅스 링크 가중치를 조정함으로써 학습되거나 훈련된다(그림 3 참조).

음성 지도는 ACT 모델 내에서 작용-허용 링크를 구현한다(그림 5와 그림 6: 측두엽두정엽의 교차점에 있는 음성 지도의 이중 신경 표현 참조).null

모터플랜

모터 플랜은 음성 항목의 생산과 발음에 대한 높은 수준의 모터 기술이다(모터 목표, 운동 기술, 발성 음성학, 발성 음성학 참조).우리의 신경 컴퓨팅 모델 ACT에서 모터플랜은 발성 작용 점수로 정량화된다.발성 작용 점수는 음성 항목을 생성하기 위해 활성화해야 하는 발성 작용(발성 동작이라고도 함)의 수, 그 실현 정도 및 지속 시간, 그리고 음성 항목을 구성하는 모든 발성 작용의 시간적 조직(발성 트라우마에 대한 자세한 설명을 위해)을 정량적으로 결정한다.ct 작용 점수 참조(예:Kröger & Birkholz 2007).[18]각각의 발성 작용(발성 동작)의 상세한 실현은 음성 항목을 구성하는 모든 발성 작용의 시간적 조직과 특히 시간적 중첩에 달려 있다.따라서 음성 항목 내에서 각 발성체 작용의 세부적인 실현은 우리의 신경 컴퓨팅 모델 ACT의 운동계획 수준 아래에 명시된다(Kröger et al. 2011 참조).[19]null

센서리모터와 인지적 측면의 통합: 행동 저장소와 정신적 어휘의 결합

음성 처리의 음성 또는 센서리모터 모델(DIVA나 ACT와 같은)의 심각한 문제는 음성 획득 중 음소성 지도의 개발이 모델링되지 않는다는 것이다.이 문제의 가능한 해결책은 음성 획득을 시작할 때 음소성 지도를 명시적으로 도입하지 않고 행동 저장소와 정신적 어휘를 직접 결합하는 것일 수 있다(모방 훈련 시작 시에도, 2011년 행동 로봇학 PALADIN 저널 참조).null

실험: 음성 획득

모든 신경과학적 또는 신경계산적 접근방법의 매우 중요한 문제는 구조와 지식을 분리하는 것이다.모델의 구조(즉, 음성을 처리하는 데 필요한 인간 뉴런 네트워크의 구조)는 주로 진화 과정에 의해 결정되지만, 지식은 주로 학습 과정에 의한 음성 획득 과정에서 수집된다.(i) 5-vowel 시스템 /i, e, a, o, u/를 배우기 위해 모델 ACT로 다양한 학습 실험이 수행되었다(Kröger 등 참조).2009), (ii) a small consonant system (voiced plosives /b, d, g/ in combination with all five vowels acquired earlier as CV syllables (ibid.), (iii) a small model language comprising the five-vowel system, voiced and unvoiced plosives /b, d, g, p, t, k/, nasals /m, n/ and the lateral /l/ and three syllable types (V, CV, and CCV) (see Kröger et al.2011년)[20] 및 (iv) 6세 아동의 표준 독일어 200개 음절 중 가장 빈번한 음절이다(Kröger et al. 2011 참조).[21]모든 경우에 있어서, 다른 음성 특징에 관한 음성 항목의 순서를 관찰할 수 있다.null

실험: 음성 인식

초기 버전의 ACT 모델이 순수한 음성 생산 모델(음성 획득 포함)으로 설계되었음에도 불구하고, 이 모델은 음성 인식의 중요한 기본 현상, 즉 범주형 인식과 맥거크 효과 등을 나타낼 수 있다.범주형 인식의 경우 모음이 아닌 플롯의 경우 범주형 인식이 더 강하다는 것을 모델이 보여줄 수 있다(크뢰거 외 참조).2009년). 게다가, 모델 ACT는 음성 지도 수준의 뉴런 억제라는 특정 메커니즘이 실행되면 맥구르크 효과를 나타낼 수 있었다(크뢰거와 칸남푸자 2008 참조).[22]null

참고 항목

참조

  1. ^ "Towards neurocomputational speech and sound processing". Progress in nonlinear speech processing. Springer. January 2007. pp. 58–77. ISBN 978-3-540-71503-0.
  2. ^ "Ardi Roelofs". Archived from the original on 2012-04-26. Retrieved 2011-12-08.
  3. ^ 위버++
  4. ^ 힌튼 GE, 맥클렐랜드 JL, 루멜하트 DE(1968) 분산 대표.In: Rumelhart DE, McClelland JL (eds.병렬 분산 처리: 인식의 미세 구조에서의 탐색.제1권: 재단(MIT 프레스, 캠브리지, MA)
  5. ^ DIVA 모델: 미국 보스턴 대학교의 Frank H. Guenther와 그의 그룹이 개발한 피드백 제어 프로세스에 초점을 맞춘 음성 생산 모델. "DIVA"라는 용어는 "Acticulator의 벨로시티로의 방향"을 가리킨다.
  6. ^ F.H.Ghosh, S.S. 및 Tourville, J.A. (2006) PDF 2012-04-15를 웨이백 기계보관.음절 생산의 기초가 되는 피질 상호작용의 신경 모델링 및 영상화.두뇌언어, 96, 페이지 280–301
  7. ^ Guenther FH (2006) 음성 소리의 생성에 기반한 피질 상호작용.통신 장애 저널 39, 350–365
  8. ^ F.H.와 J.S. Perkell(2004) PDF 웨이백머신에 2012-04-15 보관.음성 생산의 신경 모델과 음성에서 청각 피드백의 역할에 대한 연구에 대한 그것의 적용.In: B. Maassen, R. Kent, H. Peters, P. Van Lieshout, W.Hulstijn (eds). 정상 및 비순서 음성 모터 제어 (pp. 29–49).옥스퍼드:옥스퍼드 대학교 출판부
  9. ^ Guenther, Frank H.; Hampson, Michelle; Johnson, Dave (1998). "A theoretical investigation of reference frames for the planning of speech movements". Psychological Review. 105 (4): 611–633. doi:10.1037/0033-295x.105.4.611-633. PMID 9830375.
  10. ^ Tourville J, Guenther F, Ghosh S, Reilly K, Bohland J, Nieto-Castanon A(2005) 음성 생산 중 피질 활동에 대한 음향 및 발성 섭동의 영향.포스터, 제11차 인간 두뇌 지도 기구 연례 회의 (캐나다 토론토)
  11. ^ ACT 모델:독일 RWTH Aachen University에서 Bernd J. Kröger와 그의 그룹이 개발한 음성 생산, 인식 및 획득 모델."ACT"라는 용어는 "ACTION"이라는 용어를 말한다.
  12. ^ BJ Kröger, J Kannampuzha, E Kaufmann(2014) pdf 연상 학습 및 자기 조직화를 음성 습득, 음성 제작, 음성 인식 시뮬레이션을 위한 기본 원칙으로 한다.EPJ 비선형 생물의학 물리학 2(1), 1-28
  13. ^ Kröger BJ, Kannampuzha J, Neuschafer-Rube C(2009) pdf 음성 생산과 인식의 신경 컴퓨터 모델을 향하여.음성 통신 51: 793-809
  14. ^ Kröger, Bernd J.; Birkholz, Peter; Neuschaefer-Rube, Christiane (1 June 2011). "Towards an Articulation-Based Developmental Robotics Approach for Word Processing in Face-to-Face Communication". Paladyn, Journal of Behavioral Robotics. 2 (2): 82–93. doi:10.2478/s13230-011-0016-6. S2CID 10317127.
  15. ^ Levelt, Willem J.M.; Wheeldon, Linda (April 1994). "Do speakers have access to a mental syllabary?". Cognition. 50 (1–3): 239–269. doi:10.1016/0010-0277(94)90030-2. hdl:2066/15533. PMID 8039363. S2CID 7845880.
  16. ^ Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) 언어의 무확장증의 출처로서의 결함 있는 신경 모터 음성 매핑: 음성 처리의 정량적 신경 모델로부터의 증거.인: 로위트 A, 켄트 R(에드)모터 음성 장애의 평가. (San Diego, 캘리포니아 주, 컬럴 출판사) 페이지 325-346
  17. ^ 히콕 G, 포펠 D(2007) 음성 인식의 기능적 신경절제술을 지향한다.인지과학 4, 131–138의 동향
  18. ^ Kröger BJ, Birkholz P(2007) 관절 음성 합성에서의 음성 이동 제어를 위한 제스처 기반의 개념이다.In: 에스포지토 A, Faundes-Zanuy M, Keller E, Marinaro M(에드)언어 비언어적 커뮤니케이션 행동, LNAI 4775 (Springer Verlag, 베를린, 하이델베르크) 페이지 174-189
  19. ^ 크뢰거 BJ, 비르콜츠 P, 칸남푸자 J, 에커스 C, 카우프만 E, 네우스채퍼-루베 C(2011) 음성 작용에 대한 정량적 표적 근사 모델의 신경생물학적 해석.인: 크뢰거 BJ, 비르크홀츠 P(eds)Sprachkommunikation: Elektronische Sprachsignalverarbebeitung 2011(TUDpress, 독일 드레스덴), 페이지 184-194
  20. ^ Kröger BJ, Miller N, Lowit A, Neuschaefer-Rube C. (2011) 언어의 무확장증의 출처로서의 결함 있는 신경 모터 음성 매핑: 음성 처리의 정량적 신경 모델로부터의 증거.인: 로위트 A, 켄트 R(에드)모터 음성 장애의 평가. (San Diego, 캘리포니아 주, 컬럴 출판사) 페이지 325-346
  21. ^ Kröger BJ, Birkholz P, Kannampuzha J, Kaufmann E, Neuschafer-Rube C(2011) 음성 처리의 신경 모델 내에서 센서리모터 발성 작용 저장소를 획득하기 위해.In: Esposito A, Vincarelli A, Vicsi K, Pelachaud C, Nijholt A(에드)언어 및 비언어적 의사소통 분석 및 제정: 처리 문제.LNCS 6800(스프링거, 베를린), 페이지 287-293
  22. ^ Kröger BJ, Kannampuzha J(2008) 청각 및 시청각 음성 인식의 측면을 포함하는 음성 생산의 신경 기능 모델이다.2008년 국제 시청각 음성 처리 회의(Moreton Island, Queensland, Australia) 페이지 83–88

추가 읽기