그누스피치
Gnuspeech개발자 | 트릴리움 사운드 리서치 |
---|---|
초기 릴리즈 | 전( |
안정된 릴리스 | 2015년 10월 14일 0.9[1], 전( ) |
저장소 | |
플랫폼 | 크로스 플랫폼 |
유형 | 텍스트/스피치 |
면허증. | GNU 일반 공중 라이선스 |
웹 사이트 | www![]() |
Gnuspeech는 확장 가능한 텍스트 투 스피치 컴퓨터 소프트웨어 패키지입니다.규칙에 의한 실시간 조음 음성 합성에 근거해 인공 음성 출력을 생성합니다.즉, 텍스트 문자열을 발음 사전, 문자 대 음성 규칙 및 리듬 및 억양 모델의 도움을 받아 발음 설명으로 변환하고, 음성 설명을 낮은 수준의 조음 음성 합성기를 위한 매개 변수로 변환하며, 이를 사용하여 출력 suitab을 생성하는 인간 성관의 조음 모델을 구동합니다.다양한 컴퓨터 운영 체제에서 사용되는 일반 사운드 출력 장치의 경우, 성인용 음성에서 사용되는 것과 같거나 더 빠른 속도로 이 작업을 수행합니다.
설계.
신시사이저는 음성 [2]스펙트럼을 간접적으로 모델링하는 포만트 신시사이저와는 달리 실제 성관의 동작을 직접적이고 합리적으로 정확하게 모델링하는 튜브 공명 또는 도파관 모델입니다.제어 문제는 음성 스펙트럼에서 음성 정보의 대부분을 전달하는 세 가지 주파수 포뮬레이터의 해당 변화와 관련된 René Caré의 고유 영역[3] 모델을 사용하여 해결된다.이 지역들은 차례로 왕립기술원(KTH)의 스톡홀름 음성 기술 연구소의[4] "포름 민감도 분석"에 대한 연구에 기초하고 있다. 즉,[5] 포름 주파수가 길이에 따라 다양한 장소에서 성관의 반지름의 작은 변화에 어떻게 영향을 받는가 하는 것이다.
역사
Gnuspeech는 원래 NeXT 컴퓨터용 Trilium Sound Research에서 다양한 등급의 "TextToSpeech" 키트로 제작한 상용 소프트웨어입니다.Trilium Sound Research는 캐나다 앨버타주 캘거리대학에 설립된 테크놀로지 이전 분사기업으로, 컴퓨터 사이언스 부서에서 오랫동안 연구해 온 스피치를 이용한 컴퓨터-인간 상호작용에 관한 연구를 바탕으로 시스템 관련 논문과 매뉴얼을 [6]관리하고 있습니다.1992년 초기 버전은 포르망트 기반 음성 합성기를 사용했다.NeXT가 하드웨어 제조를 중단했을 때 신시사이저 소프트웨어는 완전히 다시 작성되었으며[7], 스탠포드 대학, 특히 뮤직 키트 컴퓨터 연구 센터의 연구에 기초한 음향 튜브 모델링에 도파관 방식을 사용하여 NSFIP(NextStep For Intel Processors)로 이식되었습니다.합성 접근방식은 1995년 [8]미국 음성 I/O 학회에 제출된 논문에서 더 자세히 설명되어 있습니다.시스템은 NeXT 컴퓨터의 온보드 56001 디지털 신호 프로세서(DSP)와 NSFIP 버전의 동일한 DSP를 갖춘 Turtle Beach 애드온 보드를 사용하여 도파관(튜브 모델이라고도 함)을 실행했습니다.속도 제한은 실시간으로 음성에 사용할 수 있는 가장 짧은 성관 길이(즉, "말한" 것과 같거나 빠른 속도로 생성됨)가 약 15cm라는 것을 의미했다. 왜냐하면 도파관 계산의 샘플링 속도는 성관 길이 감소에 따라 증가하기 때문이다.프로세서의 속도가 빨라짐에 따라 이러한 제한이 점차 해소되고 있으며, 이는 아이들의 말을 실시간으로 생산하기 위한 중요한 진보입니다.
NeXTSTEP은 단종되고 NeXT 컴퓨터는 드물기 때문에 원래 코드를 실행하는 옵션 중 하나는 가상 시스템을 사용하는 것입니다.예를 들어 이전 에뮬레이터는 Trilium 소프트웨어에서 사용할 수 있는 NeXT 컴퓨터의 DSP를 에뮬레이트할 수 있습니다.
Trilium은 1990년대 후반에 거래를 중단했고 Gnuspeech 프로젝트는 2002년에 GNU General Public License의 조건에 따라 GNU Savannah 저장소에 공식 GNU 소프트웨어로서 처음 등록되었습니다.
코드 커스터마이즈가 가능한 무료 오픈 소스 라이선스 덕분에 Gnuspeech는 학술 [9]연구에 활용되어 왔다.[10]
레퍼런스
- ^ https://directory.fsf.org/wiki/gnuspeech 를 참조해 주세요.
- ^ COOK, P.R.(1989) 인간 성관의 물리적 매개 변수화된 모델을 사용하여 노래하는 목소리를 합성한다.콜럼버스 오하이오 국제 컴퓨터 음악 회의
- ^ CARRE, R. (1992) 음향 튜브에서 구별되는 영역.음성 제작 모델링.저널 d'Acoustique, 5 141~159
- ^ 현재 스피치·음악·청각부
- ^ FANT, G. & PAULI, S.(1974) 성로 공명 모델의 공간적 특성.스웨덴 스톡홀름 KTH 스톡홀름 음성통신 세미나 진행
- ^ 캘거리 관련 웹사이트
- ^ 튜브 공명 모델 음성 합성기
- ^ HIL, D.R., ManZARA, L. & TAUBE-SCHOK, C.R.(1995) 규칙에 따른 실시간 조음 음성 합성.Proc. AVIOS '95 제14회 국제음성기술회의, 산호세, 1995년 9월 12일-14일, 27-44일
- ^ D'Este, F. - 병렬 다목적 유전자 알고리즘을 통한 조음 음성 합성.레이든 고등 컴퓨터 과학 연구소, 2010년 석사 논문.
- ^ Xiong, F.; Barker, J. - 관절 이상 음성 인식을 개선하기 위한 조음 기반 표현 및 응용 프로그램의 심층 학습.ITG Speech Communications Conference on Germany, 2018.