비 원어민 음성 데이터베이스

Non-native speech database

비원어 음성 데이터베이스영어의 비원어 발음을 위한 음성 데이터베이스다. 그러한 데이터베이스는 다국어 자동 음성 인식 시스템, 텍스트음성 시스템, 발음 트레이너 및 제2 언어 학습 시스템의 개발에 사용된다.[1]

리스트

표 1: 표 2에서 사용되는 언어의 약어
아랍어 A 일본인입니다 J
중국어 C 한국인입니다 K
체코어 Cze 말레이시아어 M
덴마크어 D 노르웨이의 N
네덜란드어 두트 포르투갈어 P
영어 E 러시아어 R
프랑스어 F 스페인어 S
독일어 G 스웨덴의
그리스어 그레 태국어 T
인도네시아어 인드 베트남의 V
이탈리아의 I


다른 데이터베이스에 대한 정보가 있는 실제 표는 표 2에 나와 있다.

표 2: 비원천 데이터베이스 개요
코퍼스 작가 다음 위치에서 사용 가능 언어들 # 스피커 네이티브 언어 # Utt. 기간 날짜 언급
AMI [2] EU E 두트 등 100시간 회의록
ATR-그룬 그룬 ATR E 96 C G F J Ind 15000 2004 숙련도 등급
BAS 스트레인지 코퍼스 1+10 엘라 G 139 50개국 7500 1998
버클리 레스토랑 ICSI E 55 G I H C F S J 2500 1994
브로드캐스트 뉴스 LDC E 1997
케임브리지위트 비트 U.S. 케임브리지 E 10 J I K S 1200 1999
케임브리지예 U.S. 케임브리지 E 20 C 1600 2005
어린이 뉴스 도모키요 CMU E 62 JC 7500 2000 부분적으로 자발적인.
클립-이미지 클립-이미지 F 15 C V 6시간 2006
CLSU [11] LDC E 22개국 5000 2007 전화, 즉흥적
CMU [12] CMU E 64 G 452 0.9시간 이용할 수 없는
크로스 타운즈 샤덴 U. 보훔 E F G I Cze Dut 161 E F G I S 72000 133시간 2006 시명.
듀크아슬란 아르슬란 듀크 대학교 E 93 15개국 2200 1995 부분 전화 연설
ERJ [15] 미네마츠 U.Tokyo E 200 J 68000 2002 숙련도 등급
피셔 LDC E 많은 200시간 전화 연설
핏트 핏트 에든버러 U.S. F I N Gre 10 E 700 1995 시명.
프라운키 에를랑겐 E 19 G 2148
히스패닉계 E 22 S 20시간 1998 부분적으로 자발적인.
HLTC [20] HKUST E 44 C 3시간 2010 요청 시 이용할 수 있는
IBM-Fischer [21] IBM E 40 S F G I 2000 2002 숫자
아이콜 I2R, A*STAR C 305 24개국 90841 142시간 2015 음성 및 톤 수기(피닌), 숙련도 등급
앳웰 EU/ELDA E 46 G I 4000 18시간 2000
목성 MIT E 알 수 없는 알 수 없는 5146 1999 전화 연설
K-SEC [26] SiTEC E 알 수 없는 K 2004
LDC WSJ1 [27] LDC 10 800 1시간 1994
리프 내트 뮌스터 대학교 E G 127 41개의 다른 것 73.941 단어 12시 2003
미스트 엘라 E F G 75 두트 2200 1996
나토 하이와이어 나토 E 81 F Gre I S 8100 2007 깨끗한 말씨
나토 M-ATC 비둘기 나토 E 622 F G I S 9833 17시간 2007 무거운 배경 소음
나토 N4 나토 E 115 알 수 없는 7.5시간 2006 무거운 배경 소음
오노마스타 D D Dut E F G Gre I N P S Swe (121000) 1995 단어의 어휘.
PF-STAR [34] 에를랑겐 E 57 G 4627 3.4시간 2005 어린이의 말씨
선스타 EU E 100 G S I P D 40000 1992 의회 연설
TC-STAR [36] 휴벨 엘다 ES 알 수 없는 EU 국가들 13시간 2006 다중 데이터 세트
TED [37] 라멜 엘다 E 40(188) 많은 10시간(47시간) 1994 유로스피치 93
TLTS [38] DARPA A E 1시간 2004
도쿄키쿠코 U.Tokyo J 140 10개국 35000 2004 숙련도 등급
베르비모빌 뮌헨 E 44 G 1.5시간 1994 매우 자발적인
보다스 EU F G 178 F G 2500 1998 자동차 내비게이션에 대하여
WP 아랍어 로카 LDC A 35 E 800 1시간 2002
WP 러시안 로카 LDC R 26 E 2500 2시간 2003
WP 스페인어 모건 LDC S E 2006
WSJ 스포크 E 10 알 수 없는 800 1993


레전설

비원어 데이터베이스 표에서는 언어 이름의 일부 약어가 사용된다. 그것들은 표 1에 열거되어 있다. 표 2는 각 말뭉치에 대한 다음과 같은 정보를 제공한다. 말뭉치의 이름, 말뭉치를 얻을 수 있는 기관 또는 최소한 더 많은 정보를 이용할 수 있어야 하는 기관, 실제로 말하는 사람에 의해 사용되는 언어, 말하는 사람의 수, 말하는 사람의 모국어, 말뭉치가 포함하는 비언어 총량, 비언어적 발음의 시간(시간)rt, 이 말뭉치에 대한 첫 번째 공개 참조 날짜, 이 데이터베이스의 특수 측면과 다른 출판물에 대한 참조를 강조하는 일부 자유 텍스트. 마지막 분야의 참고문헌은 대부분의 경우, 이 논문에 대한 것인데, 이 논문은 특히 원래의 수집가들에 의해 이 말뭉치를 설명하는 데 전념하고 있다. 어떤 경우에는 그러한 논문을 확인할 수 없었다. 이 경우, 이 말뭉치를 사용하는 논문이 참조된다.

일부 항목은 비어 있고 다른 항목은 알 수 없음으로 표시된다. 여기서 차이점은 빈 항목은 값을 알 수 없는 속성을 가리킨다는 것이다. 그러나 알 수 없는 항목은 데이터베이스 자체에서 이 속성에 대한 정보가 없음을 나타낸다. 예를 들어, 목성 기상 데이터베이스에서는[46] 화자의 기원에 대한 정보가 제공되지 않는다. 따라서 이 데이터는 억양 탐지나 유사한 문제를 확인하는 데 덜 유용할 것이다.

가능한 경우, 그 명칭은 말뭉치의 표준 명칭이지만, 일부 소기업에게는 정해진 명칭이 없어 식별자를 만들어야 했다. 이 경우, 데이터베이스의 기관과 수집자의 조합이 이용된다.

데이터베이스에 네이티브 및 비네이티브 음성이 포함된 경우, 말뭉치의 비네이티브 부분의 속성만 나열된다. 대부분의 회사들은 읽기 연설의 모음집이다. 말뭉치가 자연발언의 일부 또는 전체로 구성된 경우, 이는 Specials 열에 언급된다.

참조

  1. ^ M. 라브, R. 그룬, E. Noeth, Non-Native 음성 데이터베이스, Proc. ASRU, 일본 교토, 2007.
  2. ^ AMI 프로젝트, "AMI Meeting Corpus" [1].
  3. ^ R. 그룬, T. 신카레크, S. 2004년 ASJ의 "다중급 비원어 영어 데이터베이스" 나카무라씨.
  4. ^ University Munich, "Bavarian 아카이브 for speech speech for speech organ corpus," [2].
  5. ^ 주라프스키 외, "버클리 레스토랑 프로젝트", Proc. ICSLP 1994.
  6. ^ L. Tomokiyo, 비원어적 언어 인식: 음성 인식의 특성화비원어적 용도에 적응하기, 2001년 펜실베니아 주 카네기 멜론 대학교.
  7. ^ S. Witt, 1999년 영국 캠브리지 대학 공학부, 컴퓨터 보조 언어 학습에서 음성 인식의 사용.
  8. ^ H. 예와 S. 영, Proc에서 언어 학습을 위한 구어 대화 상호 작용 초보자의 음성 인식 성능 향상. 인터스피치, 리스본, 포르투갈 2005.
  9. ^ L. Tomokiyo, 비원어적 언어 인식: 음성 인식의 특성화비원어적 용도에 적응하기, 2001년 펜실베니아 주 카네기 멜론 대학교.
  10. ^ T. P. Tan과 L. 베사시에, 2006년 이탈리아 제노바 LREC에서 자동 음성 인식을 위한 프랑스 비원어 말뭉치.
  11. ^ T. 랜더, CSLU: 외국 악센트 영어 버전 1.2, 테크. LDC, 필라델피아, 펜실베니아, 2007.
  12. ^ Z. 왕, T. 슐츠, A. Waibel, Proc에서 비원어적 언어에 대한 음향 모델 적응 기술의 비교. ICASSP, 2003.
  13. ^ S. Schaden, Regelbasierte Modellierung fremdsprachlich Akzentbehxteter Aussprachevarianten, D.D. 논문 Duisburg-Essen, University Duisburg-Essen.
  14. ^ L. M. Arslan과 J. H. H. Hansen, 외국 억양 언어의 주파수 특성, 1997년 독일 뮌헨 ICASSP의 Proc.에서 1123-1126페이지.
  15. ^ N. 미네마츠 외, 2004년 일본 교토 ICA에서 CAL 연구를 지원하기 위해 일본인이 읽은 영어 음성 데이터베이스 개발, 페이지 577-560.
  16. ^ Christopher Cieri, David Miller, Kevin Walker, The Fisher Corpus: 차세대 음성 텍스트, Proc. LREC 2004
  17. ^ S. Fitt, Eurospeech의 Proc., 1995, 페이지 2227-2230에 익숙하지 않은 원주민비원주 도시 이름의 발음.
  18. ^ G. Stemmer, E. Noeth, H. 독일어 음성 인식 시스템에서 외래어의 음향 모델링인 Proc. Eurospeech, P. Dalsgaard, B. Lindberg, 그리고 H. Benner, Eds, 2001, 제4권, 페이지 2745-2748.
  19. ^ W. Byrne, E. Knodt, S. Khudanpur, J. Bernstein, 자동 음성 인식은 비원어적 언어에 대한 준비가 되어 있는가? 대화형 히스패닉 영어를 모델링하기 위한 데이터 수집 노력과 초기 실험, 스웨덴의 STiLL, Marholmen, 1998, 페이지 37-40.
  20. ^ Y. Li, P. 풍, P. 쉬, Y. 혼합 언어 음성 인식을 위한 비대칭 어쿠스틱 모델링, ICASSP, 프라하, 체코, 2011, 페이지 37-40.
  21. ^ V. Fischer, E. Janke 및 S. Kunzmann, 다국어 어쿠스틱 모델을 사용한 비언어 언어 해독의 최근 진전, 2003년 Eurospeech의 Proc. 3105-3108.
  22. ^ 낸시 F. Chen, Long Tong, Darren Wee, Peixuan Lee, Bin Ma, Haizhou Li, iCall Corpus: 2015년 Interspeech의 Proc.에서 유럽 혈통의 비원 화자들이 말하는 만다린 중국어.
  23. ^ 낸시 F. 첸, 비백 시바쿠마르, 마헤쉬 하리쿠마르, 빈마, 하이저우 리. 2013년 인터스피치의 Proc.에서 유럽어 원어민이 만든 중국어 발음 오류의 대규모 특성화.
  24. ^ W. 멘젤, E. 앳웰, P. 보나벤투라, D. 헤론, P. 하워스, R. 모튼, C. 소터, 비원어 영어의 말뭉치, LREC, 그리스, 2000, 페이지 957-963.
  25. ^ K. Livescu, Analysis and Modeling of non-native speech for automatic speech incognition, M.S 논문, 매사추세츠 공과대학, 캠브리지, MA, 1999.
  26. ^ S-C 리와 S-H 리와 S-K 강과 Y-J 리, 한국어 말하기 코퍼스의 설계와 건설, Proc. ICSLP 2004
  27. ^ L. Tomokiyo, 비원어적 언어 인식: 음성 인식의 특성화비원어적 용도에 적응하기, 2001년 펜실베니아 주 카네기 멜론 대학교.
  28. ^ 굿, 어, 비원어 스피치. 코퍼스에 기반한 L2 영어와 독일어의 음운 음운 특성에 대한 분석: Peter Lang, 2009.
  29. ^ TNO Human Factor Research Institute, Mist 다국어 상호운용성, Tech. ELRA, 파리, 프랑스, 2007, ELRA 카탈로그 참조 S0238 의원.
  30. ^ J.C. 세구라 외, 조종석 통신을 위한 시끄럽고 비원어적인 영어 말뭉치인 HIWire 데이터베이스, 2007, [3].
  31. ^ 2007년 벨기에 앤트워프 ICSLP에 있는 비원주 군용 항공 교통 통신 데이터베이스의 설계특성화.
  32. ^ L. Benarousse 외, 1999년 9월, 루스덴의 MIST 워크샵(ESCA-NATO) Proc.에서 NATO 원어민과 비원어(n4) 스피치 말뭉치.
  33. ^ Proc에서 The Oonomastica Consortium, The ONOMASTA International 발음 어휘소. 유로스피치, 마드리드, 스페인, 1995, 페이지 829-832.
  34. ^ C. 해커, T. 신카레크, A. 마이어, A. 헤슬러, 그리고 E. Noeth, Prosodic 발음 기능을 향상시켜 비 원어민 아동의 잘못된 발음을 탐지하는 것, ICASSP, Honolulu, 2007, 197-200페이지.
  35. ^ C. Teixeira, I. 트란코소, 그리고 A. 세랄헤이로, Proc에서 비원어 억양의 인식. 유로스피치, 로도스, 그리스, 1997 페이지 2375-2378.
  36. ^ H. 허벨, K. 츄크리, C. 골란, A. 모레노, 그리고 D. 모스테파, TC-STAR: ASRSLT 목적을 위한 새로운 언어 자원, 2006년 제노바, LREC, 페이지 2570-2573.
  37. ^ L.F. 라멜, F. 시엘, A. 포신, J 마리안리, H. 1994년 9월 일본 요코하마 ICSLP에 있는 영어 번역 데이터베이스 TED.
  38. ^ N. Mote, L. Johnson, A. 세티, J. 실바, S. Narayanan, 학습자 언어 오류의 전술적 언어 감지모델링: 2004년 6월, InSTIL의 Proc.에서 미국 영어 사용자들을 위한 아랍어 전술 언어 훈련의 사례.
  39. ^ K. 니시나, 2004년 일본 교토 ICA에서 CAL 시스템 구축을 위해원어민이 읽은 일본어 음성 데이터베이스 개발. 561-564페이지.
  40. ^ University Munich, The Verbmobil 프로젝트 [4].
  41. ^ I. 트란코소, C. 비아나, I. 마스카레냐스, C. Teixeira, Proc에서 탐색 질의에서 고유 발음에 대한 규칙을 도출한다. 유로스피치, 1999.
  42. ^ A. 라로카와 R. 츄에리, 웨스트포인트 아랍어 말뭉치, 테크 2002년 펜실베이니아 주 필라델피아 LDC의원.
  43. ^ A. 라로카와 C. 토메이, 웨스트포인트 러시아어 말뭉치, 테크 LDC, 필라델피아, 펜실베니아, 2003년 의원.
  44. ^ J. 모건, 웨스트포인트 히어로코 스페인어 연설, 테크 2006년 미국 펜실베이니아 주 필라델피아 LDC의원.
  45. ^ I. 암달, F. Korkmazski 및 A. C. Surendran, 데이터 중심 방법을 사용한 비원어 화자의 합동 발음 모델링, ICSLP, 2000, 페이지 622-625.
  46. ^ K. Livescu, Analysis and Modeling of non-native speech for automatic speech incognition, M.S 논문, 매사추세츠 공과대학, 캠브리지, MA, 1999.