위상 보코더

Phase vocoder

위상보코더는 주파수 [1]변환에서 추출된 위상정보를 이용하여 오디오 신호의 주파수시간영역에 존재하는 정보를 보간할 수 있는 보코더 목적 알고리즘의 일종이다.컴퓨터 알고리즘을 사용하면 디지털 사운드 파일을 주파수 영역으로 변경할 수 있습니다(일반적으로 시간 확장/압축 피치 시프트).

위상 보코더의 중심에는 일반적으로 고속 푸리에 변환을 사용하여 코드화된 단시간 푸리에 변환(STFT)이 있습니다.STFT는 소리의 시간 영역 표현을 시간 주파수 표현("분석" 단계)으로 변환하여 시간 주파수 영역 표현을 역 STFT에 의해 시간 영역으로 재합성하기 전에 소리의 특정 주파수 구성요소의 진폭 또는 위상을 수정할 수 있도록 합니다.재합성 조작 전에 STFT 프레임의 시간 위치를 변경함으로써 재동기 음성의 시간 진화를 변경할 수 있어 원음 파일의 시간 스케일 변경이 가능하다.

위상 일관성 문제

STFT를 조작하는 모든 경우에 대해 해결되어야 하는 주요 문제는 개별 신호 성분(시누소이드, 임펄스)이 여러 프레임 및 여러 STFT 주파수 위치(빈)에 분산된다는 것입니다.이는 STFT 분석이 중복되는 분석 창을 사용하여 이루어지기 때문입니다.윈도우 설정은 개별 사인파 구성요소의 정보가 인접한 STFT 빈에 퍼지도록 스펙트럼 누출을 초래한다.분석창 테이퍼링의 경계효과를 피하기 위해 STFT 분석창이 시간적으로 겹칩니다.이 시간 중복은 인접한 STFT 분석이 강한 상관관계를 가지고 있다는 사실을 야기한다(시간 "t"에 있는 분석 프레임에 존재하는 사인파가 후속 프레임에도 존재할 것이다).위상 보코더를 사용한 신호 변환 문제는 STFT 표현에서 이루어지는 모든 수정이 인접 주파수 빈(수직 일관성)과 시간 프레임(수평 일관성) 사이의 적절한 상관관계를 유지할 필요가 있다는 문제와 관련되어 있습니다.극히 단순한 합성음의 경우를 제외하고, 이러한 적절한 상관관계는 대략적으로만 보존될 수 있으며, 위상 보코더 연구가 발명된 이후 주로 수정 후 STFT 표현의 수직 및 수평 일관성을 보존하는 알고리즘을 찾는 데 관심을 가져왔다.위상 일관성 문제는 적절한 해결책이 나오기 전에 꽤 오랫동안 조사되었다.

역사

위상 보코더(phase [2]vocoder)는 사인파 구성요소를 나타내는 빈의 위상 사이의 수평적 일관성을 유지하는 알고리즘으로 1966년에 Flanagan에 의해 도입되었다.이 원래 위상 보코더는 인접한 주파수 빈 사이의 수직적 일관성을 고려하지 않았기 때문에 이 시스템과의 시간 연장은 명료성이 결여된 음향 신호를 생성했다.

진폭 변경 후 STFT의 음향 신호의 최적 재구성은 1984년 [3]그리핀과 림에 의해 제안되었다.이 알고리즘에서는 일관성 있는STFT를 생성하는 문제는 고려되지 않지만 수정된STFT가 일관성이 없는(신호를 나타내지 않는) 경우에도 가능한 한 가까운STFT를 가진 사운드 신호를 검출할 수 있습니다.

Laroche와 Dolson이[4] 스펙트럼 빈 전체에 걸쳐 위상 일관성을 유지하는 방법을 제안하기 전까지 수직 일관성의 문제는 시간 스케일링 작업의 품질에 대한 주요 쟁점으로 남아 있었다.Laroche와 Dolson의 제안은 위상 보코더 역사의 전환점으로 보여져야 한다.수직 위상 일관성을 보장함으로써 매우 고품질의 시간 스케일 변환을 얻을 수 있는 것으로 나타났습니다.

Laroche가 제안한 알고리즘은 소리 온셋(주)에 대한 수직 위상 일관성을 보존할 수 없었다.이 문제에 대한 해결책은 [5]Roebel에 의해 제안되었습니다.

고품질 신호변환을 실현하기 위해 여기에 기재된 것과 유사한 수단을 이용한 위상보코더 기반의 신호변환 소프트웨어 구현의 예로는 Ircam의 SuperVP가 [6][verification needed]있다.

음악에서 사용

영국의 작곡가 Trevor Wishart는 그의 작곡 Vox 5 (더 큰 Vox [7]Cycle의 일부)의 기초로서 위상 보코더 분석과 사람 목소리의 변환을 사용했다.미국 작곡가 로저 레이놀즈의 '트랜스포머드 윈드'는 위상 보코더를 사용하여 플루트 [8]사운드의 시간 스트레칭을 수행합니다.JoAnn Kuchera-Morin의 음악Dreampaths(1989년)[9]와 같이 위상 보코더 변환을 가장 오래되고 광범위하게 사용한다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Sethares, William. "A Phase Vocoder in Matlab". sethares.engr.wisc.edu. Retrieved 6 December 2020.
  2. ^ Flanagan J.L. and Golden, R. M. (1966). "Phase vocoder". Bell System Technical Journal. 45 (9): 1493–1509. doi:10.1002/j.1538-7305.1966.tb01706.x.
  3. ^ Griffin D. and Lim J. (1984). "Signal Estimation from Modified Short-Time Fourier Transform". IEEE Transactions on Acoustics, Speech, and Signal Processing. 32 (2): 236–243. CiteSeerX 10.1.1.306.7858. doi:10.1109/TASSP.1984.1164317.
  4. ^ J. Laroche and M. Dolson (1999). "Improved Phase Vocoder Time-Scale Modification of Audio". IEEE Transactions on Speech and Audio Processing. 7 (3): 323–332. doi:10.1109/89.759041.
  5. ^ Roebel A., "위상 보코더에서의 과도처리에 대한 새로운 접근법", DAFx, 2003.pdf 2004-06-17 Wayback Machine에서 아카이브됨
  6. ^ "SuperVP", Ircam.fr.
  7. ^ Wishart, T. "복스 5의 구성"컴퓨터 음악 저널 12/4, 1988
  8. ^ Serra, X. '결정론적 + 확률적 분해를 기반으로 한 소리 분석/변환/합성 시스템', 페이지 12(PhD 논문 1989)
  9. ^ Roads, Curtis (2004)마이크로사운드, 페이지 318MIT 프레스ISBN 97802681544.

외부 링크