청각장면분석

Auditory scene analysis

지각정신물리학에서 청각장면분석(ASA)은 청각지각의 기초가 되는 모델이다.이것은 인간의 청각 시스템이 소리를 지각적으로 의미 있는 요소로 구성하는 과정으로 이해된다.이 용어는 심리학자 앨버트 브레그먼에 의해 만들어졌다.[1]기계 인식의 관련 개념은 컴퓨터 청각 장면 분석(CASA)으로, 소스 분리블라인드 신호 분리와 밀접한 관련이 있다.

Bregman의 ASA 모델의 세 가지 주요 측면은 세분화, 통합, 분리 이다.

배경

소리는 귀에 닿고 고막이 전체적으로 진동한다.이 신호는 어떤 식으로든 분석되어야 한다Bregman의 ASA 모델은 사운드가 "통합"(음악의 조화와 유사하게 전체적으로 들림)되거나 개별 구성 요소(대립점)로 "분리"될 것이라고 제안한다.예를 들어, 종은 '싱글' 소리(통합)로 들릴 수 있고, 어떤 사람들은 개별적인 요소들을 들을 수 있다 – 그들은 소리를 분리할 수 있다.이것은 '색'으로, 또는 개별 음으로 들을 수 있는 화음으로 할 수 있다.사람의 목소리, 악기, 혹은 거리를 지나가는 자동차와 같은 자연적인 소리는 많은 주파수로 이루어져 있으며, 이것은 소리의 인지된 질(음색처럼)에 기여한다.두 개 이상의 자연음이 동시에 발생할 때, 동시에 활동적인 소리의 모든 구성요소를 동시에 수신하거나, 또는 동시에 중첩하여 듣는 사람의 귀에 의해 이루어진다.이것은 그들의 청각 시스템을 문제와 함께 제시한다: 소리의 어떤 부분이 함께 그룹화되어야 하며 동일한 소스 또는 물체의 부분으로 취급되어야 하는가?그것들을 잘못 그룹화하면 청자가 원래의 구성 요소들의 잘못된 조합에서 만들어진 존재하지 않는 소리를 듣게 될 수 있다.

많은 상황에서 분리 요소들은 청각적 흐름을 생성하면서 시간 내에 서로 연결될 수 있다.이러한 청각 스트리밍 능력은 이른바 칵테일 파티 효과로 증명할 수 있다.어느 정도까지는 다수의 목소리가 동시에 또는 배경음으로 말을 걸면 다른 목소리와 배경음이 존재하더라도 특정 목소리를 따라갈 수 있다.[2]이 예에서 귀는 이 음성을 다른 소리(통합된 소리)로부터 분리하고, 마음은 이 분리된 소리들을 청각 흐름으로 "스팀"하고 있다.이는 음악가, 특히 하나, 둘, 세 개 이상의 악기를 동시에 들을 수 있는(격리) 지휘자들에 의해 고도로 발달된 기술로, 청각 스트리밍을[citation needed] 통해 각각의 악기를 독립된 선으로 따라 할 수 있다.

그룹화 및 스트림

ASA에는 다수의 그룹화 원리가 근거하고 있으며, 그 중 많은 원칙이 게슈탈트 심리학교에서 발견한 지각조직의 원리와 관련이 있다.이러한 메커니즘은 크게 순차적 그룹 메커니즘(시간에 걸쳐 작동하는 메커니즘)과 동시 그룹 메커니즘(주파수에 걸쳐 작동하는 메커니즘)으로 분류할 수 있다.

  • 동시 그룹화의 오류로 인해, 서로 다른 인식 특성(음향이나 음색 등)을 가진 혼합된 소리가 실제로 수신된 소음에 혼합될 수 있다.예를 들어, 동시에 제시된 두 개의 모음이 분리되어 있으면 식별할 수 없을 수 있다.[3]
  • 예를 들어, 순차적 그룹화의 오류는 두 개의 다른 목소리에서 비롯된 음절로 만들어진 단어를 듣게 할 수 있다.[4][5]

분리는 주로 지각적 단서에 기초하거나 학습된 패턴("구성표 기반")의 인식에 의존할 수 있다.

ASA의 일은 들어오는 감각 정보를 그룹화하여 개별 소리를 정확하게 정신적으로 표현하는 것이다.소리가 청각 시스템에 의해 다른 공통 발생 시퀀스와 구별되는 인식된 시퀀스로 분류될 때, 이러한 인식된 시퀀스를 각각 "청각 스트림"이라고 부른다.현실 세계에서 ASA가 성공한다면 스트림은 사람이 말을 하거나 피아노를 치거나 개가 짖는 등 시간이 지나도 지속되는 패턴을 만들어내는 뚜렷한 환경 음원에 해당한다.그러나 연구실에서는 소리의 음향 파라미터를 조작함으로써 하나 이상의 청각 스트림에 대한 인식을 유도할 수 있다.

청각적 장면 분석에서의 스트리밍

이것의 한 예는 "스트림 분리"[6]라고도 불리는 스트리밍 현상이다.만약 두 소리인 A와 B가 시간적으로 빠르게 교대된다면, 몇 초 후 그 지각은 듣는 사람이 한 줄기의 소리가 아닌 두 줄기의 소리를 들을 수 있도록 "분열"하는 것처럼 보일 수 있는데, 예를 들어 B-B-B-B-B-B 등이 동반되는 두 소리 중 한 줄기의 반복에 해당하는 스트림 등이 그것이다.분리된 흐름으로 분리하려는 경향은 소리 A와 B의 음향 특성 차이에서 선호된다.분리를 촉진하는 것으로 분류되는 차이점으로는 주파수(순수 톤의 경우), 기본 주파수(복잡한 톤의 경우), 주파수 구성, 소스 위치 등이 있다.그러나 시퀀스 속도가 충분하다면 두 시퀀스 사이의 어떤 체계적인 지각 차이도 스트리밍을 유도할 수 있다고 제안되었다.[7]

이 스트리밍과 주파수 분리 및 속도의 중요성을 보여주는 대화형 웹 페이지를 여기에서 찾을있다.

Andranik Tangian은 그룹화 현상이 역학뿐만 아니라 통계학에서도 관찰된다고 주장한다.예를 들어, 화음의 감각은 물리적 인과성보다는 음향 데이터 표현 효과(사실 확성기 막과 같은 단일 물리적 신체는 여러 톤의 효과를 낼 수 있고, 화음으로 튜닝된 기관 파이프와 같은 여러 물리적 신체는 한 톤의 효과를 낼 수 있다.)이다.음악적 음향의 관점에서, 화음은 주파수 축을 따라 단일 톤 스펙트럼의 변위 때문에 발생하는 것으로 간주할 수 있는, 부분 톤(시누소이드 진동)의 집합인 특별한 종류의 소리다.즉, 화음의 간격 구조는 톤에 의해 그려진 음향적 윤곽선이다(역학적으로 다성음성은 톤 스펙트럼의 궤적이다).이것은 정보 이론에 의해 정당화된다.만약 생성음이 조화(= 피치 만족도)라면, 그러한 표현은 독특한 것으로 증명되고 최소한의 기억력을 필요로 한다, 즉 콜모고로프의 의미로는 가장 덜 복잡하다.화음을 하나의 복잡한 소리로 간주하는 화음을 포함한 다른 모든 표현들이 더 단순하기 때문에 화음은 복합체로 인식된다.만약 생성음이 종과 같은 소리처럼 불건전하다면, 간격 구조는 여전히 음의 스펙트럼을 대체하는 것으로 인식되며, 음은 감지할 수조차 없다.이 최적의 표현 기반 화음의 정의는 무엇보다도 절대 음치 청력에 대한 간청력의 우세를 설명한다.[8][9]

실험기준

많은 실험에서 다른 음의 높은 음과 낮은 음의 높은 음의 연속과 같은 더 복잡한 음의 패턴의 분리를 연구했다.그러한 순서에서, 공존하는 소리를 구별되는 흐름으로 분리하는 것은 그들이 듣는 방식에 심오한 영향을 미친다.선율에 대한 인식은 모든 음이 같은 청각 흐름에 떨어지면 더 쉽게 형성된다.우리는 같은 흐름에 있는 음 중에서 다른 흐름에 있는 음을 제외하고 리듬을 듣는 경향이 있다.타이밍 판단은 별도의 스트림의 노트 사이보다 같은 스트림의 노트 사이사이에 더 정밀하다.인식된 공간적 위치와 인식된 큰 소리조차도 순차적 그룹에 의해 영향을 받을 수 있다.이 주제에 대한 초기 연구는 인간 성인을 대상으로 한 것이었지만, 최근의 연구는 신생 유아들에게 ASA 능력이 있다는 것을 보여주며, 그들이 경험을 통해 배운 것이 아니라 내장되어 있다는 것을 보여준다.다른 연구는 인간이 아닌 동물들도 ASA를 나타낸다는 것을 보여주었다.현재 과학자들은 ASA의 기초가 되는 메커니즘을 발견하기 위해 대뇌피질의 청각영역에서 뉴런의 활동을 연구하고 있다.

참고 항목

참조

  1. ^ Bregman, A. S. (1990). Auditory scene analysis: The Perceptual Organization of Sound. Cambridge, MA: MIT Press. ISBN 9780262022972.
  2. ^ Miller, G. A. (1947). "The masking of speech". Psychological Bulletin. 44 (2): 105–129. doi:10.1037/h0055960. PMID 20288932.
  3. ^ Assmann, P. F.; Summerfield, Q. (August 1990). "Modeling the perception of concurrent vowels: Vowels with different fundamental frequencies". The Journal of the Acoustical Society of America. 88 (2): 680–697. Bibcode:1990ASAJ...88..680A. doi:10.1121/1.399772. PMID 2212292.
  4. ^ Gaudrain, E.; Grimault, N.; Healy, E. W.; Béra, J.-C. (2007). "Effect of spectral smearing on the perceptual segregation of vowel sequences". Hearing Research. 231 (1–2): 32–41. doi:10.1016/j.heares.2007.05.001. PMC 2128787. PMID 17597319.
  5. ^ Billig, A. J.; Davis, M. H.; Deeks, J. M.; Monstrey, J.; Carlyon, R. P. (2013). "Lexical Influences on Auditory Streaming". Current Biology. 23 (16): 1585–1589. doi:10.1016/j.cub.2013.06.042. PMC 3748342. PMID 23891107.
  6. ^ van Noorden, L. P. A. S. (1975). Temporal coherence in the perception of tones sequences (PDF) (PhD). The Netherlands: Eindhoven University of Technology. Retrieved 10 March 2018.
  7. ^ Moore, B. C. J.; Gockel, H. E. (2012). "Properties of auditory stream formation". Philosophical Transactions of the Royal Society B: Biological Sciences. 367 (1591): 919–931. doi:10.1098/rstb.2011.0355. PMC 3282308. PMID 22371614.
  8. ^ Tanguiane (Tangian), Andranick (1993). Artificial Perception and Music Recognition. Lecture Notes in Artificial Intelligence. Vol. 746. Berlin-Heidelberg: Springer. ISBN 978-3-540-57394-4.
  9. ^ Tanguiane (Tanguiane), Andranick (1994). "A principle of correlativity of perception and its application to music recognition". Music Perception. 11 (4): 465–502. doi:10.2307/40285634.