410 likes | 559 Views
Ako používame pozornosť a apriórne informácie pri priestorovom počúvaní. Norbert Kopčo Katedra kybernetiky a umelej inteligencie, T echnick á univerzita Košice Hearing Research Center and Center for Computational Neuroscience Boston University. 9/23/2011, Kognice, Brno. Prehľad.
E N D
Ako používame pozornosť a apriórne informácie pri priestorovom počúvaní Norbert Kopčo Katedra kybernetiky a umelej inteligencie, Technická univerzita Košice Hearing Research Center and Center for Computational NeuroscienceBoston University 9/23/2011, Kognice, Brno
Prehľad Úvod do priestorového sluchu: funkcie, neurálne štruktúry, aplikácie výskumu Dve príkladové štúdie: Experiment 1: Presúvanie priestorovej pozornosti pri separovaní reči Experiment 2: Použitie apriórnej informácie pri lokalizácii hovoriaceho Cieľ: Ukázať, že faktory ako vôľou riadená pozornosť a vedomá voľba stratégie sú kritické pri počúvaní v zložitých (každodenných) prostrediach. (+Aktuálne bežiace projekty)
Funkcie sluchu • Človek je schopný zvuky:- identifikovať- lokalizovať- porozumieť • Veľmi zložitý proces: Napr., ako vieme, ktorý zvuk pochádza z ktorého zdroja, ak počujeme viac zvukov súčasne? • Príklad: Bóje v prístave … Yost (1994)
Priestorový sluch: načo máme dve uši? Lokalizovanie zvukov v priestore: v porovnaní so zrakom je sluch podstatne horší (dva rády), ale pokrýva celý priestor. Užitočné napr. ako výstražný mechanizmus. Separácia zvukov: ak počúvame viac vecí naraz, sluchový systém môže porovnať zvuk zaznamenaný ušami a na základe tohoto porovnania zlepšiť porozumenie jednému z počutých stimulov. Používame napr. ak hovorí viac ľudí naraz (cocktail party effect), ale aj pri potláčaní odrazov zvuku od stien. Analýza sluchovej scény:vytvorenie vnútorného modelu sluchového prostredia pre orientáciu, interakciu, a správne spracovanie/porozumenie.
Neurálna štruktúra (po kôru) Časti: Veľa podkôrových: - kochleárny nukleus - mozgový kmeň:olivárny komplex - stredný mozog:colliculus inferior - thalamus:MGB Porovnanie so zrakom: Sluch rýchlejší a presnejší (vďaka podkôrovým štruktúram) Thalamus Midbrain Pons (Kandel, Schwartz, Jessel)
Neurálna štruktúra (kôra) • Primárna kôra • Dve paralelné • dráhy • (hypotetické): • „čo“ • „kde“ • Veľa interakcií: • napr. s inými • modalitami, • na všetkých • úrovniach (Rauschecker a Tian, 2000)
Aplikácie výskumu priestor. sluchu Prostetika: - načúvacie strojčeky, kochleárne a kmeňové implantáty Psychologické aspekty a komunikácia medzi ľuďmi: - kognitívna záťaž rušivých zvukov napr. pri výuke, komunikácia v zložitých prostrediach (letoví navigátori) Sluchový displej („zobrazovanie“ informácií sluchom): - pre slepcov, pri aktivitách s veľkou kognitívnou záťažou Technické systémy: - automatické rozpoznávanie reči, strojová lokalizácia zvukov, počítačové hry, systémy pre virtuálnu realitu
Experiment 1: Orientovanie priestorovej pozornosti pri selektívnom počúvaní
Problém selektívneho počúvania… • Presnosť spracovania reči poslucháčom je vo všeobecnosti dobrá, ak reč prichádza z miesta, na ktoré poslucháč zameriava svoju pozornosť. Ale, ak má spracovať reč z miesta, na ktoré jeho pozornosť zameraná nie je, presnosť spracovania sa zhorší. • Otázka: Čo sa stane ak sa poloha hovoriaceho, na ktorého sa má pozornosť zamerať, v čase mení? • Cieľ: - študovať krátkodobú dynamiku selektívnej pozornosti,- merať presnosť spracovania reči v prípade meniacej sa polohy cieľa počas prezentácie sekvencie slov. • Hypotéza: Presnosť spracovania reči je horšia keď poslucháč musí presúvať priestorovú selektívnu pozornosť (napriek tomu, že vie kam ju má presunúť).
Predošlý výskum Apriórna znalosť, „ktorým smerom“ (staticky) počúvať zlepšuje porozumenie reči pri počúvaní viacerých súčasne hovoriacich (Kidd et al. JASA 2005; Best et al. JARO 2007) Presnosť porozumenia sa zlepšuje aj po desiatkach počutých slov(Brungart et al. Percept Psychophys 2007) My meriame krátkodobú dynamiku selektívnej pozornosti: sledujeme efekt zmeny polohy cieľa počas prezentácie sekvencie slov
Metódy: Poloha cieľa sa mení “3 9 1 5” STATICKÉ “5 4 2 9” “6 8 4 2” • 2(+1) usporiadania • STATICKÉ: poloha cieľa sa počas sekvencie nemení • DYNAMICKÉ: poloha sa mení od čísla k číslu • 4 rýchlosti prezentácie Pauza medzi slovami 0, 250, 500, 1000 ms • 2 hlasové typy • NÁHODNÝ, KONŠTANTNÝ “9 3 5 1” “1 2 6 7” ČAS DYNAMICKÉ ČAS
100 STATICKÉ 90 DYNAMICKÉ 80 70 60 % correct 50 40 30 20 10 0 0 250 500 1000 inter-word delay (ms) Výsledky: priemerná presnosť NÁHODNÝ HLAS STATICKÉ ČAS DYNAMICKÉ ČAS
100 STATICKÉ 90 DYNAMICKÉ DYNAMICKÉ S PREDSTIHOM 80 70 60 % correct 50 40 30 20 10 0 0 250 500 1000 inter-word delay (ms) Výsledky: priemerná presnosť NÁHODNÝ HLAS STATICKÉ ČAS DYNAMICKÉ % správnych odpovedí S PREDSTIHOM ČAS
0 ms 250 ms 500 ms 1000 ms 80 80 80 80 STATICKÉ DYNAMICKÉ DYNAMICKÉ S PREDSTIHOM 70 70 70 70 60 60 60 60 % correct 50 50 50 50 40 40 40 40 30 30 30 30 20 20 20 20 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 digit position digit position digit position digit position Výsledky: závislosť na poradí STATICKÉ NÁHODNÝ HLAS ČAS DYNAMICKÉ S PREDSTIHOM ČAS
100 STATICKÉ 90 DYNAMICKÉ 80 70 60 % správnych odpovedí 50 40 30 20 10 0 0 250 500 1000 pauza medzi slovami (ms) Výsledky: priemerná presnosť KONŠTANTNÝ HLAS STATICKÉ ČAS DYNAMICKÉ ČAS
Výsledky: priemerná presnosť STATICKÉ KONŠTANTNÝ HLAS 100 STATICKÉ 90 DYNAMICKÉ DYNAMICKÉ S PREDSTIHOM 80 70 60 % správnych odpovedí ČAS 50 DYNAMICKÉ S PREDSTIHOM 40 30 20 10 0 0 250 500 1000 pauza medzi slovami (ms) ČAS
0 ms 250 ms 500 ms 1000 ms 80 80 80 80 STATICKÉ DYNAMICKÉ DYNAMICKÉ S PREDSTIHOM 70 70 70 70 60 60 60 60 % správnych odpovedí 50 50 50 50 40 40 40 40 30 30 30 30 20 20 20 20 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 poradie čísla Výsledky: závislosť na poradí STATICKÉ KONŠTANTNÝ HLAS ČAS DYNAMICKÉ S PREDSTIHOM ČAS
Analýza chýb STATICKÉ DYNAMICKÉ DYNAMICKÉ S PREDSTIHOM KONŠTANTNÝ HLAS NÁHODNÝ HLAS Najčastejší typ chyby je identifikovanie vedľajšieho slova. Zlepšenie správnosti pri statickej polohe cieľa je primárne spôsobené redukciou výskytu odpovedí uvádzajúcich maskovacie číslo. Priestorový filter má tvar gausovskej distribúcie.
Exp 1: Zhrnutie • Schopnosť rozpoznať, zapamätať si, a vyvolať z pamäti krátku sekvenciu slov sa zhorší, keď sa poloha hovoriaceho behom sekvencie mení. • Toto zhoršenie pretrváva aj ak sa:- spomalí rýchlosť prezentácie,- priestorová informácia o cieli poskytne predom (aj keď je náskok 1 sekunda!!!)- predom poskytnutá informácia pomáha len pri konštantnom cieľovom hlase • Zvýšena kognitívna záťaž vyvolaná presúvaním pozornosti má pretrvávajúce následky. • Zhoršenie výkonu v dynamickom prostredí má minimálne dva komponenty: • kogn. záťaž vyvolaná rýchlym presúvaním cieľa, • strata schopnosti vylepšovať pozornostný filter počas prezentácie sekvencie. Best, Ozmeral, Kopco, and Shinn-Cunningham (2008). PNAS 105:13173-13177.
E1a: maskovače bez významu Q: Je zlepšenie pri statickom počúvaní spôsobené tým, že maskovače sú potenciálnymi cieľmi? Metódy:Ako Exp. 1 s konšt. hlasom, ale maskovače časovo prevrátené (prehrávané zozadu) a zhlasnené o 10 dB Výsledok:Ako Exp. 1, ale predstih LEDky už nezlepšuje výkon % správnych odpovedí pauza medzi slovami (ms)
E1b: zapamätaná trajektória Q: Je zlepšenie pri statickom počúvaní spôsobené neurčitosťou polohy nasledovného cieľa? Metódy:Ako Exp. 1 s konšt. hlasom, ale trajektória pohybu cieľa zafixovaná a natrénovaná. Výsledok:Žiadne zlepšenie (ale experiment vykonaný len s 0-sekundovou pauzou medzi slovami) % správnych odpovedí pauza medzi slovami (ms)
E1c: hladká trajektória Q: Je strata pri dynamickom presúvaní pozornosti ovplyvnená vzdialenosťou presúvania pozornosti? Metódy:Ako Exp. 1 s konšt. hlasom, ale trajektória pohybu cieľa obmedzená na susedné reproduktory. Výsledok:Ako Exp. 1, ale predstih LEDky už nezlepšuje výkon % správnych odpovedí STATICKÉ DYNAMICKÉ DYNAMICKÉ S PREDSTIHOM pauza medzi slovami (ms)
Doplnkové exp. 1a-c: Zhrnutie • Zlepšenie selektivity priestorovej pozornosti dosiahnuté zafixovaním polohy cieľa nie je možné prisúdiť výlučne: • a) náročnosti úlohy odfiltrovať susedné maskovače, ktoré sú potenciálne zameniteľné s cieľom; • b) možnosti pripraviť sa na smer, z ktorého príde cieľ; • c) tomu, že pozornosť netreba presúvať ďaleko. • Dôležitá je možnosť kontinuálne počúvať cieľový hlas z jedného miesta. Best, Shinn-Cunningham, Ozmeral, Kopčo (2010). JASA 127 (6), EL258-EL264 .
Experiment 2: Localizing a speech target in a multitalker mixture
Introduction Spatial separation of sources enhances speech perception In complex environments (e.g., with multiple talkers), spatial perception also important for “sorting” acoustic scene into objects and focusing attention on sources of interest (Brungart et al 2001; Freyman et al 1999; Kidd et al 2005; Best et al 2007; Shinn-Cunningham 2008) Relatively few studies actually measured localization of speech in a multitalker environment (Yost et al., 1996; Hawley et al.1999; Drullman and Bronkhorst 2000; Brungart et al. 2006)
Experiment and Goals Study horizontal localization of speech in a multitalker environment Question 1: How does presence of maskers influence localization performance? Evaluate the effect of maskers on RMS errors in localization responses. Separate effect of detection on localization errors. Question 2: Is performance affected by a priori knowledge / uncertainty about distribution of masker locations? Compare performance when masker distribution fixed vs. varied from trial to trial. Hypotheses: 1. Masker location uncertainty will hurt performance.2. A priori information will eliminate some of the loss, in particular if a simple strategy can be employed to use it.
Methods Stimuli: Target: word “two” spoken by a female talkerMaskers: 4 different monosyllabic words, spoken by 4 male talkers (all longer than target)Target-to-Masker energy ratios: 0 dB or -5 dB Task: Subjects pointed head to perceived target location Subjects asked to indicate location only if target heard (5 catch trials with no target per block to monitor obedience) Conditions (separate blocks): - Control: No masker - Fixed: Masker pattern fixed across block of trials - Mixed: Masker pattern randomly chosen for each trial
Detection Detection worse at lower TMR, similar in both uncertainty conditions
Localization: Control Good performance with no maskers All effects of maskers plotted re. control performance on following slides
Average across patterns Detrimental effect of maskers is strong, both for fixed and mixed conditions. Averaged across patterns and target locations, a priori knowledge helps slightly, by approximately 20%.
Average across patterns When looking only at off-masker locations, a priori knowledge helpsdramatically (by 36%)
Average across patterns When looking only at on-masker locations, a priori knowledge has no effect (or hurts performance)
Interim Summary • Presence of maskers hurts performance (H1 confirmed), even after accounting for lower detectability. • A priori knowledge of masker locations influences target talker localizability: • - Improving performance at locations from which (the subject knows) no masker can come • - Not affecting (or worsening) performance at locations from which (the subject knows) maskers will come (H2 partially confirmed) • Possible mechanism: - Redistribution of processing resources - “incorrect” strategy: focusing only on off-masker locations • Next, analyze patterns separately to gain more insight into behavior re. H2.
Raw Data Complex effect of target location, masking pattern, uncertainty and TMR
Analysis of Patterns A priori information helps for off-masker targets - in almost all patterns- at both TMRs (more at -5 dB) A priori information can hurt for on-masker targets, mainly for patterns 1 and 2 Overall, effects large for Patts 1 & 2, small for Patt 5. Complexity of pattern limits use of a priori information.
Exp 2: Summary 1. Mixture has complex effects on localization performance - generally, it increases localization errors, even after detection errors are eliminated - effect depends on masker pattern, location of target re. maskers, and TMR 2. A priori information about the distribution of speech maskers modulates the effect of masking: - reducing it (as expected) - but sometimes increasing it (unexpected) 3. These modulatory effects are - likely to be due to change in strategy / assignment of resources: focusing on off-masker locations in fixed condition - most useful when a priori information can be simply applied (simple patterns) - least useful when a priori information cannot be simply applied (complex patterns) Kopčo N, Best V, Carlile S (2010). Journal of the Acoustical Society of America, 127, 1450-1457
Exp 2a: Hearing Impairment Q: Is the effect of complex masker mixture similar for Hearing-Impaired listeners? Methods:As in Exp. 2, but only the Mixed condition. Result:HI listeners performance only affected in mixture (re. normal hearing listeners) Best, Carlile, Kopčo, van Schaik (2011) J of the Acoust Soc of Am, 129, EL210-EL215
Celkové zhrnutie • Predošlé štúdie ukázali, že vplyv pozornosti a apriórnej informácie je v jednoduchých situáciách (napr. keď sluchová scéna pozostáva len z jedného hovoriaceho a jedného maskovacieho zdroja zvuku) malý:- pri porozumení reči, aj- pri lokalizácii zdrojov zvuku. • V zložitých situáciách (napr. keď hovorí naraz 5 ľudí): • je schopnosť zamerať priestorovú pozornosť veľmi dôležitá pre porozumenie reči (Exp. 1) • človek využíva apriórne informácie na voľbu stratégie (nie vždy optimálnej) pre lokalizáciu hovoriaceho (Exp. 2).
Spolupracovníci a podpora Gin Best, Erol Ozmeral, Barbara Shinn-Cunningham Hearing Research Center, Boston UniversitySimon Carlile University of Sydney Beáta Tomoriová, Ľuboš Hládek, Rudolf Andoga Katedra kybernetiky a UI, TU Košice Finančná podpora: Human Frontiers Science Program, US National Institutes of Health, US National Science Foundation, US National Academy of Sciences, VEGA
Aktuálne projekty • Na TU Košice:Contextual Plasticity in Sound Localization (US NIH) • V spolupráci s Boston University, Harvard Medical School/MGH, UC Riverside:Perceptual and cross-modal learning in auditory distance perception (Marie Curie Project, 7FP EU) • Viac info: http://pcl.tuke.sk, http://cns.bu.edu/~kopco