Un model computațional explică modul în care creierul se concentrează pe o singură voce dintr-un mediu zgomotos
Autor: Airinei Camelia 2225 vizite
Prezentare
Un studiu publicat în revista Nature Human Behavior a investigat modul în care creierul selectează o sursă sonoră într-un mediu complex, utilizând modele computaționale inspirate din neuroștiință. Cercetătorii de la Massachusetts Institute of Technology arată că amplificarea selectivă a anumitor caracteristici sonore poate explica atât succesul, cât și erorile atenției auditive umane atunci când încercăm să urmărim o singură voce într-o conversație cu mai mulți interlocutori.
Idei principale
- Studiul a analizat atenția auditivă folosind paradigma clasică a problemei cocktail party, în care o persoană trebuie să urmărească o voce într-un mediu cu mai multe surse sonore.
- Cercetătorii au dezvoltat un model computațional bazat pe amplificări multiplicative ale caracteristicilor sonore.
- Modelul a fost antrenat să identifice cuvintele rostite de o voce țintă într-un amestec de vorbitori.
- Performanța modelului a replicat fidel comportamentul uman în numeroase situații experimentale.
- Modelul a prezis două proprietăți noi ale atenției auditive, ulterior confirmate experimental la oameni.
- Rezultatele sugerează că succesul și eșecurile atenției selective pot fi explicate prin mecanisme computaționale relativ simple.
Context
Atenția selectivă în percepția auditivă
Organismele trebuie adesea să aleagă un obiect sau o sursă dintr-un mediu complex pentru a ghida comportamentul. Acest proces implică atenția endogenă, un mecanism intern prin care sistemul nervos prioritizează anumite informații senzoriale.
În domeniul auditiv, una dintre cele mai cunoscute situații este problema cocktail party, în care o persoană trebuie să înțeleagă ce spune un interlocutor în timp ce alte voci vorbesc simultan.
Cercetările neurofiziologice sugerează că atenția funcționează prin amplificarea răspunsului neuronal pentru caracteristicile relevante ale stimulului. De exemplu, neuronii care răspund la anumite frecvențe sau timbre vocale își cresc activitatea atunci când acele caracteristici sunt relevante pentru sarcină.
Totuși, până recent nu existau modele computaționale capabile să testeze dacă aceste mecanisme sunt suficiente pentru a explica comportamentul atențional în situații reale.
Despre studiu
Sarcina experimentală
Pentru a studia atenția auditivă, cercetătorii au utilizat o sarcină de ascultare selectivă în trei etape:
- participanții ascultau mai întâi un fragment scurt al unei voci țintă
- apoi auzeau un amestec de vorbire care conținea atât vocea țintă, cât și alte voci
- în final, trebuiau să identifice cuvântul rostit de vocea țintă
Fragmentul inițial oferea informații despre caracteristicile vocale ale vorbitorului și poziția spațială a acestuia, fără a dezvălui conținutul cuvintelor din amestec.
Modelul computațional
Cercetătorii au construit un model inspirat din sistemul auditiv uman, format din:
- o simulare a cohleei
- o rețea neuronală profundă
- mecanisme de amplificare a caracteristicilor sonore
Caracteristicile relevante identificate în fragmentul inițial erau transformate în factori de amplificare, care intensificau reprezentarea acelor caracteristici atunci când apăreau în amestecul sonor.
Modelul a fost antrenat prin învățare automată pentru a recunoaște cuvintele rostite de vorbitorul țintă dintr-un set de aproximativ 800 de cuvinte posibile.
Datele de antrenament
Pentru a reproduce condițiile reale de ascultare, cercetătorii au generat scenarii acustice variate, incluzând:
- mai multe voci distractoare
- surse sonore non-vocale
- configurații spațiale diferite
- niveluri variabile de zgomot
- simulări de camere reverberante
Rezultate
Reproducerea performanței umane
Modelul computațional a reprodus fidel performanța umană în numeroase condiții experimentale. Atât oamenii, cât și modelul au prezentat:
- performanță mai bună atunci când zgomotul era mai redus
- dificultăți crescute când vocea distractoare avea caracteristici similare cu vocea țintă
- recunoaștere mai bună când vocile aparțineau unor sexe diferite
- avantaj în cazul distractorilor care vorbeau o limbă necunoscută
Erori de selecție
Participanții umani au raportat uneori cuvintele rostite de vorbitorul distractor în locul celui țintă. Modelul a produs erori similare, sugerând că aceste greșeli nu sunt neapărat rezultatul unor strategii imperfecte, ci pot reflecta limitări fundamentale ale procesării auditive atunci când caracteristicile vocale sunt similare.
Rolul armonicității vorbirii
Experimentele au arătat că structura armonică a vorbirii influențează selecția auditivă:
- vorbirea armonică a fost mai ușor de selectat
- vorbirea inarmonică a redus performanța
- vorbirea șoptită a produs cea mai mare degradare a performanței
Modelul a replicat aceste efecte, sugerând că structura spectrală a vorbirii este un factor important în atenția auditivă.
Atenția spațială
Separarea spațială dintre sursele sonore a îmbunătățit performanța atât la oameni, cât și în model. Acest fenomen, cunoscut drept eliberarea spațială de mascare, apare atunci când creierul utilizează diferențele de poziție pentru a separa sursele sonore.
Modelul a reprodus chiar și efecte mai subtile ale percepției spațiale, inclusiv avantajele create de separarea spațială iluzorie produse de efectul de precedență.
Predicții noi ale modelului
Modelul a permis explorarea unui număr mare de configurații spațiale care nu fuseseră testate anterior la oameni. Această analiză a generat două predicții importante:
- separarea surselor sonore pe orizontală oferă beneficii mai mari decât separarea pe verticală
- atenția spațială este mai precisă pentru sursele aflate în fața ascultătorului decât pentru cele din periferie
Experimentele realizate ulterior pe participanți umani au confirmat aceste predicții.
Interpretarea rezultatelor
Rezultatele sugerează că mecanismele de atenție bazate pe amplificarea caracteristicilor senzoriale sunt suficiente pentru a explica numeroase proprietăți ale atenției auditive umane.
Aceste mecanisme pot explica:
- capacitatea de a selecta o voce din mai multe surse
- dependența performanței de caracteristicile vocilor
- avantajele oferite de separarea spațială
- erorile de selecție în condiții dificile
Concluzii
Studiul demonstrează că atenția auditivă selectivă poate fi explicată printr-un mecanism relativ simplu de amplificare a caracteristicilor senzoriale relevante pentru sarcină. Modelele computaționale bazate pe acest principiu pot reproduce atât succesul, cât și limitările atenției umane în situații complexe de ascultare.
Acest cadru teoretic ar putea fi aplicat și altor domenii ale percepției, contribuind la înțelegerea modului în care creierul prioritizează informațiile senzoriale într-un mediu bogat în stimuli.
Detalii studiu
Abstract (original)
Cuvinte cheie
Referințe
Peste 13000 de cabinete medicale își prezintă serviciile pe ROmedic.