Amigdala, arbitrul sofisticat al învățării bazate pe stimul și acțiune
Autor: Airinei Camelia

În medii naturale, rezultatele recompensei pot fi atribuite fie identității stimulului, fie acțiunii efectuate, iar creierul trebuie să decidă ce model al mediului este relevant. Studiul publicat în jurnalul Nature Communications investighează, printr-o combinație de analiză comportamentală și modelare computațională, modul în care amigdala și striatul ventral contribuie la arbitrajul dintre aceste două sisteme de învățare sub multiple forme de incertitudine.
În situații reale, recompensele pot depinde de caracteristicile unui stimul (învățare bazată pe stimul) sau de acțiunea executată (învățare bazată pe acțiune). În plus, există:
- Incertitudine așteptată – probabilitatea recompensei (ex. 80:20 vs. 60:40).
- Incertitudine neașteptată – momentele imprevizibile de inversare a asocierilor recompensă–opțiune.
- Incertitudine privind modelul mediului – dacă recompensa depinde de stimul sau de locație/acțiune.
Puține studii au manipulat simultan aceste forme de incertitudine și au analizat mecanismele neuronale ale arbitrajului dintre sisteme.
Despre studiu
Design experimental
Trei grupuri de maimuțe au fost evaluate:
- Grup control (n=4 în sarcina What-only; n=6 în sarcina What/Where)
- Leziuni bilaterale ale amigdalei (n=4)
- Leziuni bilaterale ale striatului ventral (n=3)
În fiecare bloc de 80 de probe, două stimuli vizuali noi erau prezentați aleatoriu stânga–dreapta. Recompensa era probabilistică (80:20, 70:30 sau 60:40), iar asocierea „mai bun/mai slab” era inversată aleator între probele 30–50, fără semnal.
Au existat două tipuri de sarcini:
- What-only – recompensa depindea exclusiv de identitatea stimulului.
- What/Where – recompensa depindea fie de stimul (blocuri What), fie de locație (blocuri Where), intercalate aleator.
Analiză computațională
Autorii au utilizat:
- Metrici informaționale (entropie condițională ERDS pentru stimul și acțiune).
- Modele de învățare prin întărire (reinforcement learning) cu două sisteme paralele.
- Modele cu arbitraj static și dinamic (parametrii ω și ρ).
- Validare prin cross-validare în 5 fold-uri.
Cel mai performant model a fost Dynamic ω-ρ, în care:
- ω este greutatea dinamică a arbitrajului.
- ρ reflectă raportul de bază dintre semnalele valorice ale celor două sisteme.
- Fiabilitatea este estimată prin valoarea opțiunii alese (Vcho), nu prin eroarea de predicție absolută.
Rezultate
Interacțiunea dintre sisteme
În sarcina What/Where s-au observat corelații negative puternice între consistența strategiilor:
- Blocuri What: r = −0.602, p = 2.43 × 10−296
- Blocuri Where: r = −0.578, p = 1.32 × 10−261
Aceasta indică o competiție dinamică între sistemul bazat pe stimul și cel bazat pe acțiune.
Timp de reacție și arbitraj
Ponderile mai mari către sistemul bazat pe stimul (Ω crescut) au fost asociate cu timpi de reacție mai lungi:
- What-only: r = 0.094, p = 1.24 × 10−4
- What/Where: r = 0.414, p = 3.78 × 10−245
Efectele leziunilor
Leziuni ale amigdalei
- Performanță redusă în What-only (β = −0.172, p = 7.72 × 10−22).
- Lipsă de diferențiere între ratele de arbitraj ψ+ și ψ− în sarcina What/Where.
- Scădere semnificativă a ponderii inițiale de arbitraj (ω0).
Deficitul principal nu a fost doar în învățarea bazată pe stimul, ci în setarea stării inițiale a arbitrajului, ducând la actualizări nediferențiate între sistemul corect și cel incorect.
Leziuni ale striatului ventral
- Reducerea parametrului ρ (p = 0.0044).
- Sensibilitate mai mare la semnalele bazate pe acțiune (Δβ semnificativ negativ).
- Arbitraj dinamic relativ intact, dar cu bias global spre strategie bazată pe acțiune.
Simulări
Reducerea ω0 (modelând leziunea amigdaliană) a determinat:
- Scăderea performanței (F(20,1659) = 40.6, p = 8.38 × 10−128).
- Reducerea diferenței dintre ψ+ și ψ−.
Reducerea ρ (modelând leziunea VS) a fost suficientă pentru a explica biasul comportamental fără a altera major dinamica arbitrajului.
Interpretare
Amigdala contribuie la:
- Identificarea modelului corect al mediului.
- Stabilirea ponderii inițiale a arbitrajului.
- Menținerea diferențierii dintre actualizările sistemelor concurente.
Striatul ventral contribuie predominant la forța semnalelor valorice bazate pe stimul, influențând raportul de bază dintre sisteme.
Concluzii
Rezultatele demonstrează că arbitrajul dintre învățarea bazată pe stimul și cea bazată pe acțiune este un proces dinamic, dependent de interacțiunea dintre parametrii inițiali și actualizările succesive.
Amigdala este esențială pentru reglarea inițială și diferențiată a arbitrajului, în timp ce striatul ventral modulează intensitatea semnalelor valorice. Deficitele comportamentale apar nu doar din afectarea învățării, ci din perturbarea interacțiunii dintre învățare și arbitraj.
Image by DC Studio on Freepik
Copyright ROmedic: Articolul se află sub protecția drepturilor de autor. Reproducerea, chiar și parțială, este interzisă!
intră pe forum