I gangli della base: l'arbitro che decide quale azione passa

Un cervello ha, in ogni istante, molte azioni candidate e un solo corpo per eseguirle. Bere, parlare, fuggire competono per le stesse braccia, le stesse gambe, lo stesso apparato vocale. Qualcuno deve arbitrare. Questo capitolo segue il lavoro di quell’arbitro — i gangli della base — dall’anatomia che lo rende possibile, alle malattie che lo rivelano, fino al modello computazionale che lo descrive come un sistema di apprendimento per rinforzo.

Una persona con malattia di Parkinson, ferma sulla soglia di una porta, sa perfettamente di voler attraversare. Il piano c’è, il muscolo è sano, la volontà è intatta. Manca qualcosa fra il piano e il movimento: la capacità di togliere il freno. Una persona con corea di Huntington ha il problema opposto: movimenti involontari, a scatti, che il sistema non riesce a sopprimere. Troppo poco movimento da un lato, troppo dall’altro. Sono due guasti speculari della stessa macchina, e quella macchina è l’oggetto di questo capitolo.

I gangli della base non generano le idee di azione: lo fa la corteccia. Non comandano i muscoli: lo fanno i motoneuroni. Stanno nel mezzo, e fanno una cosa sola, antica e indispensabile — scegliere. Fra molte azioni possibili, lasciano passare quella giusta e bloccano le altre.

Perché questo capitolo

I capitoli precedenti della Parte III hanno costruito il cervello pezzo per pezzo. Neuroni, sinapsi, plasticità lo ha presentato in scala; Il potenziale d’azione ha seguito il segnale lungo un neurone; La sinapsi ha descritto la comunicazione fra due neuroni; La plasticità hebbiana come una connessione cambia forza con l’esperienza; La corteccia ha disposto quei mattoni in un’architettura a strati.

Due capitoli più recenti hanno introdotto due ingredienti che qui si saldano. Dopamina ha presentato un segnale globale di errore di predizione della ricompensa. L’ippocampo ha mostrato una struttura che lega insieme i ricordi episodici. Manca un terzo anello: una struttura che, dato un insieme di azioni candidate, ne scelga una. Sapere come una sinapsi impara e quale segnale le dice quando vale la pena imparare non basta. Serve un meccanismo che, a valle, trasformi una preferenza in un’azione eseguita e blocchi tutte le altre.

C’è poi una ragione che riguarda le Parti tecniche di questa wiki. I gangli della base sono la struttura cerebrale che più spesso viene evocata quando si parla di reinforcement learning (apprendimento per rinforzo, il paradigma in cui un agente impara per tentativi ottimizzando una ricompensa).

L’analogia non è vaga: esiste una mappatura precisa, formulata negli anni ‘90, fra i gangli della base e l’architettura actor-critic del reinforcement learning. Quella mappatura è uno dei ponti più suggestivi fra neuroscienze e AI, e anche uno dei più facili da raccontare male. Una parte del capitolo serve a raccontarlo con le giuste classi di affermazione: dove è analogia, dove è modello, dove è solo somiglianza di superficie.

Infine, una ragione metodologica. I gangli della base sono uno dei pochi casi in cui si può seguire una catena quasi completa: da una malattia clinica a una funzione, da una funzione a un circuito anatomico, dal circuito a un modello computazionale. È un banco di prova per capire come si costruisce — e come si verifica — una teoria del cervello.

Contesto: il problema della selezione

Per capire cosa fanno i gangli della base bisogna prima vedere bene il problema che risolvono. Il neuroscienziato britannico Peter Redgrave, insieme a Tony Prescott e Kevin Gurney (psicologi e modellisti dell’Università di Sheffield), lo ha formulato in modo netto in un articolo del 1999, The basal ganglia: a vertebrate solution to the selection problem? (Neuroscience, vol. 89), un lavoro che ha cambiato il modo di pensare a queste strutture.

Il problema della selezione (selection problem) si presenta ogni volta che due o più sottosistemi competono per una risorsa limitata. Il corpo è la risorsa limitata: c’è un solo apparato vocale, due gambe, due braccia. Se in un dato momento un sottosistema cerebrale “vuole” bere, un altro “vuole” rispondere al telefono e un terzo “vuole” allontanarsi da un rumore, i tre piani non possono essere eseguiti insieme. Eseguirli a metà ciascuno — un passo verso il bicchiere, mezza parola al telefono — è peggio che eseguirne uno solo per intero.

Serve un arbitro, e serve che l’arbitro abbia tre proprietà. Primo, deve vedere tutti i candidati: deve ricevere input da tutti i sottosistemi che competono. Secondo, deve produrre una scelta pulita: un vincitore, non una miscela. Terzo, il suo stato di default deve essere sicuro: in assenza di un voto chiaro, non far passare nulla è meglio che far passare tutto.

Prima di Redgrave-Prescott-Gurney, i gangli della base erano studiati quasi esclusivamente come struttura motoria, perché le loro malattie — Parkinson, Huntington — colpiscono il movimento in modo vistoso. Il loro contributo è stato spostare il livello di descrizione: il movimento è solo il caso più visibile di un problema più generale. La selezione vale anche per le azioni cognitive, per l’attenzione, per quale pensiero “occupa” il workspace mentale. Su questo torneremo. Per ora basti l’idea: i gangli della base sono, nella loro lettura funzionale, un dispositivo di selezione centralizzato, presente già nei primi vertebrati.

L’argomento di Redgrave-Prescott-Gurney parte da una domanda di ingegneria, prima ancora che di biologia: dato un insieme di sottosistemi che competono, come si organizza la selezione? Esistono due famiglie di architetture.

Nella prima, la selezione è distribuita: ogni sottosistema “litiga” direttamente con gli altri, e il vincitore emerge da una rete di inibizioni reciproche. Nella seconda, la selezione è centralizzata: un commutatore unico riceve i voti di tutti e decide.

La selezione distribuita ha un difetto che cresce con il numero di candidati. Il numero di connessioni di mutua inibizione esplode — per $n$ sottosistemi servono dell’ordine di $n^2$ collegamenti — e aggiungere un nuovo comportamento costringe a ricablare tutti gli altri. La selezione centralizzata scala meglio: ogni nuovo comportamento si collega solo al commutatore, e i collegamenti crescono linearmente con $n$ . Il prezzo è un singolo punto critico — se il commutatore si guasta, si guasta tutta la selezione.

Gli autori osservano che l’anatomia dei gangli della base ha esattamente la forma di un commutatore centralizzato: input convergente da tutta la corteccia, un nucleo di smistamento, output che torna a ogni canale. È un argomento per omologia di forma, non una prova diretta — ma è il tipo di argomento che ha riorientato un campo. E il “singolo punto critico” non è teoria astratta: è esattamente ciò che le malattie dei gangli della base mostrano quando il commutatore si danneggia.

Vale la pena fissare anche il contesto evolutivo, perché spiega perché la struttura sia così conservata. I gangli della base, in una forma riconoscibile, sono presenti in tutti i vertebrati, dai lampreda — pesci privi di mascella la cui linea evolutiva si è separata dalla nostra oltre 500 milioni di anni fa — fino ai mammiferi. La connettività di base e la chimica dei neurotrasmettitori si sono conservate per centinaia di milioni di anni. Una struttura così stabile risolve di norma un problema che ogni organismo con un corpo e più di un comportamento possibile deve affrontare: appunto, scegliere quale azione esprimere. È un indizio forte che la “selezione dell’azione” non sia una sovrastruttura recente ma una funzione fondante del sistema nervoso dei vertebrati.

Come si è costruito il modello

La teoria dei gangli della base è un buon esempio di come si edifica una teoria del cervello, perché la si può ricostruire a strati. Il primo strato è anatomico: nei decenni precedenti il 1989, tecniche di tracciamento degli assoni avevano mappato chi proietta a chi — striato verso pallido, pallido verso talamo, e così via. Il secondo strato è neurochimico: si era stabilito quali nuclei usano GABA (inibitorio) e quali glutammato (eccitatorio), e che la substantia nigra pars compacta fornisce dopamina allo striato. Il terzo strato è clinico: si sapeva da tempo che il Parkinson si accompagna a perdita di dopamina e che l’emiballismo segue lesioni del subtalamico.

Il modello a tasso di Albin-DeLong, alla fine degli anni ‘80, non ha aggiunto un dato nuovo: ha fatto qualcosa di diverso e altrettanto importante. Ha messo insieme i tre strati in un’unica architettura che, percorsa con i segni giusti delle inibizioni, prevedeva i sintomi delle malattie.

Un modello che, partendo da connettività e neurochimica note, ricava da solo il quadro clinico ha un potere esplicativo che nessuno dei tre strati aveva separatamente. È questa sintesi — non una scoperta isolata — il contributo del modello.

Lo stesso vale per Redgrave-Prescott-Gurney dieci anni dopo: non nuovi dati, ma una nuova cornice funzionale per dati esistenti. Tenere a mente questa distinzione — fra raccogliere dati e costruire la cornice che li organizza — aiuta a leggere il resto del capitolo con le giuste aspettative su cosa una teoria del cervello sia e cosa non sia.

L’intuizione, primo angolo: una sala di controllo con tutte le luci accese

Il modo più comune di immaginare un interruttore è sbagliato per i gangli della base. Un interruttore normale è acceso quando lascia passare corrente. I gangli della base funzionano al contrario, e capire questo rovesciamento è la chiave di tutto il capitolo.

Immagina una sala di controllo dove ogni azione possibile ha un suo canale, e ogni canale ha una luce rossa accesa. La luce rossa significa: questo canale è bloccato. Lo stato di riposo del sistema è “tutte le luci rosse accese”: nessuna azione passa. Questo è il default sicuro di cui parlava il problema della selezione.

Selezionare un’azione non vuol dire accendere una luce verde. Vuol dire spegnere una luce rossa — e una sola. Quando il canale “afferra il bicchiere” vince la competizione, la sua luce rossa si spegne, il freno su quel canale viene tolto, e l’azione corrispondente può essere eseguita. Tutte le altre luci rosse restano accese: le azioni concorrenti restano bloccate.

Il rovesciamento conta perché cambia la domanda di progetto. In un sistema “a luce verde” la domanda critica è: come faccio ad accendere l’azione giusta? In un sistema “a luce rossa” la domanda è: come faccio a togliere il freno solo a quella, e a tenerlo su tutte le altre? La seconda domanda mette al centro la selettività del rilascio, non la generazione del segnale — ed è la domanda che l’anatomia dei gangli della base risponde.

Questo design ha una proprietà preziosa. Un sistema costruito per “accendere” l’azione voluta rischia, in caso di rumore o input ambigui, di accenderne diverse insieme. Un sistema costruito per “togliere un freno” parte da tutto bloccato e deve essere convinto, da un voto sufficientemente forte, a rilasciare un singolo canale. L’errore tipico non è “fai due cose insieme” ma “non fare nulla” — un errore più sicuro per un organismo.

Il termine tecnico per “spegnere la luce rossa” è disinibizione: rimuovere un’inibizione. È un concetto a doppia negazione, e le doppie negazioni sono scivolose, perciò vale la pena fissarlo subito con l’anatomia. È il prossimo passo.

Prima di proseguire, conviene chiedersi perché la natura avrebbe scelto un design così controintuitivo — un sistema che dice sempre “no” e si seleziona dicendo “no a tutto tranne uno”. La risposta sta nel costo asimmetrico degli errori.

Per un organismo, restare immobili un istante di troppo è quasi sempre meno grave che eseguire due programmi motori incompatibili insieme: provare a fuggire e a mangiare nello stesso momento produce un comportamento incoerente che non serve a nessuno dei due scopi. Un sistema che parte da “tutto bloccato” e rilascia con parsimonia ha, per costruzione, un bias verso l’errore meno costoso.

È lo stesso principio per cui un freno di stazionamento è normalmente inserito e va attivamente rilasciato: il guasto sicuro è “fermo”, non “in movimento”. Quando un meccanismo deve fallire, conviene che fallisca dalla parte che fa meno danni.

L’intuizione, secondo angolo: votare per sottrazione

Un secondo modo di vedere la cosa è pensare a un voto. La corteccia genera molti candidati: ogni regione corticale che “propone” un’azione è un elettore. I gangli della base raccolgono i voti.

Ma il conteggio non funziona aggiungendo: funziona sottraendo. I neuroni d’ingresso dei gangli della base — vedremo fra poco che si chiamano medium spiny neurons — a riposo sono quasi silenti. Sparano solo quando ricevono abbastanza input convergente. Sono rilevatori di coincidenza: un’azione viene “votata” solo se molte sorgenti corticali la sostengono contemporaneamente. Un solo elettore non basta.

Quando un canale raccoglie abbastanza voti, succede una cosa specifica: quel canale toglie il proprio freno (la disinibizione del primo angolo) e, allo stesso tempo, rinforza i freni dei canali concorrenti. Il vincitore guadagna due volte — viene rilasciato e fa alzare il muro intorno ai rivali. Questo doppio effetto produce un contrasto netto: non “il canale A è leggermente più attivo di B e C”, ma “A passa, B e C sono ancora più bloccati di prima”. È il meccanismo che trasforma una preferenza sfumata in una decisione pulita.

Tieni a mente i due angoli: la sala di controllo con le luci rosse (lo stato di default è bloccato, si seleziona spegnendo) e il voto per sottrazione (si vince per soglia e il vincitore opprime i rivali). L’anatomia che segue è la realizzazione fisica di entrambi.

Un terzo angolo: il talent show

C’è un terzo modo di vedere la cosa, utile perché rende intuitivo il ruolo del segnale di valore. Immagina un talent show. Sul palco si presentano molti concorrenti — le azioni candidate. Una giuria fissa decide chi va avanti. La giuria ha però una regola insolita: il suo voto di partenza per ogni concorrente è “no”. Non “valuto e poi decido”, ma “tutti bocciati, finché qualcuno non mi convince”.

Ogni concorrente arriva con un punteggio di sostegno — quanto la corteccia lo “vota”. Ma c’è anche un secondo fattore, che cambia da serata a serata: l’umore della giuria. In una serata generosa la giuria abbassa l’asticella e promuove più facilmente; in una serata severa la alza. Questo umore globale è la dopamina: non vota un concorrente in particolare, sposta la soglia per tutti. Una serata generosa — molta dopamina — è una serata in cui le azioni passano facili. Una serata severa — poca dopamina — è una serata in cui anche un buon concorrente fatica a passare. È il Parkinson visto dalla giuria.

I tre angoli — sala di controllo, voto per sottrazione, talent show — descrivono la stessa macchina da tre lati. Il primo fissa il default sicuro e la disinibizione; il secondo, la soglia e la competizione; il terzo, il ruolo modulatorio del segnale di valore. L’anatomia che segue li realizza tutti e tre insieme.

La meccanica: i nuclei e il loop

I gangli della base sono un insieme di nuclei sottocorticali — masse di corpi cellulari sotto la corteccia. Per il discorso sulla decisione contano i seguenti.

Lo striato (striatum) è la porta d’ingresso. Riceve input glutammatergico, cioè eccitatorio (il glutammato è il principale neurotrasmettitore eccitatorio del cervello), da quasi tutta la corteccia e dal talamo. Anatomicamente si divide in due parti, il caudato (nucleus caudatus) e il putamen, che insieme formano lo striato dorsale. Esiste anche uno striato ventrale, di cui fa parte il nucleo accumbens (nucleus accumbens), legato a motivazione e ricompensa; lo incontreremo parlando di reinforcement learning. Lo striato è composto per la gran parte da medium spiny neurons (MSN), neuroni di proiezione GABAergici — cioè inibitori, perché rilasciano GABA, il principale neurotrasmettitore inibitorio. Gli MSN a riposo sono quasi silenti: sono i rilevatori di coincidenza del secondo angolo intuitivo.

La quasi-silenziosità degli MSN merita una riga in più, perché è funzionale. Un MSN ha una soglia di attivazione alta: serve l’arrivo quasi simultaneo di molti input eccitatori da aree corticali diverse perché spari. Una sola area corticale che “propone” un’azione non basta a far passare il segnale.

Solo una proposta sostenuta da molte regioni — una coalizione corticale — supera la soglia. Questo filtra il rumore alla porta d’ingresso: lo striato non risponde a ogni fluttuazione corticale, ma solo a un voto convergente. È il motivo per cui, nel secondo angolo intuitivo, un solo elettore non bastava.

Il globo pallido (globus pallidus) è un nucleo inibitorio diviso in due parti: il globo pallido interno (GPi) e il globo pallido esterno (GPe). La substantia nigra (“sostanza nera”, così chiamata per la pigmentazione dei suoi neuroni) si divide a sua volta in pars reticulata (SNr) e pars compacta (SNc). Il GPi e la SNr sono i due nuclei di uscita dei gangli della base: funzionalmente sono gemelli. La SNc ha invece un ruolo diverso e cruciale: è la fonte della dopamina che raggiunge lo striato.

Il nucleo subtalamico (subthalamic nucleus, STN) è piccolo ma speciale: è l’unico nucleo glutammatergico, cioè eccitatorio, del circuito. Tutti gli altri attori interni sono inibitori; lo STN è l’eccezione, e questo lo rende decisivo.

Il talamo non fa parte dei gangli della base, ma ne è il bersaglio a valle. Il talamo eccita la corteccia.

Un dato quantitativo aiuta a immaginare la forma del circuito. Lo striato umano contiene dell’ordine di un centinaio di milioni di MSN; i nuclei di uscita GPi e SNr ne contengono complessivamente alcune centinaia di migliaia. C’è quindi una convergenza marcata: l’informazione di moltissimi neuroni d’ingresso si comprime in un numero molto più piccolo di neuroni d’uscita. Il circuito ha la forma di un imbuto. Questo è coerente con la funzione di selezione: un imbuto è esattamente ciò che serve per passare da “molte proposte” a “una decisione”. Una struttura che dovesse solo trasmettere informazione, senza ridurla, non avrebbe questa geometria.

Il punto da fissare è la topologia a loop. Il flusso non è una linea retta che finisce in un muscolo. È un anello:

corteccia  ->  striato  ->  [nuclei interni]  ->  GPi/SNr  ->  talamo  ->  corteccia

I gangli della base non comandano i muscoli direttamente. Modulano il dialogo fra corteccia e talamo. La corteccia propone, i gangli della base filtrano, il talamo ritrasmette alla corteccia la proposta filtrata, e la corteccia — ora “autorizzata” — può inviare il comando ai motoneuroni. La decisione è un giro completo dell’anello.

La meccanica: la disinibizione, riga per riga

Ora la doppia negazione, resa esplicita. I nuclei di uscita GPi e SNr hanno una proprietà particolare: a riposo sparano ad alta frequenza in modo continuo. Il termine tecnico è attività tonica: un fuoco costante, non a raffiche. E poiché GPi/SNr sono GABAergici, cioè inibitori, il loro bersaglio — il talamo — è tenuto sotto un freno costante.

Questo è lo stato di default: GPi/SNr sparano sempre, il talamo è sempre frenato, nessuna azione passa. Le luci rosse della sala di controllo.

Seguiamo cosa succede quando lo striato seleziona un’azione, passo per passo:

La corteccia eccita un gruppo di MSN nello striato — il canale dell’azione candidata. Gli MSN superano la soglia e sparano.
Quegli MSN sono inibitori e proiettano sul GPi. Lo striato attivo inibisce il GPi su quel canale.
Il GPi su quel canale, inibito, smette di sparare. La sua attività tonica si interrompe localmente.
Il GPi che ha smesso di sparare non frena più il talamo su quel canale. Il talamo, disinibito, torna libero.
Il talamo liberato eccita la corteccia, che ora può emettere il comando motorio.

La catena delle inibizioni: lo striato (inibitorio) inibisce il GPi (inibitorio) che inibisce il talamo. Inibire un inibitore equivale a permettere. Selezionare un’azione non aggiunge un segnale di “via libera”: toglie un freno. È la disinibizione, e il punto chiave è che è selettiva: solo il canale che ha vinto la competizione striatale viene rilasciato; tutti gli altri canali del GPi continuano a sparare e a frenare il loro pezzo di talamo.

In parole povere: il sistema dice sempre “no” a tutto, e selezionare significa fargli dire “tranne questo”.

Un dettaglio fisiologico rende il quadro più nitido. L’attività tonica del GPi non è un effetto collaterale: è un costo metabolico che il cervello paga di continuo. Mantenere quei neuroni in scarica costante consuma energia. La natura ha “scelto” di pagare quel costo perché il beneficio — un default sicuro e un rilascio rapido e selettivo — vale la spesa. Quando arriva il momento di agire, il sistema non deve costruire un segnale da zero: deve solo sospendere un segnale che è già lì. Sospendere è più veloce che costruire. È la stessa ragione per cui un’auto tiene il motore acceso al semaforo invece di spegnerlo: la prontezza ha un costo che a volte conviene pagare.

Conviene anche chiarire un equivoco frequente. La disinibizione non “comanda” il movimento: lo permette. Il comando vero — la sequenza di attivazioni muscolari — è generato dalla corteccia motoria e dal tronco encefalico. I gangli della base aprono il cancello; chi attraversa il cancello, e come, è deciso altrove.

Confondere “aprire il cancello” con “fare il movimento” è l’errore concettuale più comune su questa struttura, e porta a immaginare i gangli della base come un generatore di azioni invece che come un selettore. Sono un filtro, non una fonte. Questa distinzione tornerà utile in “Dove si rompe”, quando si traccerà il confine fra selezione dell’azione ed esecuzione fine del movimento.

La meccanica: via diretta e via indiretta, il modello di Albin-DeLong

Il quadro fin qui descrive un canale. Ma serve di più: serve un meccanismo che, oltre a rilasciare il canale vincente, rinforzi i freni dei concorrenti — il secondo angolo intuitivo, il voto per sottrazione. Quel meccanismo è la seconda via.

Il modello che organizza tutto questo si chiama modello a tasso (rate model) e nasce da due articoli quasi contemporanei: Roger Albin, Anne Young e John Penney — neurologi dell’Università del Michigan — con The functional anatomy of basal ganglia disorders (Trends in Neurosciences, 1989), e Mahlon DeLong — neuroscienziato statunitense — con Primate models of movement disorders of basal ganglia origin (Trends in Neurosciences, 1990). Per brevità lo si chiama modello di Albin-DeLong. La sua idea centrale: dallo striato partono due vie verso i nuclei di uscita, con effetti netti opposti.

La via diretta (direct pathway) va dallo striato direttamente al GPi/SNr. Gli MSN che la compongono esprimono un particolare tipo di recettore per la dopamina, il recettore D1. È la via che abbiamo appena seguito passo per passo: striato inibisce GPi, GPi smette di frenare il talamo, il movimento è facilitato. La via diretta è il segnale “go”.

La via indiretta (indirect pathway) prende un percorso più lungo: striato -> GPe -> STN -> GPi/SNr. I suoi MSN esprimono un altro recettore dopaminergico, il recettore D2. Seguiamo la catena:

Lo striato (inibitorio) inibisce il GPe.
Il GPe, inibito, smette di frenare lo STN. Lo STN è disinibito.
Lo STN — ricordi, l’unico nucleo eccitatorio — disinibito, eccita il GPi/SNr.
Il GPi/SNr, più eccitato, spara ancora di più e frena ancora di più il talamo.

L’effetto netto della via indiretta è opposto a quello della via diretta: sopprime il movimento. È il segnale “no-go” o “stop”.

Le due vie insieme producono il contrasto del secondo angolo intuitivo. La via diretta rilascia il canale dell’azione voluta; la via indiretta solleva i freni delle azioni concorrenti. Il risultato non è “A leggermente più attivo”: è “A passa, tutto il resto è ancora più bloccato”. In letteratura questo schema si chiama anche selezione center-surround: un centro disinibito, un contorno iper-inibito.

Conviene seguire un caso a due canali per vedere il contrasto all’opera. Supponiamo due azioni candidate, “afferra il bicchiere” (canale A) e “gratta il naso” (canale B), e che la corteccia voti A un po’ più di B — A è l’azione che serve di più, ma non in modo schiacciante.

Senza un meccanismo di contrasto, il GPi ridurrebbe un po’ il freno su A e un po’ meno su B: entrambi i canali resterebbero parzialmente aperti, e il braccio riceverebbe due comandi in conflitto. Con le due vie, invece, succede questo: la via diretta del canale A, il più votato, abbassa con forza il freno su A; in parallelo la via indiretta — che ha una proiezione più diffusa attraverso lo STN — alza il freno sui canali vicini, incluso B. A finisce sotto soglia, B finisce sopra soglia di prima. Una differenza di voto modesta in ingresso diventa una decisione netta in uscita. È questo “amplificare il margine” il lavoro che le due vie fanno insieme, e che una via sola non potrebbe fare.

A questo punto entra la dopamina, e con essa il collegamento al capitolo Dopamina. La SNc invia dopamina allo striato, e la dopamina agisce sulle due vie in modo asimmetrico: tramite i recettori D1 eccita la via diretta; tramite i recettori D2 inibisce la via indiretta. Le due azioni puntano nella stessa direzione: più dopamina sposta la bilancia verso il “go”. Meno dopamina la sposta verso il “no-go”. Tieni a mente questa frase: spiega, da sola, la malattia di Parkinson.

Le patologie come finestra sul meccanismo

Il modello a tasso non è nato da neuroni registrati in un animale sano. È nato dal tentativo di spiegare perché certi danni a queste strutture producano certi disturbi del movimento. Le malattie sono, in un senso preciso, l’esperimento che la natura ha già condotto: tolgono un pezzo del circuito e mostrano cosa smette di funzionare. Tre quadri clinici, letti attraverso il modello, lo confermano e insieme ne tracciano i limiti.

La malattia di Parkinson è causata dalla degenerazione progressiva dei neuroni dopaminergici della substantia nigra pars compacta. Quando muore una quota sufficiente di quei neuroni — i sintomi compaiono in genere quando se ne è persa oltre la metà — lo striato resta a corto di dopamina.

Si riveda la frase da tenere a mente: meno dopamina significa via diretta meno eccitata (i recettori D1 non sono più stimolati) e via indiretta meno inibita (i recettori D2 non sono più frenati). Entrambi gli effetti spostano la bilancia verso il “no-go”. Il GPi spara di più, il talamo è frenato di più, togliere il freno a un’azione costa di più.

Il risultato clinico è un insieme coerente di sintomi ipocinetici — di movimento ridotto: bradicinesia (lentezza nell’eseguire i movimenti), acinesia (difficoltà a iniziarli), rigidità, e il caratteristico “congelamento” sulla soglia di una porta descritto in apertura. Il piano motorio è intatto; il cancello non si apre. La levodopa, somministrata come terapia, è un precursore che il cervello converte in dopamina: ripristina, parzialmente e temporaneamente, l’equilibrio della bilancia.

La malattia di Huntington (o corea di Huntington, dove “corea” viene dal greco choreia, danza) è lo specchio del Parkinson. È una malattia genetica autosomica dominante: chi eredita la mutazione svilupperà la malattia. La causa molecolare è l’espansione di una tripletta nucleotidica — la sequenza CAG — nel gene della huntingtina, che produce una proteina con un tratto anomalo.

Negli stadi iniziali la degenerazione colpisce in modo selettivo gli MSN della via indiretta, quelli con recettori D2. Con la via indiretta indebolita, viene a mancare proprio il meccanismo che sopprime le azioni concorrenti. Il GPi è meno eccitato, frena meno il talamo, e azioni che dovrebbero restare bloccate sfuggono al controllo: emergono movimenti involontari, rapidi, a scatti, fluidi e imprevedibili — la corea.

Dove il Parkinson è troppo poco movimento, l’Huntington iniziale è troppo movimento. I due quadri sono i due esiti opposti di uno squilibrio della stessa bilancia, ed è questa simmetria a fare del modello a tasso uno strumento didattico potente. Negli stadi avanzati la degenerazione si estende anche alla via diretta e alla corteccia, e il quadro si complica in direzione opposta, con rigidità e acinesia: un promemoria che il modello a due vie cattura l’inizio della malattia meglio della sua intera evoluzione.

L’emiballismo è il terzo caso, e il più drammaticamente puntuale. È prodotto da una lesione acuta — tipicamente un piccolo ictus — del nucleo subtalamico, di norma da un solo lato. Tolto lo STN, l’unico nucleo eccitatorio del circuito, la via indiretta perde il suo nodo cruciale: non c’è più l’eccitazione che alza il freno sulle azioni concorrenti. Il risultato è il balismo, movimenti violenti, ampi, di lancio, degli arti del lato opposto del corpo (da cui emi-ballismo, metà). È la dimostrazione più diretta che lo STN serva proprio a frenare: rimuoverlo non rallenta il movimento, lo libera in modo incontrollato. Non a caso lo STN è oggi il bersaglio elettivo della stimolazione cerebrale profonda nel Parkinson — modulare quel nodo ha un effetto sproporzionato sull’intero equilibrio del circuito.

Il punto metodologico: nessuno di questi quadri è una “prova” del modello nel senso forte. Sono casi che il modello spiega bene, e la coerenza fra tre patologie diverse e una stessa struttura teorica è un argomento robusto. Ma le malattie reali sono più ricche del modello — torneremo su questo in “Dove si rompe”.

Esempi

Esempio 1 — numerico: la bilancia go/no-go

Modelliamo, in modo volutamente schematico, l’attività di un singolo canale del GPi. Sia $A_{GPi}$ la sua frequenza di scarica. A riposo è alta, diciamo 70 spike al secondo: il talamo è frenato. L’azione passa se $A_{GPi}$ scende sotto una soglia, diciamo 30.

Due input la spingono in direzioni opposte. La via diretta la abbassa di una quantità $D$ (proporzionale a quanto la corteccia vota quel canale, modulata dalla dopamina sui recettori D1). La via indiretta la alza di una quantità $I$ . In forma minima:

$A_{GPi} = 70 - D + I$

In parole povere: l’attività del freno parte alta, la via diretta la sottrae, la via indiretta la riaggiunge. Il canale passa quando $D$ è abbastanza grande, e $I$ abbastanza piccola, da portare $A_{GPi}$ sotto 30.

Caso “azione selezionata”: forte voto corticale e dopamina normale danno $D = 55$ ; le azioni concorrenti, deboli, tengono $I = 5$ . Allora $A_{GPi} = 70 - 55 + 5 = 20$ , sotto la soglia di 30: il canale passa, l’azione è eseguita.

Caso “dopamina bassa”, lo scenario del Parkinson: la stessa corteccia vota con la stessa forza, ma senza dopamina la via diretta è meno eccitata — i recettori D1 non la amplificano più — e la via indiretta meno inibita. Diciamo che ora $D = 30$ e $I = 25$ . Allora $A_{GPi} = 70 - 30 + 25 = 65$ : il freno resta quasi al massimo, l’azione non passa. La volontà è la stessa, il muscolo è sano, ma il numero non scende sotto soglia. È la persona ferma sulla soglia della porta.

Caso “via indiretta degenerata”, lo scenario dell’Huntington iniziale: la via indiretta non riesce più ad alzare il freno sulle azioni concorrenti, quindi $I$ resta vicina a zero per tutti i canali. Anche un canale poco votato, con $D = 20$ , dà $A_{GPi} = 70 - 20 + 0 = 50$ — ancora sopra soglia, ma di poco; basta una fluttuazione perché scenda sotto e l’azione “scappi”. Sono i movimenti involontari della corea.

I numeri sono inventati e la realtà è più ricca (vedi “Dove si rompe”), ma la struttura dell’equazione cattura l’essenziale: la decisione è una sottrazione che deve vincere una somma, e le tre patologie sono tre modi diversi di sbilanciare quella gara.

Esempio 2 — in codice: la selezione per disinibizione

Lo stesso meccanismo come pseudocodice. L’idea è che lo stato di default sia “tutto bloccato” e che la selezione operi rilasciando un solo canale.

def seleziona_azione(voti_corteccia, dopamina):
    # voti_corteccia: dict {azione: forza_del_voto}
    freno = {azione: 70 for azione in voti_corteccia}  # GPi tonico: tutto bloccato

    for azione, voto in voti_corteccia.items():
        via_diretta = voto * (1.0 + dopamina)    # D1: dopamina amplifica il "go"
        via_indiretta = voto_concorrenti(voti_corteccia, azione) \
                         * (1.0 - dopamina)      # D2: dopamina smorza il "no-go"
        freno[azione] = 70 - via_diretta + via_indiretta

    rilasciati = [a for a, f in freno.items() if f < SOGLIA]
    if len(rilasciati) == 1:
        return rilasciati[0]          # decisione pulita: un solo canale passa
    if len(rilasciati) == 0:
        return None                   # nessun voto abbastanza forte: non far nulla
    return arbitra_pareggio(rilasciati)  # raro: serve un tie-break

Tre cose da notare. Primo, freno parte alto per tutti: il default è bloccato. Secondo, dopamina entra come guadagno asimmetrico — amplifica la via diretta, smorza l’indiretta — esattamente come D1 e D2. Terzo, l’esito desiderato è len(rilasciati) == 1: la firma di una buona selezione è un vincitore unico. Zero rilasciati è l’errore “sicuro” (non fare nulla); più di uno è il guasto da evitare.

Esempio 3 — scenario reale: la bicicletta, dall’attenzione all’automatismo

La prima volta che impari ad andare in bicicletta, ogni correzione è deliberata: senti che stai cadendo a sinistra, decidi di sterzare a destra, valuti il risultato. È un lavoro faticoso, e occupa tutta la tua attenzione — non potresti, allo stesso tempo, sostenere una conversazione.

Dopo mesi, pedali pensando ad altro. Le correzioni avvengono senza che tu le scelga, e la conversazione scorre. La differenza non è che sei “diventato bravo” in senso vago: è che il comportamento è passato sotto il controllo di un circuito diverso.

Questo passaggio non è una metafora, è uno spostamento misurabile dentro lo striato, ed è il tema della prossima sezione. All’inizio la guida è goal-directed — orientata all’obiettivo, ogni azione scelta rappresentandosi il suo esito — e poggia sullo striato dorsomediale. Con la pratica diventa abituale — automatica, stimolo-risposta — e il controllo passa allo striato dorsolaterale. Lo stesso comportamento, lo stesso corpo, ma due circuiti diversi a seconda di quanto è allenato. E la prova che si tratta davvero di due circuiti, e non di un unico circuito “più allenato”, viene dalle lesioni selettive descritte fra poco: spegnere l’uno o l’altro produce effetti opposti.

Esempio 4 — clinico: leggere una malattia attraverso il modello

Un quarto esempio mostra il modello al lavoro come strumento diagnostico-concettuale. Un neurologo vede un paziente con movimenti involontari a scatti agli arti, comparsi gradualmente, con storia familiare positiva. Il modello a tasso permette di ragionare a ritroso: movimenti che “sfuggono” — azioni concorrenti non soppresse — puntano a una via indiretta indebolita. Una via indiretta che si indebolisce gradualmente, su base ereditaria, è compatibile con la degenerazione selettiva degli MSN D2 della corea di Huntington.

Cambiamo un dettaglio: gli stessi movimenti, ma comparsi all’improvviso, su un solo lato del corpo, in un paziente anziano con fattori di rischio vascolari. La comparsa acuta e la lateralità spostano l’ipotesi: non una degenerazione diffusa ma una lesione focale, e una lesione che disinibisce così violentemente il movimento indica il nucleo subtalamico — emiballismo da ictus.

Lo stesso sintomo di superficie, due localizzazioni diverse, e il modello a tasso fornisce la griglia che le distingue. Non sostituisce l’imaging né la clinica, ma mostra perché un modello del circuito sia uno strumento di ragionamento, non solo una descrizione: collega un sintomo osservabile a un guasto in un punto preciso dell’anello.

La meccanica: imparare quali azioni selezionare

I gangli della base non si limitano a selezionare: imparano quali azioni selezionare. E qui lo striato dorsale si rivela diviso in due sistemi funzionali, secondo una serie di lavori di Henry Yin e Bernard Balleine con Barbara Knowlton (neuroscienziati del comportamento; tra i lavori chiave, Lesions of dorsolateral striatum preserve outcome expectancy but disrupt habit formation, 2004, e la rassegna The role of the basal ganglia in habit formation, Nature Reviews Neuroscience, 2006).

Lo striato dorsomediale (DMS, nel ratto; nei primati corrisponde grosso modo al caudato anteriore) riceve dalle cortecce prefrontali, le aree del pianificare e del valutare. Supporta il comportamento goal-directed: l’azione è scelta perché ci si rappresenta il suo esito e quell’esito ha valore. È sensibile al cambiamento: se l’esito smette di valere — il cibo non è più desiderato, la meta non è più interessante — il comportamento goal-directed si interrompe.

Lo striato dorsolaterale (DLS; nei primati il putamen posteriore) riceve dalle cortecce sensorimotorie. Supporta il comportamento abituale (habitual): una risposta automatica a uno stimolo, eseguita per pura associazione stimolo-risposta. La firma dell’abitudine è l’insensibilità all’esito: continua anche quando l’esito non vale più nulla. È la mano che, distratta, prende ancora la strada di casa invece che la deviazione che oggi volevi fare.

La prova di questa dissociazione viene dalle lesioni, e il metodo merita una parola perché è l’esperimento chiave dietro tutta la sezione. Il protocollo si chiama devaluation test (test di svalutazione dell’esito).

Funziona così. Un animale impara a premere una leva per ottenere un cibo. A quel punto si rende quel cibo non più desiderabile — per esempio facendolo mangiare a sazietà prima del test, oppure associandolo a un lieve malessere. Poi si rimette l’animale di fronte alla leva, e si osserva.

Se continua a premerla con la stessa frequenza, il suo comportamento è insensibile all’esito: è un’abitudine, lo stimolo “leva” innesca la risposta “premi” a prescindere dal fatto che il cibo non valga più nulla. Se invece smette o rallenta, il comportamento è ancora goal-directed: l’animale agisce rappresentandosi l’esito, e l’esito è cambiato. Il test, in una sola osservazione, dice quale dei due sistemi sta guidando.

Con questo strumento la dissociazione emerge netta. Danneggia il DMS in un ratto e il comportamento diventa abitudinario prima del previsto: l’animale supera il devaluation test anche dopo poco addestramento, segno che senza DMS non riesce più a tenere il comportamento sotto controllo dell’esito. Danneggia il DLS e accade l’opposto: il comportamento resta goal-directed — sensibile alla svalutazione — anche dopo un addestramento lunghissimo che normalmente lo avrebbe reso un’abitudine. I due sistemi non solo coesistono: competono per il controllo, e con l’allenamento ripetuto il controllo si sposta dal DMS al DLS. Un comportamento nasce deliberato e diventa abitudine — la storia della bicicletta dell’esempio 3.

Vale la pena chiarire che “abitudine” qui non è un termine peggiorativo. Un’abitudine è una soluzione efficiente: una risposta automatica costa poco da eseguire, è veloce, libera le risorse della deliberazione per altri problemi. Il prezzo è la rigidità — un’abitudine non si accorge se il mondo è cambiato. Il sistema sano alterna i due regimi: deliberato quando il contesto è nuovo o instabile, automatico quando è stabile e collaudato. Le patologie del controllo — alcune forme di comportamento compulsivo, alcuni aspetti della dipendenza — vengono lette, in parte, come uno sbilanciamento di questo arbitrato: il sistema abituale che prende il controllo dove servirebbe ancora la deliberazione.

Questa distinzione ha un’eco nel resto della Parte III. Il “sapere che” deliberato e il “fare in automatico” sono i due poli del capitolo Memoria dichiarativa e procedurale; lo striato dorsolaterale è uno dei substrati della memoria procedurale. E la coppia goal-directed / habitual è la controparte cognitiva di una distinzione centrale nel reinforcement learning, model-based contro model-free, che apre la prossima sezione.

In termini essenziali: un sistema model-based mantiene un modello di come il mondo risponde alle azioni e lo usa per pianificare — costoso, flessibile; un sistema model-free impara direttamente quale azione conviene in ogni stato, senza modello — economico, rigido. Goal-directed sta a model-based come habitual sta a model-free: la corrispondenza è una analogia strutturale solida, sostenuta da chi lavora a cavallo dei due campi, ma resta una corrispondenza di schema fra una distinzione comportamentale e una algoritmica.

La selezione oltre il movimento

Si è anticipato, nel Contesto, che la selezione non riguarda solo le azioni motorie. Vale la pena renderlo esplicito, perché è il punto in cui i gangli della base smettono di essere “una struttura del movimento” e diventano un meccanismo cognitivo generale.

Lo striato è organizzato in canali paralleli, e non tutti i canali servono i muscoli scheletrici. Un canale oculomotorio, che passa per il caudato, seleziona i movimenti oculari: dove guardare adesso, fra i molti punti su cui lo sguardo potrebbe spostarsi, è di nuovo un problema di selezione fra candidati in competizione, e lo risolve lo stesso tipo di circuito. Le saccadi — i salti rapidi dello sguardo da un punto all’altro — sono selezionate per disinibizione, esattamente come il movimento di un braccio.

Esiste poi un canale associativo e uno limbico. Il primo collega i gangli della base alle cortecce prefrontali e riguarda la selezione di operazioni cognitive: quale piano adottare, quale regola applicare, quale contenuto tenere attivo nella working memory. Il secondo passa per lo striato ventrale ed è legato alla selezione guidata dalla motivazione e dall’emozione.

La stessa architettura — input convergente, competizione, disinibizione selettiva — è riusata per domini diversi. È un caso di economia evolutiva: una soluzione che funziona per “quale movimento” viene replicata, con gli stessi principi, per “quale pensiero” e “quale obiettivo”. Non è che esistano tre meccanismi diversi; è un solo meccanismo applicato a tre tipi di candidati.

Questo riuso è il cuore dell’argomento di Redgrave-Prescott-Gurney. Se la selezione di un pensiero ha la stessa forma della selezione di un movimento, allora i gangli della base non sono “il sistema motorio” ma il selettore generale del cervello, applicato in parallelo a effettori diversi. È un’affermazione forte, ed è bene marcarne la classe: è un’inferenza funzionale basata sull’omologia anatomica fra i canali, non una misura diretta di “selezione di pensieri”. L’evidenza più solida sta sul versante motorio e oculomotore; quella sul versante cognitivo è più indiretta. Ma è proprio questa estensione che rende i gangli della base interessanti per chi pensa alla cognizione, e non solo al movimento.

Il ponte con il reinforcement learning: l’actor-critic come modello

Qui arriva la connessione più carica del capitolo, e va attraversata con attenzione alle classi di affermazione: cosa è analogia, cosa è modello, cosa è solo somiglianza di superficie.

Il reinforcement learning è il paradigma in cui un agente impara per tentativi, ricevendo ricompense, a scegliere azioni che massimizzano la ricompensa nel tempo. Una delle sue architetture, l’actor-critic (formulata da Andrew Barto, Richard Sutton e Charles Anderson nel 1983, e ripresa da Barto in Adaptive critics and the basal ganglia, 1995), ha due componenti:

L’actor mantiene una policy: la regola che dice quale azione fare in ogni stato.
Il critic stima una funzione di valore: quanto è buono trovarsi in un certo stato. Dalla discrepanza fra valore atteso e valore osservato il critic calcola un TD error (temporal-difference error, errore di differenza temporale), un segnale che addestra sia se stesso sia l’actor.

Per i dettagli formali la wiki ha un capitolo dedicato: Actor-critic. Qui interessa la mappatura sul cervello.

Il modello actor-critic dei gangli della base è stato proposto da James Houk, James Adams e Andrew Barto nel volume Models of Information Processing in the Basal Ganglia (MIT Press, 1995) e poi rivisto criticamente da Daphna Joel, Yael Niv ed Eytan Ruppin in Actor-critic models of the basal ganglia: new anatomical and computational perspectives (Neural Networks, 2002). La corrispondenza proposta:

Lo striato fa da actor: seleziona le azioni e impara la policy. La distinzione dorsomediale/dorsolaterale fa da controparte di goal-directed/habitual, e quindi di model-based/model-free.
Una parte dei gangli della base fa da critic: stima il valore. Houk et al. assegnavano questo ruolo agli striosomi (striosomes, o patch — moduli dello striato chimicamente distinti dalla matrice circostante); altre versioni assegnano il critic allo striato ventrale, il nucleo accumbens.
La dopamina dalla SNc è il segnale di TD error.

Perché la corrispondenza è suggestiva si capisce mettendo in fila i pezzi.

Nell’actor-critic, l’actor riceve un segnale di rinforzo e aggiorna la policy: rende più probabili le azioni che il segnale ha premiato. Nei gangli della base, la dopamina che arriva allo striato modifica la forza delle sinapsi cortico-striatali — la plasticità di cui parla La plasticità hebbiana — ed è proprio così che lo striato “impara” quali azioni selezionare.

Il critic, nell’algoritmo, impara a predire il valore di uno stato e, dallo scarto fra predizione e ricompensa osservata, genera il TD error che addestra tutto il sistema. Nei gangli della base, i neuroni dopaminergici della SNc sparano in modo fasico esattamente quando una ricompensa è migliore del previsto, e tacciono quando è peggiore: il profilo di un errore di predizione.

Le tre tessere — actor, critic, segnale di errore — hanno ciascuna una controparte plausibile. È questa convergenza, tessera per tessera, a rendere il modello attraente. Ed è anche ciò che lo rende insidioso: tre corrispondenze plausibili messe in fila danno l’impressione di una dimostrazione, mentre sono tre analogie che vanno valutate ciascuna per conto suo.

Ora le classi di affermazione, separate con cura.

Che la dopamina assomigli a un TD error è un’analogia forte, e per di più empiricamente fondata: il firing fasico dei neuroni dopaminergici riproduce le proprietà di un errore di predizione della ricompensa (Schultz, Dayan, Montague, A neural substrate of prediction and reward, Science 1997). Questo è il pezzo più solido del quadro, ed è discusso in Dopamina.

Che i gangli della base siano un’actor-critic è invece un MODELLO: una teoria computazionale che organizza i dati, non un’equivalenza dimostrata. La differenza non è pedanteria.

Joel, Niv e Ruppin, nel paper del 2002, sono espliciti nell’elencarne i limiti. La mappatura striosoma = critic / matrice = actor è debole sul piano anatomico: gli striosomi non hanno la connettività necessaria per far arrivare una stima di valore ai nuclei dopaminergici nel modo che il calcolo del prediction error richiederebbe. I neuroni dopaminergici, inoltre, ricevono input da molte sorgenti diverse, non solo dal presunto critic — il loro segnale riflette più cose di una pura predizione di valore. E la dicotomia via diretta / via indiretta non si riduce in modo pulito a “un actor”.

Il modello actor-critic è una lente che ha generato esperimenti e previsioni utili — questo è il suo merito storico — ma non è la dimostrazione che il cervello esegua l’algoritmo actor-critic. Una lente che organizza i dati e suggerisce esperimenti è preziosa anche quando non è letteralmente vera; il punto è non scambiare l’una cosa per l’altra.

C’è infine una nota di filiazione, e va nella direzione opposta a quella che ci si aspetta. Non sono i gangli della base a discendere dall’actor-critic: è in parte l’actor-critic ad aver attinto a considerazioni neurali. La nozione di adaptive critic, già in Barto-Sutton-Anderson 1983, fu sviluppata con un occhio alla biologia. Il dialogo fra reinforcement learning e neuroscienze dei gangli della base è documentato e bidirezionale — il che lo rende interessante, ma non autorizza a trattare i due come la stessa cosa.

La sintesi onesta: i gangli della base e l’actor-critic condividono una struttura concettuale — un selettore di azioni guidato da un segnale di valore — e questa convergenza ha valore euristico in entrambe le direzioni. Ma è una convergenza fra un sistema biologico e una classe di algoritmi, non un’identità. Per il lettore che costruisce sistemi AI, il messaggio utile è questo: quando si dice “questo agente RL funziona come i gangli della base”, si sta dicendo qualcosa di vero a livello di schema e di falso a livello di meccanismo.

Una nota sull’utilità pratica di questa cautela. Tenere distinte le tre classi non è un esercizio accademico: cambia ciò che si è autorizzati a inferire.

Dall’analogia “dopamina ~ TD error” si può prevedere, e infatti si è previsto, che manipolando la dopamina si alteri l’apprendimento per rinforzo in modi specifici — e gli esperimenti lo confermano. Dal modello “gangli della base = actor-critic” si possono derivare ipotesi da testare, ma non conclusioni: il modello suggerisce dove guardare, non cosa si troverà.

E dall’equivalenza indebita “il cervello esegue l’actor-critic” si deriverebbero previsioni sbagliate — per esempio che lesioni a un nucleo producano esattamente i deficit attesi da un componente dell’algoritmo, cosa che i dati clinici non confermano. La disciplina sulle classi di affermazione è, in pratica, disciplina su quali inferenze reggono.

Applicazioni pratiche

Sul versante medico, il modello a tasso ha avuto un impatto diretto. La levodopa, precursore della dopamina somministrato per il Parkinson, si capisce esattamente dentro lo schema: ripristinare la dopamina riporta la bilancia verso il “go”.

Ancora più indicativa è la stimolazione cerebrale profonda (deep brain stimulation, DBS): elettrodi impiantati nel nucleo subtalamico erogano impulsi elettrici che modulano l’attività di quel nodo eccitatorio. La storia di questa terapia è un caso in cui un modello del circuito ha guidato la clinica: il modello a tasso indicava lo STN come il punto in cui la via indiretta era patologicamente iperattiva nel Parkinson, e prendere di mira proprio quel nucleo si è rivelato efficace. Che un bersaglio così specifico — un nucleo di pochi millimetri — funzioni è una delle conferme più forti della centralità che il modello assegna allo STN. Vale la pena notare anche un limite: la DBS allevia bene i sintomi motori ma il meccanismo preciso del suo effetto resta in parte dibattuto, segno che la teoria orienta la terapia senza per questo essere completa.

Sul versante dei sistemi AI, il valore del capitolo è soprattutto concettuale, e su due fronti.

Il primo è il principio di disinibizione come pattern di design. Un sistema che agisce per default e si seleziona “spegnendo freni” ha un profilo di errore diverso da un sistema che si attiva sommando segnali: il primo, sotto rumore, tende a non fare nulla; il secondo a fare troppe cose insieme. Un’architettura agentica che deve scegliere fra molti tool candidati può ragionare sullo stesso trade-off: gating per soglia con un default conservativo, contro attivazione additiva. La connessione qui è un’analogia di design, non una filiazione: nessuno ha progettato i sistemi di tool selection ispirandosi al GPi. Ma l’analogia è utile come griglia: chiede al progettista quale sia, per il suo sistema, l’errore meno costoso — l’inazione o l’azione multipla — e suggerisce di costruire il default attorno a quella risposta.

Il secondo fronte è la coppia goal-directed / habitual come griglia di lettura. Un sistema che ad ogni passo ricalcola il valore di ogni opzione (deliberato, costoso, flessibile) e un sistema che applica una risposta cablata e veloce (economico, rigido) sono i due poli di un trade-off che si ritrova in molte architetture, dai sistemi di caching alle policy degli agenti. Il parallelo con la distinzione Sistema 1 / Sistema 2 della psicologia è discusso in Sistema 1 e Sistema 2: i gangli della base offrono un substrato fisico a una delle distinzioni più note delle scienze cognitive.

C’è un terzo fronte, più sottile, che riguarda il meccanismo di arbitrato stesso. Un agente che dispone di più strategie — una veloce e approssimata, una lenta e accurata — deve decidere quale usare in ogni situazione, e questa è di nuovo una selezione. Il cervello sembra basare l’arbitrato sulla incertezza: quando il sistema deliberativo è poco sicuro della propria stima, il controllo tende a passare a quello abituale, e viceversa. Un’architettura agentica che alterna fra una policy rapida e un ciclo di reasoning costoso affronta lo stesso problema di meta-decisione. La connessione è di nuovo un’analogia — un problema strutturalmente simile, non un meccanismo condiviso — ma è il tipo di analogia che aiuta a porre la domanda giusta: non “quale strategia è migliore” ma “come si decide, e con quale costo, quale strategia applicare adesso”.

Dove si rompe

I limiti del quadro presentato sono numerosi, e contano quanto i meccanismi.

Il modello a tasso è una semplificazione, e oggi si sa quanto. Lo schema “via diretta = go, via indiretta = no-go, mutuamente esclusive” è didatticamente potente ma empiricamente troppo netto.

Registrazioni dell’attività dei medium spiny neurons durante il movimento — a partire da Cui e colleghi nel 2013, e ribadite in rassegne recenti di Ann Graybiel (2025) — mostrano che la via diretta e la via indiretta sono co-attivate durante l’azione, non alternate. Una lettura più aggiornata è che la via diretta selezioni l’azione voluta mentre la via indiretta sopprime le concorrenti, nello stesso istante: cooperazione, non antagonismo puro.

Il modello center-surround va in questa direzione, ma il quadro complessivo resta in revisione. Il capitolo presenta il modello a tasso come lo standard didattico che è — la cornice con cui si capiscono le malattie — non come l’ultima parola. È un buon esempio di un modello che resta utile da insegnare anche dopo che la ricerca lo ha superato in parte: la versione semplificata cattura la logica del circuito, quella raffinata ne corregge i dettagli.

Le malattie non si riducono a “troppo” o “troppo poco”. Dire che il Parkinson è “via indiretta iperattiva” cattura l’asse ipocinesia/ipercinesia ma trascura molto: nel Parkinson compaiono oscillazioni patologiche dell’attività neurale (attività beta sincronizzata) che il modello a tasso, per costruzione, non descrive — è un modello di frequenze medie, non di dinamiche temporali. E i sintomi non motori del Parkinson e di Huntington — cognitivi, affettivi — ricordano che i gangli della base non sono solo una struttura motoria.

“Arbitro della selezione” è un’interpretazione funzionale, non una misura. La tesi di Redgrave-Prescott-Gurney è ben argomentata e supportata da modelli computazionali, alcuni testati su robot. Ma resta una teoria a livello funzionale: nessuno ha “misurato la selezione” come si misura la connettività anatomica. È il livello di affermazione più alto del capitolo, e va tenuto distinto dall’anatomia, che è solida.

La mappatura actor-critic, già discussa, è un modello con limiti dichiarati. L’errore tipico è lo scivolamento: partire dall’analogia solida (dopamina ~ TD error), passare al modello (gangli della base = actor-critic) e atterrare su un’equivalenza indebita (il cervello esegue l’algoritmo actor-critic). Le tre affermazioni hanno tre statuti diversi. Joel-Niv-Ruppin 2002 segnano i confini; il capitolo li ha ripresi e non li ripete qui se non per ricordare che il salto fra le classi è il difetto da sorvegliare.

Il loop non è uno solo. Si è descritto un anello corteccia-gangli-talamo-corteccia. In realtà i gangli della base sono attraversati da circuiti paralleli parzialmente segregati — motorio, oculomotorio, associativo, limbico — che elaborano in parallelo domini diversi. La “selezione” non è un singolo arbitrato globale ma molti arbitrati in canali separati. Il capitolo ha semplificato a un loop per chiarezza; la realtà è una famiglia di loop. E i loop non sono perfettamente isolati: ci sono connessioni che li mettono in comunicazione, il che complica l’idea pulita di “un canale per azione”.

La via diretta/indiretta non è una dicotomia di neuroni puliti. Lo schema assegna ogni MSN a una delle due vie a seconda del recettore — D1 alla diretta, D2 all’indiretta — e per la gran parte degli MSN funziona. Ma una quota di MSN esprime entrambi i tipi di recettore, e le proiezioni anatomiche reali sono meno segregate di quanto la versione da manuale lasci credere: alcuni assoni della via diretta inviano collaterali anche alle stazioni della via indiretta. La partizione netta in due vie è un’astrazione utile, non una descrizione fedele del cablaggio cellula per cellula.

Esiste anche una “via iperdiretta”. Oltre alle due vie classiche, la corteccia raggiunge il nucleo subtalamico anche in modo diretto, scavalcando lo striato. Questa via iperdiretta (hyperdirect pathway) è veloce e diffusa: eccita lo STN, che eccita i nuclei di uscita, alzando rapidamente il freno su tutto. La sua funzione candidata è un “frena tutto” d’emergenza — utile a interrompere un’azione già avviata o a impedire selezioni premature mentre la decisione è ancora in corso. Il modello a due vie, da solo, non la contempla. È un terzo canale che la versione didattica del capitolo ha taciuto e che una trattazione completa deve includere.

Lo striato non riceve solo dalla corteccia, e non solo dopamina. Il quadro presentato enfatizza l’input corticale e la modulazione dopaminergica perché sono i due assi del modello. Ma lo striato riceve anche un input rilevante dal talamo, e altri neurotrasmettitori — l’acetilcolina degli interneuroni colinergici striatali, la serotonina — modulano il circuito. Trattare la dopamina come l’unico segnale modulatorio è una semplificazione consapevole: è il segnale meglio caratterizzato e il più legato al tema della decisione, ma non è solo.

“Selezione” non spiega tutto ciò che fanno i gangli della base. L’inquadramento di Redgrave-Prescott-Gurney è potente, ma altre funzioni proposte non vi si riducono in modo netto. Tra queste, un ruolo nella regolazione del vigore del movimento — non solo quale azione, ma con quanta energia eseguirla — e nella codifica temporale, nella stima di intervalli dell’ordine dei secondi. Sono funzioni che il quadro della selezione tocca solo di striscio. Il capitolo ha scelto la selezione come filo conduttore perché è quello che meglio collega anatomia, patologie e reinforcement learning, ma non è l’unica lettura legittima della struttura.

I gangli della base non imparano i movimenti fini. Vale la pena marcare un confine con la struttura del capitolo successivo. I gangli della base selezionano quale azione eseguire; non si occupano della calibrazione fine e momento per momento dell’esecuzione motoria — la coordinazione precisa, la correzione degli errori in corsa. Quel lavoro spetta a un’altra struttura, il cervelletto, oggetto del capitolo cervelletto-predizione-controllo (in preparazione). Confondere selezione ed esecuzione fine porta ad attribuire ai gangli della base un ruolo che non hanno: sono l’arbitro che decide chi gioca, non l’allenatore che perfeziona il gesto.

Collegamenti

Dopamina — il legame più stretto. La dopamina della SNc modula le due vie dei gangli della base (D1 sulla diretta, D2 sull’indiretta) e fornisce il segnale di errore che li addestra. I due capitoli vanno letti in coppia.
Neuroni, sinapsi, plasticità — i mattoni: GABA, glutammato, neuroni inibitori ed eccitatori sono il vocabolario con cui si leggono via diretta e indiretta.
La sinapsi — l’eccitazione e l’inibizione che qui producono la disinibizione hanno la loro spiegazione di base a livello sinaptico.
La corteccia — la corteccia genera le azioni candidate che i gangli della base filtrano; senza il proponente non c’è selezione.
L’ippocampo — l’altra grande struttura sottocorticale della Parte III; ippocampo e gangli della base sono spesso contrapposti come substrati della memoria dichiarativa contro la procedurale.
La plasticità hebbiana — l’apprendimento dello striato passa per il cambiamento delle sinapsi cortico-striatali; la dopamina agisce come terzo fattore che modula quella plasticità.
Memoria dichiarativa e procedurale — lo striato dorsolaterale è un substrato della memoria procedurale; la coppia goal-directed/habitual è la sua controparte comportamentale.
Sistema 1 e Sistema 2 — la distinzione fra azione deliberata e azione automatica trova nei gangli della base un substrato fisico parziale.
Actor-critic — l’architettura di reinforcement learning con cui i gangli della base sono stati messi in corrispondenza; il capitolo dà la versione formale dell’algoritmo.
Equazione di Bellman — la funzione di valore che il “critic” stima è definita dall’equazione di Bellman; per capire cosa il critic calcola, è il riferimento formale.
cervelletto-predizione-controllo (in preparazione) — la struttura complementare ai gangli della base: dove questi selezionano l’azione, il cervelletto ne calibra l’esecuzione fine.
cervello-vs-rete-neurale (in preparazione) — capitolo della Parte III dedicato a quali analogie cervello-AI tengono e quali no; la mappatura actor-critic è uno dei casi che vi rientrano.

Per andare oltre

Albin R.L., Young A.B., Penney J.B., The functional anatomy of basal ganglia disorders, Trends in Neurosciences, 1989. Il paper fondativo del modello a tasso; breve e leggibile, mostra come una teoria del circuito nasca dalle malattie.
Redgrave P., Prescott T.J., Gurney K., The basal ganglia: a vertebrate solution to the selection problem?, Neuroscience, 1999. La riformulazione funzionale: i gangli della base come dispositivo di selezione, oltre il movimento.
Joel D., Niv Y., Ruppin E., Actor-critic models of the basal ganglia: new anatomical and computational perspectives, Neural Networks, 2002. La rassegna critica del ponte con il reinforcement learning; il riferimento per capire dove l’analogia regge e dove no.
Yin H.H., Knowlton B.J., The role of the basal ganglia in habit formation, Nature Reviews Neuroscience, 2006. La sintesi della dissociazione striato dorsomediale/dorsolaterale e dello spostamento del controllo con l’allenamento.
Graybiel A.M. et al., Surprises From the Basal Ganglia: Stop and Go Have New Meaning, Movement Disorders, 2025. Un aggiornamento recente che mostra dove il modello canonico va rivisto: utile per non prendere il modello a tasso come definitivo.
Houk J.C., Davis J.L., Beiser D.G. (a cura di), Models of Information Processing in the Basal Ganglia, MIT Press, 1995. Il volume in cui compare il primo modello actor-critic dei gangli della base; per chi vuole risalire alla formulazione originale.
Sutton R.S., Barto A.G., Reinforcement Learning: An Introduction, MIT Press (2a ed., 2018). Il testo di riferimento sul reinforcement learning; i capitoli su actor-critic e TD learning danno la versione algoritmica pulita del lato AI del ponte.

← L’ippocampo · Torna all’indice della Parte III