Dopamina: il segnale di errore che il cervello e il reinforcement learning condividono

La dopamina non è la “molecola del piacere”. È un segnale di errore: dice di quanto le cose sono andate meglio o peggio del previsto. Questo capitolo ricostruisce cosa fa davvero la dopamina nel cervello, e documenta la filiazione più solida fra neuroscienza e intelligenza artificiale — la scoperta, a metà anni ‘90, che il firing dei neuroni dopaminergici coincide punto per punto con il temporal-difference error degli algoritmi di reinforcement learning.

Marzo 1997. Sulla rivista Science compare un articolo di tre autori che, fino a poco prima, lavoravano in mondi separati. Il titolo è asciutto: A Neural Substrate of Prediction and Reward. Uno dei tre, Wolfram Schultz, aveva passato dieci anni con un elettrodo conficcato nel mesencefalo di scimmie sveglie, registrando l’attività di singoli neuroni mentre l’animale riceveva gocce di succo. Gli altri due, Peter Dayan e P. Read Montague, venivano dalla teoria del calcolo: avevano studiato algoritmi che imparano da soli a comportarsi in un ambiente. Il paper sostiene una tesi che all’epoca suona quasi troppo pulita per essere vera. Il segnale elettrico di quei neuroni — la dopamina — non codifica il reward. Codifica un errore di predizione del reward. E quell’errore è, riga per riga, la stessa quantità che un algoritmo di reinforcement learning chiama temporal-difference error.

Non capita spesso che due discipline che non si parlano scoprano di aver descritto la stessa cosa. Quando capita, vale la pena fermarsi a guardarla con attenzione.

Questo capitolo lo fa con due obiettivi dichiarati. Il primo è descrittivo: spiegare cosa fa davvero la dopamina nel cervello, sostituendo l’immagine giornalistica della “molecola del piacere” con quella, più precisa, di un segnale di errore di apprendimento. Il secondo è metodologico: usare il caso della dopamina come pietra di paragone per giudicare tutte le altre analogie fra cervello e intelligenza artificiale. Perché la maggior parte di quelle analogie è debole, e averne sotto mano una forte — documentata, quantitativa, verificata — aiuta a riconoscere la differenza.

Perché questo capitolo

I capitoli precedenti della Parte III hanno costruito il cervello dal basso. Neuroni, sinapsi, plasticità ha presentato il cervello in scala. Il potenziale d’azione ha seguito il segnale elettrico lungo un neurone. La sinapsi ha descritto come due neuroni comunicano. La plasticità hebbiana ha mostrato come una sinapsi cambia forza con l’esperienza. La corteccia ha disposto quei componenti in un’architettura. Tutto quel quadro descrive struttura e meccanismo locale. Manca ancora una cosa: cosa dice al cervello, globalmente, come sta andando.

La plasticità hebbiana, da sola, non basta a imparare comportamenti utili. “Neuroni che sparano insieme si legano insieme” spiega come si formano associazioni, ma non spiega come il cervello sappia quali associazioni vale la pena rinforzare. Per imparare che premere una leva porta cibo serve un segnale ulteriore: un segnale che dica “questo è andato bene, ricordalo”. Quel segnale, in larga parte, è la dopamina. Questo capitolo riguarda il sistema che lo produce e lo distribuisce.

C’è poi una seconda ragione, più specifica per chi legge questa wiki. Tra le moltissime analogie che si fanno tra cervello e intelligenza artificiale — alcune solide, molte vaghe, parecchie sbagliate — quella tra dopamina e reinforcement learning è la più documentata di tutte. Non è una metafora didattica. È una convergenza riconosciuta storicamente, formalizzata in paper precisi, che ha poi nutrito entrambe le discipline per trent’anni. Capirla bene serve a calibrare il giudizio su tutte le altre analogie: mostra che aspetto ha un ponte cervello-AI quando è reale, e quanto è raro che lo sia.

E c’è una terza ragione, che riguarda il modo in cui parliamo di dopamina fuori dai laboratori. Poche molecole del corpo umano sono entrate così prepotentemente nel linguaggio comune: “scarica di dopamina”, “dipendenza da dopamina”, “dopamine detox”. In quasi tutti questi usi la dopamina compare come sinonimo di piacere o di gratificazione immediata. È un fraintendimento, e non innocuo: porta a modelli mentali sbagliati su come funzionano motivazione, abitudini e dipendenze. Il capitolo prova a rimettere le cose a posto, sostituendo l’immagine della “molecola del piacere” con quella, più corretta e più interessante, della molecola che segnala l’errore di predizione. È un caso raro in cui la scienza precisa è anche più affascinante della sua versione divulgata.

Contesto: tre strade che si incontrano

Per capire il 1997 servono tre storie parallele, ciascuna iniziata decenni prima. Due corrono lontane fra loro; la terza fa da cerniera.

La prima è la storia della dopamina. La dopamina è un neurotrasmettitore — una molecola con cui i neuroni si parlano attraverso la sinapsi, il dettaglio è in La sinapsi. Appartiene alla famiglia delle catecolamine. Per buona parte del Novecento è stata associata al movimento: la scoperta, negli anni ‘60, che il morbo di Parkinson è causato dalla morte dei neuroni dopaminergici, e che la somministrazione del precursore L-DOPA ne allevia i sintomi, fissa l’idea della dopamina come molecola motoria.

In parallelo nasce l’idea opposta, quella della dopamina come molecola del piacere. Nel 1954 James Olds e Peter Milner, lavorando con i ratti, scoprono per caso che un animale con un elettrodo impiantato in certe aree cerebrali preme una leva per autostimolarsi fino allo sfinimento, ignorando cibo e acqua. Quelle aree vengono battezzate “centri del piacere”, e poiché molte di esse coincidono con il percorso della via dopaminergica, il salto logico è immediato: la dopamina sarebbe la molecola che il cervello usa per provare piacere. È un’inferenza affrettata — l’animale potrebbe premere la leva per volere la stimolazione senza necessariamente goderne — ma è seducente, ed entra nel senso comune. Da qui nasce, e si diffonde ben oltre la scienza, l’etichetta “molecola del piacere”. L’etichetta è sbagliata, e gran parte di questo capitolo serve a smontarla.

La seconda è la storia del reinforcement learning (RL), apprendimento per rinforzo: la branca dell’AI che studia come un agente impari a comportarsi in un ambiente ricevendo solo segnali di reward, senza che nessuno gli dica la mossa giusta. Negli anni ‘80 l’informatico statunitense Richard Sutton, con Andrew Barto, formalizza il temporal-difference learning (TD-learning), un metodo per stimare il valore a lungo termine di una situazione aggiornando le stime man mano che l’esperienza arriva. Il TD-learning è puramente matematico: nasce da problemi di controllo ottimo, non da osservazioni sul cervello. La sua trattazione completa è nel libro di Sutton e Barto Reinforcement Learning: An Introduction (1998), e i suoi pezzi formali sono nei capitoli della Parte VII di questa wiki — l’equazione di Bellman e il Q-learning.

È utile sottolineare quanto queste due storie fossero, fino al 1996, estranee l’una all’altra. Schultz era un elettrofisiologo: misurava potenziali d’azione, non scriveva algoritmi. Sutton era un informatico: lavorava su problemi di controllo, non aveva mai visto un neurone dopaminergico. Le due comunità pubblicavano su riviste diverse, partecipavano a conferenze diverse, parlavano linguaggi diversi. Che proprio da quelle due tradizioni separate emergesse la stessa equazione — una, misurata in un cervello; l’altra, derivata su una lavagna — è il fatto che rende questa vicenda degna di un capitolo a sé.

C’è poi una terza storia, più breve ma decisiva, che fa da cerniera fra le altre due: la storia psicologica dell’errore di predizione. Nel 1972 due psicologi statunitensi, Robert Rescorla e Allan Wagner, propongono un modello dell’apprendimento associativo — il modello Rescorla-Wagner — che rompe con l’idea ingenua di Pavlov. Per Pavlov, associare uno stimolo a un reward è semplice contiguità: due cose vicine nel tempo si legano. Rescorla e Wagner mostrano che è falso. Il loro esperimento-chiave è il blocking: se un animale ha già imparato che lo stimolo A predice il cibo, e poi gli si presenta A insieme a un nuovo stimolo B, l’animale non impara nulla su B. Il cibo era già perfettamente predetto da A: B non aggiunge informazione, e l’apprendimento si “blocca”. La conclusione di Rescorla e Wagner: si impara solo nella misura in cui si è sorpresi. L’apprendimento è guidato dall’errore di predizione, non dalla contiguità.

Questa idea — formulata in psicologia animale negli anni ‘70, ben prima di Schultz e di Sutton — è il concetto che il TD-learning rende algoritmico e che la dopamina, si scoprirà, rende fisiologico. Le tre storie convergono su di essa. Il modello Rescorla-Wagner, però, aveva un limite: trattava ogni “prova” come un blocco unico, senza tempo interno, e non sapeva dire nulla su quando, dentro la prova, l’apprendimento avvenisse. Il temporal-difference learning è precisamente l’estensione che aggiunge il tempo: prende l’errore di predizione di Rescorla e Wagner e lo distribuisce istante per istante lungo la durata di una prova. È per questo che la dopamina, che risponde a tempi precisi dentro la prova, combacia con il TD-error e non con il modello del 1972: la biologia aveva bisogno della versione temporale del principio.

Le date che contano:

1954 — James Olds e Peter Milner scoprono l’autostimolazione intracranica: nasce l’idea dei “centri del piacere”.

Anni ‘60 — la dopamina viene legata al morbo di Parkinson e al controllo motorio.

1972 — Robert Rescorla e Allan Wagner pubblicano il modello dell’apprendimento associativo guidato dall’errore di predizione.

Anni ‘80 — Richard Sutton e Andrew Barto formalizzano il temporal-difference learning.

Anni ‘80-‘90 — Wolfram Schultz registra il firing di singoli neuroni dopaminergici in macachi svegli durante compiti comportamentali.

1993 — Terry Robinson e Kent Berridge propongono la incentive-sensitization theory dell’addiction.

1996 — Montague, Dayan e Sejnowski pubblicano il primo modello esplicito del firing dopaminergico come errore predittivo in stile TD.

1997 — Schultz, Dayan e Montague, su Science, fondono evidenza fisiologica e modello computazionale: nasce la reward prediction error hypothesis.

2020 — Dabney e colleghi di DeepMind, con il laboratorio di Uchida, mostrano che la popolazione dopaminergica codifica una distribuzione di reward, non solo la media: la teoria del 1997 era corretta ma incompleta.

Il capitolo procede così: prima un’intuizione doppia per afferrare l’idea centrale; poi l’anatomia delle vie dopaminergiche; poi l’esperimento di Schultz e i tre pattern di firing; poi la meccanica della reward prediction error e il ponte con il TD-learning; poi le due letture alternative — wanting/liking, tonic/phasic; infine i limiti e le revisioni recenti. Il filo che lega tutte le sezioni è uno solo, e conviene tenerlo in mano fin dall’inizio: la dopamina non misura il bene, misura la sorpresa.

L’intuizione: la dopamina come notizia, non come premio

Prima di anatomia e formule, conviene afferrare l’idea centrale da due angoli diversi. Entrambi puntano allo stesso fatto — la dopamina non misura quanto qualcosa è buono, ma quanto è inaspettatamente buono — ma lo raggiungono per strade distinte.

Primo angolo: il giornale e la notizia

Immagina un giornale che esce ogni mattina. Un giornale utile non ti ripete le cose che già sai: non titola “il sole è sorto a est”. Titola ciò che si discosta dalle attese — un terremoto, un risultato a sorpresa, una previsione smentita. Il valore informativo di un titolo è proporzionale a quanto cambia quello che credevi di sapere.

La dopamina fasica funziona così. Non annuncia “è arrivato del cibo” ogni volta che arriva del cibo. Annuncia “è arrivato del cibo e non te lo aspettavi”, oppure “ti aspettavi del cibo e non è arrivato”. Quando un evento diventa perfettamente prevedibile — quando il giornale potrebbe scrivere il titolo in anticipo — la dopamina tace su quell’evento, esattamente come un buon giornale non spreca la prima pagina per il sorgere del sole. Il segnale non misura il bene; misura la revisione del modello del mondo.

Questa intuizione spiega da sola il fatto più controintuitivo dell’esperimento di Schultz: perché un reward identico, ugualmente gradito, smetta di evocare risposta dopaminergica una volta che è atteso. Non perché sia diventato meno buono — ma perché è diventato meno notizia.

Secondo angolo: il termostato che impara

Un secondo modo di guardarla è il controllo a retroazione. Pensa a un sistema che deve mantenere una stima — per esempio “quanto vale trovarsi in questa stanza” — e che corregge la stima ogni volta che la realtà la smentisce. Se entri in una stanza che credevi noiosa e ci trovi una festa, la stima va alzata; se ci trovi il vuoto dove aspettavi la festa, va abbassata. La quantità di correzione è proporzionale alla sorpresa: alla distanza fra ciò che hai trovato e ciò che avevi previsto.

La dopamina, in questa lettura, è il segnale di correzione di un sistema di questo tipo. Non è il premio: è l’istruzione di aggiornamento. Un burst dice “alza le tue stime di valore lungo la catena di eventi che ha portato qui”. Una pausa dice “abbassale”. E quando le stime sono corrette — quando il sistema ha imparato — il segnale di correzione va a zero, perché non c’è più niente da correggere.

Questi due angoli — la notizia e la correzione — sono lo stesso meccanismo visto da fuori e da dentro. Il primo guarda cosa il segnale comunica (uno scarto, non un livello); il secondo guarda a cosa serve (aggiornare un modello predittivo). Il resto del capitolo riempie questa intuizione di anatomia, dati e formule — ma se tieni a mente solo una cosa, tieni questa: la dopamina è il titolo di prima pagina del cervello, e i titoli parlano solo di ciò che non sapevi già.

Anatomia: un sistema piccolo che parla a tutto il cervello

Prima di cosa fa la dopamina, conviene sapere da dove viene e dove arriva. La geografia, qui, è informativa.

Conviene distinguere subito due modi in cui un cervello può cablare la comunicazione. Un sistema point-to-point manda informazione precisa fra punti precisi: la corteccia visiva che parla con la corteccia parietale ha bisogno di questo, perché deve trasmettere quale oggetto, dove. Un sistema neuromodulatorio, invece, non manda contenuto dettagliato: regola, dall’alto, lo stato di vaste popolazioni di neuroni con un segnale grezzo e globale. La dopamina appartiene alla seconda categoria, e la sua anatomia lo dichiara apertamente.

I neuroni che producono dopamina sono sorprendentemente pochi. Nel cervello umano sono circa 400.000-600.000 — una frazione minuscola degli ottantasei miliardi di neuroni totali presentati in Neuroni, sinapsi, plasticità. I loro corpi cellulari sono concentrati in due nuclei adiacenti del mesencefalo (midbrain, la parte alta del tronco encefalico):

La VTA (ventral tegmental area, area tegmentale ventrale): in nomenclatura anatomica classica, gruppo cellulare A10.
La substantia nigra pars compacta (SNc, sostanza nera parte compatta): gruppo cellulare A9. Si chiama “nera” perché i suoi neuroni accumulano neuromelanina, un pigmento scuro visibile a occhio nudo in una sezione di cervello.

Da questi due nuclei minuscoli partono assoni che si ramificano in modo enorme: un singolo neurone dopaminergico può contattare centinaia di migliaia di cellule bersaglio. Le proiezioni si raggruppano in vie (pathway):

Via mesolimbica — dalla VTA allo striato ventrale, in particolare il nucleus accumbens (NAc), e ad altre strutture del sistema limbico. È il circuito centrale del reward e della motivazione, e il bersaglio diretto o indiretto di quasi tutte le droghe d’abuso.
Via mesocorticale — dalla VTA alla corteccia prefrontale (orbitofrontale, prefrontale mediale, cingolata anteriore). Contribuisce a funzioni esecutive, working memory, controllo cognitivo. Spesso si trattano mesolimbica e mesocorticale insieme, come sistema “mesocorticolimbico”, perché condividono l’origine nella VTA.
Via nigrostriatale — dalla SNc allo striato dorsale (caudato e putamen). Coinvolta nel controllo motorio e nell’apprendimento di abitudini. È la via che degenera nel morbo di Parkinson: i sintomi motori compaiono quando si è perso circa il 60-80% dei neuroni dopaminergici della SNc.

C’è una quarta via, la tuberoinfundibolare (ipotalamo-ipofisi, regola la prolattina), che non riguarda questo capitolo.

Una nota sulla nomenclatura, perché aiuta a non perdersi. “Meso-” indica il mesencefalo, l’origine; il secondo pezzo del nome indica la destinazione. Meso-limbica va dal mesencefalo al sistema limbico, meso-corticale alla corteccia, nigro-striatale dalla substantia nigra allo striato. I nomi delle vie sono, letteralmente, le coordinate del cavo: da dove parte, dove arriva. Quando in clinica si parla degli effetti collaterali di un farmaco antipsicotico — che agisce sui recettori dopaminergici — si ragiona via per via: l’effetto terapeutico è su una via, gli effetti indesiderati motori su un’altra, quelli ormonali su una terza. La geografia non è un dettaglio accademico: è la mappa su cui si leggono funzioni e patologie.

Questa anatomia ha una conseguenza concettuale che vale la pena estrarre subito. Un sistema fatto di poche centinaia di migliaia di neuroni, ciascuno ramificato verso centinaia di migliaia di bersagli, non può trasmettere informazione dettagliata. Non può dire “il quadrato rosso in alto a sinistra è importante”. Può trasmettere solo un segnale scalare — un singolo numero, alto o basso — broadcastato a vaste popolazioni di neuroni contemporaneamente. È un sistema di diffusione, non di indirizzamento.

Tieni a mente questa osservazione, perché è esattamente la forma di segnale che serve a un algoritmo di apprendimento per rinforzo: un numero globale che dice “rivedi le tue stime, le cose sono andate così”, spedito a tutto il sistema perché ciascuna parte si aggiorni di conseguenza. L’anatomia, da sola, suggerisce già che funzione abbia.

Dove il segnale viene letto

Vale la pena guardare anche l’altra estremità del cavo. Il bersaglio principale della via mesolimbica è lo striato — caudato, putamen, nucleus accumbens — un’enorme struttura sottocorticale dove convergono input da tutta la corteccia. È qui che il segnale dopaminergico fa il suo lavoro: regola la plasticità delle sinapsi corticostriatali. Le connessioni fra corteccia e striato si rafforzano o si indeboliscono a seconda che il loro essere attive coincida o meno con un burst dopaminergico.

Questo dettaglio chiude un cerchio rimasto aperto in La plasticità hebbiana. La plasticità hebbiana pura — “neuroni che sparano insieme si legano insieme” — non distingue le associazioni utili da quelle inutili: rafforza ogni coincidenza. La dopamina è il terzo fattore che manca: una sinapsi corticostriatale si rafforza in modo duraturo se l’attività pre- e post-sinaptica coincide e in quel momento arriva un burst dopaminergico. Senza burst, la stessa coincidenza può non lasciare traccia, o indebolire la sinapsi. È quella che si chiama plasticità a tre fattori: pre-sinaptico, post-sinaptico, e segnale neuromodulatorio. La dopamina trasforma una regola di correlazione cieca in una regola di apprendimento guidata dal risultato — ed è precisamente questo che serve perché il cervello impari comportamenti utili e non semplici abitudini casuali.

Il segnale viene poi letto da recettori di due grandi famiglie, D1 e D2, con effetti opposti sulla cellula bersaglio: a grandi linee, i recettori di tipo D1 rispondono meglio ai picchi fasici alti, quelli D2 sono sensibili anche a concentrazioni toniche basse. È un dettaglio farmacologico che il capitolo non approfondisce, ma spiega perché lo stesso burst possa avere effetti diversi su circuiti diversi a seconda di quali recettori vi prevalgono.

Un’ultima nota di metodo. Schultz, negli anni ‘90, registrava il firing dei neuroni — i potenziali d’azione — con microelettrodi. Oggi si misura anche la dopamina rilasciata nel tessuto bersaglio, con tecniche più recenti: la voltammetria ciclica a scansione rapida, che rileva chimicamente le variazioni di concentrazione di dopamina in tempo reale, e i sensori fluorescenti geneticamente codificati, che fanno “brillare” il tessuto in proporzione alla dopamina presente. Queste tecniche hanno confermato l’immagine del segnale fasico legato al reward, ma hanno anche mostrato che il rilascio di dopamina nello striato ha una struttura spaziale e temporale più ricca di quanto il solo firing dei corpi cellulari lasciasse prevedere. Il quadro si raffina, ma il nucleo — la dopamina come segnale di errore di predizione — regge.

L’esperimento di Schultz: tre pattern che cambiano la storia

Wolfram Schultz, neuroscienziato tedesco poi attivo a Cambridge nel Regno Unito, voleva una risposta a una domanda diretta: i neuroni dopaminergici rispondono al reward? Per scoprirlo registrava, con microelettrodi, l’attività di singoli neuroni dopaminergici nel mesencefalo di macachi svegli, mentre l’animale eseguiva semplici compiti e riceveva, come reward, gocce di succo di frutta.

Vale la pena un inciso sul metodo, perché spiega perché questi risultati siano così solidi. Registrare da un singolo neurone in un animale sveglio e attivo è una tecnica esigente: l’elettrodo deve isolare l’attività di una cellula sola in mezzo a migliaia. I neuroni dopaminergici, per fortuna del ricercatore, hanno una “firma” elettrica riconoscibile — potenziali d’azione larghi, frequenza di base bassa e regolare — che permette di identificarli con buona affidabilità. E poiché il sistema dopaminergico è anatomicamente concentrato in VTA e substantia nigra, Schultz sapeva esattamente dove puntare. Migliaia di neuroni, registrati uno per uno nel corso di anni e su più animali, raccontano tutti la stessa storia: è questa convergenza a rendere la RPE hypothesis un risultato robusto e non un artefatto.

La risposta che ottenne è controintuitiva, ed è il cuore del capitolo. I neuroni dopaminergici non codificano il reward in quanto tale. Codificano lo scarto tra il reward atteso e il reward ricevuto. Tre situazioni sperimentali, tre pattern di firing distinti e robusti.

Vale la pena tenere a mente quanto questa conclusione fosse inattesa. La domanda di partenza — “i neuroni del reward rispondono al reward?” — sembrava destinata a una risposta banale, sì. La risposta vera, “rispondono solo quando il reward sorprende”, ha richiesto di abbandonare il modo intuitivo di pensare al sistema e di adottarne un altro, quello dell’errore di predizione. È un caso esemplare di come una buona misura, fatta con cura, possa costringere a cambiare la teoria invece di confermarla.

Situazione 1 — reward inatteso. La scimmia riceve una goccia di succo senza alcun preavviso, nessun segnale che la annunci. I neuroni dopaminergici rispondono con una scarica fasica: un burst, una breve raffica di potenziali d’azione, con latenza di circa 70-100 millisecondi e durata di circa 100-200 millisecondi. Lettura: è arrivato qualcosa di buono che non era previsto. Le cose sono andate meglio del previsto.

La brevità di questa risposta è significativa. Settanta millisecondi sono pochissimi: troppo pochi perché il segnale possa essere il risultato di una valutazione corticale elaborata di “quanto mi piace questo succo”. Il burst è troppo rapido per riflettere il gusto, la consistenza, la valutazione edonica del reward — quelle elaborazioni richiedono più tempo. Quello che il burst può riflettere, in così poco tempo, è una stima grezza e veloce: “è arrivato qualcosa, e non era previsto”. La fisiologia stessa del segnale — rapido, stereotipato, scalare — suggerisce che non sta misurando il piacere ma calcolando una sorpresa.

Situazione 2 — reward predetto. Adesso il reward viene sistematicamente preceduto da uno stimolo condizionato — un CS, conditioned stimulus: una luce, un tono — che lo annuncia. All’inizio dell’addestramento il neurone risponde al succo, come prima. Ma man mano che l’animale impara l’associazione CS-reward, accade qualcosa di notevole: la risposta dopaminergica si sposta indietro nel tempo. Il burst migra dal momento del succo al momento del CS. A regime, quando il CS predice in modo affidabile il reward, il neurone spara al CS e non risponde più al succo. Il succo arriva ancora, identico, gradito come prima — ma il neurone tace. Lettura: il reward, ora, è pienamente atteso. Non c’è scarto. Niente da segnalare.

Situazione 3 — reward omesso. Il CS compare, annuncia il reward — ma il reward non arriva. Nell’istante esatto in cui il succo era atteso, il firing dopaminergico fa qualcosa di nuovo: scende sotto il livello basale. Una depressione, una pausa nel firing di fondo, temporizzata con precisione sul momento del reward mancato. Lettura: era atteso qualcosa di buono e non è arrivato. Le cose sono andate peggio del previsto.

C’è un dettaglio in questa terza situazione che merita attenzione, perché è una delle prove più eleganti dell’intera teoria. La depressione non avviene a caso: avviene nell’istante preciso in cui il reward era atteso, non prima e non dopo. Questo significa che il cervello dell’animale tiene una rappresentazione interna del quando — sa non solo che il reward dovrebbe arrivare, ma esattamente a che punto del tempo. Quando quel momento passa a vuoto, il sistema reagisce con un segnale di errore negativo temporizzato sull’attesa delusa. Non è il succo mancante a generare la pausa — il succo non c’è, non può “fare” nulla. È l’assenza di un evento atteso a un tempo atteso. Un rilevatore di stimoli non potrebbe produrre un segnale per qualcosa che non è successo; un sistema che confronta predizione ed esito, si.

Il pattern decisivo è il secondo: il transfer della risposta dallo stimolo primario allo stimolo predittivo. Un rilevatore di reward non si comporterebbe così — risponderebbe al succo ogni volta, perché il succo è sempre lo stesso. Il transfer è la firma di un meccanismo diverso: un sistema che impara a predire il reward e segnala solo lo scarto fra predizione ed esito. Quando la predizione diventa perfetta, il segnale al momento del reward svanisce — ma compare prima, sul CS, perché il CS stesso è ora una buona notizia inattesa.

Conviene insistere su quanto sia controintuitivo. Immagina di osservare solo la situazione 2 a regime, senza conoscere la storia: vedresti un neurone che spara forte a una luce e non reagisce affatto all’arrivo del succo. La conclusione ingenua sarebbe “questo neurone codifica le luci, non il cibo”. È esattamente l’opposto della verità. Il neurone codifica il valore — ma il valore di una transizione, non di uno stato — e a regime tutto il valore informativo si è concentrato sul primo evento che lo annuncia. Il succo, perfettamente atteso, non sposta più nulla. La luce, che a sua volta non era predetta da niente, sposta tutto. Capire questo significa capire la RPE hypothesis.

Schultz sintetizza il quadro nella sua rassegna del 1998 (Predictive Reward Signal of Dopamine Neurons, Journal of Neurophysiology), su una larga casistica di neuroni: circa il 60-80% dei neuroni dopaminergici registrati mostra questo profilo. La risposta dopaminergica è positiva quando il reward arriva non predetto, nulla quando arriva predetto, negativa quando un reward predetto è omesso. Tre regimi, un solo principio.

C’è un quarto risultato, meno citato ma altrettanto rivelatore: la risposta dopaminergica scala con la probabilità e con la magnitudine del reward. Se un CS predice il reward solo nel 50% dei casi, il burst al momento del reward non sparisce del tutto — resta una risposta intermedia, perché il reward resta in parte sorprendente. E se un CS predice una grande ricompensa ma ne arriva una piccola, si osserva una depressione anche se del reward è comunque arrivato: ciò che conta non è la presenza del reward ma il suo scarto dall’atteso. Il segnale dopaminergico non è binario “reward sì / reward no”: è graduato, e segue la quantità $r_t - \mathbb{E}[r_t]$ , lo scarto fra reward ricevuto e reward atteso. È questo che lo rende un candidato così credibile per il ruolo di errore di predizione: non somiglia all’errore di predizione, si comporta numericamente come un errore di predizione.

La meccanica: la reward prediction error e il TD-error

Diamo un nome a quello che la dopamina segnala. Lo scarto fra reward atteso e reward ricevuto si chiama reward prediction error (RPE), errore di predizione del reward. È una quantità con un segno:

RPE positivo — è arrivato più reward del previsto (situazione 1).
RPE nullo — è arrivato esattamente il reward previsto (situazione 2).
RPE negativo — è arrivato meno reward del previsto, o nulla (situazione 3).

I tre pattern di Schultz sono i tre segni dell’RPE. Fin qui è una descrizione. Il passo successivo — e il contributo di Dayan e Montague — è mostrare che questa descrizione coincide con una formula già esistente in un altro campo.

Il valore e l’equazione di Bellman

Nel reinforcement learning, un agente che si muove in un ambiente vuole massimizzare il reward totale che accumulera nel tempo. Per decidere bene, gli serve sapere quanto “vale” trovarsi in una certa situazione — non solo il reward immediato, ma tutto il reward futuro che quella situazione rende raggiungibile. Questo si chiama valore di uno stato, indicato $V(s)$ , dove $s$ è lo stato (la situazione corrente).

Il valore si definisce come la somma dei reward futuri attesi, scontati: i reward lontani contano meno di quelli vicini, attraverso un fattore di sconto $\gamma$ (gamma), un numero tra 0 e 1. La relazione che il valore deve soddisfare è l’equazione di Bellman: il valore di uno stato è il reward immediato più il valore scontato dello stato successivo. In simboli, in forma essenziale:

$V(s_t) = r_t + \gamma\, V(s_{t+1})$

In parole povere: quanto vale stare qui adesso è uguale a quanto incasso subito, più quanto varrà stare dove finisco al passo dopo, opportunamente scontato.

Una parola sul fattore di sconto $\gamma$ , perché non è un dettaglio tecnico. Se $\gamma$ vale 1, tutti i reward futuri contano allo stesso modo, per quanto lontani; se vale 0, conta solo il reward immediato e l’agente diventa del tutto miope. I valori intermedi — tipicamente vicini a 1, come 0,9 o 0,99 — definiscono un orizzonte: quanto in là nel futuro l’agente “vede”. Lo sconto ha un parallelo psicologico immediato, il temporal discounting: anche gli esseri umani e gli animali svalutano i reward lontani nel tempo, preferiscono dieci euro oggi a undici domani. Non è un caso che lo stesso parametro compaia nel modello formale e nel comportamento osservato: il sistema di reward, biologico o artificiale, deve sempre risolvere lo stesso compromesso fra il subito e il dopo.

Il problema è che l’agente non conosce $V$ : deve stimarlo dall’esperienza. E qui entra il TD-learning.

Il temporal-difference error

L’idea di Sutton è elegante. Se la stima del valore fosse perfetta, l’equazione di Bellman sarebbe verificata esattamente. Quando non lo è, la violazione misura l’errore della stima. Definiamo allora il temporal-difference error (TD-error), indicato $\delta_t$ (delta al tempo $t$ ):

$\delta_t = r_t + \gamma\, V(s_{t+1}) - V(s_t)$

Leggiamola pezzo per pezzo. $r_t$ è il reward effettivamente ricevuto al passo $t$ . $V(s_{t+1})$ è il valore stimato dello stato in cui l’agente si è ritrovato subito dopo: cioè, quanto bene ci si aspetta che vadano le cose da qui in avanti. $\gamma\, V(s_{t+1})$ è quel valore scontato. La somma $r_t + \gamma\, V(s_{t+1})$ è quindi una stima aggiornata di quanto valeva lo stato di partenza, basata su cosa è effettivamente successo. Da questa stima aggiornata si sottrae $V(s_t)$ , la stima che si aveva prima.

In parole povere: $\delta_t$ è la differenza fra quanto ti aspetti adesso e quanto ti aspettavi un istante fa, corretta per il reward davvero incassato. È sorpresa, con un segno. Se $\delta_t > 0$ , lo stato di partenza valeva più di quanto credevi: alza la stima. Se $\delta_t < 0$ , abbassala. Se $\delta_t = 0$ , la stima era giusta: non toccare nulla. La regola di aggiornamento del TD-learning è esattamente questo: $V(s_t) \leftarrow V(s_t) + \alpha\, \delta_t$ , dove $\alpha$ (alpha) è un tasso di apprendimento.

Il tasso di apprendimento $\alpha$ — un numero piccolo, tra 0 e 1 — controlla quanto bruscamente la stima reagisce all’errore. Un $\alpha$ alto fa imparare in fretta ma rende il sistema instabile, sensibile a ogni fluttuazione casuale; un $\alpha$ basso rende l’apprendimento lento ma stabile, perché media l’errore su molte esperienze. È lo stesso compromesso che ogni sistema che apprende dall’esperienza deve gestire: fidarsi dell’ultimo dato o dell’accumulo di tutti i dati passati. Anche nel cervello la “forza” con cui un RPE modifica le sinapsi non è fissa — dipende dal contesto, dall’incertezza, dalla fase di apprendimento — e questo è uno dei punti in cui la corrispondenza fra modello e biologia diventa più sottile e interessante.

La coincidenza

Ora rileggi i tre pattern di Schultz con la formula di $\delta_t$ in mano.

Reward inatteso (situazione 1): nessuno stimolo lo prediceva, quindi prima del reward il valore atteso era basso; arriva $r_t$ positivo; $\delta_t$ è positivo. Burst dopaminergico. Coincide.

Reward predetto (situazione 2): il CS ha già alzato la stima di valore, e al momento del reward $r_t$ è esattamente quanto previsto: $r_t$ pareggia il calo di valore atteso, $\delta_t = 0$ . Nessuna risposta al reward. Ma al momento del CS, l’apparire del CS è di per sé una transizione verso uno stato di valore più alto e non predetta: $\delta_t$ positivo lì. Burst al CS. Coincide — e spiega il transfer.

Reward omesso (situazione 3): il CS aveva alzato la stima, il reward atteso era positivo, ma $r_t = 0$ : $\delta_t$ è negativo. Depressione sotto-basale. Coincide.

Le tre situazioni, e il transfer della risposta dallo stimolo primario allo stimolo predittivo, sono i tre casi del segno di $\delta_t$ — più il fatto, cruciale, che il TD-error si propaga all’indietro lungo la catena di stati che predicono il reward. È questa propagazione all’indietro che fa migrare il burst dopaminergico dal succo al CS, esattamente come il TD-learning fa migrare l’errore verso lo stimolo predittivo più precoce.

Vale la pena fermarsi su quanto è stretta questa corrispondenza. Non si tratta solo di “entrambi salgono quando arriva una sorpresa positiva”. La RPE hypothesis fa predizioni quantitative sul firing dopaminergico, e i dati le confermano: il segnale scala con la probabilità del reward, scala con la sua magnitudine, si trasferisce temporalmente al CS con la velocità prevista dall’algoritmo, e mostra la depressione sotto-basale all’omissione con la temporizzazione attesa. Quando un modello matematico, costruito per tutt’altro scopo, predice in dettaglio una curva fisiologica che nessuno gli aveva mostrato, l’accordo smette di essere una somiglianza suggestiva e diventa evidenza. È questa la differenza fra una metafora e una teoria — ed è il motivo per cui la sezione che segue si prende cura di chiamare le cose con il loro nome.

Perché “temporal”: il problema dell’assegnazione di credito

Vale la pena soffermarsi sul perché l’aggettivo temporal — temporale — non sia decorativo. Il problema che il TD-learning risolve, e che la dopamina sembra risolvere nel cervello, ha un nome: l’assegnazione di credito temporale (temporal credit assignment). Quando un reward arriva, è il risultato di una catena di eventi e decisioni che lo hanno preceduto, a volte di parecchio. Quale di quegli eventi merita il “credito”? Quale stato, quale azione tre passi fa ha reso possibile il reward di adesso?

Una soluzione ingenua sarebbe aspettare la fine di un episodio, sommare tutto il reward ottenuto, e distribuirlo all’indietro su tutto ciò che è successo. Funziona, ma è lento e richiede di tenere in memoria l’intera sequenza. Il TD-learning fa qualcosa di più astuto: aggiorna un passo alla volta. Ogni stato impara il suo valore dal valore — appena stimato — dello stato immediatamente successivo. È quello che fa il termine $\gamma V(s_{t+1})$ nella formula: lo stato corrente non aspetta il reward finale, si fida della stima del suo vicino. L’informazione sul reward si propaga così all’indietro, un anello della catena per volta, episodio dopo episodio, come un’onda che risale.

Questo “fidarsi della stima del vicino” ha un nome tecnico — bootstrapping — ed è il cuore furbo e un po’ azzardato del metodo. Azzardato perché la stima del vicino, all’inizio, è anch’essa sbagliata: il sistema impara da numeri che lui stesso ha inventato. Eppure funziona, perché l’unico punto della catena ancorato alla realtà — il reward finale, vero — tira gradualmente in riga tutte le stime a monte. È un meccanismo che si autocorregge: parte da ipotesi arbitrarie e converge alla verità perché un capo della catena è inchiodato a un fatto. Il cervello, se la RPE hypothesis è corretta, fa la stessa scommessa: costruisce predizioni su predizioni, e lascia che il reward effettivo, quando arriva, le raddrizzi tutte.

Questa propagazione all’indietro è il transfer di Schultz visto dall’altro lato. Il burst dopaminergico che migra dal succo al CS, lezione dopo lezione, è l’onda di credito che risale la catena. Il cervello, come l’algoritmo, non aspetta la fine della storia per imparare: aggiorna mentre va, fidandosi delle sue stesse stime intermedie. È il motivo per cui un animale può imparare comportamenti lunghi e articolati a partire da un reward sporadico e ritardato — e il motivo per cui i metodi RL basati su TD sono così efficaci nei problemi dove il reward arriva tardi e di rado.

Il problema dell’assegnazione di credito, vale la pena dirlo, non è un tecnicismo da informatici: è uno dei problemi fondamentali di qualsiasi sistema che impari da conseguenze ritardate. Un giocatore di scacchi che perde alla quarantesima mossa deve capire quale delle quaranta mosse era l’errore. Il cervello che riceve cibo deve capire quale, fra i molti passi che lo hanno preceduto, va rinforzato. La soluzione del TD-learning — propagare il credito un passo per volta, fidandosi delle stime intermedie — è abbastanza generale da valere per tutti questi casi. Che la dopamina la implementi nel cervello dei mammiferi è la prova che l’evoluzione aveva trovato la stessa risposta molto prima che la trovasse l’informatica.

La filiazione, dichiarata con precisione

A questo punto serve una pausa metodologica, perché qui è facile sbagliare classe di affermazione.

La connessione fra dopamina e TD-learning è una filiazione documentata, non una semplice analogia. La differenza non è pedanteria. Un’analogia è una somiglianza utile a insegnare, senza pretesa di legame storico o causale. Una filiazione è una discendenza tracciabile: una teoria nasce, storicamente, dall’incontro con un’altra, e i documenti lo provano.

I documenti, qui, ci sono. Il primo è Montague, Dayan e Sejnowski (1996), A Framework for Mesencephalic Dopamine Systems Based on Predictive Hebbian Learning (Journal of Neuroscience): il primo modello che propone esplicitamente che il firing dopaminergico implementi un segnale di errore predittivo in stile temporal-difference. Il secondo è il paper-cardine del 1997 su Science, che mette l’evidenza fisiologica di Schultz e il modello computazionale fianco a fianco. La reward prediction error hypothesis — la tesi neuroscientifica secondo cui i neuroni dopaminergici codificano un RPE — nasce da questo incontro. Letteralmente: nasce dal sovrapporre la curva del firing dopaminergico misurato e la curva del TD-error calcolato, e dal constatare che combaciano.

Va notato anche chi sono i tre autori del 1997, perché la composizione del trio è la prova vivente della filiazione. Peter Dayan e P. Read Montague sono i computazionalisti: portano il linguaggio del reinforcement learning, l’idea di errore predittivo, il formalismo del TD. Wolfram Schultz porta i dati — anni di registrazioni dai macachi. Un paper con questa firma congiunta non è una coincidenza editoriale: è il punto esatto in cui le due tradizioni si toccano e si firmano insieme. La RPE hypothesis ha una data di nascita e tre genitori, e questo la qualifica come filiazione documentata e non come somiglianza ricostruita a posteriori da un divulgatore.

Detto questo, va precisato con la stessa cura cosa la filiazione non è.

Non è un’equivalenza ontologica. Dire “la dopamina è il TD-error” è una semplificazione che il capitolo non sottoscrive. Il TD-error è una grandezza definita dentro un modello matematico; il firing dopaminergico è un fenomeno biologico che, in molte condizioni sperimentali, lo approssima bene. Approssimare non è essere. Le differenze fra i due — vedi la sezione sui limiti — sono reali e informative.

E non è un caso di “l’AI ha copiato il cervello” né il contrario. Sutton non disegnò il TD-learning guardando i neuroni dopaminergici: lo derivò da problemi di controllo ottimo. I neuroni dopaminergici non “eseguono” un algoritmo progettato a tavolino. È una convergenza: due discipline indipendenti, partite da domande diverse, hanno trovato la stessa soluzione allo stesso problema sottostante — imparare a predire reward futuri a partire dall’esperienza. La filiazione riguarda la teoria neuroscientifica (la RPE hypothesis discende dall’incontro con il TD-learning), non i due oggetti che essa mette in relazione. Questa è la forma precisa dell’affermazione, e tenerla precisa è metà del valore del capitolo.

Perché insistere tanto su queste distinzioni? Perché il caso della dopamina è eccezionale, e proprio la sua eccezionalità è istruttiva. La maggior parte delle analogie fra cervello e AI è debole: l‘“attenzione” dei transformer non discende dai modelli psicologici dell’attenzione, le reti neurali artificiali assomigliano ai neuroni biologici solo per metafora, la “memoria” di un sistema agentico non è la memoria episodica umana. In tutti questi casi si ha una somiglianza didattica, utile a costruire intuizione, ma niente di più. Il caso dopamina-TD è diverso: c’è un lineage di paper, c’è una predizione quantitativa verificata, c’è un meccanismo condiviso. È l’eccezione che permette di riconoscere la regola. Quando incontri, altrove in questa wiki o nella letteratura divulgativa, l’affermazione “il sistema X funziona come il cervello”, la domanda da farsi è: c’è un paper che traccia la discendenza, o solo una somiglianza suggestiva? Per la dopamina la risposta è “c’è il paper”. Per quasi tutto il resto, no.

Esempi

Esempio numerico: aggiornare una stima di valore

Un agente parte con la stima $V(s) = 0$ per un certo stato — non sa ancora che valore abbia. Lo attraversa e riceve un reward $r = 1$ ; lo stato successivo è terminale, quindi $V(s_{t+1}) = 0$ . Usiamo $\gamma = 0{,}9$ e tasso di apprendimento $\alpha = 0{,}5$ .

Primo passaggio: $\delta = r + \gamma V(s_{t+1}) - V(s) = 1 + 0{,}9 \cdot 0 - 0 = 1$ . Errore positivo grande: era una bella sorpresa. Aggiornamento: $V(s) \leftarrow 0 + 0{,}5 \cdot 1 = 0{,}5$ .

Secondo passaggio identico: $\delta = 1 + 0 - 0{,}5 = 0{,}5$ . L’errore si è dimezzato: lo stato è meno sorprendente di prima. $V(s) \leftarrow 0{,}5 + 0{,}5 \cdot 0{,}5 = 0{,}75$ .

Terzo: $\delta = 1 - 0{,}75 = 0{,}25$ . Quarto: $\delta = 0{,}125$ . L’errore di predizione tende a zero man mano che la stima converge verso il valore vero. È esattamente la dinamica della situazione 2 di Schultz: con la ripetizione, il segnale al momento del reward si spegne. Il burst dopaminergico che svanisce è un errore di predizione che converge a zero.

Vale la pena vedere cosa succede quando il reward è probabilistico, perché è il caso più realistico. Supponi che lo stesso stato dia reward $r = 1$ solo nella metà delle visite, e $r = 0$ nell’altra metà. La stima $V(s)$ non converge più a 1: converge a $0{,}5$ , la media. Ma — e qui sta il punto — l’errore di predizione non si annulla mai. A ogni visita con reward, $\delta = 1 - 0{,}5 = +0{,}5$ ; a ogni visita senza, $\delta = 0 - 0{,}5 = -0{,}5$ . Il segnale continua a oscillare attorno allo zero, positivo e negativo, perché ogni singolo esito resta in parte sorprendente anche quando la media è stata appresa perfettamente. È la versione numerica della slot machine, e anticipa la lezione del distributional RL: un singolo numero, la media, non cattura tutto ciò che un reward variabile ha da dire.

Esempio in codice: TD-learning in poche righe

# Aggiornamento TD del valore di uno stato.
# delta e la reward prediction error: in un cervello,
# sarebbe il burst (delta>0) o la pausa (delta<0) dopaminergica.

def td_update(V, s, r, s_next, gamma=0.9, alpha=0.1):
    delta = r + gamma * V[s_next] - V[s]   # TD-error / RPE
    V[s] = V[s] + alpha * delta            # aggiorna la stima
    return delta

# Un episodio: lo stato 'cue' predice 'reward'.
V = {"cue": 0.0, "reward": 0.0, "fine": 0.0}
for _ in range(50):
    td_update(V, "cue", 0.0, "reward")     # nessun reward al cue
    td_update(V, "reward", 1.0, "fine")    # reward incassato qui

Dopo molti episodi, il valore “risale” dal reward verso il cue: $V[\text{cue}]$ cresce perché il cue predice in modo affidabile uno stato di valore alto. La $\delta$ calcolata in corrispondenza del cue diventa positiva e quella in corrispondenza del reward tende a zero. Il transfer della risposta dopaminergica dallo stimolo primario al CS, osservato da Schultz nelle scimmie, è questa propagazione all’indietro dell’errore — la stessa riga di codice, lo stesso fenomeno.

Esempio reale: il giocatore d’azzardo e la slot machine

Una slot machine paga in modo imprevedibile. È costruita apposta perché il reward resti, episodio dopo episodio, non predicibile: nessun segnale affidabile annuncia la vincita. In termini di RPE, ogni vincita genera un errore di predizione positivo — un burst dopaminergico — che non si estingue mai, perché non c’è un CS stabile a cui la risposta possa trasferirsi. Il sistema dopaminergico resta cronicamente “sorpreso”.

È una delle ragioni per cui il gioco d’azzardo a esito casuale è così efficace nel creare comportamenti compulsivi: sfrutta la struttura del segnale di apprendimento. Un reward perfettamente prevedibile smetterebbe di generare RPE — diventerebbe la situazione 2, segnale spento. Un reward a probabilità variabile mantiene l’RPE vivo indefinitamente. La macchinetta non vende vincite: vende errori di predizione.

Esempio a catena: il credito che risale tre passi

Un ultimo esempio mostra la propagazione all’indietro su una catena più lunga di un solo passo. Immagina tre stati in sequenza — $s_1 \to s_2 \to s_3$ — e un reward $r = 1$ solo all’uscita da $s_3$ . Tutte le stime partono da zero, $\gamma = 1$ per semplicità, $\alpha = 0{,}5$ .

Primo episodio. Attraversando $s_1$ : $\delta = 0 + V(s_2) - V(s_1) = 0$ , nessun aggiornamento. Idem per $s_2$ . All’uscita da $s_3$ : $\delta = 1 + 0 - 0 = 1$ , e $V(s_3)$ sale a $0{,}5$ . Dopo un episodio, solo lo stato immediatamente adiacente al reward ha imparato qualcosa. Gli altri due sono ancora “ciechi”.

Secondo episodio. Ora attraversando $s_2$ : $\delta = 0 + V(s_3) - V(s_2) = 0 + 0{,}5 - 0 = 0{,}5$ . Lo stato $s_2$ riceve un RPE positivo — non perché sia arrivato un reward, ma perché conduce a uno stato che, nel frattempo, ha acquistato valore. $V(s_2)$ sale a $0{,}25$ . Lo stato $s_1$ è ancora fermo: il valore non è ancora risalito fino a lui.

Terzo episodio. Adesso tocca a $s_1$ : $\delta = 0 + V(s_2) - V(s_1) = 0{,}25$ . L’onda di credito ha raggiunto il primo stato della catena.

Episodio dopo episodio, il valore risale: prima $s_3$ , poi $s_2$ , poi $s_1$ . Nessuno stato ha mai dovuto “vedere” il reward direttamente per imparare il proprio valore — è bastato fidarsi del vicino. Questo è il transfer di Schultz su una catena di tre anelli, ed è anche il motivo per cui un sistema RL può imparare a giocare una partita lunga centinaia di mosse a partire da un solo segnale finale di vittoria o sconfitta.

Wanting contro liking: la dopamina non è il piacere

La reward prediction error hypothesis spiega un enorme corpo di dati, ma non è l’unica lettura della via mesolimbica, e prenderla per l’intera storia sarebbe un errore. La linea di ricerca più importante in tensione con essa è quella di Kent Berridge, psicologo e neuroscienziato statunitense dell’Università del Michigan.

La tesi di Berridge parte da una domanda semplice: se la dopamina è “la molecola del piacere”, allora togliere la dopamina dovrebbe togliere il piacere. È falso. Ratti con deplezione quasi totale di dopamina cerebrale mostrano reazioni edoniche del tutto normali al gusto dolce — le liking reactions, espressioni facciali misurabili e affidabili che indicano gradimento. Il piacere c’è ancora. Ma l’animale non si attiva più per ottenere il cibo: non si muove, non lavora per il reward. Manca la motivazione, non il piacere.

Da qui la distinzione centrale di Berridge: la dopamina media il wanting (volere, motivazione ad agire) ma non il liking (piacere edonico provato nel consumo). Sono due processi cerebralmente dissociabili — circuiti diversi, neurotrasmettitori diversi. Il liking dipende da piccoli e fragili hedonic hotspots, sottoregioni del nucleus accumbens e del pallido ventrale che usano oppioidi ed endocannabinoidi, non dopamina.

La dissociazione ha un’importanza che va oltre la neuroscienza di laboratorio. Wanting e liking, nella vita quotidiana, di solito viaggiano insieme: vogliamo ciò che ci piace. Ma il fatto che siano meccanicamente separabili significa che possono anche divergere — e quando divergono, l’esperienza che ne risulta è disturbante e familiare insieme. Desiderare intensamente qualcosa che, una volta ottenuto, lascia indifferenti; continuare a inseguire una meta che ha smesso di dare soddisfazione. Il vocabolario comune ha parole per questo — “compulsione”, “abitudine”, “dipendenza” — e la distinzione di Berridge spiega perché non sono difetti di volontà ma configurazioni possibili di due sistemi cerebrali che, normalmente allineati, si sono scollati.

Berridge introduce il termine incentive salience (salienza incentivante): la dopamina non aggiunge piacere a uno stimolo, gli aggiunge attrazione. Trasforma la rappresentazione di un indizio — un cue — in qualcosa che “tira” verso di sé, che cattura l’attenzione e motiva l’avvicinamento. Volere senza necessariamente gradire.

Un esperimento rende vivido il punto: il sign-tracking. Si addestrano ratti con un CS — una leva che si estende — seguito da reward. Alcuni ratti (i goal-tracker) imparano ad andare verso il punto di erogazione del cibo appena vedono la leva: trattano il CS come una pura informazione. Altri (i sign-tracker) fanno qualcosa di apparentemente irrazionale: si avventano sulla leva stessa, la mordono, la leccano, come se la leva fosse il cibo. Per i sign-tracker il CS non è solo informativo: è diventato esso stesso un oggetto di desiderio, ha attratto su di sé l’incentive salience. E il comportamento di sign-tracking, a differenza del goal-tracking, dipende criticamente dalla dopamina: bloccarla lo abolisce. Lo stesso CS, lo stesso reward, due cervelli che vi attribuiscono salienza in modo diverso. È la dimostrazione comportamentale che la dopamina non trasporta solo informazione predittiva: trasporta attrazione, e l’attrazione può attaccarsi agli indizi indipendentemente dal piacere che procurano.

Come si concilia con la RPE hypothesis? Non perfettamente, ed è onesto dirlo. Le due teorie guardano la stessa via mesolimbica da angoli distinti. La RPE hypothesis la legge come segnale di apprendimento: insegna al cervello a predire il valore. La teoria dell’incentive salience la legge come segnale di motivazione: spinge ad agire, qui e ora, verso ciò che è saliente. Non sono incompatibili — imparare il valore di qualcosa ed essere motivati a inseguirlo sono funzioni intrecciate — ma la loro coesistenza mostra che l’equazione “dopamina = RPE” non esaurisce il fenomeno. La via mesolimbica fa apprendimento e motivazione, e i due aspetti vanno tenuti distinti.

Un altro esperimento merita una riga, perché chiude il cerchio sul senso comune. Si può sciogliere amfetamina nel cervello di un ratto e misurarne separatamente wanting e liking: la sostanza amplifica vistosamente il wanting — l’animale lavora di più, insegue di più il reward — ma le reazioni edoniche, le smorfie di gradimento, non aumentano affatto. Lo stesso intervento che il senso comune leggerebbe come “più piacere” produce, in realtà, solo “più desiderio”. È la falsificazione sperimentale più diretta dell’etichetta “molecola del piacere”: più dopamina non vuol dire più piacere, vuol dire più spinta a cercare.

C’è anche una lettura che prova a riconciliare le due teorie, e vale la pena nominarla per non lasciare il lettore con l’impressione di due campi in guerra. Nel framework del RL, “valore” e “motivazione” non sono concetti separati: l’agente è motivato esattamente verso ciò che ha valore atteso alto. La dopamina potrebbe allora svolgere un solo ruolo computazionale — segnalare quanto qualcosa vale più del previsto — che si manifesta come apprendimento quando guarda al passato (aggiorna le stime) e come motivazione quando guarda al futuro (orienta l’azione verso il valore stimato). Wanting e RPE sarebbero due facce dello stesso segnale. La discussione resta aperta, e onestamente nessuna delle due scuole ha l’ultima parola: la lezione robusta, su cui entrambe concordano, è quella negativa — la dopamina non è il piacere.

Da questa linea nasce anche una delle teorie più influenti dell’addiction: la incentive-sensitization theory (Robinson e Berridge, 1993, con revisioni fino al 2025). Nella dipendenza, l’uso ripetuto di una droga sensibilizza il sistema mesolimbico, amplificando in modo patologico e duraturo il wanting per la sostanza — senza un corrispondente aumento del liking. Il risultato clinico è preciso e crudele: il tossicodipendente desidera in modo intenso e incontrollabile una sostanza che, col tempo, gli piace sempre meno. Wanting e liking, normalmente correlati, si separano. È questa separazione a spiegare il craving — il desiderio compulsivo — che persiste anche quando l’uso non è più fonte di piacere.

Le droghe d’abuso, da questo punto di vista, sono particolarmente insidiose perché cortocircuitano il sistema di RPE. Un reward naturale — cibo, acqua — genera un RPE che, con la ripetizione e la predizione, si estingue: diventa la situazione 2 di Schultz, segnale spento. Le sostanze che agiscono direttamente sui neuroni dopaminergici, invece, producono un picco di dopamina che il cervello non può predire via, perché non nasce da una catena di eventi anticipabili ma da un’azione farmacologica diretta. Il sistema di apprendimento riceve, a ogni assunzione, un RPE positivo che non si spegne — e continua a rafforzare gli indizi e i comportamenti che hanno portato alla droga. È la versione neurochimica della slot machine: un errore di predizione che, per costruzione, resta sempre acceso.

Tonic e phasic: due regimi temporali

C’è un’ultima distinzione da introdurre, perché finora abbiamo parlato quasi solo del burst — il segnale rapido. Ma la dopamina opera su due scale temporali, in un modello formalizzato dal neuroscienziato Anthony Grace dell’Università di Pittsburgh.

La dopamina fasica (phasic) è il segnale di cui abbiamo parlato finora: burst rapidi e brevi, dell’ordine di centinaia di millisecondi, prodotti dal burst-firing dei neuroni dopaminergici. Genera picchi alti e transitori di concentrazione nello spazio sinaptico. È il regime che codifica la reward prediction error: eventi specifici, “questo è andato meglio o peggio del previsto”.

La dopamina tonica (tonic) è invece il livello di fondo: una concentrazione bassa, lenta, sostenuta, dovuta al firing irregolare di base dei neuroni e regolata anche da meccanismi extrasinaptici. Non segnala eventi puntuali. Imposta il contesto: quanto vale la pena, in media, attivarsi in questo ambiente. È un correlato del vigore motivazionale e della disponibilità generale ad agire.

C’è anche un rapporto fra i due regimi, non solo una distinzione. Secondo il modello di Grace, il tono dopaminergico di fondo modula la portata del segnale fasico: regola, attraverso autorecettori sensibili sui terminali, quanto un burst riesca effettivamente a far salire la concentrazione. Tono e fasico non sono due canali indipendenti ma due livelli dello stesso sistema, uno che fa da sfondo all’altro. È un dettaglio che conta per capire perché alterazioni croniche del tono — da droghe, da malattia — non solo cambiano la motivazione di base ma distorcono anche il modo in cui il cervello impara dai singoli eventi.

La distinzione conta, e vale la pena svolgerla. Una linea teorica influente — sviluppata da Yael Niv, Nathaniel Daw e Peter Dayan — lega la dopamina tonica al costo-opportunità del tempo. L’idea: in un ambiente ricco di reward, ogni secondo speso lentamente o inattivi è un secondo di reward perso; in un ambiente povero, la fretta non paga. Il livello tonico di dopamina codificherebbe proprio la ricchezza media dell’ambiente, e quindi il vigore ottimale con cui agire — quanto in fretta premere la leva, quanto rapidamente muoversi. Non quale azione scegliere, ma con che intensità eseguirla. È una funzione che il segnale fasico, fatto di burst puntuali, non potrebbe svolgere: serve un livello, non un picco.

Questa lettura collega due fenomeni che sembrano lontani. La lentezza motoria del Parkinson — la bradicinesia — e l’apatia, la mancanza di iniziativa, sono entrambe coerenti con un tono dopaminergico troppo basso: l’ambiente, per quel cervello, “vale poco”, e il vigore crolla. All’opposto, gli stimolanti come cocaina e anfetamine, che alzano la dopamina tonica oltre che fasica, producono iperattività e senso di urgenza. Conta anche per la psichiatria: l’anedonia e il ritiro motivazionale della depressione sono stati riletti in termini di alterazione del tono dopaminergico più che del segnale fasico — un mondo che ha smesso di sembrare degno di sforzo, più che un mondo che ha smesso di sorprendere.

Lo stesso neurotrasmettitore, due regimi temporali, due funzioni: il segnale fasico insegna cosa predire, il livello tonico regola quanto impegnarsi. Ed è un altro promemoria che la formula “dopamina = RPE”, per quanto solida, cattura solo una delle cose che questa molecola fa.

Conviene tenere insieme i due quadri — RPE fasica e vigore tonico — perché spiegano aspetti complementari del comportamento. La RPE fasica risponde alla domanda “che cosa imparare”: quali indizi predicono il reward, quali azioni conviene ripetere. Il tono dopaminergico risponde a “quanto darci dentro”: in questo ambiente, in questo momento, conviene muoversi in fretta o conservare energie. Un sistema che apprende ma non regola il proprio vigore imparerebbe le cose giuste senza la spinta per inseguirle; uno che regola il vigore senza apprendere si attiverebbe a vuoto. La dopamina, su due scale di tempo, copre entrambe le esigenze — ed è proprio questa doppiezza funzionale a renderla difficile da ridurre a una formula sola.

Applicazioni pratiche

La RPE hypothesis non è rimasta confinata alle neuroscienze. Proprio perché ha messo in contatto biologia e algoritmi, ha lasciato tracce concrete in più campi.

Reinforcement learning moderno. Il TD-error è il motore di buona parte del RL applicato. Gli algoritmi che hanno reso celebre il campo — il sistema che ha imparato a giocare ad Atari dai pixel, AlphaGo e i suoi successori — usano metodi actor-critic, in cui un “critico” stima il valore e produce un segnale di errore in stile $\delta_t$ che guida un “attore” a migliorare la sua politica di azione. Il dettaglio è nei capitoli RL della Parte VII; qui conta il punto: il segnale che la dopamina sembra implementare nel cervello è lo stesso che un ingegnere di RL scrive in una riga di codice. Conoscere la versione biologica aiuta a costruire intuizione su quella artificiale, e viceversa — è una delle poche analogie cervello-AI che funziona davvero come strumento di lavoro.

Reward shaping e RLHF. Quando si addestra un modello con feedback — per esempio il reinforcement learning from human feedback (RLHF) usato per allineare i large language model — si progetta una funzione di reward, e con essa la struttura degli errori di predizione che il sistema vedrà. La lezione della slot machine vale anche qui: un reward troppo prevedibile genera poco segnale di apprendimento, uno troppo rumoroso ne genera di inaffidabile. La RPE è il fenomeno che rende il reward design un problema delicato e non una formalità.

C’è anche un trabocchetto noto, che la prospettiva della RPE aiuta a capire: il reward hacking. Un agente RL ottimizza l’errore di predizione che riceve, non l’intenzione di chi ha scritto la funzione di reward. Se la funzione di reward ha una scorciatoia — un modo di accumulare reward senza fare ciò che si voleva — l’agente la troverà, perché per il suo sistema di apprendimento quella scorciatoia genera RPE positivo proprio come il comportamento desiderato. È l’equivalente artificiale di una dipendenza: un circuito di apprendimento catturato da un segnale di reward che non corrisponde più all’interesse del sistema. Capire la RPE come motore cieco dell’apprendimento — un motore che insegue il segnale, non lo scopo — è il primo passo per progettare reward che non si lascino aggirare.

Psichiatria computazionale. La rilettura di disturbi mentali in termini di segnale dopaminergico alterato è un programma di ricerca attivo. L’anedonia e l’apatia della depressione sono modellate come deficit di RPE o di tono dopaminergico; alcuni sintomi positivi della schizofrenia sono stati letti come attribuzione anomala di salienza — RPE che si attivano dove non dovrebbero, rendendo “notiziabili” stimoli irrilevanti. Modelli formali di RPE diventano così strumenti per generare ipotesi cliniche verificabili.

Il valore di questo approccio è che trasforma descrizioni vaghe in ipotesi misurabili. “Il paziente è demotivato” è una descrizione clinica; “il paziente mostra RPE ridotti in un compito di apprendimento probabilistico” è una previsione che si può testare con un esperimento e un modello. La psichiatria computazionale non sostituisce la clinica, ma le dà uno strato di precisione: permette di chiedersi quale pezzo del sistema di reward sia alterato — il segnale fasico, il tono, la rappresentazione del valore — invece di trattare la motivazione come un blocco unico. È un caso in cui un modello nato per spiegare il firing di neuroni di scimmia diventa, decenni dopo, uno strumento diagnostico.

Farmacologia. Le droghe d’abuso convergono, per vie diverse, sullo stesso bersaglio: aumentare la dopamina nella via mesolimbica. La cocaina blocca la ricaptazione, le anfetamine ne forzano il rilascio, la nicotina e gli oppioidi agiscono a monte sui neuroni della VTA. Capire che cosa quella dopamina segnala — un RPE, non un piacere — spiega perché l’effetto più insidioso dell’uso ripetuto non sia il piacere ottenuto ma la distorsione duratura del sistema di apprendimento e motivazione.

Neuroeconomia e design di prodotto. La struttura del segnale di RPE è stata letta — non sempre con intenzioni innocenti — come una ricetta di progettazione. I meccanismi di reward variabile dei videogiochi, le notifiche social a tempistica imprevedibile, i sistemi di “loot box”: tutti sfruttano lo stesso principio della slot machine, mantenere il reward parzialmente impredicibile per tenere acceso l’RPE. Conoscere il meccanismo serve in due direzioni opposte: a chi progetta sistemi che vogliono essere coinvolgenti, e a chi vuole riconoscere — e disinnescare — quando un’interfaccia sta sfruttando il proprio sistema dopaminergico contro i propri interessi. È un caso in cui capire la neuroscienza è, letteralmente, un’abilità difensiva.

Dove si rompe

La reward prediction error hypothesis è una delle teorie meglio supportate delle neuroscienze. Proprio per questo i suoi limiti vanno guardati con attenzione: sono il modo in cui la teoria si è raffinata, non un argomento per scartarla.

La dopamina fa di più che codificare RPE. I neuroni dopaminergici rispondono anche a stimoli che sono salienti ma non rewarding: la novità pura, stimoli sensoriali sorprendenti, stimoli avversivi intensi. Soprattutto, la popolazione dopaminergica non è omogenea. Masayuki Matsumoto e Okihide Hikosaka, in un lavoro del 2009 su Nature, hanno mostrato che esistono almeno due tipi di neuroni dopaminergici: alcuni si comportano come la RPE hypothesis prevede, altri rispondono a eventi avversivi in un modo che non si riduce a un puro errore di reward, e che sembra codificare salienza motivazionale più in generale. Diverse sottopopolazioni, distinte per posizione anatomica e per bersaglio di proiezione, codificano cose diverse. “I neuroni dopaminergici codificano l’RPE” è vero per una larga maggioranza, non per tutti.

Il segnale approssima il TD-error, non lo eguaglia. La depressione sotto-basale all’omissione del reward — situazione 3 — è quantitativamente piccola e asimmetrica rispetto al burst positivo. Il motivo è strutturale: il firing basale dei neuroni dopaminergici è già basso, e un firing non può scendere sotto zero. C’è poco “spazio sotto la linea” per rappresentare un RPE negativo grande. La dopamina codifica bene gli RPE positivi e male quelli negativi molto grandi. Inoltre il valore di $\delta_t$ dipende da come si rappresenta il tempo fra CS e reward: il modello classico assume una certa rappresentazione (il complete serial compound), ma quale rappresentazione temporale usi davvero il cervello resta una questione aperta. Il firing dopaminergico è approssimativamente, non esattamente, il $\delta_t$ della formula.

La media non è tutta la storia: il distributional RL. Il limite più interessante è anche la revisione più recente. La RPE hypothesis classica assume che il cervello impari il valore atteso dei reward futuri — la media. Ma nel reinforcement learning moderno è emersa una variante più potente: il distributional RL, in cui l’agente impara l’intera distribuzione di probabilità dei reward possibili, non solo la sua media. Will Dabney e colleghi di DeepMind, insieme al laboratorio di Naoshige Uchida ad Harvard, hanno pubblicato nel 2020 su Nature il paper A Distributional Code for Value in Dopamine-Based Reinforcement Learning. La domanda: i neuroni dopaminergici si comportano da predittori distribuzionali? Andando a misurare il firing nei topi, la risposta è si. Neuroni diversi hanno punti di reversal diversi — la magnitudine di reward a cui il singolo neurone passa da RPE positivo a negativo varia da cellula a cellula. Alcuni neuroni sono sistematicamente “ottimisti”, altri “pessimisti”. Presi singolarmente sembrano rumorosi; presi insieme, come popolazione, codificano una distribuzione di reward, non un singolo numero.

Il meccanismo, in breve, è questo. Nel TD-learning classico tutti gli aggiornamenti usano lo stesso $\delta_t$ : l’errore è simmetrico, un RPE positivo e uno negativo della stessa entità spostano la stima in misura uguale e opposta, e la stima converge verso la media dei reward. Nel distributional RL si usano molti predittori in parallelo, ciascuno con un tasso di apprendimento asimmetrico: un predittore “ottimista” reagisce molto agli RPE positivi e poco a quelli negativi, e finisce per stimare un quantile alto della distribuzione dei reward; un predittore “pessimista” fa il contrario e stima un quantile basso. Messi insieme, i quantili stimati ricostruiscono l’intera distribuzione. Dabney et al. vanno a cercare proprio questo nei dati: misurano, per ogni neurone dopaminergico, quanto risponde agli RPE positivi rispetto ai negativi, e ne ricavano un “punto di reversal” atteso. Se l’ipotesi distribuzionale è giusta, quei punti di reversal devono distribuirsi in modo da ricostruire la distribuzione vera dei reward usati nell’esperimento. È esattamente quello che trovano.

Questo è un esempio raro e prezioso di ponte neuroscienza-AI percorso in entrambe le direzioni. Il distributional RL nasce come avanzamento puramente algoritmico — rendeva gli agenti artificiali più robusti e più stabili nell’apprendimento, senza alcuna pretesa biologica. Poi viene usato come ipotesi per rileggere i dati sui neuroni dopaminergici, e i dati la confermano. Il quadro del 1997 non era sbagliato: era la proiezione su un solo numero — la media — di un segnale che, si è scoperto, porta molta più informazione. La teoria non è stata rovesciata; è stata risolta a grana più fine. Ed è la conferma più netta della tesi del capitolo: quando il ponte fra le due discipline è reale, regge il peso del traffico in entrambi i sensi.

C’è una lezione metodologica anche in questo. Per quasi vent’anni l’eterogeneità dei neuroni dopaminergici — il fatto che neuroni diversi rispondessero in modo un po’ diverso allo stesso reward — era stata trattata come rumore, variabilità biologica da mediare via. Il distributional RL ha offerto una lente in cui quella stessa eterogeneità diventa segnale: non disturbo attorno a un valore vero unico, ma la firma di una popolazione che codifica deliberatamente punti diversi di una distribuzione. È un promemoria utile ben oltre la dopamina: a volte ciò che un modello scarta come rumore è la cosa che un modello migliore spiega come informazione. La storia della RPE hypothesis, dal 1997 al 2020, è la storia di un modello che si raffina imparando a leggere ciò che prima buttava via.

La dopamina segnala l’errore, ma non calcola la predizione. C’è un limite concettuale più sottile, e va detto chiaramente per non sovrastimare la portata della RPE hypothesis. Anche ammesso che il firing dopaminergico sia il $\delta_t$ , resta aperta la domanda più grande: chi calcola $V(s)$ , la stima di valore che entra nella formula? Il TD-error è una differenza fra valori; perché quella differenza si possa fare, qualcuno deve già tenere e aggiornare quei valori. La dopamina, in questa lettura, è il messaggero dell’errore, non il contabile del valore. La contabilità — la rappresentazione del valore atteso, dello stato, del tempo trascorso dal CS — vive altrove: nello striato, nella corteccia orbitofrontale, in circuiti che il capitolo sul predictive-processing e quello sui gangli della base esplorano. Dire “la dopamina implementa il RL” sovrastima il ruolo di una singola molecola: la dopamina implementa un pezzo del RL, il segnale di errore, dentro un sistema più grande che fa il resto.

L’asimmetria con il versante avversivo. Il TD-learning tratta reward e punizione in modo simmetrico: una perdita è semplicemente un reward negativo, lo stesso $\delta_t$ con segno opposto. Il cervello, invece, sembra avere sistemi parzialmente distinti. La dopamina codifica bene il versante appetitivo (reward atteso e ricevuto), ma il versante avversivo — la paura, il danno, la punizione — coinvolge anche altri sistemi e altri neurotrasmettitori, e alcuni neuroni dopaminergici rispondono agli stimoli avversivi in modi che non si lasciano ridurre a un RPE negativo. La simmetria pulita della formula non si ritrova del tutto nella biologia: un altro punto in cui il modello è una semplificazione utile, non un calco.

La dopamina non è sola: il problema dell’opponenza. Un sistema che impara solo da reward, e che codifica male gli errori negativi, è incompleto. Diversi neuroscienziati hanno proposto che la dopamina lavori in coppia con altri sistemi neuromodulatori — in particolare la serotonina — secondo uno schema di opponent process: la dopamina spinge verso il reward, un sistema antagonista pesa il costo, la punizione, il rischio. La teoria di un’opponenza dopamina-serotonina è ancora discussa e meno consolidata della RPE hypothesis, ma il punto generale è solido: il comportamento adattivo richiede di pesare sia il guadagno atteso sia la perdita attesa, e un solo segnale scalare con un solo segno non basta. La dopamina è un pezzo di un apparato più ampio di neuromodulazione, e isolarla — come fa, per necessità di chiarezza, anche questo capitolo — è già una semplificazione.

Un avvertimento sull’inferenza causale. Gran parte dell’evidenza storica sulla RPE hypothesis è correlazionale: si misura il firing dopaminergico e lo si confronta con un modello. Correlazione non è causalità. Gli esperimenti più recenti, con tecniche come l’optogenetica — che permette di accendere o spegnere a comando popolazioni precise di neuroni con la luce — hanno rafforzato il quadro mostrando che manipolare il segnale dopaminergico cambia l’apprendimento nel modo previsto: un burst artificiale fa imparare un’associazione che non c’era, una pausa artificiale la disinnesca. Ma il quadro causale completo — quali circuiti, con quali eccezioni — è ancora in costruzione. La RPE hypothesis è una teoria forte e ben sostenuta, non un capitolo chiuso.

Infine, un fraintendimento culturale da disinnescare. “Dopamine detox”, “scarica di dopamina”, “la dopamina dei social” sono entrate nel linguaggio comune con un significato che la neuroscienza non sostiene. La dopamina non è una riserva di piacere che si consuma e si ricarica, e non è il piacere — Berridge lo ha mostrato. È un segnale di apprendimento e di motivazione. La divulgazione che la tratta come “valuta del piacere” rovescia esattamente la lezione di questo capitolo: il burst dopaminergico segnala una sorpresa positiva, non una dose di gratificazione, e quando il reward diventa atteso il segnale si spegne proprio mentre il piacere resta. Capovolgere questo fraintendimento — dalla dopamina-piacere alla dopamina-errore-di-predizione — è, in una frase, ciò che il capitolo serve a fare.

L’errore di predizione come principio

Conviene, alla fine, alzare lo sguardo dal singolo neurotrasmettitore. Il filo conduttore di questo capitolo — imparare dagli errori di predizione anziché dalla semplice contiguità — non è una peculiarità della dopamina. È un principio che ricorre, con forme diverse, in più punti del cervello e in più punti dell’intelligenza artificiale.

Nel cervello: il cervelletto sembra imparare il controllo motorio da un errore di predizione sensoriale, lo scarto fra il movimento previsto e quello eseguito. Le teorie del predictive processing descrivono l’intera corteccia come una gerarchia di predizioni, in cui ogni livello cerca di anticipare il livello sotto e propaga verso l’alto solo l’errore — solo ciò che non era previsto. La dopamina-RPE è, in questa luce, un caso particolare e particolarmente ben documentato di un disegno generale: il cervello come macchina che si aggiorna sulle sorprese.

Nell’AI lo stesso principio è ovunque. Il TD-error è il cuore del reinforcement learning. Ma anche l’addestramento di un large language model è guidato da un errore di predizione: il modello predice il token successivo, sbaglia, e l’errore retropropaga e aggiusta i pesi. Cambia il dominio — token invece di reward — ma la forma è la stessa: predici, confronta con la realtà, impara dallo scarto. Non è un caso che lo stesso schema si ritrovi così spesso. Imparare da ciò che ci si aspettava, e non da ciò che si è semplicemente visto, è probabilmente la soluzione generale al problema di estrarre struttura dall’esperienza — e la dopamina è il punto in cui possiamo guardare quella soluzione mentre lavora, neurone per neurone, in un cervello vivo.

Resta una cautela, ed è la stessa che ha attraversato tutto il capitolo. Dire che un principio “ricorre” nel cervello e nell’AI non vuol dire che le due cose siano lo stesso, né che una discenda dall’altra. La dopamina-RPE e la backpropagation di un language model condividono uno schema — l’apprendimento guidato dall’errore di predizione — ma sono meccanismi distinti, in substrati distinti, scoperti per strade distinte. La filiazione documentata, quella vera, riguarda un caso solo e ben circoscritto: la RPE hypothesis e il TD-learning. Tutto il resto è convergenza di schema, non discendenza. Tenere ferma questa differenza — fra uno schema che si ripete e una storia che si tramanda — è la disciplina che separa un buon ponte cervello-AI da una suggestione. La dopamina, per una volta, ci offre il primo. Vale la pena saperlo riconoscere, perché capiti raramente di rivederlo.

Collegamenti

La sinapsi: neurotrasmettitori, eccitazione e inibizione — la dopamina è un neurotrasmettitore: il meccanismo sinaptico di base su cui poggia tutto questo capitolo è descritto lì.
Plasticità hebbiana: come una sinapsi impara — la plasticità hebbiana spiega come una sinapsi cambia forza; la dopamina fornisce il terzo fattore che dice quali cambiamenti rinforzare. I due meccanismi sono complementari, e insieme formano la plasticità a tre fattori.
La corteccia: strati, colonne, aree — la via mesocorticale proietta alla corteccia prefrontale; la dopamina modula funzioni esecutive e working memory che poggiano sull’architettura corticale.
Neuroni, sinapsi, plasticità: il cervello in scala — per la scala: i pochi neuroni dopaminergici contro gli ottantasei miliardi totali, e cosa implica un sistema di broadcast.
L’equazione di Bellman — il valore $V(s)$ che il TD-error aggiorna è definito dall’equazione di Bellman: il fondamento formale del ponte dopamina-RL, e il punto da cui partire per capire la formula di $\delta_t$ .
Q-learning — variante del TD-learning la cui regola di aggiornamento è guidata da un errore di predizione strutturalmente identico al $\delta_t$ che la dopamina sembra codificare.
Markov decision process — il formalismo di stati, azioni e reward dentro cui il TD-error è definito: il contesto matematico della RPE hypothesis.
Actor-critic — l’architettura RL in cui un “critico” produce un segnale di errore in stile $\delta_t$ usato per migliorare un “attore”: l’eco algoritmica più diretta della divisione di lavoro fra dopamina e circuiti striatali.
gangli-base-decisione (in preparazione) — i gangli della base, bersaglio delle vie dopaminergiche striatali, usano l’RPE dopaminergico per la selezione dell’azione e la formazione di abitudini.
ippocampo-memoria-spaziale (in preparazione) — la VTA proietta anche all’ippocampo; la dopamina modula quali esperienze vengono consolidate in memoria.
predictive-processing-neuroscienze (in preparazione) — la dopamina come errore di predizione è un caso particolare di un principio più generale, quello del cervello come macchina predittiva governata da errori di predizione a più livelli.

Per andare oltre

Schultz W., Dayan P., Montague P.R. (1997), A Neural Substrate of Prediction and Reward, Science 275:1593-1599. Il paper-cardine: l’incontro fra elettrofisiologia e temporal-difference learning.
Schultz W. (2016), Dopamine Reward Prediction Error Coding, Dialogues in Clinical Neuroscience 18(1):23-32. Rassegna aggiornata e accessibile, scritta dall’autore principale della RPE hypothesis.
Berridge K.C., Robinson T.E. (2016), Liking, Wanting, and the Incentive-Sensitization Theory of Addiction, American Psychologist 71(8):670-679. La lettura alternativa: dopamina come motivazione, non piacere.
Dabney W. et al. (2020), A Distributional Code for Value in Dopamine-Based Reinforcement Learning, Nature 577:671-675. La revisione recente: la dopamina codifica una distribuzione, non solo una media.
Montague P.R., Dayan P., Sejnowski T.J. (1996), A Framework for Mesencephalic Dopamine Systems Based on Predictive Hebbian Learning, Journal of Neuroscience 16(5):1936-1947. Il modello che precede e prepara il paper del 1997: dove la RPE hypothesis viene formulata per la prima volta.
Sutton R.S., Barto A.G., Reinforcement Learning: An Introduction (2a ed., MIT Press, 2018). Il testo di riferimento per il TD-learning; il capitolo 15 discute esplicitamente il legame con la neuroscienza della dopamina.