Predictive processing: il cervello come macchina predittiva

Una famiglia di teorie sostiene che il cervello non riceve il mondo: lo indovina. Genera in continuazione predizioni di cosa i sensi stanno per registrare e lascia salire verso l’alto solo l’errore, il residuo non spiegato. Questo capitolo segue l’idea da un’intuizione del 1867 al predictive coding corticale, al free energy principle, all’active inference — e marca con cura dove la teoria spiega molto, dove è ancora ipotesi, e dove non è affatto falsificabile.

Fissa con un occhio solo — l’altro chiuso — un punto qualunque della parete davanti a te. Adesso porta lentamente un dito di lato, restando alla stessa altezza, mentre l’occhio resta immobile sul punto. A un certo angolo, circa quindici gradi verso la tempia, la punta del dito scompare. Non si annebbia: sparisce. Pochi gradi più in là riappare.

Hai appena trovato il tuo punto cieco: la zona della retina dove il nervo ottico esce dall’occhio e non ci sono fotorecettori. Lì non arriva nessun segnale visivo. Eppure tu non vedi un buco nero, né una macchia, né una zona vuota nel campo visivo. Vedi la parete, continua, intera. Il cervello riempie quel buco — con quello che si aspetta che ci sia.

Non è un dettaglio curioso. È, in miniatura, la tesi di tutto questo capitolo. Quello che vivi come “vedere” non è la lettura di un sensore. È una costruzione: un’ipotesi sul mondo che il cervello genera dall’interno e che i dati sensoriali si limitano a correggere. Dove i dati mancano del tutto — il punto cieco — resta solo l’ipotesi, e tu non te ne accorgi.

Il punto cieco è un caso estremo, comodo perché evidente. Ma lo stesso meccanismo, sostiene la teoria, è all’opera in ogni istante anche dove i dati ci sono. La retina non manda al cervello un’immagine: manda un torrente di scariche grezze, ambigue, frammentarie, con un buco al centro e una risoluzione che crolla appena fuori dalla zona di fissazione. L’esperienza che ne ricavi — un campo visivo nitido, stabile, continuo, esteso — è in larghissima parte ricostruita. Il “vedere” trasparente e immediato che credi di fare è la facciata di un calcolo, e il punto cieco è solo la fessura da cui quel calcolo si lascia intravedere.

Il predictive processing — l’idea che il cervello sia, prima di tutto, una macchina che predice — prende questa osservazione e la promuove a principio generale di funzionamento. Non solo il punto cieco: ogni percezione, in questa lettura, è un’ipotesi corretta dall’errore. Il capitolo segue questa teoria, il suo potere esplicativo e i suoi punti deboli — perché è una teoria influente, ma contestata, e va raccontata come tale.

Una precisazione sul nome, prima di iniziare. “Predictive processing” è l’etichetta ampia oggi più usata per questa famiglia di idee; in letteratura si incontrano anche “predictive coding” e “free energy principle”, che indicano livelli e formulazioni diverse dello stesso programma. La sezione “La meccanica” chiarirà come questi termini si annidano l’uno nell’altro; per ora basta sapere che, quando il capitolo dice “predictive processing”, intende il programma di ricerca nel suo insieme.

Perché questo capitolo

I capitoli precedenti della Parte III hanno costruito il cervello dal basso. Neuroni, sinapsi, plasticità lo ha presentato in scala; La corteccia ha disposto i neuroni a strati e colonne; Il cervelletto ha mostrato una struttura che impara a predire le conseguenze sensoriali di un comando motorio.

Quel filo — la predizione come operazione di base — nel cervelletto era confinato a una struttura specifica e a un compito specifico, il controllo motorio. Il predictive processing fa una mossa più ambiziosa: propone che la predizione non sia il mestiere di un organo, ma il principio organizzativo dell’intera corteccia, e forse di tutto il cervello. Non un modulo predittivo accanto ad altri moduli, ma la predizione come il modo in cui il cervello fa qualunque cosa: percepire, agire, prestare attenzione.

C’è poi una ragione di igiene concettuale, e per chi lavora con sistemi AI è probabilmente quella che pesa di più. Il vocabolario del predictive processing — “predizione”, “errore”, “modello generativo”, “inferenza” — è esattamente il vocabolario del machine learning moderno. La sovrapposizione di parole invita a un salto: se il cervello minimizza l’errore di predizione e un modello di linguaggio minimizza l’errore di predizione del prossimo token, allora sono la stessa cosa. Non lo sono, e gran parte del valore di questo capitolo sta nel dire perché non lo sono, con le classi di affermazione giuste.

Vale la pena anticipare anche cosa questo capitolo non è. Non è una presentazione del predictive processing come teoria vincente. È una famiglia di teorie influente — ha riorganizzato il modo in cui un’intera generazione di neuroscienziati pensa la corteccia — ma anche profondamente contestata: una delle sue formulazioni centrali, il free energy principle, è stata difesa dal suo stesso autore come non falsificabile, e questo, a seconda di chi parla, è un pregio o un difetto fatale. Il capitolo dedica una sezione ampia, “Dove si rompe”, a queste obiezioni, e le tratta con lo stesso peso del meccanismo. Una teoria si capisce davvero solo quando si sa anche dove non arriva.

C’è infine una ragione che riguarda la lettura del resto della Parte III. Molti capitoli che seguono — la memoria, l’attenzione, la percezione, la cognizione embodied — toccano fenomeni che il predictive processing rivendica di spiegare con un unico schema. Avere chiaro questo schema, e i suoi limiti, dà al lettore una chiave per riconoscere quando un fenomeno cognitivo viene descritto “alla maniera predittiva” e per valutare, caso per caso, se quella descrizione aggiunge sostanza o solo vocabolario. È un capitolo che serve anche come strumento di lettura per gli altri.

Un avvertimento di taglio. La percezione come inferenza bayesiana — il livello che descrive cosa il sistema percettivo calcola e perché — è trattata a parte, in Percezione come inferenza bayesiana. Questo capitolo lavora a un livello diverso e complementare: come la corteccia potrebbe implementare quell’inferenza, con quali circuiti, quali segnali, quale architettura. La percezione bayesiana risponde alla domanda “che problema risolve il cervello”; il predictive processing propone una risposta alla domanda “con quale meccanismo lo risolve”. Sono due livelli dello stesso edificio, e tenerli distinti è il primo passo per non confonderli.

Contesto: da Helmholtz alla macchina predittiva

L’idea che la percezione sia un’inferenza — un ragionamento, non una registrazione — ha una data di nascita precisa. Nel terzo volume del Handbuch der physiologischen Optik, pubblicato a Lipsia nel 1867, Hermann von Helmholtz (1821-1894, fisico e fisiologo tedesco, una delle figure piene della scienza dell’Ottocento) conia il termine unbewusster Schluss: inferenza inconscia.

La sua tesi, semplificata: le sensazioni nude non sono percezioni. La retina riceve un pattern di luce ambiguo, impoverito, bidimensionale. Quello che tu vedi — un mondo di oggetti solidi, a distanze definite, sotto un’illuminazione stimata — è il prodotto di un’inferenza che il cervello compie sotto la soglia della consapevolezza, combinando quei dati ambigui con il sapere accumulato dall’esperienza. Lo schema è già tutto lì: dati ambigui, più sapere implicito, uguale percetto.

Vale la pena notare che Helmholtz era, di mestiere, un fisico — aveva contribuito a formulare la conservazione dell’energia e aveva inventato l’oftalmoscopio. La sua intuizione sulla percezione non nasce da un’introspezione filosofica, ma dall’abitudine a trattare l’occhio come un sistema fisico misurabile e il cervello come un sistema d’inferenza modellabile. Questa origine conta: il predictive processing eredita da Helmholtz non solo l’idea che la percezione sia inferenza, ma anche l’atteggiamento di fondo — la mente come qualcosa di ingegnerizzabile, descrivibile con la stessa precisione con cui si descrive uno strumento ottico. È lo stesso atteggiamento che, un secolo e mezzo dopo, porta Rao, Ballard e Friston a scrivere equazioni dove altri scriverebbero metafore.

Per più di un secolo questa intuizione è rimasta una posizione filosofica, elegante ma vaga: come il cervello faccia questa inferenza non era specificato. Il predictive processing è il tentativo moderno di renderla un meccanismo. La catena storica, in breve:

1867 — Helmholtz. La percezione è inferenza inconscia. Idea, non meccanismo.
1982 — Srinivasan, Laughlin e Dubs, in un articolo sui Proceedings of the Royal Society, descrivono un predictive coding nella retina: le cellule gangliari non segnalano la luminanza assoluta, ma la differenza tra un punto e la media dei suoi vicini. È codifica predittiva spaziale — il segnale ridondante (una superficie uniforme è prevedibile) viene scartato, e passa solo lo scarto.
1992 — David Mumford, matematico, propone in un articolo su Biological Cybernetics che le proiezioni di feedback nella corteccia non siano un dettaglio accessorio, ma trasportino predizioni verso le aree inferiori.
1999 — Rao e Ballard trasformano l’idea di Mumford in un modello computazionale funzionante della corteccia visiva.
2010 — Karl Friston generalizza tutto sotto un unico principio, il free energy principle.
2013/2016 — Andy Clark ne fa una sintesi filosofica e un programma per le scienze cognitive.

Il resto del capitolo segue questa catena, dal modello concreto di Rao e Ballard al principio generale di Friston, fino alle critiche.

Vale la pena soffermarsi su due anelli intermedi, perché spiegano da dove viene la teoria. Il lavoro di Srinivasan e colleghi del 1982 non era affatto una teoria della percezione: era un’analisi della retina come canale di comunicazione a banda limitata. Il nervo ottico ha un numero finito di fibre, ognuna con una capacità finita; spedire luminanza assoluta sarebbe spreco, perché punti vicini di un’immagine naturale hanno valori quasi sempre simili. Conviene spedire la differenza. È codifica predittiva nel senso più ingegneristico del termine, e mostra che l’idea nasce in un contesto — l’efficienza di un canale — che non ha nulla a che vedere con la filosofia di Helmholtz. Le due radici, quella inferenziale e quella della codifica efficiente, confluiranno solo dopo nel predictive processing.

Il contributo di Mumford del 1992 è l’anello che fa il salto dalla retina alla corteccia. Mumford osservò un fatto anatomico che il modello bottom-up classico faticava a spiegare: tra due aree corticali, le connessioni che scendono (dall’area superiore all’inferiore) sono numerose almeno quanto quelle che salgono. Se l’informazione viaggiasse solo verso l’alto, a cosa servirebbe tutta quella cablatura discendente? La proposta di Mumford fu che le connessioni discendenti trasportassero predizioni, e che le ascendenti trasportassero il residuo — esattamente lo schema che Rao e Ballard avrebbero reso un modello funzionante sette anni dopo. È un buon promemoria di metodo: una teoria nuova spesso nasce non da un dato nuovo, ma da un dato vecchio e imbarazzante che il quadro corrente non sa collocare.

C’è un terzo filone che corre in parallelo a questi e va nominato, perché spiega da dove viene il vocabolario probabilistico della teoria. Negli anni Novanta e primi Duemila prende forma l’ipotesi del cervello bayesiano: l’idea che il cervello non rappresenti stime singole, ma distribuzioni di probabilità — gradi di credenza — e che le aggiorni secondo la regola di Bayes man mano che arrivano nuovi dati. È un’ipotesi di livello computazionale, sostenuta da esperimenti psicofisici che misurano quanto le stime percettive umane si avvicinino all’ottimo statistico; il capitolo Percezione come inferenza bayesiana la sviluppa in dettaglio. Il predictive processing si innesta su questo filone: propone che il predictive coding gerarchico sia il meccanismo con cui il cervello realizza, in modo approssimato, l’inferenza bayesiana che l’ipotesi del cervello bayesiano descrive in astratto. Tre radici, dunque — l’inferenza inconscia di Helmholtz, la codifica efficiente della retina, l’inferenza bayesiana — che il predictive processing intreccia in un unico programma.

L’intuizione: tre modi di guardare la stessa idea

Prima del meccanismo, tre angoli per afferrare cosa cambia se il cervello è una macchina predittiva.

Primo angolo: invertire la direzione del flusso. Il modello classico della percezione è bottom-up, a cascata in salita. I sensori raccolgono dati grezzi; il primo stadio estrae caratteristiche semplici (nella visione: bordi, contrasti); gli stadi successivi combinano quelle caratteristiche in forme via via più complesse (angoli, texture, parti di oggetti); in cima, il riconoscimento (“è un gatto”). L’informazione sale, e a ogni piano diventa più astratta. In questo quadro le connessioni che scendono dalle aree alte alle basse — e nella corteccia sono numerose almeno quanto quelle che salgono — sono un mistero, o un dettaglio di modulazione.

Il predictive processing inverte il quadro. Il flusso dominante è quello che scende: ogni livello manda al livello sottostante una predizione di cosa quel livello dovrebbe registrare. Quello che sale non è il dato grezzo — è solo l’errore di predizione, la parte di input che la predizione non aveva previsto. Le connessioni che scendono non sono più un mistero: sono il canale principale. Quelle che salgono trasportano una sola cosa, lo scarto.

L’immagine concreta è quella di una conversazione in cui uno dei due parla quasi sempre per ipotesi — “immagino che adesso dirai X” — e l’altro risponde solo quando l’ipotesi sbaglia. Finché le predizioni colgono nel segno, il canale in salita è silenzioso. È un’inversione che ha una conseguenza forte: se è corretta, allora l’attività di gran parte dei neuroni sensoriali non rappresenta cosa c’è nel mondo, ma quanto il mondo si discosta da ciò che il cervello si aspettava. Un neurone che tace non sta dicendo “niente da segnalare”: sta dicendo “tutto come previsto”. Il silenzio è informazione.

Secondo angolo: percepire è il punto di equilibrio di un negoziato. Metti che il livello alto della gerarchia visiva ipotizzi “c’è un volto”. Da quell’ipotesi genera una predizione dettagliata di cosa i livelli più bassi dovrebbero vedere: due regioni scure simmetriche dove stanno gli occhi, una zona chiara sotto, certi bordi a certe orientazioni. Questa predizione scende. Al livello basso si confronta con l’input reale. Se l’input combacia, l’errore è quasi zero: il negoziato è chiuso, e il percetto stabile è “volto”. Se non combacia — gli occhi non sono dove previsto — l’errore residuo sale, e il livello alto deve rivedere l’ipotesi: forse non è un volto, forse è un volto ruotato, forse è una maschera.

La percezione, in questa lettura, è lo stato in cui il negoziato si è stabilizzato: la configurazione di ipotesi, a tutti i livelli, che minimizza l’errore complessivo. Non vedi i dati. Vedi l’ipotesi che, in questo momento, spiega i dati meglio di ogni altra. Anil Seth, neuroscienziato che ha divulgato la teoria, la riassume con una formula efficace: la percezione è una controlled hallucination, un’allucinazione tenuta sotto controllo dai dati sensoriali. L’allucinazione vera e propria è il caso in cui il controllo dei dati viene a mancare e l’ipotesi resta da sola — esattamente come al punto cieco.

Questa formula merita una precisazione, perché è memorabile ma facile da fraintendere. Dire che la percezione è “allucinazione controllata” non significa che il mondo sia un’invenzione del cervello, né che non esista una realtà là fuori. Significa una cosa più sobria: il contenuto di ciò che percepisci è generato internamente — è prodotto dal modello generativo — mentre i dati sensoriali non lo costruiscono, lo vincolano. Il mondo non scrive il percetto; lo seleziona, scartando le ipotesi che genererebbero troppo errore. La realtà esterna entra come vincolo, non come contenuto. È una distinzione sottile, ed è esattamente la distinzione che separa una teoria scientifica della percezione da una posizione idealista — il predictive processing è la prima, non la seconda.

Terzo angolo: spedire solo le sorprese conviene. C’è una ragione ingegneristica per cui un cervello potrebbe organizzarsi così, indipendentemente da ogni considerazione sulla percezione. Trasmettere un segnale costa: costa energia, costa banda, costa scariche neuronali. Il mondo, però, è in larga parte ridondante e prevedibile. Una parete uniforme è la stessa parete in ogni suo punto; un bordo dritto continua dritto; un suono stazionario non cambia. Un sistema che trasmettesse fedelmente, momento per momento, ogni dato sensoriale, spenderebbe la maggior parte delle sue risorse a ribadire cose già note.

Trasmettere invece solo l’errore — solo lo scarto rispetto a ciò che era prevedibile — è una forma di compressione. Il segnale prevedibile viene generato localmente dalla predizione e non ha bisogno di viaggiare; viaggia solo l’imprevisto, che è la parte davvero informativa. È esattamente la logica con cui un codec video comprime un filmato: non spedisce ogni fotogramma per intero, spedisce la differenza rispetto al fotogramma predetto da quelli precedenti. Da questo punto di vista il predictive processing non è prima di tutto una teoria della percezione: è una teoria della codifica efficiente, e la percezione ne è una conseguenza. È anche il motivo per cui il primo esempio storico di codifica predittiva — la retina di Srinivasan e colleghi — riguardava proprio la compressione del segnale lungo il nervo ottico, un canale a banda limitata.

I tre angoli convergono. Invertire il flusso, leggere la percezione come un negoziato, comprimere spedendo solo le sorprese: sono tre facce dello stesso schema. Il resto del capitolo lo rende un meccanismo.

La meccanica: predictive coding nella corteccia visiva

Il primo modello computazionale completo di questa idea è il paper di Rajesh Rao e Dana Ballard (allora informatici all’Università di Rochester), Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects, pubblicato su Nature Neuroscience nel 1999. È il riferimento primario del predictive coding — la versione neuroscientificamente specifica del predictive processing.

Conviene fissare i termini prima di entrare nel modello. “Predictive processing” è l’etichetta larga, il programma di ricerca che vede il cervello come macchina predittiva. “Predictive coding” è il nome del meccanismo specifico — l’architettura di predizioni che scendono ed errori che salgono — proposto da Rao e Ballard per la corteccia visiva. “Free energy principle” è la cornice teorica più ampia, di Friston, dentro cui il predictive coding diventa un caso particolare. I tre termini vengono spesso usati in modo intercambiabile nella divulgazione, ma indicano cose annidate: il free energy principle contiene il predictive coding, che è una realizzazione concreta del programma del predictive processing.

Il modello è una gerarchia di livelli, ciascuno pensato come un’area della corteccia visiva. Dentro ogni livello convivono, concettualmente, due popolazioni di neuroni con ruoli opposti:

le unità di predizione (o di rappresentazione): codificano la stima corrente delle cause dell’input — cosa il livello “crede” ci sia nel mondo;
le unità di errore: codificano il residuo, la differenza tra la predizione ricevuta dall’alto e l’attività effettivamente presente al livello.

Le connessioni hanno una divisione del lavoro netta:

le connessioni di feedback (top-down, da un’area superiore verso una inferiore) trasportano le predizioni: l’area superiore comunica all’inferiore cosa aspettarsi;
le connessioni feedforward (bottom-up, verso l’area superiore) trasportano l’errore di predizione: l’area inferiore comunica a quella superiore solo lo scarto non spiegato.

Un avvertimento sui nomi, perché qui è facile inciampare. “Feedforward” e “feedback” sono usati, nel predictive coding, in senso anatomico: feedforward significa “in direzione delle aree gerarchicamente superiori”, feedback “in direzione delle inferiori”. Non hanno nulla a che vedere con i feedforward network e i meccanismi di feedback del vocabolario delle reti neurali artificiali. Una connessione anatomicamente “feedforward” nel cervello, nel predictive coding, trasporta l’errore — che è concettualmente un segnale di correzione, cioè ciò che in ingegneria si chiamerebbe “feedback”. La terminologia, ereditata dalla neuroanatomia, è quasi l’opposto di quella ingegneristica, ed è una fonte ricorrente di malintesi.

Il ciclo di funzionamento, riga per riga, è questo:

Per ogni istante:
  1. Ogni livello L riceve dall'alto una predizione del proprio stato.
  2. L confronta la predizione con il proprio input effettivo.
     errore(L) = input_effettivo(L) - predizione_dall_alto(L)
  3. L'errore sale al livello superiore L+1.
  4. L+1 aggiorna la propria stima delle cause per ridurre l'errore ricevuto.
  5. Dalla stima aggiornata, L+1 genera una nuova predizione e la manda giù.
  6. Si ripete finché l'errore totale, lungo tutta la gerarchia, smette di calare.

Lo stato finale — quello che resta quando l’errore non scende più — è la percezione. Non è imposto dall’esterno: è il punto fisso del negoziato fra predizioni che scendono ed errori che salgono. È, in linguaggio statistico, una procedura di inferenza: la gerarchia cerca la spiegazione delle cause del mondo che rende l’input meno sorprendente possibile.

Un dettaglio del ciclo merita attenzione, perché è la fonte di molta della potenza del modello e di alcune delle sue difficoltà. Il passo 6 — “si ripete finché l’errore smette di calare” — descrive un processo iterativo: il percetto non è pronto al primo passaggio, si raffina in cicli successivi di andata e ritorno tra i livelli. Questo spiega bene la percezione di stimoli ambigui, che a volte “si assestano” dopo una frazione di secondo, e spiega male la percezione ultrarapida, che sembra non avere il tempo per molte iterazioni. È una tensione interna al modello che la sezione “Dove si rompe” riprenderà: la stessa caratteristica che rende il predictive coding adatto a spiegare un fenomeno lo rende inadatto a spiegarne un altro.

Conviene fissare per contrasto cosa cambia rispetto al modello classico, perché quasi ogni elemento è ribaltato:

Aspetto	Modello bottom-up classico	Predictive coding
Flusso dominante	dal basso verso l’alto	dall’alto verso il basso
Cosa sale	dati sensoriali via via più astratti	solo l’errore di predizione
Cosa scende	modulazione, ruolo secondario	le predizioni, canale principale
Cosa codifica un neurone	presenza/intensità di una caratteristica	residuo non spiegato dalla predizione
Percezione	output finale della cascata	punto fisso del negoziato predizione/errore
Ruolo dell’apprendimento	tarare i filtri di estrazione	costruire il modello generativo del mondo

La colonna di destra non è solo una riformulazione: fa previsioni diverse. Se i neuroni di V1 codificano errore e non presenza, allora uno stimolo perfettamente predicibile dovrebbe far scaricare quei neuroni meno di uno stimolo sorprendente, a parità di intensità fisica. È esattamente ciò che il modello di Rao e Ballard verifica.

Un risultato del modello merita di essere raccontato per esteso, perché è il punto in cui la teoria smette di essere suggestiva e diventa una previsione verificabile. Rao e Ballard addestrano la loro rete su immagini naturali — fotografie di scene reali. Due cose emergono, nessuna delle due imposta a mano.

La prima: le unità del modello sviluppano spontaneamente campi recettivi simili a quelli delle simple cell di V1, la corteccia visiva primaria — cioè rispondono a bordi orientati, come fanno i neuroni reali. La struttura della corteccia visiva, in questa lettura, è ciò che ci si aspetta da un sistema che impara a codificare immagini naturali in modo efficiente. È un risultato che il predictive coding condivide con un’altra famiglia di modelli, lo sparse coding di Olshausen e Field del 1996: anche lì, addestrare una rete a rappresentare immagini naturali in modo efficiente fa emergere filtri simili alle simple cell. La convergenza è significativa — più teorie diverse, partendo dall’idea di codifica efficiente, ritrovano la stessa struttura corticale — ma va letta con cura: che due modelli producano lo stesso risultato non dimostra che il cervello usi l’uno piuttosto che l’altro. È un indizio sulla famiglia di principi giusta, non una prova del meccanismo specifico.

La seconda, più sottile, è quella che dà il titolo al paper — gli extra-classical receptive-field effects. Tra questi, l’end-stopping: un fenomeno noto da decenni, per cui certe cellule di V1 rispondono meno a una barra lunga che a una barra corta. Per il modello classico è un fatto strano da spiegare con meccanismi inibitori locali ad hoc. Per il predictive coding è una conseguenza diretta della struttura.

Una barra lunga e dritta è, in larga parte, predicibile: la continuazione di un bordo rettilineo è statisticamente attesa dal contesto circostante. La parte centrale di una barra lunga viene quindi predetta bene dal livello superiore, l’errore residuo è basso, e le unità di errore — quelle che il modello identifica con le cellule misurate dall’elettrofisiologo — rispondono poco. Una barra corta, che si interrompe bruscamente, è meno prevedibile dal contesto: genera più errore residuo, e quindi più risposta. L’end-stopping non è un meccanismo aggiuntivo: è cosa ti aspetti se quelle cellule misurano errore di predizione anziché presenza di stimolo.

Il punto teorico generale: gli effetti di “surround” — il modo in cui la risposta di un neurone visivo dipende da cosa c’è attorno allo stimolo, fuori dal suo campo recettivo classico — non devono necessariamente essere fenomeni bottom-up. Possono emergere dal feedback cortico-corticale, dal fatto che ogni livello sta ricevendo dall’alto una predizione contestuale. È un’interpretazione funzionale di dati neurofisiologici che esistevano già, ed è ciò che ha reso il paper così influente.

Il negoziato, con i numeri

Lo schema del ciclo predizione-errore è facile da raccontare a parole; vederlo con numeri concreti lo rende meno astratto. Prendiamo un caso minimo: un solo livello che deve stimare una grandezza scalare — diciamo la luminosità di una superficie — combinando un’aspettativa con un dato sensoriale.

Il livello ha una predizione, basata sul contesto: “questa superficie ha luminosità attorno a 60”, con una certa incertezza. Arriva un dato sensoriale: l’occhio misura 40. C’è un errore di predizione: 40 meno 60, cioè meno 20. Cosa fa il sistema con quell’errore?

Non lo accetta per intero, e non lo ignora. Lo usa per aggiornare la stima, pesandolo per la precisione relativa dei due segnali. Supponiamo che la predizione sia tenuta a precisione 1 (incertezza moderata) e il dato sensoriale a precisione 3 (segnale ritenuto affidabile, buona luce). La stima aggiornata è una media pesata:

stima = (precisione_pred * predizione + precisione_dato * dato)
        / (precisione_pred + precisione_dato)
      = (1 * 60 + 3 * 40) / (1 + 3)
      = (60 + 120) / 4
      = 45

La stima si sposta da 60 a 45: si avvicina molto al dato, perché il dato era tre volte più preciso della predizione. Ora cambiamo un solo numero. Se la luce è scarsa e il dato sensoriale ha precisione 0.2 invece di 3:

stima = (1 * 60 + 0.2 * 40) / (1 + 0.2)
      = (60 + 8) / 1.2
      ≈ 56.7

Lo stesso identico dato sensoriale — 40 — ora sposta la stima di appena tre punti, da 60 a 56.7. Non è cambiato il dato: è cambiata la precisione con cui il sistema lo prende. È, in piccolo, il meccanismo della precision weighting che incontreremo formalizzato più avanti — e mostra perché lo stesso input produce percetti diversi a seconda di quanto il contesto lo rende affidabile. In una gerarchia vera questo calcolo si ripete a ogni livello e a ogni istante, con la “predizione” di un livello che è la stima del livello sopra; il punto fisso del sistema è la configurazione di stime in cui nessun livello ha più un errore pesato da correggere.

La gerarchia: cosa rappresenta ogni livello

Il modello di Rao e Ballard è gerarchico, e la parola “gerarchia” qui ha un significato preciso che vale la pena estrarre, perché è il punto in cui la teoria fa contatto con l’anatomia della corteccia.

Ogni livello della gerarchia è, allo stesso tempo, “superiore” per il livello sotto di sé e “inferiore” per quello sopra. Manda predizioni verso il basso e riceve predizioni dall’alto; riceve errori dal basso e manda errori verso l’alto. Non c’è un livello speciale che “comanda”: c’è una catena, e ogni anello fa lo stesso mestiere su un livello di astrazione diverso.

La differenza tra i livelli sta in cosa rappresentano e con quale velocità cambiano. I livelli bassi rappresentano cause concrete e rapide: nel sistema visivo, bordi, contrasti, piccoli movimenti, cose che cambiano da un istante all’altro. I livelli alti rappresentano cause astratte e lente: un oggetto, una scena, l’identità di una persona, l’intenzione di chi si ha davanti — cose che restano stabili per secondi o minuti. Una scena cambia lentamente; i bordi che la compongono cambiano in fretta a ogni movimento dell’occhio. La gerarchia, in questa lettura, è anche una gerarchia di scale temporali: ogni livello predice il livello sotto, e quindi cattura le regolarità che durano un po’ più a lungo di quelle catturate dal livello inferiore.

Questa organizzazione spiega un fatto altrimenti curioso: perché le predizioni di alto livello sono così resistenti a essere smentite dai dettagli. Se il livello alto ha concluso “questa è una stanza”, quella conclusione genera una cascata di predizioni che spiegano via la maggior parte degli errori ai livelli bassi prima ancora che salgano. Un dettaglio incongruente — un oggetto fuori posto — produce un errore locale, ma quell’errore deve “vincere” contro una predizione di alto livello molto stabile per riuscire a riscrivere l’interpretazione globale. È il motivo per cui spesso non notiamo cambiamenti vistosi in una scena (il fenomeno della change blindness): il modello di alto livello, una volta fissato, sopprime gli errori che lo contraddicono finché non diventano abbastanza grandi o abbastanza precisi da forzare una revisione.

C’è poi un’ipotesi anatomica più impegnativa, e va presentata come tale. La corteccia ha una microstruttura a sei strati che si ripete, quasi identica, in tutte le sue regioni — un fatto descritto nel capitolo La corteccia. Diversi autori, in particolare in un lavoro di André Bastos e colleghi del 2012 sui canonical microcircuits for predictive coding, hanno proposto una mappatura: le unità di errore starebbero negli strati corticali superficiali (i neuroni piramidali degli strati 2 e 3), che proiettano in avanti verso l’area gerarchicamente superiore; le unità di predizione starebbero negli strati profondi (5 e 6), che proiettano all’indietro verso l’area inferiore. A questa separazione anatomica corrisponderebbe una separazione di frequenze nell’attività elettrica: le scariche veloci della banda gamma per il canale dell’errore che sale, le oscillazioni più lente delle bande alpha e beta per il canale della predizione che scende.

È un’ipotesi elegante, perché darebbe al predictive coding un’implementazione concreta nello stesso microcircuito uniforme che si ripete in tutta la corteccia — esattamente come il microcircuito uniforme del cervelletto incarna il modello di Marr-Albus. Ma è un’ipotesi, e nella sezione “Dove si rompe” si vedrà che l’evidenza che la sostiene è parziale e non univoca. Per ora basta tenere il quadro: una catena di livelli identici nel funzionamento, diversi nell’astrazione e nella scala temporale, forse mappati su strati corticali distinti.

Un esempio concreto rende viva la gerarchia. Stai leggendo questa pagina. Al livello più basso, la gerarchia visiva predice contrasti e bordi: le zone scure dell’inchiostro, le zone chiare della carta. Un livello sopra, predice forme — i tratti che compongono le lettere. Più sopra, predice lettere intere; più sopra ancora, parole; in cima, il significato della frase e l’argomento del capitolo. Quando incontri una parola, il livello del significato ha già predetto, dal contesto, un piccolo insieme di parole probabili: l’errore che sale dai livelli bassi è minimo, e leggi in fretta, quasi senza “vedere” le singole lettere. Quando incontri un refuso o una parola inattesa, l’errore non viene spiegato via dalla predizione di alto livello, sale, ti fa rallentare e tornare indietro. Leggere fluentemente è, in questa lettura, far scendere predizioni così buone che l’occhio deve trasmettere quasi solo conferme. È anche il motivo per cui rileggendo il proprio testo si saltano i refusi: il modello di alto livello predice la parola corretta con tale fiducia da sopprimere l’errore che la segnalerebbe.

Il free energy principle: un solo principio per percezione e azione

Undici anni dopo Rao e Ballard, Karl Friston — neuroscienziato allo University College London, già noto per gli strumenti statistici del neuroimaging — pubblica su Nature Reviews Neuroscience (2010) un articolo dal titolo, con punto interrogativo incluso, The free-energy principle: a unified brain theory?. È il riferimento primario del free energy principle (FEP).

L’ambizione del FEP è enorme, e conviene smontarla per gradi.

Punto di partenza. Un organismo vivo è un sistema che resiste alla dispersione: rimane in un insieme ristretto di stati compatibili con la sua sopravvivenza. Un pesce sta nell’acqua, non sulla spiaggia; la tua temperatura corporea sta entro pochi gradi. In termini probabilistici: un organismo passa il suo tempo in pochi stati attesi e quasi mai in stati inattesi. “Inatteso” qui ha un significato tecnico — la surprise, definita come la log-probabilità negativa di uno stato sensoriale sotto il modello che l’organismo incarna del proprio mondo. Restare vivi significa, in questa formulazione, mantenere bassa la surprise media.

Conviene insistere su questa parola, perché la “surprise” del free energy principle non è la sorpresa emotiva del linguaggio comune. È una quantità: misura quanto uno stato sensoriale è improbabile dato il modello che il sistema ha del proprio mondo. Per un pesce, “essere fuori dall’acqua” è uno stato a surprise altissima — non perché il pesce provi stupore, ma perché è uno stato che il suo modello implicito del mondo assegna a probabilità quasi nulla. La tesi del FEP è che un sistema che persiste nel tempo deve, di fatto, comportarsi come se tenesse bassa questa quantità: se non lo facesse, scivolerebbe presto in stati incompatibili con la propria esistenza, e smetterebbe di esistere come quel sistema. È un argomento quasi tautologico — i sistemi che durano sono quelli che restano nei loro stati attesi — e questa apparente circolarità è esattamente ciò che, più avanti, sarà al centro delle critiche.

Il problema: la surprise non è una quantità che un cervello possa calcolare direttamente. Calcolarla richiederebbe di sommare su tutte le cause possibili di ogni input sensoriale — un conto intrattabile. Qui entra in gioco la free energy variazionale: una quantità che il cervello può calcolare, e che costituisce un limite superiore matematico sulla surprise. Minimizzando la free energy — che è alla portata del sistema — si minimizza indirettamente la surprise, che non lo è. È la stessa mossa, va detto, che il machine learning chiama inferenza variazionale: rendere trattabile un problema di inferenza ottimizzando un bound al posto della quantità vera. La “free energy” prende il nome, per analogia matematica, dall’omonima quantità della fisica statistica — e su questo prestito di nome torneremo nella sezione delle critiche, perché è uno dei punti contestati.

La parte che rende il FEP una teoria del cervello, e non solo un esercizio di statistica, è il modo in cui un sistema può ridurre la free energy. Ci sono due strade, e qui sta l’unificazione.

Strada uno: la percezione. Cambiare le rappresentazioni interne — le predizioni — perché aderiscano meglio ai dati sensoriali. È esattamente il predictive coding di Rao e Ballard, riletto come inferenza variazionale: aggiorni le tue ipotesi finché spiegano l’input. Il modello sta inseguendo il mondo.

Strada due: l’azione. Cambiare i dati sensoriali stessi — agire sul mondo perché si conformi alle predizioni. Invece di rivedere l’ipotesi quando l’errore sale, muovi il corpo per cancellare l’errore. Questa è l’active inference, ed è la mossa più controintuitiva del FEP.

Un esempio concreto. Il tuo cervello predice, in un certo istante, che il tuo braccio sia alzato. Ma il braccio è giù: dal braccio arrivano segnali propriocettivi — la propriocezione è il senso della posizione del corpo — che dicono “braccio basso”. C’è un errore di predizione propriocettivo. Due modi di azzerarlo: rivedere la predizione (“il braccio è basso”), oppure alzare il braccio, così che l’input propriocettivo si conformi alla predizione. Nell’active inference il movimento è il secondo caso: l’azione non è comandata da un sistema separato che decide e poi esegue, è il modo in cui il sistema cancella un errore di predizione modificando il mondo invece che le proprie idee. In questa lettura perfino i riflessi più semplici — l’arco riflesso che corregge la postura — diventano casi di active inference: minimizzano un errore propriocettivo agendo.

Questa mossa è controintuitiva al punto da sembrare un gioco di parole, e conviene fermarsi a vedere perché non lo è. Nel quadro classico, percezione e azione sono due sistemi separati con direzioni opposte: la percezione porta informazione dentro, l’azione manda comandi fuori. L’active inference li unifica sotto un solo obiettivo — minimizzare l’errore di predizione — e li distingue solo per quale termine dell’errore viene cambiato. La percezione cambia la predizione finché aderisce al dato; l’azione cambia il dato finché aderisce alla predizione. È la stessa equazione, risolta rispetto a due variabili diverse. La conseguenza concettuale è netta: in questa lettura non esistono “comandi motori” nel senso usuale. Esistono solo predizioni di stati del corpo, tenute a precisione alta, e archi riflessi che lavorano per renderle vere. L’intenzione di muoversi è una predizione sufficientemente fiduciosa di essersi già mossi.

Il punto debole di questa eleganza, va detto subito, è che sposta il problema senza eliminarlo. Se l’azione è l’adempimento di una predizione, resta da spiegare da dove venga la predizione giusta — perché il cervello predica “braccio alzato” quando serve alzarlo e non in mille altri momenti. Il free energy principle risponde rimandando alle “preferenze” codificate nel modello generativo, ma è proprio qui che i critici vedono entrare di soppiatto una nozione teleologica — uno scopo — travestita da predizione. La sezione “Dove si rompe” ci torna.

Friston mostra che, sotto questa lente, molte teorie del cervello sviluppate separatamente si possono leggere come casi particolari di una stessa minimizzazione:

il predictive coding di Rao e Ballard diventa la realizzazione algoritmica dell’inferenza percettiva che minimizza la free energy;
l’ipotesi del cervello bayesiano — l’idea che il cervello rappresenti e aggiorni distribuzioni di probabilità — diventa una conseguenza, non un postulato separato;
l’efficient coding di Horace Barlow — il principio che il sistema sensoriale codifichi l’informazione in modo non ridondante — diventa un effetto della minimizzazione della free energy;
parti del reinforcement learning e del controllo ottimo rientrano nel quadro se le ricompense vengono lette come predizioni di stati che l’organismo si aspetta di occupare.

Da qui il “unified brain theory” del titolo. Il punto interrogativo, però, Friston lo lascia: ed è onesto lasciarlo, per ragioni che vedremo. Riportare quattro teorie a una sola è un risultato impressionante se la riduzione è sostanziale, ma — come la sezione “Dove si rompe” argomenterà — è anche il tipo di risultato che bisogna saper guardare con sospetto: una teoria che riassorbe tutte le altre può averlo fatto perché è più profonda, o perché è più vaga.

Il modello generativo: cosa significa “predire”

Una parola è ricorsa più volte senza essere ancora messa a fuoco: modello generativo. È il cuore della teoria, e merita una sosta, perché senza di essa “predire” resta vago.

Un modello generativo è una conoscenza implicita di come i dati sensoriali vengono prodotti dalle cause nel mondo. Non una conoscenza dichiarativa, formulabile a parole: una struttura di connessioni e pesi che, data un’ipotesi sulle cause (“c’è una faccia, illuminata da sinistra, a mezzo metro”), sa generare la previsione dei dati sensoriali che quella scena produrrebbe sulla retina. Si chiama “generativo” proprio perché funziona in direzione generativa: dalle cause agli effetti, dal mondo ai sensi. È la direzione opposta a quella in cui un classificatore lavora — un classificatore va dagli effetti (i pixel) alla causa (l’etichetta “gatto”).

Il predictive processing rovescia questa direzione abituale. Il cervello, secondo la teoria, non impara una funzione che mappa i pixel sull’etichetta. Impara un modello generativo — un simulatore interno del mondo — e poi lo usa all’indietro: data l’osservazione, cerca l’ipotesi sulle cause che, passata attraverso il modello generativo, produce la previsione più vicina all’osservazione. La percezione è questa inversione: il problema “quali cause hanno prodotto questi dati?” viene risolto provando ipotesi e confrontando le loro conseguenze previste con i dati reali.

Questo spiega perché lo stesso apparato che percepisce può anche immaginare e sognare. Se hai un modello generativo che, date le cause, produce dati sensoriali previsti, puoi farlo girare anche senza input reale: fissi un’ipotesi di alto livello e lasci scendere le predizioni fino in fondo alla gerarchia, senza nulla con cui confrontarle. Quello che ottieni è un’esperienza generata dall’interno — un’immagine mentale, o, quando il controllo dei dati sensoriali è quasi spento come nel sonno, un sogno. Nella formula di Seth, la percezione è una controlled hallucination: l’immaginazione e il sogno sono lo stesso processo con il controllo allentato. È una delle conseguenze più eleganti della teoria, e anche una previsione: prevede che le aree corticali attive nel percepire un oggetto siano in buona parte le stesse attive nell’immaginarlo, cosa che il neuroimaging tende a confermare.

C’è un lignaggio storico da nominare. L’idea di un cervello che impara un modello generativo e lo inverte per percepire ha un nome proprio nel machine learning: la Helmholtz machine, un modello proposto nel 1995 da Peter Dayan, Geoffrey Hinton, Radford Neal e Richard Zemel. Il nome è un omaggio diretto: Hinton e colleghi battezzarono il loro modello con il nome di Helmholtz proprio perché ne riprendeva l’intuizione — la percezione come inferenza inversa su un modello generativo. È uno dei rari casi in cui la filiazione è dichiarata nel nome stesso: i ricercatori di machine learning sapevano di star formalizzando un’idea ottocentesca, e lo hanno scritto sull’etichetta.

Due scale di tempo: percepire e imparare

Resta una domanda che il capitolo finora ha aggirato: il modello generativo, da dove viene? Una predizione è buona solo quanto il modello che la produce, e nessuno nasce con un modello generativo del proprio ambiente già pronto.

Il predictive processing risponde distinguendo due processi che usano la stessa macchina ma su scale di tempo diverse. C’è l’inferenza percettiva, veloce: dato l’input di questo istante, trova le cause che lo spiegano meglio — è il negoziato predizione/errore che si stabilizza in frazioni di secondo, a modello fisso. E c’è l’apprendimento, lento: aggiusta gradualmente i parametri del modello generativo stesso — i pesi delle connessioni che traducono cause in predizioni — perché, nel lungo periodo, le predizioni sbaglino sempre meno.

Lo stesso segnale guida entrambi. L’errore di predizione, momento per momento, sposta le stime delle cause; mediato su molti episodi, lo stesso errore spinge una lenta revisione dei pesi del modello. La distinzione è la stessa che in machine learning separa l’inferenza (usare un modello già addestrato) dall’addestramento (modificare il modello): il predictive processing propone che il cervello faccia le due cose con la stessa architettura, regolando solo la velocità con cui si aggiorna cosa. Le stime delle cause cambiano in fretta; i pesi del modello generativo cambiano piano. È anche il motivo per cui un’illusione robusta come la hollow-mask non sparisce neanche dopo che ti hanno spiegato il trucco: la spiegazione aggiorna una credenza esplicita, ma non riaddestra in pochi secondi il modello generativo a basso livello che ha imparato, in anni di esperienza, che i volti sono convessi.

Precision weighting: non tutti gli errori contano uguale

Un meccanismo del predictive processing merita una sezione propria, perché collega la teoria a un fenomeno cognitivo familiare: l’attenzione.

Finora l’errore di predizione è stato trattato come un segnale che, quando c’è, spinge l’aggiornamento. Ma c’è un problema evidente. I sensi sono rumorosi, e il rumore varia. In piena luce, una discrepanza tra predetto e visto è un’informazione affidabile: il mondo è davvero diverso da come lo immaginavi. In penombra, la stessa discrepanza potrebbe essere solo rumore della retina. Un sistema che aggiornasse le proprie ipotesi con la stessa energia in entrambi i casi si farebbe sballottare dal rumore.

Un esempio quotidiano rende la cosa concreta. Cerchi un amico in una stazione affollata. Se sai che indossa una giacca rossa, il tuo sistema visivo alza la precisione assegnata agli errori di predizione che riguardano il rosso e le forme umane: ogni macchia rossa che non era prevista “pesa” molto e attira l’elaborazione. Se invece la stazione è in penombra e i colori sono inaffidabili, quel canale viene pesato meno e ti affidi alla sagoma, all’andatura. Stesso compito, stessa scena, ma il sistema sposta il peso verso i segnali che, in quel contesto, sono più affidabili. È esattamente questo spostamento di peso che la teoria propone di identificare con l’attenzione.

La soluzione del predictive processing è la precision weighting — la pesatura per precisione. Ogni errore di predizione, prima di salire e produrre un aggiornamento, viene moltiplicato per un peso: la sua precisione, definita come l’inverso della varianza attesa di quel segnale. In parole povere: quanto quel canale sensoriale è ritenuto affidabile, qui e ora. Un errore preciso — segnale che il sistema si aspetta pulito — ha peso alto e sposta molto le ipotesi. Un errore impreciso — segnale che il sistema si aspetta rumoroso — viene attenuato, conta poco. E la precisione attesa non è una costante: è essa stessa una stima, modulata dall’alto, contesto per contesto.

Il passo concettuale forte, proposto da Harriet Feldman e Friston in Attention, uncertainty, and free-energy (Frontiers in Human Neuroscience, 2010): l’attenzione non è un meccanismo separato. È l’ottimizzazione della precisione attesa. Prestare attenzione a uno stimolo, in questa lettura, significa aumentare la precisione assegnata agli errori di predizione che lo riguardano — alzare il guadagno delle unità di errore corrispondenti, così che quei segnali pesino di più nell’inferenza. Sul piano neurale, la proposta è che la precisione corrisponda al guadagno sinaptico delle unità di errore, regolato da neuromodulatori — dopamina, noradrenalina, acetilcolina — e dalla sincronizzazione delle scariche nella banda gamma.

Va detto chiaramente di che tipo di affermazione si tratta. L’identificazione “attenzione = ottimizzazione della precisione” è una proposta teorica forte, e contestata. Non è un’equivalenza dimostrata: è un’ipotesi che riconduce un fenomeno a un altro, e diversi studiosi — alcune delle repliche allo stesso articolo di Clark del 2013 lo dicono apertamente, con la formula “l’attenzione è più della precisione della predizione” — ritengono che catturi una parte di ciò che chiamiamo attenzione, non tutta. È una riduzione candidata, non un teorema.

La stessa idea, applicata alla clinica, produce una rilettura suggestiva di alcune patologie. Nella schizofrenia, l’ipotesi della aberrant precision propone che una precisione mal calibrata — errori di predizione di basso livello che non vengono attenuati come dovrebbero — possa rendere conto di allucinazioni e deliri: un segnale rumoroso, trattato come se fosse affidabile, finisce per riscrivere le ipotesi di alto livello. È, di nuovo, un’ipotesi di ricerca, non un fatto stabilito; la includo come esempio di portata della teoria, non come diagnosi.

C’è un dettaglio che conviene segnalare, perché collega questa sezione a un altro capitolo della Parte III. Nel predictive processing la dopamina ricompare in un ruolo che non è quello familiare del segnale di ricompensa. Qui la dopamina — insieme ad altri neuromodulatori — è proposta come un segnale di precisione: regola quanto pesano gli errori di predizione, non quanto vale una ricompensa. È un’ipotesi affascinante e tutt’altro che pacifica, perché chiede alla stessa molecola di fare, in contesti diversi, lavori concettualmente distinti. Il capitolo Dopamina presenta il ruolo classico — il reward prediction error del reinforcement learning — e tenere a mente che il predictive processing ne propone una funzione aggiuntiva è un buon esercizio di prudenza: lo stesso nome anatomico, “neurone dopaminergico”, può nascondere ruoli computazionali che le teorie non hanno ancora del tutto conciliato.

Esempi

Quattro esempi eterogenei, per vedere la teoria all’opera in registri diversi: un fenomeno neurofisiologico misurato, un esperimento che chiunque può fare su di sé, uno schema in pseudocodice e un’illusione classica.

Esempio uno — l’end-stopping, in cifre. Riprendiamo il risultato di Rao e Ballard in forma quantitativa stilizzata. Una cellula di errore in V1 ha un campo recettivo che copre un piccolo tratto di un bordo. Presentiamo due stimoli. Stimolo A: una barra corta, lunga quanto il campo recettivo, che si interrompe ai bordi. Stimolo B: una barra lunga, che attraversa il campo recettivo e prosegue ben oltre, in entrambe le direzioni.

Per la barra B, il contesto circostante — la barra che continua a destra e a sinistra — permette al livello superiore di predire con buona accuratezza cosa ci sarà nel campo recettivo: la barra continua. La predizione che scende è quasi corretta, l’errore residuo è basso, la cellula di errore scarica poco. Per la barra A, il contesto (campo vuoto attorno alla barra) rende la predizione meno accurata: l’interruzione brusca non è prevista bene, l’errore residuo è più alto, la cellula scarica di più. Risultato: risposta(A) maggiore di risposta(B), pur essendo B uno stimolo “più grande”. È l’end-stopping, e nel modello esce dal solo fatto che la cellula misura un residuo, non una presenza.

Il punto da fissare è che questo è un test, non una rilettura comoda. Il modello classico, dove la cellula codifica la presenza di un bordo, predice — ingenuamente — che una barra più lunga, che riempie più campo recettivo, faccia scaricare la cellula almeno quanto una barra corta. Il predictive coding predice l’opposto, e l’opposto è ciò che gli elettrofisiologi misurano. Quando due teorie fanno previsioni divergenti sullo stesso esperimento e i dati danno ragione a una sola, quella ha guadagnato qualcosa di concreto. È utile tenerlo presente quando, più avanti, si discuterà della parte non falsificabile della teoria: il predictive processing non è tutto non falsificabile — ha anche un nucleo che ha rischiato previsioni e le ha viste confermate.

Esempio due — perché non riesci a farti il solletico. Prova a farti il solletico sotto il piede da solo. Non funziona, o funziona pochissimo. Lascia che lo faccia un altro, con lo stesso identico movimento e la stessa pressione: funziona benissimo. La differenza non è nello stimolo fisico — è identico — ma nella sua predicibilità.

Quando sei tu a muovere la mano, il cervello dispone della copia efferente del comando motorio e predice con precisione le conseguenze sensoriali di quel tocco: dove, quando, con che intensità. Quella predizione, scendendo, cancella l’errore: la sensazione attesa non genera residuo, e l’esperienza del tocco viene attenuata. Un tocco esterno non è predetto da nessuna copia efferente: nessuna predizione lo cancella, l’errore residuo passa intero, e fa il solletico. È un esperimento che chiunque può fare su di sé, e mostra in modo diretto che il cervello, in ogni istante, predice le conseguenze sensoriali delle proprie azioni e usa quella predizione per filtrare l’esperienza. (Lo stesso fenomeno, dal lato del controllo motorio, è il forward model del cervelletto: il predictive processing lo rilegge come un caso del proprio schema generale.)

Questo esempio ha un valore che va oltre la curiosità. È una delle poche manifestazioni in cui il “filtraggio per predizione” diventa qualcosa che senti direttamente, con il corpo, senza strumenti. E mostra un principio generale: il cervello non rappresenta lo stimolo, rappresenta lo scarto dello stimolo dall’atteso. La stessa pressione fisica produce due esperienze diverse — quasi niente, oppure il solletico — perché ciò che arriva alla coscienza non è la pressione, è l’errore di predizione. Quando l’attenuazione di questo tipo viene meno, il risultato è patologico: alcune persone con schizofrenia, in certi studi, riescono a farsi il solletico da sole, e questo è coerente con l’ipotesi della precisione aberrante vista nella sezione precedente.

Esempio tre — alzare un braccio come adempimento di una predizione. In pseudocodice, lo schema dell’active inference per un movimento volontario:

obiettivo: portare la mano alla tazza
  1. il livello alto fissa la predizione: "la mano è sulla tazza"
  2. da questa predizione discende una catena di predizioni propriocettive:
     posizione attesa del polso, del gomito, della spalla
  3. lo stato attuale del corpo NON corrisponde -> errore propriocettivo
  4. due vie per azzerare l'errore:
       (a) rivedere la predizione  -> "la mano resta ferma"   [percezione]
       (b) muovere il braccio fino a far coincidere la
           propriocezione con la predizione                   [azione]
  5. con la precisione della predizione propriocettiva tenuta ALTA,
     la via (a) resta sbarrata: il sistema non riesce a
     "credere" la mano ferma.
     Resta la via (b): il braccio si muove fino ad annullare l'errore.

Il punto controintuitivo: nel quadro dell’active inference non c’è un comando motorio separato che dice “contrai questi muscoli”. C’è una predizione di uno stato del corpo, tenuta ad alta precisione, e il movimento è il processo con cui i riflessi spinali cancellano l’errore propriocettivo che ne risulta. L’intenzione non comanda l’azione: la predice, e l’azione la avvera. È una rilettura elegante, e — come tutte le riletture di questo capitolo — una proposta teorica, non un dato di fatto acquisito.

Il dettaglio interessante è il passo 5: la precisione decide quale delle due vie resta aperta. Se la precisione della predizione propriocettiva è alta, il sistema “non può” rivedere l’ipotesi, e l’unica via per azzerare l’errore è muoversi. Se è bassa, il sistema rivede l’ipotesi e il braccio resta fermo. La stessa identica configurazione di predizione ed errore produce un movimento o nessun movimento a seconda di un solo parametro — la precisione — che, di nuovo, è la grandezza che la sezione su precision weighting ha messo al centro. Percezione e azione, nel quadro dell’active inference, non sono solo unificate dall’obiettivo: sono commutate dalla precisione, come due rami di un interruttore.

Esempio quattro — un’illusione come prior che si rende visibile. Prendi la hollow-mask illusion: una maschera di un volto, vista dal lato concavo — quello cavo, l’interno — e illuminata in modo da rivelarne la concavità. Nonostante i segnali geometrici (le ombre, la parallasse quando muovi la testa) dicano chiaramente “questa superficie è cava”, tu continui a vederla convessa, come un volto normale che sporge verso di te.

Nel quadro del predictive processing l’illusione ha una lettura precisa. Il livello alto della gerarchia ha un prior fortissimo: “i volti sono convessi”. Non è un capriccio — è una regolarità verissima del mondo, valida in pratica sempre. Quel prior genera una predizione che scende: la maschera deve essere convessa. L’input sensoriale, però, porta un errore: le ombre non tornano. A questo punto il negoziato dovrebbe correggere l’ipotesi. Non lo fa, perché l’errore portato dalle ombre viene pesato per una precisione bassa rispetto alla precisione altissima del prior sui volti. Il prior vince, l’errore viene ignorato, e tu vedi un volto convesso che non c’è. L’illusione non è un malfunzionamento: è il sistema che fa esattamente ciò che fa sempre — fidarsi di un prior solido più che di un segnale ambiguo — solo che stavolta lo fa su uno stimolo costruito apposta per ingannarlo. Le illusioni percettive, in questa lettura, non sono errori del sistema: sono finestre sui priors che il sistema usa ogni giorno con successo. Il capitolo Percezione come inferenza bayesiana sviluppa per esteso questo punto.

Un solo schema per fenomeni diversi

Vale la pena fermarsi a contare cosa il predictive processing, se preso sul serio, prova a unificare. È il punto in cui si capisce perché la teoria abbia attratto tanto interesse — e anche perché abbia attratto tanto scetticismo.

La percezione è inferenza: il negoziato predizione/errore che si stabilizza su un percetto. L’azione è inferenza con l’altra variabile risolta: muovi il mondo invece dell’ipotesi. L’attenzione è ottimizzazione della precisione: decidi quali errori contano. L’immaginazione e il sogno sono il modello generativo che gira a vuoto, senza input a controllarlo. L’apprendimento è la lenta revisione dei pesi del modello, guidata dallo stesso errore mediato nel tempo. E nella versione più estesa — il free energy principle — anche la motivazione, le emozioni lette come inferenza interocettiva, perfino l’omeostasi del corpo diventano casi della stessa minimizzazione.

Sei o sette fenomeni che la psicologia classica trattava in capitoli separati, con vocabolari separati, ricondotti a un’unica operazione: ridurre l’errore di predizione, scegliendo se cambiare il modello o cambiare il mondo, e con quale precisione. Questa è la promessa della teoria, e detta così è impressionante.

È anche, esattamente, ciò che la rende sospetta agli occhi dei critici. Una teoria che spiega la visione, il movimento, l’attenzione, il sogno, l’emozione e l’omeostasi con la stessa equazione o è una scoperta profonda sull’organizzazione della mente, oppure è una cornice tanto elastica da accogliere qualunque cosa. Quale delle due sia, è precisamente la domanda della sezione che segue. Tenere a mente entrambe le letture — la potenza unificante e il rischio dell’inafferrabilità — è il modo corretto di leggere il predictive processing.

Applicazioni pratiche

Il predictive processing, oltre a essere una teoria del cervello, ha prodotto strumenti e idee usate fuori dalle neuroscienze.

Nel machine learning, l’idea della codifica predittiva — trasmettere solo l’errore rispetto a una predizione, non il dato intero — è vecchia e robusta: la compressione di segnali audio e video si basa da decenni sul codificare la differenza tra un frame e la sua predizione, non il frame intero. È lo stesso principio del predictive coding retinico di Srinivasan, applicato all’ingegneria. Qui, va detto, la direzione storica è opposta a quella che si potrebbe immaginare: la codifica predittiva nasce nelle telecomunicazioni e viene poi ritrovata come modello del cervello, non viceversa.

Nelle interfacce e nella robotica, l’idea dell’active inference — un agente che agisce per conformare le proprie osservazioni a stati predetti, anziché per massimizzare una ricompensa esterna — è diventata un vero paradigma di progettazione. Esiste una comunità di ricerca che costruisce agenti su questo principio, e ne riparleremo nella sezione sul ponte con l’AI, perché lì la classe di affermazione è una filiazione diretta e va distinta dal resto. L’attrattiva pratica è che un agente ad active inference non ha bisogno di una funzione di ricompensa progettata a mano: gli obiettivi sono codificati come predizioni di stati desiderati, e l’esplorazione emerge dal termine epistemico — la spinta a ridurre l’incertezza — senza doverla aggiungere come ingrediente separato. È un modo diverso di impostare il problema del controllo, e il fatto che funzioni su robot reali, sia pure in compiti circoscritti, è un punto a favore della concretezza della teoria.

In clinica e neuroscienza cognitiva, il framework ha fornito un linguaggio comune per riformulare disturbi diversi come problemi di un’unica variabile — la precisione, o l’equilibrio tra predizione ed errore: la schizofrenia come precisione aberrante, l’autismo come predizioni troppo poco flessibili, il dolore cronico come predizione che persiste oltre l’input. Sono ipotesi di ricerca, non terapie; il loro valore pratico, al momento, è soprattutto quello di unificare la formulazione di problemi che prima si descrivevano con vocabolari separati.

C’è anche un’applicazione meno appariscente ma forse più solida: il predictive processing fornisce un’igiene metodologica per il neuroimaging. Se un neurone codifica errore di predizione e non presenza di stimolo, allora un esperimento che misura “la risposta corticale a uno stimolo” sta misurando, in realtà, quanto quello stimolo era inatteso dato il contesto — non lo stimolo in sé. Disegnare esperimenti che manipolano esplicitamente la prevedibilità dello stimolo (lo stesso stimolo presentato in un contesto che lo rende atteso o sorprendente) è diventato una pratica diffusa proprio sull’onda del predictive coding, e questo vale indipendentemente da quanto la teoria nel suo complesso reggerà. Un buon framework, anche quando è contestato nelle sue tesi forti, può lasciare in eredità modi migliori di porre le domande sperimentali.

Dove si rompe

Il predictive processing è una delle costruzioni più ambiziose delle neuroscienze teoriche degli ultimi decenni. Proprio per questo va detto con precisione dove non regge, dove regge solo in parte, e dove — per come è formulato — non può essere messo alla prova. Questa sezione conta quanto le precedenti.

Il dark room problem. È l’obiezione più immediata, e ha la forma di un paradosso. Se il cervello cerca di minimizzare la surprise e l’errore di predizione, allora la cosa migliore che un organismo possa fare è cercare una stanza buia, silenziosa, immutabile — dove l’input sensoriale è perfettamente predicibile e l’errore è zero — e restarci per sempre. Ma gli organismi reali fanno l’opposto: esplorano, giocano, cercano novità, si annoiano nell’immutabile. Perché?

La risposta dei proponenti — articolata da Friston, Christopher Thornton e Andy Clark in Free-energy minimization and the dark-room problem (Frontiers in Psychology, 2012) — è duplice. Primo: il modello generativo di un organismo include aspettative su un ambiente ricco e variabile e su stati fisiologici da mantenere; una stanza buia, dopo poco, genererebbe enorme surprise, perché lo stato “ho fame e nessuno stimolo lo risolve” è esattamente uno stato che il modello dell’organismo non si aspetta. Secondo: la quantità che conta non è la surprise istantanea ma la free energy attesa sul futuro, e questa include un termine che spinge a ridurre l’incertezza — cioè a esplorare, a cercare informazione. La replica è coerente. I critici, però, notano che è anche sintomatica: il framework si difende aggiustando il modello generativo, e un framework che si adatta a qualunque dato regolando un suo componente non vincola molto. Il che porta direttamente all’obiezione successiva.

La (non) falsificabilità del free energy principle. Questa è la critica più seria, e va capita bene perché è anche sottile. Friston ha dichiarato, esplicitamente e più volte, che il free energy principle nella sua forma più generale non è una teoria empirica ma un principio matematico — e che come tale non può essere falsificato da un esperimento, allo stesso modo in cui non si falsifica con un esperimento il principio di minima azione in fisica. Un principio non è vero o falso: è uno strumento di descrizione.

Per una parte della comunità questa è una difesa che si trasforma in un’accusa. Una teoria scientifica del cervello deve fare previsioni che, se sbagliate, la affondano. Un principio che è compatibile con qualunque osservazione — perché qualunque sistema, opportunamente descritto, può essere visto come se minimizzasse una free energy — non spiega il cervello: lo ridescrive. Spiega tutto, e quindi non vincola nulla. Critiche più sistematiche aggiungono altri punti: lo slittamento tra la “free energy” della termodinamica e quella informazionale, due quantità con lo stesso nome legate solo da un’analogia matematica, trattate a volte come se fossero la stessa cosa fisica; la confusione tra descrivere un sistema come se ottimizzasse qualcosa e spiegare che lo fa meccanicisticamente; l’ingresso surrettizio di un linguaggio teleologico — “obiettivi”, “preferenze” — in processi che dovrebbero essere meccanici.

La difesa più solida separa due livelli. Il free energy principle, come principio, in effetti non è falsificabile — ma non lo è per costruzione, come una definizione. Quello che è falsificabile sono i modelli di processo specifici derivati dal principio: un particolare modello generativo, una particolare struttura gerarchica di precisione, una particolare ipotesi su quali neuroni codificano errore e quali predizione. Quei modelli fanno previsioni testabili e possono essere smentiti. Il FEP fa da cornice; le teorie verificabili stanno un piano sotto. È una distinzione legittima, ma non scioglie del tutto il disagio: una cornice che non rischia nulla è una cornice di cui resta difficile dire se sia vera.

C’è un modo equilibrato di tenere insieme le due posizioni, ed è anche il modo in cui questo capitolo invita a leggere il predictive processing. Una cornice non falsificabile non è di per sé inutile: la teoria della probabilità non è falsificabile, eppure è uno strumento prezioso. Il rischio non sta nell’avere una cornice, sta nel confonderla con una scoperta empirica. Finché il free energy principle viene usato come linguaggio per formulare modelli verificabili, fa il suo mestiere. Quando viene presentato come la spiegazione, già provata, di come funziona il cervello, oltrepassa ciò che il suo stesso statuto epistemico gli concede. La distinzione, di nuovo, è una distinzione di classi di affermazione: un principio organizzativo non è un teorema, e un modello di processo non è il principio da cui discende.

L’evidenza neurale è parziale. Il predictive coding fa un’affermazione anatomica precisa: ci sono unità di errore e unità di predizione, in strati corticali distinti, con firme distinte nelle bande di frequenza dell’attività elettrica. L’ipotesi — strati superficiali per l’errore che proietta in avanti, strati profondi per la predizione che proietta indietro, e una corrispondente separazione di frequenze — è suggestiva e ha qualche supporto, ma non è confermata in modo univoco. Nessuno ha isolato in modo indiscutibile una popolazione di “neuroni di errore di predizione” dedicati. E altri modelli — reti ad attrattori, codifica sparsa — spiegano gli stessi dati neurofisiologici senza bisogno di postulare unità di errore separate. Il predictive coding è una interpretazione dei dati, plausibile e fertile, non l’unica compatibile con essi.

Vale la pena essere precisi su cosa significhi “evidenza parziale”, perché non è la stessa cosa di “evidenza assente”. Esistono osservazioni che il predictive coding spiega bene: la soppressione della risposta a stimoli attesi (la mismatch negativity, una risposta elettrica più forte a un suono inatteso in una sequenza regolare, ne è l’esempio più studiato), l’attenuazione sensoriale dell’autostimolazione, gli effetti di contesto sui campi recettivi. Quello che manca è la prova decisiva: una misura che mostri inequivocabilmente neuroni dedicati al solo errore, fisicamente distinti da neuroni dedicati alla sola predizione, organizzati negli strati previsti. Finché quella prova non c’è, il predictive coding resta una cornice interpretativa potente per dati che ammettono anche altre letture — e onestà vuole che lo si dica.

Non è l’unica teoria, e il riconoscimento rapido la mette in difficoltà. Il cervello riconosce un oggetto in una scena in circa 100-150 millisecondi. È un tempo brevissimo — appena sufficiente perché il segnale percorra la gerarchia visiva una volta, dal basso verso l’alto. Ma il predictive coding, nella sua forma iterativa, ha bisogno di più cicli di andata e ritorno — predizione giù, errore su, revisione, di nuovo — per stabilizzarsi sul punto fisso. Il riconoscimento ultrarapido sembra quindi più compatibile con un primo passaggio puramente feedforward, e la lettura più equilibrata è che la corteccia faccia entrambe le cose: una prima ipotesi rapida bottom-up, poi un raffinamento predittivo iterativo per i casi ambigui. Il predictive processing convive e compete con altri quadri — efficient coding, codifica sparsa, modelli feedforward del riconoscimento rapido — e presentarlo come la teoria ormai vincente sarebbe scorretto.

L’ambizione di spiegare tutto è un punto di forza e un punto debole insieme. Il predictive processing, soprattutto nella forma del free energy principle, è stato esteso ben oltre la percezione visiva: alle emozioni (lette come inferenza sugli stati interni del corpo, l’interocezione), alla coscienza, alla psichiatria, perfino alla biologia dell’evoluzione e all’origine della vita. Un framework che spiega la visione, la depressione, il movimento e l’autopoiesi con la stessa equazione è seducente — ma la seduzione è anche il rischio. Più una teoria è elastica, più è facile che si pieghi a posteriori su qualunque osservazione, e più diventa difficile capire quali osservazioni la metterebbero in crisi. Una buona teoria della percezione e una buona teoria di tutto non sono la stessa cosa, e l’estensione del PP a domini sempre più lontani va guardata con la stessa cautela con cui si guarda ogni “teoria del tutto”.

Il fraintendimento più comune. È prendere lo slogan — “il cervello è una macchina predittiva” — e leggerlo come un fatto acquisito anziché come il nome di un programma di ricerca. Il predictive processing è un programma ambizioso, fertile, che ha unificato il vocabolario di pezzi di neuroscienza prima separati e ha prodotto previsioni verificate, come l’end-stopping. È anche una teoria con un nucleo non falsificabile, un’evidenza neurale parziale e concorrenti seri. Le due cose stanno insieme: una teoria può essere influente e contestata, e questo non è uno scandalo — è la condizione normale di una teoria viva.

Il modo onesto di chiudere questa sezione è dire dove sta, oggi, il consenso. Quasi nessuno nega che la predizione e il feedback top-down abbiano un ruolo importante nella percezione: su questo il predictive processing ha spostato il dibattito in modo probabilmente irreversibile. Quello su cui non c’è consenso è la tesi forte — che la predizione sia il principio unico di funzionamento del cervello, e che il free energy principle ne sia la formulazione corretta. La posizione prudente, e quella che questo capitolo adotta, è intermedia: il predictive processing è una delle migliori cornici disponibili per pensare la corteccia, ha un nucleo empirico solido e un guscio teorico ipertrofico, e va usato sapendo distinguere l’uno dall’altro.

Il ponte con l’intelligenza artificiale

Il predictive processing parla la lingua del machine learning, e proprio per questo è il punto in cui questo capitolo è più facile da raccontare male. Mettiamo in fila i legami, ciascuno con la sua classe di affermazione dichiarata.

Predictive coding e backpropagation: equivalenza approssimata, dimostrata sotto ipotesi. Esiste un filone di ricerca — avviato da James Whittington e Rafal Bogacz nel 2017, proseguito da Beren Millidge, Alexander Tschantz, Christopher Buckley e altri — che mostra un risultato preciso: una rete che esegue predictive coding con un apprendimento locale (ogni sinapsi si aggiorna usando solo informazione disponibile localmente) può approssimare la backpropagation, l’algoritmo che addestra le reti neurali artificiali, in certe condizioni anche su grafi di calcolo arbitrari. L’interesse è che la backpropagation richiede di trasportare il segnale d’errore in modo non-locale lungo tutta la rete — cosa biologicamente implausibile — mentre il predictive coding raggiunge un risultato simile con aggiornamenti locali. La classe è questa: un’equivalenza approssimata, valida sotto ipotesi esplicite, da enunciare con le sue ipotesi. Non è “il cervello fa backpropagation”; è “un certo schema di predictive coding, sotto certe condizioni, calcola qualcosa di vicino a ciò che calcola la backpropagation”.

Free energy variazionale e autoencoder variazionali: equivalenza matematica del funzionale obiettivo. La free energy variazionale di Friston è, sul piano matematico, l’opposto in segno dell’Evidence Lower Bound (ELBO), la quantità che un variational autoencoder — un modello generativo del machine learning — ottimizza durante l’addestramento. Minimizzare la free energy e massimizzare l’ELBO sono la stessa operazione. La classe è equivalenza del funzionale obiettivo, argomentabile e non solo asserita — ma attenzione a non gonfiarla. Non è una filiazione: chi ha progettato il variational autoencoder, nel 2013, non lo ha fatto copiando Friston. Non è un’equivalenza di architettura: un autoencoder ha una struttura encoder-decoder che ricorda — per analogia — la coppia errore/predizione del predictive coding, ma non è quella struttura. Entrambi attingono a una sorgente comune, l’inferenza variazionale, sviluppata in statistica. È convergenza su uno strumento matematico condiviso, non discendenza dell’uno dall’altro.

World model e active inference: analogia strutturale forte, con un caso di filiazione diretta. Un world model — un modello che, dato lo stato corrente e un’azione, predice il prossimo stato — è concettualmente parente dell’active inference: entrambi hanno un modello generativo, generano predizioni, correggono sull’errore. Un agente che pianifica simulando il futuro nella propria testa sta facendo qualcosa di analogo. La classe, in generale, è analogia strutturale forte: stessa idea computazionale, implementazioni diverse. C’è però un’eccezione che va isolata: esiste una comunità di ricerca che costruisce agenti esplicitamente sul principio dell’active inference, derivandoli dal lavoro di Friston. Per quegli agenti il legame è una filiazione diretta e documentata — ma riguarda quella linea specifica di ricerca, non gli agenti basati su reinforcement learning né i modelli di linguaggio del mainstream.

Next-token prediction degli LLM e cervello predittivo: analogia debole, da disinnescare. Questa è la tentazione più forte e va affrontata di petto. Un modello di linguaggio è addestrato a predire il prossimo token e a minimizzare l’errore di quella predizione; il cervello, secondo il predictive processing, minimizza l’errore di predizione. Lo slogan facile — “un LLM è un cervello predittivo” — è sbagliato. Ciò che coincide è il vocabolario: la parola “predizione”, la parola “errore”. Ciò che non coincide è il meccanismo. Un modello di linguaggio minimizza una funzione di perdita su un dataset fisso, in una fase di addestramento separata, usando backpropagation globale; una volta addestrato, in inferenza, non aggiorna più nulla. Non c’è una gerarchia di unità di errore e unità di predizione che si scambiano segnali. Non c’è active inference: il modello non agisce sul mondo per conformarlo alle proprie predizioni. Non c’è precision weighting modulata da neuromodulatori. Non c’è un modello generativo del mondo fisico aggiornato in tempo reale dai sensi. Al massimo resta un’analogia lasca a livello di obiettivo astratto — “ridurre la sorpresa predittiva” — e a quel livello l’analogia è troppo generica per insegnare qualcosa. Va marcata come analogia debole, e tenuta separata dai tre legami precedenti, che sono di tutt’altra solidità.

La lezione di metodo è la stessa di altri capitoli di questa Parte. I legami fra predictive processing e AI vanno da un’equivalenza matematica dimostrabile (free energy e ELBO) a un’analogia troppo debole per essere utile (LLM e cervello predittivo), passando per gradazioni intermedie. Tenere distinte queste classi non è pedanteria: è la differenza fra un’affermazione difendibile e una suggestione che, ripetuta abbastanza, diventa un mito.

C’è un punto che vale la pena isolare, perché spiega perché il predictive coding interessa al machine learning oltre la pura curiosità neuroscientifica. La backpropagation, l’algoritmo che addestra praticamente tutte le reti neurali artificiali di oggi, ha un difetto noto da decenni: non è locale. Per aggiornare un peso nel mezzo di una rete profonda serve un segnale d’errore calcolato in cima e propagato all’indietro attraverso tutti gli strati, con informazione che ogni strato deve “ricordare” mentre aspetta il ritorno. Un cervello biologico non sembra avere il cablaggio per fare questo: le sinapsi si aggiornano con ciò che è disponibile lì, localmente. Il predictive coding, con la sua architettura di unità di errore distribuite a ogni livello, offre un modo di ottenere un apprendimento simile alla backpropagation usando solo segnali locali. Per la neuroscienza è un’ipotesi su come il cervello potrebbe imparare; per il machine learning è un candidato per un addestramento più parallelizzabile e meno vincolato dalla propagazione globale dell’errore. È un raro caso di traffico a doppio senso fra i due campi — e anche qui la classe dell’affermazione va tenuta ferma: è un risultato tecnico promettente, non la prova che il cervello “fa backprop”.

Tre errori di predizione, da non confondere

L’espressione “errore di predizione” compare in questa Parte III in tre capitoli diversi, e si riferisce a tre cose distinte. Vale la pena metterle in fila esplicitamente, perché la coincidenza di nome è uno degli inganni più facili.

Il prediction error sensoriale è quello di questo capitolo: la differenza tra l’input sensoriale atteso e quello effettivo, calcolata a ogni livello della gerarchia corticale. Guida l’inferenza percettiva e, mediato nel tempo, l’apprendimento del modello generativo. Il paradigma di apprendimento sottostante è non supervisionato — il sistema impara a predire i propri dati sensoriali, e quei dati sono il loro stesso target.

Il reward prediction error è quello del capitolo Dopamina: la differenza tra la ricompensa attesa e quella ricevuta, segnalata dai neuroni dopaminergici. Guida il reinforcement learning — l’apprendimento di quali azioni convengono. Non riguarda cosa c’è nel mondo, ma quanto vale.

L’errore sensori-motorio è quello del capitolo Il cervelletto: la differenza tra le conseguenze sensoriali predette di un comando motorio e quelle effettive, usata per calibrare il movimento. Il paradigma è l’apprendimento supervisionato — il feedback sensoriale reale fornisce gratis il target.

Tre errori, tre paradigmi di apprendimento, tre circuiti. Il predictive processing, nella sua versione più ambiziosa — il free energy principle — propone di ricondurli tutti a una stessa minimizzazione: anche il reward prediction error diventerebbe un caso di errore di predizione, se le “preferenze” dell’organismo sono codificate come predizioni di stati che esso si aspetta di occupare. È una proposta di unificazione elegante e dichiarata; non è un fatto stabilito, ed è bene tenere distinti i tre errori finché l’unificazione resta una scommessa teorica e non una conclusione.

Cosa portarsi via

Il predictive processing lascia al lettore tecnico una lente, più che una serie di fatti. La lente è questa: un sistema cognitivo si capisce meglio chiedendosi cosa predice e come tratta i suoi errori, piuttosto che chiedendosi solo cosa elabora. È una domanda che si può rivolgere a un cervello, a un agente, a un’architettura cognitiva, e che spesso illumina più della descrizione dei singoli moduli.

Allo stesso tempo, il capitolo lascia un esercizio di disciplina. Il vocabolario del predictive processing — predizione, errore, modello generativo, inferenza, sorpresa — è così vicino a quello del machine learning che il salto verso l’equivalenza è sempre a portata di mano, e quasi sempre sbagliato. La differenza fra una buona analogia e un mito sta tutta nel marcare la classe del legame: convergenza matematica, filiazione documentata, somiglianza didattica, o nient’altro che parole condivise. Il predictive processing è un’ottima palestra per quella disciplina proprio perché invita continuamente a saltarla.

Collegamenti

Neuroni, sinapsi, plasticità — il predictive processing è una teoria su come la corteccia usa i suoi neuroni; questo capitolo fornisce i mattoni di base — neurone, sinapsi, eccitazione e inibizione — su cui le ipotesi sulle unità di errore e di predizione si appoggiano.
La corteccia: strati, colonne, aree — l’ipotesi che le unità di errore stiano negli strati corticali superficiali e quelle di predizione in quelli profondi è un’affermazione sull’architettura a strati della corteccia: il capitolo sulla corteccia ne dà l’anatomia, qui se ne propone una funzione.
Il cervelletto: la macchina che impara a predire — il forward model cerebellare predice le conseguenze sensoriali di un comando motorio; il predictive processing lo rilegge come un caso particolare del proprio schema generale di predizione ed errore. È il parente più stretto di questo capitolo nella Parte III.
Percezione come inferenza bayesiana — il livello complementare a questo: lì la percezione è descritta come inferenza bayesiana (il cosa e il perché); qui il predictive processing propone un come — il meccanismo corticale che potrebbe implementare quell’inferenza. I due capitoli vanno letti in coppia.
Dopamina: il segnale di errore che il cervello e il reinforcement learning condividono — un confronto istruttivo fra due “errori di predizione” del cervello: la dopamina porta un errore di predizione della ricompensa (reinforcement learning), il predictive processing un errore di predizione sensoriale; e nel predictive processing la dopamina ricompare in un terzo ruolo, come segnale di precisione. Stessa parola, riferimenti diversi.
Cervello e rete neurale: somiglianze reali e analogie ingannevoli — il capitolo che mette in chiaro, in generale, quali parallelismi cervello-AI tengono e quali ingannano; i legami fra predictive coding, backpropagation e autoencoder discussi qui sono un caso di studio diretto di quel problema.
Attenzione psicologica: Broadbent, Treisman, modelli a spotlight — il predictive processing propone di ridurre l’attenzione all’ottimizzazione della precisione; questo capitolo descrive i modelli psicologici classici dell’attenzione con cui quella proposta va confrontata.
Cognizione embodied: la mente nel corpo e nel mondo — Andy Clark, in Surfing Uncertainty, integra il predictive processing con la cognizione embodied: l’active inference rende il corpo e l’ambiente parte del circuito di minimizzazione dell’errore, non semplici input.
Buffer sensoriale: memoria iconica e memoria echoica — il predictive processing reinterpreta cosa “registrano” i sistemi sensoriali: non un’immagine fedele da bufferizzare, ma l’errore rispetto a una predizione; un utile contrappunto ai modelli classici della memoria sensoriale.

Per andare oltre

Rao, R.P.N. & Ballard, D.H. (1999). “Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects.” Nature Neuroscience, 2(1), 79-87. Il modello fondante del predictive coding corticale: feedback come predizione, feedforward come errore, e la spiegazione dell’end-stopping. Tecnico ma leggibile.
Friston, K. (2010). “The free-energy principle: a unified brain theory?” Nature Reviews Neuroscience, 11(2), 127-138. L’articolo di riferimento del free energy principle e dell’active inference. Denso; la prima metà è la più accessibile.
Clark, A. (2013). “Whatever next? Predictive brains, situated agents, and the future of cognitive science.” Behavioral and Brain Sciences, 36(3), 181-204. La sintesi filosofica del predictive processing, con la Sezione 3 dedicata alle insidie della teoria — utile proprio per non leggerla come verità acquisita. L’articolo è seguito da decine di repliche critiche, anch’esse istruttive.
Clark, A. (2016). Surfing Uncertainty: Prediction, Action, and the Embodied Mind. Oxford University Press. L’estensione monografica: percezione, azione, attenzione, sogno come facce della minimizzazione dell’errore di predizione, integrate con la cognizione embodied.
Friston, K., Thornton, C. & Clark, A. (2012). “Free-energy minimization and the dark-room problem.” Frontiers in Psychology, 3, 130. La risposta dei proponenti alla più nota obiezione alla teoria; breve e utile per vedere come il framework si difende — e perché quella difesa lascia insoddisfatti i critici.
Sprevak, M. & Smith, R. (2023). “An Introduction to Predictive Processing Models of Perception and Decision-Making.” Topics in Cognitive Science. Un’introduzione recente e bilanciata, utile per le definizioni operative (precisione, modello generativo) e per un quadro ordinato delle critiche; un buon punto di partenza prima dei paper primari.
Voce “The Free Energy Principle”, Open Encyclopedia of Cognitive Science (MIT). Una sintesi enciclopedica che mette a fuoco la distinzione, centrale per leggere la teoria con giudizio, fra il principio (non falsificabile per costruzione) e i modelli di processo da esso derivati (questi sì verificabili).
Millidge, B., Salvatori, T. et al. (2022). “Predictive Coding: Towards a Future of Deep Learning beyond Backpropagation?” Una rassegna del filone che collega le reti di predictive coding alla backpropagation; utile per inquadrare con precisione, e con le giuste cautele, il legame fra il meccanismo neuroscientifico e l’apprendimento delle reti artificiali.