Il cervelletto: la macchina che impara a predire

Una struttura che contiene metà dei neuroni del cervello, non genera nessun movimento e non decide nulla — eppure senza di essa ogni gesto diventa goffo. Questo capitolo segue il cervelletto da un’anatomia quasi cristallina alla teoria che lo descrive come un perceptron, fino ai modelli interni che predicono il futuro: il punto in cui le neuroscienze incontrano l’apprendimento supervisionato e i world model.

Un chirurgo del primo Novecento rimuove un tumore dal cervelletto di un paziente. L’operazione riesce: il paziente cammina, parla, ragiona, ricorda. Non è paralizzato, non è confuso, non ha perso la coscienza.

Ma quando allunga la mano verso un bicchiere, la mano lo manca, lo supera, torna indietro, oscilla — come una freccia scoccata da un arco mal calibrato. I muscoli funzionano, il piano c’è, la volontà è intatta. Manca la calibrazione.

Quel quadro clinico ha un nome — atassia — e racconta in negativo cosa fa il cervelletto. Il cervelletto non produce i movimenti e non sceglie quali eseguire. Li raffina.

Predice dove finirà la mano prima che ci arrivi, confronta la predizione con l’obiettivo, corregge. È una macchina di anticipazione, e questo capitolo segue come funziona — e perché la sua storia è anche un pezzo di storia dell’intelligenza artificiale.

Perché questo capitolo

I capitoli precedenti della Parte III hanno costruito il cervello pezzo per pezzo e poi struttura per struttura. Neuroni, sinapsi, plasticità lo ha presentato in scala; Il potenziale d’azione ha seguito il segnale lungo un neurone; La sinapsi la comunicazione fra due cellule; La plasticità hebbiana come una connessione cambia forza con l’esperienza; La corteccia ha disposto quei mattoni a strati.

Poi le strutture profonde: Dopamina, un segnale globale di errore di predizione della ricompensa; L’ippocampo, la mappa e il ricordo episodico; I gangli della base, l’arbitro che seleziona quale azione passa.

Manca un anello, e non è un anello qualunque. I gangli della base scelgono quale azione. Ma una volta scelta, l’azione va eseguita con precisione — la mano deve arrivare dove deve, al momento giusto, con la forza giusta. Questo è il mestiere del cervelletto. È il pezzo che trasforma una decisione in un gesto calibrato, e che impara, tentativo dopo tentativo, a calibrarlo meglio.

C’è poi una ragione che riguarda direttamente le Parti tecniche di questa wiki. Il cervelletto è il caso storico più netto di una struttura cerebrale spiegata, decenni fa, come una rete di apprendimento supervisionato.

La teoria che lo descrive — il modello di Marr-Albus — non è un’analogia costruita a posteriori dopo il successo del deep learning. È nata nel 1969-1971, quando il perceptron (il primo modello di neurone artificiale addestrabile, di cui parleremo fra poco) era ancora un’idea giovane, e i suoi autori pensavano letteralmente in termini di perceptron. È una delle filiazioni più solide e meno raccontate fra neuroscienze e AI, e una parte di questo capitolo serve a raccontarla con le classi di affermazione giuste: dove è filiazione documentata, dove è analogia, dove è solo somiglianza di superficie.

Infine, il cervelletto introduce un’idea che attraversa tutta l’AI moderna: il modello interno. Una struttura che, invece di reagire al mondo, costruisce dentro di sé una predizione di cosa il mondo farà — e agisce su quella predizione. È l’antenato neuroscientifico di ciò che oggi si chiama world model.

Contesto: il piccolo cervello e il suo paradosso

Il cervelletto — il nome significa “piccolo cervello” — è una struttura appesa sotto la parte posteriore del cervello, dietro il tronco encefalico. Visto da fuori è una massa ripiegata in solchi sottili e paralleli, molto più fitti di quelli della corteccia.

Il primo fatto che colpisce è un paradosso di scala. Il cervelletto occupa circa il 10% del volume del cervello, ma contiene la maggioranza dei suoi neuroni: stime recenti parlano di circa 80 miliardi di neuroni nel cervelletto contro circa 86 miliardi nel resto del cervello messo insieme.

Più della metà dei neuroni umani sta in quel 10% di volume. Quasi tutti questi neuroni sono di un solo tipo minuscolo — le cellule dei granuli, di cui diremo fra poco. Una struttura che concentra tanti neuroni dello stesso tipo in poco spazio non è dispersiva: sta facendo, in modo molto efficiente, una cosa sola. Il paradosso di scala è in realtà un indizio sulla funzione.

Il secondo fatto arriva dalla clinica, ed è quello che apre il capitolo. Una lesione del cervelletto non paralizza e non toglie la coscienza. Produce un quadro caratteristico:

Atassia: movimenti scoordinati, l’andatura insicura come quella di un ubriaco.
Dismetria: errori di ampiezza — la mano supera il bersaglio (ipermetria) o non lo raggiunge (ipometria).
Tremore intenzionale: il tremore aumenta proprio quando il movimento si avvicina al bersaglio e serve la massima precisione.
Disartria: la parola diventa scandita, mal temporizzata.

Il filo che unisce questi sintomi è la calibrazione. Nessuno di essi è una perdita di forza o di volontà. Sono tutti errori di taratura: ampiezza sbagliata, timing sbagliato, correzione che arriva male. Il cervelletto, letto in negativo dalle sue malattie, è l’organo che tara il movimento.

Storicamente il cervelletto è stato studiato dal fisiologo francese Marie-Jean-Pierre Flourens nell’Ottocento, che ne osservò il ruolo nella coordinazione rimuovendolo in animali e descrivendone l’andatura disordinata. Nel Novecento è stato mappato in dettaglio anatomico da neuroanatomisti come János Szentágothai (anatomista ungherese) e dal premio Nobel John Eccles (neurofisiologo australiano, che studiò la trasmissione sinaptica).

Furono proprio i dati anatomici raccolti da Eccles, Szentágothai e dal neuroscienziato giapponese Masao Ito — riassunti nel loro libro del 1967 The Cerebellum as a Neuronal Machine — a fornire la base su cui, due anni dopo, venne costruita la prima teoria computazionale del cervelletto. È un punto da tenere a mente: la teoria di Marr non nasce dal nulla, nasce da una macchina anatomica già descritta nel dettaglio. Il titolo stesso del libro — “il cervelletto come macchina neuronale” — invitava a cercarne il programma.

L’anatomia: un circuito che si ripete identico

Per capire il cervelletto bisogna guardarne il microcircuito, perché il microcircuito è la teoria. La caratteristica più importante dell’anatomia cerebellare è la sua uniformità: lo stesso identico schema di connessioni si ripete, quasi senza variazioni, in tutta la corteccia cerebellare.

Questa uniformità ha un significato computazionale preciso. Una struttura che ripete lo stesso modulo decine di milioni di volte sta quasi certamente eseguendo la stessa operazione su input diversi — come una scheda grafica che applica lo stesso kernel a milioni di pixel.

Se troviamo cosa fa un singolo modulo, sappiamo cosa fa tutto il cervelletto. È esattamente questo a rendere il cervelletto un bersaglio così attraente per chi cerca una teoria computazionale del cervello: a differenza della corteccia, dove regioni diverse fanno cose diverse, qui c’è una sola operazione da decifrare.

Ecco i componenti del modulo.

Le cellule di Purkinje sono i grandi neuroni di output. Hanno un albero dendritico piatto, quasi bidimensionale — “isoplanare” — impilato nella corteccia come foglie pressate in un libro. Nell’uomo sono circa 15 milioni.

Una proprietà cruciale: la cellula di Purkinje è inibitoria, usa il neurotrasmettitore GABA. L’unico output della corteccia cerebellare è quindi un segnale di freno, diretto verso i nuclei cerebellari profondi che a loro volta proiettano al resto del cervello. Il cervelletto non “accende” nulla a valle: modula, smorza, frena in modo selettivo. Tienilo a mente, perché spiega perché l’apprendimento cerebellare consista nell’aggiustare quanto frenare in un dato contesto.

Le cellule dei granuli (in inglese granule cells) sono i neuroni d’ingresso, e sono il caso anatomico più estremo del cervello: circa 50 miliardi, i neuroni più numerosi e tra i più piccoli. Ogni granulo ha solo quattro o cinque dendriti, ciascuno terminante in un “artiglio” (dendritic claw).

Il suo assone sale verso lo strato superficiale, si biforca a T, e diventa una fibra parallela: un filo lungo circa 6 mm che corre orizzontale e attraversa, perpendicolarmente, gli alberi dendritici di molte cellule di Purkinje in fila. Una fibra parallela “infila” centinaia di Purkinje come uno spiedino infila bocconi.

I due input del modulo arrivano da direzioni diverse e hanno ruoli opposti.

Le fibre muscoidi (in inglese mossy fibers, dal loro aspetto “muschioso” al microscopio) sono il primo input eccitatorio. Portano informazione sensoriale, propriocettiva (la posizione del corpo) e — fatto importante — una copia dei comandi motori che la corteccia sta inviando ai muscoli.

Le fibre muscoidi non contattano direttamente le Purkinje: contattano i granuli. Ogni granulo integra l’input di circa quattro fibre muscoidi diverse. Questo passaggio intermedio attraverso i granuli, come si vedrà, non è un dettaglio di cablaggio: è il punto in cui avviene la trasformazione computazionale più importante del cervelletto.

Le fibre rampicanti (in inglese climbing fibers) sono il secondo input eccitatorio, e sono speciali. Provengono tutte da un unico nucleo del tronco encefalico, l’oliva inferiore. Il rapporto con le Purkinje è quasi esattamente 1:1: ogni cellula di Purkinje adulta riceve una sola fibra rampicante.

Ma quella singola fibra non si limita a sfiorarla — le si avvolge intorno, “rampica” sull’albero dendritico con centinaia di contatti sinaptici. Quando una fibra rampicante scarica, scatena nella Purkinje un evento elettrico massiccio, impossibile da ignorare, chiamato complex spike. È un input che non vota: comanda.

Il contrasto tra i due input è la chiave di tutto. Le fibre parallele arrivano a migliaia su ogni Purkinje, ciascuna con un voto debole, e scaricano spesso (i “simple spike”, a circa 50 al secondo). La fibra rampicante arriva da sola, con un voto schiacciante, e scarica raramente (circa una volta al secondo). Migliaia di sussurri da un lato, un grido isolato dall’altro.

Questo squilibrio non è un dettaglio: è il fondamento del ruolo che la teoria assegnerà ai due input. Un canale ad alta larghezza di banda e voto debole è perfetto per portare contesto — il quadro sensori-motorio del momento, ricco e sfumato. Un canale a banda strettissima e voto schiacciante è perfetto per portare un verdetto — un segnale raro, deciso, che dice “correggi”. L’anatomia, da sola, suggerisce già la divisione dei compiti.

Restano gli interneuroni inibitori — cellule a canestro e stellate, che inibiscono le Purkinje, e cellule di Golgi, che inibiscono i granuli con un feedback che mantiene “sparso” il pattern di attività. Torneranno utili più avanti.

Per ora basta lo schema essenziale: due input (le fibre muscoidi, che entrano via i granuli; le fibre rampicanti, che entrano dirette sulle Purkinje), un output (le cellule di Purkinje, di tipo freno, verso i nuclei profondi). Tutto il resto del capitolo è la lettura di questo schema.

L’intuizione, primo angolo: un perceptron fatto di cellule

Nel 1969, un giovane neuroscienziato britannico di nome David Marr (1945-1980, che di lì a poco avrebbe rifondato lo studio della visione con il suo libro postumo Vision e sarebbe morto a soli 35 anni di leucemia) guarda quello schema anatomico e ci vede una macchina che conosce già.

Vede un perceptron. È una delle intuizioni che hanno fatto la sua reputazione: la teoria del cervelletto fu il primo dei tre lavori — cervelletto, ippocampo, neocorteccia — con cui Marr, appena dottorando, tentò di dare una spiegazione computazionale a tre grandi strutture del cervello.

Conviene fissare cos’è un perceptron, perché è il cardine del capitolo. Il perceptron, introdotto dallo psicologo statunitense Frank Rosenblatt nel 1958, è il più semplice neurone artificiale addestrabile.

Funziona così: riceve molti ingressi numerici, ciascuno moltiplicato per un proprio peso; somma tutti i prodotti; se la somma supera una soglia, l’uscita è “attivo”, altrimenti “spento”.

Impara modificando i pesi: quando sbaglia, un segnale esterno gli dice di quanto e in che direzione correggere ciascun peso. È apprendimento supervisionato — c’è un maestro che fornisce la risposta giusta — e error-driven, guidato dall’errore. Senza il maestro il perceptron non impara: la sua intelligenza, tutta, sta nel saper aggiustare i pesi quando qualcuno gli segnala uno sbaglio.

Ora rileggi l’anatomia con questa lente. La cellula di Purkinje riceve migliaia di ingressi dalle fibre parallele. Ciascuna sinapsi fibra parallela-Purkinje ha una sua forza — un peso. La Purkinje somma e, se l’input totale è abbastanza forte, risponde. È un perceptron: gli ingressi sono le fibre parallele, i pesi sono le forze sinaptiche, la soglia è regolata dagli interneuroni inibitori.

E il maestro? Il maestro è la fibra rampicante. Marr propone che la fibra rampicante sia il segnale di insegnamento (in inglese teaching signal): quando scarica, dice alla Purkinje “in questo contesto la tua risposta era da correggere”.

L’apprendimento avviene modificando le sinapsi fibra parallela-Purkinje che erano attive nello stesso momento in cui la fibra rampicante ha scaricato. Questo accoppiamento — “modifica i pesi attivi quando arriva il segnale d’errore” — è esattamente la regola di apprendimento di un perceptron. Il contesto sensori-motorio è l’input, la risposta della Purkinje è l’output, la fibra rampicante è l’etichetta che dice se l’output andava bene.

Due anni dopo, nel 1971, un ingegnere statunitense del NIST, James Albus (1935-2011, che lavorava a sistemi di controllo per robot), arriva indipendentemente alla stessa idea e la pubblica in A theory of cerebellar function, sulla rivista Mathematical Biosciences.

Albus è ancora più esplicito di Marr: scrive che il cervelletto è “funzionalmente e strutturalmente equivalente a una modifica del classico perceptron”, e cita direttamente Rosenblatt. Le due teorie sono così vicine — formulate a due anni di distanza, da un neuroscienziato e da un ingegnere che non si erano coordinati — che da allora si parla di un unico modello di Marr-Albus. La convergenza indipendente è di per sé un segnale: due menti, da discipline diverse, guardano la stessa anatomia e vedono lo stesso oggetto.

Questo è il punto da marcare con cura, perché è una filiazione, non un’analogia. Non stiamo dicendo “il cervelletto, visto con gli occhi di oggi, ricorda una rete neurale”. Stiamo dicendo che Marr e Albus, nel momento in cui hanno costruito la teoria, avevano in mente il perceptron come modello esplicito, lo citavano, lo usavano come stampo.

La teoria del cervelletto discende dal perceptron come oggetto concettuale. È uno dei rari casi in cui l’AI ha prestato un modello alle neuroscienze, e non viceversa — il senso più comune del prestito, “il cervello ispira le reti”, qui è capovolto. La direzione conta, perché evita un errore frequente: pensare che ogni analogia cervello-AI vada letta come “la macchina imita la natura”.

L’intuizione, secondo angolo: gonfiare lo spazio per separare meglio

C’è un secondo modo di guardare il modulo cerebellare, e risponde a una domanda che il primo angolo lascia aperta: perché diavolo servono 50 miliardi di granuli?

Riprendiamo i numeri. Le fibre muscoidi che entrano in una data regione del cervelletto sono relativamente poche. I granuli su cui si diramano sono moltissimi. C’è un’enorme espansione: poche fibre in ingresso, una marea di granuli (e quindi di fibre parallele) in uscita verso le Purkinje. Marr dimostra che questa espansione non è spreco — è il cuore del calcolo.

L’idea, in inglese, si chiama expansion recoding (ricodifica per espansione). Immagina di dover separare due gruppi di punti che, sul piano, sono mescolati: nessuna retta li divide. Ora “solleva” ogni punto in una terza dimensione, dandogli un’altezza che dipende dalle sue coordinate. Nello spazio a tre dimensioni i due gruppi possono finire su altezze diverse, e a quel punto un semplice piano li separa. Aggiungere dimensioni rende separabile ciò che prima non lo era.

I granuli fanno esattamente questo. Prendono il pattern di poche fibre muscoidi e lo riscrivono in uno spazio di dimensione enormemente più alta — un asse per ogni granulo. In quello spazio gonfiato, pattern di input che erano “vicini” e confondibili diventano lontani e distinti.

Marr lo dimostra matematicamente: proiettare in alta dimensione tende a ortogonalizzare i pattern (renderli geometricamente indipendenti) e a renderli sparsi (pochi granuli attivi per volta). Le cellule di Golgi, con la loro inibizione di feedback, tengono il codice sparso e amplificano l’effetto.

A quel punto la cellula di Purkinje, che è “solo” un classificatore lineare — un perceptron — può separare pattern che da sola, sull’input grezzo, non riuscirebbe a separare. Il lavoro difficile lo ha fatto lo strato dei granuli, gonfiando lo spazio.

Conviene fermarsi sul perché l’espansione aiuti, perché è controintuitivo. Verrebbe da pensare che aggiungere dimensioni complichi il problema. Succede l’opposto: in dimensione bassa due classi di pattern hanno poco “spazio” per stare lontane, e finiscono mescolate; in dimensione alta c’è enormemente più spazio, e la probabilità che due pattern diversi finiscano vicini per caso crolla. La separazione diventa quasi gratis. È il motivo per cui un solo strato lineare, a valle di un’espansione abbastanza generosa, basta.

Per chi conosce il machine learning questo schema suona familiare, e va detto con la classe giusta. Lo strato dei granuli svolge, per analogia funzionale, il ruolo di uno strato nascosto in una rete neurale: una trasformazione non lineare che rende l’input separabile da uno strato lineare a valle.

È anche analoga al kernel trick delle Support Vector Machine, dove i dati vengono proiettati implicitamente in uno spazio ad alta dimensione per renderli linearmente separabili. Sono analogie potenti e geometriche — lo stesso principio matematico — ma restano analogie: nessuno ha progettato la SVM ispirandosi al cervelletto. La filiazione documentata riguarda Marr/Albus e il perceptron; il legame con strati nascosti e kernel è una convergenza sullo stesso principio, non una discendenza.

Tieni a mente i due angoli. Primo: la Purkinje è un perceptron e la fibra rampicante è il suo maestro. Secondo: lo strato dei granuli gonfia lo spazio degli input per rendere il lavoro del perceptron possibile. Insieme, descrivono il cervelletto come una macchina di apprendimento supervisionato a due strati.

La meccanica: la regola di apprendimento e il segno della plasticità

I due angoli hanno descritto cosa è il cervelletto. Resta da chiarire la meccanica esatta dell’apprendimento: quando una sinapsi fibra parallela-Purkinje cambia forza, e in che verso?

Marr e Albus concordavano su quasi tutto, ma divergevano su un punto, e quel punto è il segno della plasticità.

Entrambi proponevano che la regola fosse di tipo coincidenza: la sinapsi cambia quando la fibra parallela e la fibra rampicante sono attive nello stesso momento. La domanda era: cambia rinforzandosi o indebolendosi? Sembra un dettaglio tecnico, ma è la differenza fra due teorie dell’apprendimento opposte, e solo l’esperimento poteva deciderla.

Marr (1969): la coattivazione rinforza la sinapsi. La fibra rampicante segnala “questo input era buono, da potenziare”.
Albus (1971): la coattivazione indebolisce la sinapsi. La fibra rampicante segnala “questo input ha portato a un errore, da depotenziare”.

In pseudocodice, la regola di Albus per una singola sinapsi:

# pf = attività della fibra parallela su questa sinapsi
# cf = attività della fibra rampicante sulla Purkinje (segnale d'errore)
# w  = peso della sinapsi
# eta = tasso di apprendimento

if cf attiva:
    w = w - eta * pf      # depressione: si indebolisce ciò che era attivo

In parole povere: quando arriva il complex spike — il grido d’errore — il sistema indebolisce esattamente le sinapsi che in quel momento stavano “votando”, cioè quelle delle fibre parallele attive. La prossima volta che lo stesso contesto sensoriale si ripresenta, quelle fibre parallele faranno meno pressione sulla Purkinje, la Purkinje frenerà di meno, e l’output motorio sarà diverso. Se l’errore diminuisce, il cervelletto ha imparato.

Si noti la natura locale della regola. Per aggiornare il peso w servono solo tre quantità disponibili nel punto in cui la sinapsi si trova: l’attività della fibra parallela lì, il segnale della fibra rampicante sulla cellula, e il peso attuale. Nessun calcolo globale, nessuna informazione che debba viaggiare all’indietro lungo la rete. È un apprendimento che ogni sinapsi può fare per conto proprio — e questa località è una delle ragioni per cui il modello è biologicamente plausibile.

A vincere il confronto fu Albus, e fu un esperimento a deciderlo. Nel 1982 Masao Ito e colleghi dimostrarono in laboratorio che la stimolazione congiunta di fibre parallele e fibra rampicante produce un indebolimento duraturo della sinapsi fibra parallela-Purkinje. Questo fenomeno si chiama LTD, long-term depression (depressione a lungo termine) — il fenomeno speculare della LTP, la potenziazione a lungo termine già incontrata in Plasticità hebbiana. Per decenni la LTD cerebellare è diventata il meccanismo canonico dell’apprendimento motorio del cervelletto.

C’è una sottigliezza che vale la pena rendere esplicita. La LTD cerebellare non è una regola puramente hebbiana.

La regola di Hebb classica dice “neuroni che scaricano insieme rafforzano la loro connessione” — è non supervisionata, non c’è un maestro. La regola del cervelletto, invece, è guidata da un terzo segnale, la fibra rampicante, che non fa parte della coppia input-output ma le dice quando e come correggere.

È plasticità eterosinaptica e supervisionata — il termine “eterosinaptica” indica appunto che la modifica di una sinapsi è governata da un segnale che arriva da un’altra via: c’è un insegnante esterno. Questa differenza — un terzo segnale che modula l’apprendimento della coppia — è proprio ciò che rende il cervelletto un sistema supervised e non hebbiano, e ciò che lo apparenta al perceptron.

La verifica sul campo: il riflesso vestibolo-oculare

Una teoria così elegante rischia di restare speculazione. Il merito di averla messa alla prova sperimentale va soprattutto a Masao Ito (neuroscienziato giapponese, 1928-2018), che scelse per il test un sistema piccolo, misurabile e isolabile: il VOR.

Il VOR — vestibulo-ocular reflex, riflesso vestibolo-oculare — è il riflesso che muove gli occhi in direzione opposta alla testa per tenere ferma l’immagine sulla retina. Quando giri la testa a destra, gli occhi ruotano a sinistra esattamente della stessa quantità, e il mondo non “scivola”.

È un riflesso rapidissimo: la latenza è di circa 7-10 millisecondi, troppo poco per qualsiasi correzione basata sul vedere il mondo muoversi. Deve essere precalibrato — il guadagno giusto va impostato prima, e mantenuto aggiornato man mano che il corpo e gli occhi cambiano nel corso della vita.

E qui sta il punto interessante: il VOR si ricalibra. Se una persona indossa occhiali che ingrandiscono il campo visivo, il vecchio guadagno del VOR diventa sbagliato — gli occhi si muovono troppo poco rispetto a quanto serve, e il mondo scivola comunque. Dopo qualche giorno di uso continuo, il guadagno del VOR si aggiusta da solo per compensare la nuova ottica. Tolti gli occhiali, c’è un after-effect: per un po’ il VOR è tarato per gli occhiali che non ci sono più.

Ito mostrò, in quella che venne chiamata flocculus hypothesis (1982), che questa ricalibrazione richiede una regione cerebellare specifica, il flocculo, un lobulo le cui cellule di Purkinje regolano i nuclei vestibolari che comandano i muscoli oculari.

E — fatto decisivo — identificò il segnale d’errore. L’errore è lo scivolamento dell’immagine sulla retina, il retinal slip: quando il mondo scivola, qualcosa è andato storto. Il retinal slip viaggia fino al flocculo proprio attraverso le fibre rampicanti, esattamente nel ruolo che Marr-Albus avevano assegnato loro. Non era più una congettura: il “maestro” della teoria aveva un indirizzo anatomico e un contenuto identificabile.

Il VOR è quindi il caso da manuale del modello Marr-Albus al lavoro: input contestuale (la velocità della testa) sulle fibre muscoidi, segnale d’errore (il retinal slip) sulle fibre rampicanti, apprendimento via LTD nelle sinapsi delle Purkinje del flocculo. Tutti i pezzi della teoria, identificati in un circuito reale.

Vale la pena chiedersi perché Ito scelse proprio il VOR, e non un movimento più ricco come l’afferrare. La risposta dice qualcosa sul metodo delle neuroscienze. Il VOR ha pochissimi gradi di libertà — è quasi un sistema a un ingresso e un’uscita — il suo guadagno si misura con precisione, e il segnale d’errore (lo scivolamento retinico) è identificabile e manipolabile dall’esterno con un paio di occhiali. È il sistema più semplice possibile in cui tutti i pezzi del modello Marr-Albus sono visibili e misurabili contemporaneamente. Verificare una teoria sul caso più semplice, prima di estenderla, è una mossa di buon senso sperimentale.

Predizione e timing: il filo comune

Prima degli esempi conviene mettere a fuoco l’idea che li tiene insieme, perché il modello Marr-Albus rischia di far perdere di vista la funzione dietro il meccanismo.

Il meccanismo è: un perceptron addestrato da un segnale d’errore. La funzione è: predire. Il cervelletto, in tutte le sue manifestazioni, è una macchina che impara a prevedere — e a usare quella previsione per agire in anticipo invece che reagire in ritardo.

Predire cosa, esattamente? Tre cose, che gli esempi successivi illustrano una per una. Predice le conseguenze sensoriali di un comando: se muovo il braccio così, sentirò questo. Predice quando accadrà un evento: dopo questo suono, fra 250 millisecondi, arriverà il soffio. Predice la mappa fra intenzione e risultato: per colpire quel punto che vedo lì, devo mandare il braccio là.

In tutti e tre i casi il valore della predizione è lo stesso: comprare tempo. Un organismo che predice non deve aspettare che il mondo gli mostri il risultato di un’azione — lo sa già, con buona approssimazione, e può correggere mentre l’azione è ancora in corso. È esattamente la ragione per cui un sistema AI moderno costruisce un modello del proprio ambiente: per non dover pagare il costo di ogni tentativo nel mondo reale. La predizione anticipata è una scorciatoia contro la lentezza del feedback, nel cervelletto come in un agente software.

Esempi

Tre situazioni concrete, di natura diversa, in cui la macchina cerebellare si vede al lavoro.

Esempio 1 — il conditioning della palpebra (timing in millisecondi). Un esperimento classico: si presenta a un animale un suono neutro (lo stimolo condizionato) seguito, dopo un intervallo fisso — diciamo 250 millisecondi — da un soffio d’aria sull’occhio (lo stimolo che fa chiudere la palpebra).

All’inizio l’animale chiude la palpebra solo quando arriva il soffio. Dopo molte ripetizioni, la chiude prima del soffio, anticipandolo, e con un timing sorprendentemente preciso: il picco della chiusura cade proprio quando arriverebbe il soffio. Se si cambia l’intervallo a 500 ms, l’animale reimpara a chiudere la palpebra 500 ms dopo il suono.

Questo apprendimento dipende da una zona cerebellare specifica: lesionarla abolisce la risposta temporizzata, e l’animale non impara più ad anticipare.

Il cervelletto, qui, non impara solo “cosa”, impara “quando” — impara intervalli di tempo. Il suono arriva sulle fibre muscoidi, il soffio sulle fibre rampicanti come segnale d’errore, e la curva di apprendimento è una curva di LTD. È il modello Marr-Albus applicato a un problema di timing puro: la dimostrazione che la stessa macchina che calibra l’ampiezza di un gesto calibra anche il momento in cui parte.

Esempio 2 — un forward model in pseudocodice (la mano che afferra). Vuoi afferrare una tazza. Il movimento dura forse 400 ms; il feedback sensoriale che ti dice dove sia davvero la tua mano impiega oltre 100 ms a tornare e ad essere elaborato.

Correggere solo sul feedback significherebbe correggere su un’informazione vecchia di un decimo di secondo — un quarto dell’intero movimento. Il cervelletto aggira il problema così:

# stato corrente del braccio (posizione, velocità)
stato = leggi_propriocezione()

while non_afferrato(tazza):
    comando = inverse_model(obiettivo=tazza, stato=stato)
    invia_ai_muscoli(comando)

    # copia del comando al cervelletto (efference copy)
    stato_predetto = forward_model(comando, stato)

    # correzione SUBITO, sulla predizione, senza aspettare i sensi
    errore = obiettivo_intermedio(tazza) - stato_predetto
    comando = comando + correzione(errore)

    stato = stato_predetto      # si procede sulla stima interna

La riga che conta è stato_predetto = forward_model(comando, stato): il cervelletto prende una copia del comando appena inviato — quella che si chiama efference copy, copia dell’efferenza — e predice dove finirà la mano, internamente, senza aspettare di sentirlo.

La correzione avviene sulla predizione. Il feedback sensoriale reale, quando finalmente arriva, serve a tenere il modello onesto, non a guidare il gesto in tempo reale. Questa è la divisione del lavoro: la predizione interna guida l’azione mentre accade, il feedback lento corregge il modello per la volta successiva. Senza il forward model, un movimento veloce sarebbe condannato a essere balistico e basta — lanciato e non più correggibile.

Esempio 3 — l’adattamento ai prismi (ricalibrare una mappa). Una persona lancia freccette a un bersaglio e ci prende. Poi indossa occhiali con prismi che spostano lateralmente tutto il campo visivo, diciamo di 10 gradi a destra. Il primo lancio sbaglia di 10 gradi: la persona “vede” il bersaglio dove non è.

Ma già al secondo, terzo, quarto lancio l’errore cala, e dopo una decina di tiri torna a centrare — il cervelletto ha ricalibrato la mappa fra “dove vedo il bersaglio” e “dove mando il braccio”. La prova che è ricalibrazione e non semplice correzione cosciente arriva quando si tolgono i prismi: i primi lanci sbagliano dalla parte opposta, di 10 gradi a sinistra. È l’after-effect.

Il modello interno era stato riscritto, e ci vuole un altro po’ di tentativi per riscriverlo indietro. Pazienti con lesioni cerebellari non mostrano questo adattamento: continuano a sbagliare tiro dopo tiro, perché manca la struttura che riscrive la mappa.

I tre esempi sono volutamente eterogenei — un esperimento di laboratorio sul timing, un frammento di pseudocodice sul controllo, un fenomeno percettivo-motorio osservabile a occhio nudo.

Eppure raccontano la stessa macchina: input contestuale, segnale d’errore, modello interno che si aggiorna. Cambia il dominio — un riflesso della palpebra, un braccio che afferra, una mira che si ricalibra — non il principio. È la conferma, dal lato dei fenomeni, di ciò che l’anatomia uniforme suggeriva dal lato della struttura: un solo calcolo, applicato dovunque serva calibrare.

I modelli interni: forward model e inverse model

Gli esempi hanno già usato due termini — forward model e inverse model — che ora vanno definiti per bene. Sono il secondo grande contributo teorico sul cervelletto, e si collocano un paio di decenni dopo Marr-Albus.

La teoria dei modelli interni fu formulata negli anni ‘80 e ‘90 soprattutto da Mitsuo Kawato (neuroscienziato computazionale giapponese, attivo all’ATR di Kyoto, che ha lavorato a lungo sul controllo motorio e la robotica) e, in parallelo, dal neuroscienziato britannico Daniel Wolpert e da R. Chris Miall. Il riferimento canonico è l’articolo Internal models in the cerebellum (Wolpert, Miall, Kawato), pubblicato su Trends in Cognitive Sciences nel 1998.

Mentre Marr-Albus descriveva il meccanismo di apprendimento — la regola con cui le sinapsi cambiano — la teoria dei modelli interni descrive cosa il cervelletto impara: non un classificatore astratto, ma un modello della dinamica del corpo e del mondo. I due livelli sono complementari, non rivali.

Un modello interno è una rappresentazione, dentro il cervello, di come funziona una parte del mondo o del corpo. Ne esistono due tipi, e i loro nomi vengono direttamente dalla teoria del controllo, la disciplina ingegneristica che studia come pilotare sistemi dinamici.

Il forward model (modello diretto) va dalla causa all’effetto. Prende il comando motorio — più precisamente una copia del comando, l’efference copy — e lo stato attuale del corpo, e predice le conseguenze sensoriali di quel comando.

Risponde alla domanda: “se eseguo questo comando, cosa sentirò fra un istante?”. È una macchina di predizione, e il suo prodotto è una stima del futuro immediato.

L’inverse model (modello inverso) va nel verso opposto, dall’effetto desiderato alla causa. Prende lo stato che si vuole raggiungere — un obiettivo, una traiettoria — e calcola il comando motorio che lo realizzerebbe. Risponde alla domanda: “che comando devo dare per ottenere questo risultato?”. È un controllore feedforward: produce il comando in anticipo, senza basarsi sul feedback.

Il nome “inverso” non è casuale. Se il forward model è la funzione che va da comando a conseguenza, l’inverse model è la sua funzione inversa: da conseguenza desiderata a comando. Calcolare quell’inversa è il problema difficile del controllo motorio — spesso non c’è un’unica soluzione, perché molti comandi diversi possono produrre lo stesso risultato — ed è proprio per questo che va appreso, non calcolato a tavolino.

Perché servono entrambi, e perché il forward model in particolare è indispensabile? Il problema è quello già visto nell’esempio della tazza: il ritardo del feedback.

I loop sensoriali biologici sono lenti — dell’ordine di 100 millisecondi o più — e hanno guadagno basso. Un movimento veloce, balistico, finisce prima che l’informazione di feedback completi il giro. Un sistema di controllo che si affida solo al feedback, di fronte a ritardi del genere, diventa instabile: corregge sempre su un’immagine vecchia del mondo, oscilla, insegue.

Il forward model risolve il problema sostituendo l’attesa con la predizione. Invece di aspettare i sensi reali, il cervello consulta il proprio modello interno e ottiene subito una stima di dove finirà il movimento. Corregge su quella.

È esattamente il principio di un dispositivo classico della teoria del controllo: lo Smith Predictor, proposto dall’ingegnere Otis Smith nel 1957, un controllore che incorpora un modello interno del processo proprio per compensare i ritardi di trasporto. Wolpert, Miall e Kawato propongono che il cervelletto implementi, biologicamente, qualcosa di analogo a uno Smith Predictor.

Anche qui la classe del legame va marcata. Forward model, inverse model, Smith Predictor sono concetti nati nell’ingegneria del controllo e importati nelle neuroscienze per descrivere il cervelletto.

Non è il caso di parlare di pura analogia didattica: Kawato e Wolpert hanno usato esplicitamente l’apparato della control theory come linguaggio per la loro teoria. È una filiazione concettuale dall’ingegneria alle neuroscienze, parallela a quella di Marr-Albus dal perceptron alle neuroscienze. Due volte, a vent’anni di distanza, la teoria del cervelletto è stata costruita prendendo in prestito un modello da una disciplina dell’artificiale.

Kawato e Wolpert spinsero lo schema oltre, proponendo che il cervelletto non ospiti un forward model e un inverse model, ma molte coppie in parallelo — una per ogni “contesto” in cui ci si può trovare: una penna leggera, un martello pesante, una valigia carica.

È l’architettura MOSAIC (Modular Selection And Identification for Control): tanti modelli appaiati, e il forward model che in un dato momento predice meglio segnala “siamo in questo contesto” e seleziona l’inverse model appropriato. Il principio è che la qualità della predizione diventa essa stessa un segnale di routing: il modulo che sbaglia di meno è quello adatto alla situazione.

Per chi conosce l’AI moderna, l’organizzazione ricorda — per analogia — un mixture of experts: molti moduli specializzati, un meccanismo che seleziona quale usare in base alla situazione. È una somiglianza di principio, non una filiazione: nessuno ha progettato il mixture of experts copiando MOSAIC.

Una conferma indiretta e quotidiana del forward model: non riesci a farti il solletico da solo. Quando ti tocchi, il cervelletto predice — col forward model — la sensazione esatta di quel tocco e la cancella: ne attenua la risposta sensoriale.

Un tocco esterno, non predetto da nessuna efference copy, non viene cancellato, e fa il solletico. La stessa intensità di stimolo fisico produce una sensazione diversa a seconda che fosse predetta o no. È un esperimento che chiunque può fare su di sé, e una dimostrazione sorprendentemente diretta che il cervello, in ogni istante, predice le conseguenze sensoriali di ciò che il corpo sta facendo e usa quella predizione per filtrare l’esperienza.

Il cervelletto cognitivo

Per circa un secolo il cervelletto è stato considerato una struttura puramente motoria. Le sue malattie colpiscono il movimento in modo vistoso, e questo ha fissato l’idea: il cervelletto coordina i muscoli, punto.

Quel quadro ha cominciato a incrinarsi negli anni ‘90. Il neurologo statunitense Jeremy Schmahmann (Massachusetts General Hospital) osservò che pazienti con lesioni cerebellari, soprattutto in certe regioni, mostravano deficit che con i muscoli non c’entravano nulla.

Nel 1998 descrisse, in un articolo sulla rivista Brain, la CCAS — Cerebellar Cognitive Affective Syndrome, oggi anche detta sindrome di Schmahmann.

La CCAS è un insieme di deficit in quattro domini non motori: funzioni esecutive (pianificazione, working memory, flessibilità nel cambiare strategia, fluenza verbale), cognizione spaziale (disorganizzazione visuo-spaziale), linguaggio (disprosodia — la perdita della “melodia” del parlato — e agrammatismo), e affettività (appiattimento emotivo, oppure disinibizione e comportamento inappropriato).

Un danno al cervelletto, in altre parole, può intaccare il pensiero e l’umore, non solo il gesto. Il fatto che fosse rimasto a lungo invisibile ha una spiegazione: i deficit cognitivi da lesione cerebellare sono spesso più sottili di un’atassia vistosa, e in passato venivano attribuiti ad altre cause. Servivano strumenti di valutazione mirati per farli emergere.

Per dare un senso a tutto questo, Schmahmann propose l’ipotesi della dysmetria of thought — la “dismetria del pensiero”. L’idea è elegante e collega direttamente questo capitolo al resto.

Il microcircuito cerebellare è uniforme: lo stesso modulo, ripetuto ovunque. Se quel modulo, applicato ai circuiti motori, calibra i movimenti — ne smussa gli errori, ne tara l’ampiezza e il timing — allora lo stesso modulo, applicato ai circuiti cognitivi (a cui il cervelletto è connesso tramite fitte proiezioni cerebro-cerebellari), potrebbe calibrare i “movimenti del pensiero”. La dismetria che nel dominio motorio si vede come una mano che supera il bersaglio, nel dominio cognitivo si manifesterebbe come un pensiero che “supera il bersaglio”: un ragionamento mal regolato, un’emozione mal calibrata.

È un’ipotesi, e va trattata come tale. La dysmetria of thought è la cornice interpretativa più diffusa per la CCAS, ma resta dibattuto se il cervelletto cognitivo esegua davvero lo stesso calcolo della parte motoria o semplicemente fornisca lo stesso hardware applicato a input diversi. Quel che è solido è il dato clinico: il cervelletto contribuisce alla cognizione. Quel che è ipotesi è l’unificazione: la “calibrazione” come operazione comune a movimento e pensiero.

La distinzione conta. “Stesso calcolo” significherebbe che il cervelletto applica al ragionamento la stessa identica operazione — predire, confrontare, correggere — che applica al braccio. “Stesso hardware” significherebbe solo che la natura, avendo a disposizione un circuito uniforme già pronto, lo ha riusato per compiti nuovi senza che l’operazione sia letteralmente la medesima. Le due letture portano a previsioni sperimentali diverse, e per ora i dati non scelgono in modo netto.

Per una wiki di AI questa ipotesi è suggestiva proprio perché è la stessa idea — un’operazione uniforme, replicata su domini diversi — che ricorre quando si pensa a moduli di calcolo generici. Un transformer applica lo stesso blocco di attention e feed-forward a domini lontanissimi (testo, codice, immagini): la “uniformità del modulo” è una scommessa architetturale anche nell’AI.

Applicazioni pratiche

Il cervelletto non è solo materia da neuroscienze. La sua teoria ha avuto, e continua ad avere, ricadute concrete su robotica, controllo e progettazione di sistemi che apprendono.

La più diretta è il CMAC di Albus — Cerebellar Model Articulation Controller (1975). Albus non si limitò a teorizzare: trasformò la sua teoria del cervelletto in un vero algoritmo software per il controllo di robot.

Il CMAC prende lo stato di un sistema (le posizioni e velocità delle articolazioni di un braccio robotico, per esempio), lo ricodifica in un grande spazio sparso — l’equivalente artificiale dello strato dei granuli — e impara una mappa da quello stato al comando motorio, aggiustando dei pesi sulla base dell’errore. È un controllore adattativo, e per decenni è stato usato in robotica proprio perché impara in fretta e generalizza bene su pochi dati.

Da quel lavoro è uscito anche un mattone che oggi vive dentro il reinforcement learning: il tile coding. Il tile coding è una tecnica per rappresentare uno spazio di stati continuo con un insieme di “piastrelle” sovrapposte e sfalsate; uno stato attiva poche piastrelle, e quella rappresentazione sparsa rende l’apprendimento più stabile.

È, di fatto, l’expansion recoding del cervelletto trasportato in un algoritmo. Chi ha studiato RL da un testo classico ha incontrato il tile coding senza necessariamente sapere che nasce da una teoria del cervelletto. È un esempio concreto di come un’idea neuroscientifica, una volta formalizzata, possa staccarsi dalla biologia e diventare uno strumento generale.

Un secondo filone è la robotica ispirata al cervelletto. Diversi gruppi costruiscono modelli del circuito cerebellare — talvolta reti neurali a spike che simulano granuli, Purkinje e fibre rampicanti — e li usano per il controllo motorio adattativo di robot reali: bracci che imparano a compensare carichi, sistemi che ricalibrano la propria coordinazione quando l’hardware cambia o si usura. L’attrattiva è la stessa che attirava Marr e Albus: un circuito che impara online, in fretta, da un segnale d’errore, senza un grande dataset preraccolto.

Il terzo filone, il più recente, riguarda gli agenti e i world model. L’idea del forward model — predire le conseguenze di un’azione prima di eseguirla, per poter pianificare e correggere senza pagare il costo di un tentativo reale — è esattamente ciò che un agente moderno cerca di fare quando costruisce o usa un modello del proprio ambiente.

Un agente che, prima di lanciare un comando potenzialmente distruttivo, ne prevede l’effetto e scarta le mosse che porterebbero in stati indesiderati sta facendo, in versione software, il mestiere del forward model cerebellare: simulare prima di agire. La sezione successiva entra nel merito di questo parallelo, marcandone con cura i limiti.

Il ponte con l’intelligenza artificiale

Mettiamo ora in fila i legami fra il cervelletto e l’AI, ciascuno con la sua classe di affermazione dichiarata. È il punto in cui questo capitolo è più facile da raccontare male.

Marr-Albus e l’apprendimento supervisionato: filiazione. Questo è il legame più solido, e va detto senza esitazione. Il modello di Marr-Albus è apprendimento supervisionato, error-driven, locale, formulato su una struttura cerebrale reale. La cellula di Purkinje è modellata come un perceptron; lo strato dei granuli come uno strato di espansione che rende l’input separabile; la fibra rampicante come il maestro che fornisce il segnale d’errore. E non è un’analogia costruita dopo: Marr e Albus citavano il perceptron, ci pensavano in termini di perceptron. La direzione della filiazione è notevole — qui l’AI ha prestato un modello alle neuroscienze. Per il legame in senso opposto, dal cervello alle reti artificiali, e per le sue trappole, vedi Cervello e rete neurale.

La fibra rampicante e il segnale d’errore: analogia forte, ma non identità. Nel modello Marr-Albus la fibra rampicante è il teaching signal, e funziona splendidamente come tale.

Nel cervello reale, però, la fibra rampicante è più ricca di un errore scalare: il complex spike ha durata e numero di scariche variabili, trasporta informazione di timing e di intensità, non solo un “giusto/sbagliato”. Quindi: la fibra rampicante nel modello è un segnale d’errore; la fibra rampicante nel cervello è qualcosa di più sfumato. Confondere le due cose — il modello con il suo oggetto — è l’errore tipico da evitare, e vale per qualunque modello del cervello, non solo per questo.

Forward model e world model: analogia forte e oggi rivendicata. Un world model nell’AI moderna — in particolare nel reinforcement learning e negli agenti — è un modello appreso che, dato lo stato corrente e un’azione, predice il prossimo stato.

Il forward model cerebellare fa concettualmente la stessa cosa: dato il comando motorio e lo stato del corpo, predice le conseguenze sensoriali. È la stessa idea — predire l’effetto di un’azione prima di eseguirla, per poter pianificare e correggere sulla predizione.

La somiglianza è strutturale e profonda, ma resta un’analogia, non un’equivalenza. Il forward model cerebellare è addestrato in modo supervisionato “facile”: il feedback sensoriale reale, che comunque arriva, fornisce sempre e gratis il target di confronto — il cervello non deve etichettare nulla a mano. Un world model generico, invece, è spesso addestrato in modo self-supervised su grandi quantità di dati. Stessa funzione computazionale, regimi di addestramento diversi.

Inverse model e policy / controllore: analogia, con radice comune nella control theory. L’inverse model che mappa “obiettivo desiderato” su “comando da emettere” è parente stretto di una policy che mappa “stato” su “azione”. Entrambi sono controllori feedforward: producono l’azione in anticipo, senza attendere il feedback.

La radice comune qui è esplicita e merita di essere nominata. Sia l’inverse model cerebellare di Kawato e Wolpert sia buona parte del vocabolario del reinforcement learning — stato, azione, policy, controllo ottimo — attingono alla stessa sorgente: la teoria del controllo sviluppata dall’ingegneria nel Novecento. Neuroscienze e RL non si sono copiate a vicenda; hanno entrambe ereditato dallo stesso antenato.

Cervelletto e corteccia, due stili di calcolo: analogia da maneggiare con cura. Il cervello sembra usare due stili diversi. La corteccia: lenta, flessibile, riccamente ricorrente, generalista. Il cervelletto: veloce, prevalentemente feedforward, specializzato, error-driven, con un circuito uniforme.

Alcuni autori propongono il cervelletto come un “co-processore” che apprende a velocizzare e automatizzare funzioni che la corteccia svolge lentamente — e la tentazione è di tracciare un parallelo con la cache, o con la distillazione di un modello lento in uno veloce. Va marcato come analogia puramente didattica: nessuno ha mostrato che il cervelletto “distilli” la corteccia nel senso tecnico del termine, e il parallelo serve solo a dare un’immagine, non a fare un’affermazione meccanicistica.

Il filo che tiene insieme tutti questi punti è uno solo: la predizione anticipata come operazione computazionale fondamentale. Il cervelletto è una macchina che impara a prevedere — le conseguenze di un comando, l’istante di un evento, la mappa fra intenzione e gesto. È la stessa scommessa che attraversa gli agenti AI moderni: un sistema che modella in anticipo l’effetto delle proprie azioni è un sistema che può pianificare invece di limitarsi a reagire.

C’è una lezione di metodo, in questa rassegna di legami. I quattro punti vanno da una filiazione documentata (Marr-Albus e il perceptron) a un’analogia puramente didattica (cervelletto come co-processore), passando per gradazioni intermedie. Tenere distinte queste classi non è pedanteria: è la differenza fra dire una cosa vera e dire una cosa suggestiva. Il cervelletto è un buon banco di prova proprio perché invita a fare l’errore — vedere reti neurali ovunque — e premia chi resiste alla tentazione.

Dove si rompe

Il modello di Marr-Albus e la teoria dei modelli interni sono fra le costruzioni più belle delle neuroscienze computazionali. Proprio per questo è importante essere precisi su dove non reggono, o reggono solo in parte.

La LTD non è l’unico sito di plasticità, e forse non è nemmeno necessaria. Per decenni la LTD nelle sinapsi fibra parallela-Purkinje è stata “il” meccanismo dell’apprendimento cerebellare. Le rassegne degli anni successivi — in particolare il bilancio “quarant’anni dopo” Marr, intorno al 2009, e lavori seguenti — hanno complicato il quadro.

La plasticità nel cervelletto è distribuita: esiste anche nei nuclei cerebellari profondi, nelle sinapsi delle fibre muscoidi, negli interneuroni inibitori. Inoltre, in alcuni esperimenti, bloccare farmacologicamente la LTD parallela-Purkinje non abolisce l’apprendimento motorio — il che suggerisce che la LTD sia un componente importante, ma non l’intera storia. Il modello a singolo sito di memoria, una sinapsi un peso, è troppo semplice.

La fibra rampicante non è un segnale d’errore binario. Nel modello è comodo trattarla come un bit: errore sì / errore no. Il complex spike reale, invece, varia in durata e in numero di spike, e queste variazioni trasportano informazione.

La fibra rampicante codifica probabilmente anche timing e intensità dell’errore, non solo la sua presenza. Inoltre l’oliva inferiore, da cui le fibre rampicanti partono, mostra oscillazioni proprie che influenzano quando il “verdetto” arriva. Il “teaching signal” del modello è una semplificazione utile, non una descrizione fedele.

Il segno della plasticità dipende dai dettagli. La storia non è “coincidenza → LTD” e basta. L’esito — depressione o potenziazione — dipende dall’esatta tempistica relativa degli spike, dalla loro frequenza, dallo stato della cellula.

Il cervelletto reale ha sia LTD sia LTP nelle stesse sinapsi, usate per “scrivere” e “cancellare” l’apprendimento in direzioni opposte. Senza un meccanismo di “cancellazione”, del resto, un sistema che impara solo per depressione finirebbe per spegnere progressivamente tutte le sinapsi. La regola di Albus in pseudocodice cattura il caso centrale, non tutti i casi.

Il cervelletto cognitivo resta in parte un’ipotesi. Che il cervelletto contribuisca alla cognizione è un dato clinico solido — la CCAS esiste. Ma l’idea unificante, la dysmetria of thought, che la “calibrazione” sia la stessa operazione per il movimento e per il pensiero, resta un’ipotesi interpretativa. È possibile che il cervelletto faccia cose diverse in domini diversi, e che l’uniformità del circuito sia meno informativa di quanto sembri.

Il fraintendimento più comune. È trattare il modello di Marr-Albus come l’ultima parola sul cervelletto, invece che come la prima cornice solida.

Il modello è la spina dorsale della neuroscienza computazionale del cervelletto, ma il consenso attuale lo descrive come “una componente plausibile di un sistema di apprendimento molto più grande”. Il cervelletto fa cose — la generazione di ritmi precisi, il coordinamento di più articolazioni, possibili funzioni predittive nella percezione e nel linguaggio — che il modello a perceptron, da solo, non spiega. Una teoria può essere allo stesso tempo fondante e incompleta: è anzi la condizione normale di una buona teoria scientifica.

Una cautela sul ponte con l’AI. Tutta la suggestione di questo capitolo — la Purkinje-perceptron, la fibra rampicante-errore, il forward model-world model — può far scivolare verso un’affermazione indifendibile: “il cervelletto è una rete neurale”, o “i world model degli agenti sono cervelletti artificiali”.

Non lo sono. Sono convergenze su principi computazionali comuni — apprendimento supervisionato, espansione dimensionale, predizione anticipata — non identità di implementazione. La filiazione documentata è precisa e limitata: Marr e Albus si ispirarono al perceptron. Tutto il resto è analogia, e l’analogia insegna finché resta marcata come tale.

Un’ironia storica da non perdere. Il perceptron di Rosenblatt, nel 1969 — lo stesso anno del paper di Marr — fu oggetto del celebre libro di Minsky e Papert che ne dimostrava i limiti: un perceptron a strato singolo non può imparare funzioni semplici come lo XOR. Quel libro contribuì a raffreddare l’entusiasmo per le reti neurali per oltre un decennio.

Eppure Marr e Albus, modellando la cellula di Purkinje come un perceptron a strato singolo, avevano già in mano la risposta a quell’obiezione, senza forse coglierne tutta la portata: lo strato dei granuli. Un perceptron a strato singolo è debole, sì — ma se a monte c’è uno strato che espande e ricodifica l’input (lo strato nascosto, i granuli), il sistema complessivo diventa molto più potente. Il cervelletto, nella lettura di Marr-Albus, è di fatto una rete a due strati, di cui solo il secondo è addestrato. È uno dei tanti casi in cui la biologia aveva “anticipato” una soluzione architetturale che l’AI avrebbe poi riscoperto per altre vie.

Collegamenti

Plasticità hebbiana — la LTD cerebellare è il fenomeno speculare della LTP; entrambi si capiscono come modifiche di peso sinaptico, ma la regola del cervelletto è supervisionata da un terzo segnale, mentre quella hebbiana classica no.
Il potenziale d’azione — il “simple spike” delle fibre parallele e il “complex spike” della fibra rampicante sono due regimi di scarica diversi: il capitolo sul potenziale d’azione fornisce il vocabolario.
La sinapsi — la cellula di Purkinje è inibitoria (GABA): tutto l’output del cervelletto è un segnale di freno, e questo capitolo spiega cosa significhi eccitazione vs inibizione.
I gangli della base — i gangli della base selezionano l’azione, il cervelletto la calibra: due sistemi sottocorticali complementari, uno arbitro e uno taratore, entrambi modellati con strumenti dell’AI (reinforcement learning per gli uni, apprendimento supervisionato per l’altro).
Dopamina — utile confronto fra due “segnali d’errore” del cervello: la dopamina porta un errore di predizione della ricompensa (reinforcement learning), la fibra rampicante un errore di predizione sensori-motorio (apprendimento supervisionato). Errori diversi, paradigmi diversi.
Cervello e rete neurale — il capitolo che mette in chiaro, in generale, quali parallelismi cervello-AI tengono e quali sono ingannevoli; il modello di Marr-Albus è uno dei casi in cui il parallelismo è più solido.
La corteccia — il contrasto fra il circuito uniforme e feedforward del cervelletto e l’architettura a strati e riccamente ricorrente della corteccia illumina entrambi.
predictive-processing-neuroscienze (in preparazione) — il cervelletto come “macchina predittiva” è un caso particolare dell’idea, più generale, che il cervello sia fondamentalmente un sistema di predizione.

Per andare oltre

Marr, D. (1969). A theory of cerebellar cortex. The Journal of Physiology, 202(2), 437-470. Il paper fondante: la cellula di Purkinje come perceptron, lo strato dei granuli come codifica espansa, la fibra rampicante come maestro. Denso ma leggibile.
Albus, J. S. (1971). A theory of cerebellar function. Mathematical Biosciences, 10, 25-61. La versione indipendente, con il segno corretto della plasticità (LTD) e il riferimento esplicito al perceptron di Rosenblatt; da qui nascerà l’algoritmo CMAC.
Wolpert, D. M., Miall, R. C., & Kawato, M. (1998). Internal models in the cerebellum. Trends in Cognitive Sciences, 2(9), 338-347. La trattazione canonica di forward model e inverse model, del problema dei ritardi del feedback e del legame con lo Smith Predictor.
Schmahmann, J. D., & Sherman, J. C. (1998). The cerebellar cognitive affective syndrome. Brain, 121(4), 561-579. Il lavoro che ha aperto il dossier del cervelletto cognitivo e formulato la “dysmetria of thought”.
David Marr’s theory of cerebellar learning: 40 years later — rassegna disponibile su PubMed Central (PMC2805361). Un bilancio onesto di cosa della teoria Marr-Albus ha tenuto e cosa no, utile per non trattare il modello come l’ultima parola.