Cervello e rete neurale: somiglianze reali e analogie ingannevoli

Un confronto sistematico tra il substrato biologico dell’intelligenza e i modelli connessionisti che da esso prendono il nome — distinguendo a ogni passo cosa è filiazione storica, cosa è analogia didattica, cosa è convergenza statistica, e dove si annida l’equivalenza pericolosa.

Nel febbraio del 1943, sul quinto volume del Bulletin of Mathematical Biophysics, Warren McCulloch (1898-1969, neurofisiologo americano allora alla University of Illinois Medical School) e Walter Pitts (1923-1969, logico autodidatta diciannovenne senza titoli accademici) pubblicano un articolo di diciannove pagine intitolato “A Logical Calculus of the Ideas Immanent in Nervous Activity”. Il paper si apre con una frase che merita di essere letta esattamente: “Because of the ‘all-or-none’ character of nervous activity, neural events and the relations among them can be treated by means of propositional logic”.

Quella frase è l’atto fondativo del neurone artificiale. McCulloch e Pitts prendono una proprietà del neurone biologico — il fatto che lo spike, il potenziale d’azione, sia una risposta tutto-o-niente sopra una soglia — e la astraggono in un’unità logica a due valori. Ingressi binari, una soglia, un output binario. Niente dinamica continua dei potenziali, niente neurotrasmettitori, niente plasticità, niente glia, niente ritardi assonici. Niente di tutto quello che il capitolo precedente sul cervello (cervello-basi) ha descritto come essenza biologica del neurone. Solo logica proposizionale.

McCulloch e Pitts sono onesti sulla portata dell’astrazione: il loro paper è dichiaratamente un calcolo logico, non un modello fisiologico. Ma da quel paper discende, per filiazione documentata, l’intera tradizione delle reti neurali artificiali — perceptron, multi-layer, backpropagation, ConvNet, LSTM, transformer. Ottantatre anni dopo, nel 2026, milioni di sviluppatori chiamano “neurone” l’unità di base di un modello che ha con il neurone biologico la parentela di un origami con un albero. La parola è sopravvissuta, il riferimento si è diluito, l’analogia è diventata ingannevole.

Questo capitolo serve a rimettere in fila quel rapporto. Il capitolo precedente ha posato il substrato biologico — ottantasei miliardi di neuroni in 1,4 chili a 20 W, dieci-quattordici sinapsi, doctrine del neurone, plasticità, tecniche di indagine. Qui non lo ripetiamo. Qui costruiamo, asse per asse, il confronto sistematico tra cervello e rete neurale artificiale — d’ora in poi ANN, artificial neural network — con un’attenzione ossessiva a marcare la classe di ogni affermazione: filiazione storica, analogia didattica, convergenza statistica, equivalenza meccanica. L’errore tipico del discorso pubblico è scivolare da una classe all’altra senza accorgersene; l’igiene di questo capitolo è tenerle separate.

Perché questo capitolo

Tre ragioni distinte, una di accuratezza, una di metodo, una di pratica.

L’accuratezza: chi lavora con LLM, agenti, retrieval-augmented generation usa quotidianamente parole — neurone, attenzione, memoria, embedding, plasticità, apprendimento, consolidamento — che hanno una storia tecnica precedente in neuroscienza. Quando un transformer ha “attention heads”, quando un’architettura ha “memory cells”, quando si parla di “neuroplasticity in continual learning”, la parola sopravvissuta nasconde una distanza meccanica enorme dall’oggetto biologico originario. Avere coordinate chiare evita di scambiare nomi ereditati per identità meccaniche.

Il metodo: il dibattito pubblico su AI scivola di continuo nell’errore di classe. Si legge che le ANN “imitano il cervello”, che “il backpropagation è come la plasticità Hebbiana”, che “GPT-4 è un cervello digitale”. Sono affermazioni di classi diverse — analogia, filiazione, equivalenza — usate in modo intercambiabile. Per le distinzioni di classe il riferimento è convenzioni-notazione; qui le applichiamo punto per punto al confronto cervello/ANN.

La pratica: capire dove le ANN sono vicine al cervello (gerarchia di feature visive, distributed representations) e dove sono lontane (apprendimento, plasticità, robustezza, embodiment) aiuta a prevedere dove le architetture attuali falliranno e dove le ricerche promettenti potrebbero arrivare. Catastrophic forgetting, vulnerabilità ad adversarial examples, sample inefficiency: sono limiti documentati delle ANN che il cervello non condivide. Comprenderne il perché è parte del lavoro di chi costruisce sistemi.

Contesto: filiazione storica in cinque tappe

Il capitolo precedente ha tracciato la storia della neuroscienza dal 1888 di Cajal al 2009 di Herculano-Houzel. Qui tracciamo la storia parallela del neurone artificiale, dal 1943 di McCulloch-Pitts al 2017 del transformer. La sovrapposizione cronologica è di centosettantotto anni; l’intersezione concettuale, come vedremo, è molto più sottile.

1943 — McCulloch-Pitts. Già’ detto. Il neurone come unità logica a soglia, esplicitamente dichiarato astrazione. Conseguenza teorica: reti di tali neuroni calcolano qualunque funzione esprimibile in logica proposizionale finita, e con cicli approssimano macchine di Turing. La filiazione verso l’architettura del calcolatore digitale è diretta: John von Neumann (1903-1957, matematico ungaro-americano dell’Institute for Advanced Study di Princeton) cita McCulloch-Pitts nel “First Draft of a Report on the EDVAC” del 1945, il documento che fonda l’architettura dei computer moderni. Il neurone artificiale nasce già’ come parente più stretto della porta logica che del neurone biologico.

1949 — Hebb. Donald Hebb (1904-1985, psicologo canadese alla McGill University di Montreal) pubblica The Organization of Behavior: A Neuropsychological Theory (Wiley, New York). Capitolo 4 introduce due idee. Prima: la cell assembly, gruppo di neuroni reciprocamente connessi che costituisce l’unità funzionale della rappresentazione mentale. Seconda: una regola di plasticità sinaptica, che la formulazione esatta di Hebb suona così: “When an axon of cell A is near enough to excite a cell B and repeatedly or persistently takes part in firing it, some growth process or metabolic change takes place in one or both cells such that A’s efficiency, as one of the cells firing B, is increased”. La parafrasi mediatica “cells that fire together wire together” è di Carla Shatz (neuroscienziata americana di Stanford) nel 1992; la formulazione di Hebb è più cauta e direzionale.

L’eredità di Hebb nelle ANN è contraddittoria. Le regole di apprendimento Hebbiano (oja, BCM) sopravvivono nella neuroscienza computazionale teorica. Ma il cuore dell’apprendimento ANN moderno — backpropagation — non è Hebbiano: richiede informazione globale (la loss calcolata all’output) e segnali simmetrici, due caratteristiche che Hebb non avrebbe riconosciuto come biologiche.

1958 — Rosenblatt. Frank Rosenblatt (1928-1971, psicologo americano al Cornell Aeronautical Laboratory di Buffalo) pubblica “The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain” su Psychological Review, vol. 65 n. 6: 386-408. Il perceptron (modello a singolo strato che apprende a classificare ingressi in due categorie modificando i pesi tramite una regola di correzione dell’errore) è implementato come hardware fisico: il Mark I Perceptron, 400 fotocellule connesse a 512 unità di associazione tramite cablaggio randomizzato, alla Cornell Aeronautical Lab. Rosenblatt presenta il perceptron come modello di apprendimento cerebrale; il sottotitolo del paper è eloquente. La copertura del New York Times dell’8 luglio 1958 cita Rosenblatt: il perceptron sarà “l’embrione di un computer elettronico che camminerà, parlerà, vedrà, scriverà, riprodurrà se stesso, sarà cosciente della propria esistenza”. Hype iconico dell’AI degli anni Cinquanta.

L’inverno arriva nel 1969 con Perceptrons di Marvin Minsky (1927-2016) e Seymour Papert (1928-2016), che dimostra formalmente i limiti del perceptron a singolo strato (impossibilita di calcolare lo XOR e in generale funzioni non linearmente separabili). Il libro contribuisce a spegnere i finanziamenti ai modelli connessionisti per oltre un decennio. Il primo inverno dell’AI è raccontato in primo-inverno-ai.

1974/1986 — Werbos, Rumelhart-Hinton-Williams. Paul Werbos (1947-, dottorando ad Harvard) nella sua tesi del 1974 “Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences” deriva la backpropagation (algoritmo che propaga l’errore di output indietro attraverso i layer di una rete multi-strato per calcolare gradienti rispetto ai pesi) come applicazione della regola di catena. Resta semi-ignorato per dodici anni. La pubblicazione su Nature (vol. 323: 533-536) di David Rumelhart, Geoffrey Hinton e Ronald Williams nel 1986, “Learning representations by back-propagating errors”, porta backprop al mainstream connessionista. L’antecedente matematico puro è Seppo Linnainmaa (informatico finlandese) nel 1970 con la sua tesi di master a Helsinki sulla reverse-mode automatic differentiation.

Qui interviene un punto cruciale per il capitolo. Backpropagation non è biologicamente plausibile. Il problema è documentato in dettaglio in una review molto citata di Lillicrap, Santoro, Marris, Akerman, Hinton (“Backpropagation and the brain”, Nature Reviews Neuroscience 21: 335-346, 2020). Tre obiezioni tecniche:

Weight transport problem: il backward pass usa i pesi trasposti del forward pass. Nel cervello non c’è meccanismo noto per propagare segnali all’indietro lungo le stesse sinapsi che li hanno trasmessi avanti.
Symmetric feedback: i segnali di errore richiedono pesi simmetrici a quelli del forward pass. Le sinapsi biologiche sono direzionali e asimmetriche.
Global information: la loss è calcolata all’output e propagata indietro; ogni sinapsi deve “sapere” come il suo aggiornamento influenza una grandezza globale. Nel cervello l’apprendimento sinaptico è guidato da informazione locale (timing pre-post, neuromodulatori globali come dopamina) ma non da gradienti calcolati.

I tentativi di colmare il gap (feedback alignment di Lillicrap 2016, target propagation, equilibrium propagation di Scellier-Bengio 2017, predictive coding networks di Whittington-Bogacz 2019) sono linee di ricerca attive, ma nessuna è diventata mainstream. La verità operativa al 2026: il cervello non fa backpropagation così com’è implementata in PyTorch.

1989-2017 — ConvNet, LSTM, AlexNet, Transformer. Yann LeCun (1960-, informatico francese ai Bell Labs, oggi Chief AI Scientist Meta) pubblica nel 1989 la prima ConvNet ([cnn-base](in preparazione)) per il riconoscimento di codici postali. Sepp Hochreiter e Jurgen Schmidhuber (informatici austriaci, allora alla TU Munich) pubblicano nel 1997 la LSTM (long short-term memory), soluzione al vanishing gradient nelle RNN. Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton vincono ImageNet 2012 con AlexNet (imagenet-alexnet-2012), inaugurando l’era deep learning. Ashish Vaswani e collaboratori a Google pubblicano nel 2017 “Attention Is All You Need” (transformer-2017), introducendo il transformer.

Da AlexNet 2012 in poi, il debito esplicito verso la neuroscienza si dilata fino a sparire come motore decisionale. ConvNet usa “convoluzione” da signal processing, “pooling” da idee di max/average non motivate biologicamente. Transformer introduce “attention” prendendo in prestito una parola dalla psicologia cognitiva (Posner-Petersen 1990) ma il meccanismo (dot-product Q-K, softmax, weighted sum di V) è algebra lineare pura, senza alcun riferimento al meccanismo biologico dell’attenzione (top-down dal pulvinar talamico, modulazione colinergica del basal forebrain, sincronizzazione gamma).

Conclusione del contesto storico: la filiazione cervello -> ANN è diluita. Dal 1943 al 1986 c’è ispirazione genuina, dichiarata dagli autori, ma da subito esplicitamente metaforica. Dal 1986 al 2012 il connessionismo tiene la metafora cerebrale come marketing ma la matematica diventa ottimizzazione. Dal 2012 a oggi la neuroscienza è citata come ispirazione da remoto, ma le decisioni architetturali sono guidate da empirical scaling, vincoli hardware GPU, gradient flow, signal-to-noise. Il deep learning moderno deve poco alla neuroscienza degli ultimi cinquant’anni; molto più all’algebra lineare, al calcolo differenziale, alla teoria dell’ottimizzazione e all’ingegneria del compute.

L’intuizione: due angoli prima della meccanica

Prima di addentrarci negli assi di confronto, due angoli diversi servono a fissare l’intuizione di che cosa significhi confrontare un cervello con una ANN.

Angolo 1: ingegneristico-quantitativo

Metti sulla bilancia 86 miliardi di neuroni con 10^14-10^15 sinapsi che consumano 20 watt continui per ottant’anni di vita. Sull’altro piatto, la stima di GPT-4: circa 1,8 trilioni di parametri (numero non confermato ufficialmente da OpenAI, ricavato da leak del giugno 2023, plausibilmente architettura mixture-of-experts con circa 280 miliardi di parametri attivi per token). Training stimato in 50-100 GWh, secondo interpolazioni basate sulle stime di Patterson et al. (“Carbon Emissions and Large Neural Network Training”, arXiv:2104.10350, 2021). Inference: pochi watt-ora per migliaia di token.

I due oggetti non sono direttamente paragonabili — uno è un sistema operativo continuamente, l’altro è addestrato una volta e poi serve query — ma l’esercizio di metterli a confronto fissa gli ordini di grandezza. Le sinapsi del cervello sono circa tre ordini di grandezza più numerose dei parametri di GPT-4. Il consumo energetico di un cervello umano per un’intera vita (circa 5-7 megawattora su ottant’anni) è circa quattro ordini di grandezza inferiore al training one-shot di GPT-4. La velocita di un singolo neurone (1-100 Hz) è circa sette ordini di grandezza inferiore al clock di una GPU (10^9 Hz). Se il cervello fa lo stesso lavoro o di più in molti domini, lo fa con un’architettura completamente diversa: parallelismo massivo, sparsita estrema, calcolo asincrono event-driven.

Energy and scale comparison: brain vs GPT-4 training

Angolo 2: cognitivo-qualitativo

Una bambina di due anni vede una giraffa allo zoo. La madre dice “guarda, una giraffa”. Il giorno dopo la bambina apre un libro di animali, indica un’illustrazione e dice “giraffa”. La settimana dopo, vede un peluche giraffa in negozio e ripete “giraffa”. Una foto, un disegno, una sagoma: tutte riconosciute. Numero di esposizioni al concetto: due, tre, forse cinque.

GPT-4 conosce la parola “giraffa”. L’ha vista milioni di volte nei trilioni di token del pre-training. Senza quella massa di esposizioni, non riconoscerebbe il concetto. La gap di sample efficiency tra il bambino e l’LLM è di circa sei ordini di grandezza per concetto. Questa differenza non è un dettaglio implementativo: è qualitativa, racconta che i due sistemi imparano in modi strutturalmente diversi. Il cervello arriva al compito con priors massicci accumulati per evoluzione, sviluppo, esperienza pregressa, ed è embodied (la giraffa ha tre dimensioni, peso, odore, contesto sociale dello zoo). L’LLM arriva con un blank slate e una pila di token.

Le ricerche sul few-shot learning, in-context learning e meta-learning (vedi [in-context-learning](in preparazione)) hanno parzialmente chiuso il gap negli LLM moderni, ma il pre-training resta un investimento gigantesco. La differenza qualitativa di apprendimento è uno degli assi su cui cervello e ANN restano lontani.

La meccanica: sei assi di confronto

Apriamo ora il confronto sistematico. Sei assi: filiazione storica (già’ aperto sopra), differenze quantitative, differenze qualitative, convergenze sospette, spiking neural networks, considerazioni epistemiche.

Asse 2 — Differenze quantitative

I numeri sono utili come ancore, anche quando non sono direttamente comparabili. La tabella seguente mette in fila le grandezze principali. Le stime per GPT-4 sono ricostruzioni indirette: OpenAI non ha pubblicato cifre ufficiali e il numero che circola (1,8 T parametri, MoE, 280 G attivi per token) viene da leak non confermati.

Dimensione	Cervello umano adulto	GPT-4 (stima 2024)
Unità	86 G neuroni	~1,8 T parametri totali
Connessioni	10^14-10^15 sinapsi	~1,8 T parametri (sono i pesi)
Sparsita	~7000 sinapsi/neurone su 10^11 -> 10^-7	densa nel core; MoE introduce sparsita per expert
Frequenza	spike 1-100 Hz	clock GPU ~10^9 Hz
Energia operativa	20 W continui	~Wh per migliaia di token in inference
Energia pre-training	(somma dello sviluppo)	~50-100 GWh stimati per training one-shot
Apprendimento	one-shot, few-shot	milioni-miliardi di esempi pre-training
Plasticita	continua, life-long	training-then-inference (con eccezioni: ICL)
Sviluppo	~20 anni a maturazione corticale	mesi di pre-training

Lettura corretta della tabella. Le sinapsi sono circa tre ordini di grandezza più numerose dei parametri di GPT-4, ma ogni parametro in un transformer è attraversato dal forward pass per ogni token: il throughput informazionale per parametro è altissimo. Ogni sinapsi biologica è invece “esposta” a una frazione molto piccola dell’attività totale del cervello, perché la rete è fortemente sparsa. Le due architetture sono diversamente dense.

Il rapporto energetico è la disparita più pesante. Un cervello umano consuma per un’intera vita (ottant’anni) circa 5-7 megawattora. Un singolo training di GPT-4 ne consuma stimati 50-100 GWh, ovvero 50.000-100.000 megawattora. Rapporto: circa 10.000-20.000 vite di cervello per un training. Anche tenendo conto che il pre-training si ammortizza su miliardi di inferenze, il punto resta: l’efficienza energetica del wet-ware biologico, frutto di 500 milioni di anni di evoluzione, è di ordini di grandezza superiore a qualunque hardware silicio attuale.

Side-by-side comparison: biological neuron vs artificial unit

Asse 3 — Differenze qualitative

I numeri raccontano la scala. Le differenze qualitative raccontano la natura.

Apprendimento. Backpropagation in ANN: gradiente globale, segnali simmetrici, informazione che viaggia all’indietro lungo le stesse connessioni del forward. Il cervello: regole locali (Hebb modificato), modulazione neurochimica (dopamina, acetilcolina, serotonina, noradrenalina) che codifica reward e salience, STDP — spike-timing dependent plasticity, regola di plasticità che modifica la forza sinaptica in funzione del timing relativo (in finestra di circa 20 millisecondi) tra spike presinaptico e postsinaptico, dimostrata sperimentalmente da Henry Markram e collaboratori (1997, Science 275: 213-215) e da Guo-qiang Bi e Mu-ming Poo (1998, Journal of Neuroscience 18(24): 10464-10472). Pre-prima-di-post potenzia, post-prima-di-pre deprime. Asimmetria temporale che backpropagation, fondamentalmente atemporale nel singolo training step, non rappresenta.

Una linea di ricerca interessante è il predictive coding (Rajesh Rao e Dana Ballard, 1999, Nature Neuroscience 2: 79-87; Karl Friston, 2010, Nature Reviews Neuroscience 11: 127-138): il cervello come gerarchia di predizioni top-down vs error signals bottom-up. Quello che si propaga “indietro” non sono gradienti ma errori di predizione. Whittington e Bogacz (2019, Trends in Cognitive Sciences 23: 235-250) mostrano che reti predictive coding possono approssimare backpropagation in certe condizioni, suggerendo che il cervello forse implementa qualcosa di funzionalmente equivalente con primitive locali. Speculazione sostenuta, non risultato consolidato.

Approfondimento sull’apprendimento. Vale la pena spendere ancora qualche riga sull’asimmetria tra l’apprendimento biologico e quello delle ANN, perché è il punto dove le differenze qualitative si accumulano in modo più visibile. Il cervello distingue almeno tre regimi di apprendimento operativi su scale temporali diverse: plasticità sinaptica rapida (millisecondi-secondi, modifiche locali di efficacia sinaptica via STDP, gating colinergico), consolidazione a medio termine (minuti-ore, sintesi proteica e modifiche strutturali delle spine dendritiche) e consolidazione sistemica a lungo termine (giorni-anni, riorganizzazione di rappresentazioni dall’ippocampo alla neocorteccia, McClelland-McNaughton-O’Reilly 1995). Ogni regime ha primitive biologiche distinte e funzioni complementari. Una rete biologica non è “in training” o “in inference”: è continuamente in entrambi, con tutti e tre i regimi di plasticità attivi simultaneamente.

Le ANN moderne hanno fondamentalmente due regimi: training (con backprop su grandi dataset) e inference (pesi congelati). L’in-context learning aggiunge un terzo regime di “adattamento rapido senza modifica dei pesi”, interessante e in parte parallelo alla plasticità sinaptica rapida del cervello, ma senza modifica strutturale persistente. Le tecniche di continual learning, RLHF online, fine-tuning continuo cercano di chiudere questo gap, ma rimangono lontane dall’integrazione naturale dei tre regimi che il cervello realizza. Una linea di ricerca concettualmente fertile è chiedersi: quale architettura ANN potrebbe ospitare nativamente plasticità multi-scala? La risposta non è ovvia e probabilmente richiede ripensamento architetturale, non solo aggiunte ad hoc.

Sleep. Il cervello consolida durante il sonno. Giulio Tononi e Chiara Cirelli (psichiatri italo-americani all’University of Wisconsin-Madison) hanno articolato in “Sleep and the Price of Plasticity” (Neuron 81: 12-34, 2014) la synaptic homeostasis hypothesis (SHY): durante il sonno NREM (slow-wave sleep, oscillazioni 0.5-4 Hz), il cervello sottopone le sinapsi a una renormalizzazione globale. Il segnale netto è depressione: le sinapsi più deboli vengono potate, quelle più forti consolidate. Vantaggi metabolici (riduzione del carico energetico delle sinapsi cresciute durante la veglia) e funzionali (signal-to-noise migliorato, prevenzione del catastrophic interference). Il sonno REM ha funzioni distinte: consolidamento episodico, generative replay.

ANN: nessun equivalente strutturale. Le ricerche su continual learning (Elastic Weight Consolidation di Kirkpatrick et al. 2017, replay-based methods, gradient projection methods) sono i tentativi di colmare, ma sono lontani dalla soluzione naturale che il cervello ha trovato. Una rete addestrata su task A poi su task B, senza tecniche speciali, perde quasi completamente le performance su A — il catastrophic forgetting documentato da Michael McCloskey e Neal Cohen nel 1989 (“Catastrophic Interference in Connectionist Networks”, Psychology of Learning and Motivation 24: 109-165). Il cervello mostra interferenza, non oblio catastrofico globale; il meccanismo coinvolge separazione anatomica (sistemi complementari di McClelland, McNaughton, O’Reilly 1995: ippocampo per memoria recente, neocorteccia per consolidata), replay durante sonno e veglia, neurogenesi adulta nel giro dentato.

Embodiment. Il cervello è in un corpo. Sensori multimodali integrati (vista, udito, tatto, propriocezione, vestibolare, olfatto, gusto, interocezione) si accoppiano con un sistema motorio gerarchico (corteccia motoria, gangli base, cervelletto, midollo). Active sensing: muoviamo gli occhi per vedere, le mani per toccare, il corpo per percepire. Percezione e azione sono inseparabili.

ANN tipiche: disembodied. Training su dataset statici (ImageNet, Common Crawl). I VLM (vision-language models, CLIP, GPT-4V) aggiungono visione passiva. I VLA (vision-language-action models — RT-1, OpenVLA, Pi0 nel 2024-2025) e i robotic foundation models cambiano questo, ma lo stato 2026 è ancora preliminare.

[DATATO 2026-04] Robotica e world models sono dichiarati fuori scope dal libro (vedi note iniziali dell’outline). Qui li menziono solo come asse di differenza qualitativa.

Asincronia vs sincronia. Il cervello opera in continuous-time: spikes asincroni, no clock globale. La coordinazione locale avviene tramite oscillazioni (theta 4-8 Hz, gamma 30-100 Hz, sharp-wave ripples 100-300 Hz nell’ippocampo). Le ANN operano in batch sincroni: tutti i “neuroni” calcolano in parallelo a ogni layer pass, sotto un clock globale GPU. Questa differenza è implementativa (un’ANN potrebbe in linea di principio operare in modo asincrono, e le SNN lo fanno) ma ha conseguenze pratiche enormi sull’efficienza energetica e sull’integrazione temporale.

Variabilità individuale e plasticità di sviluppo. Un’asimmetria poco discussa: il cervello di ogni essere umano è il prodotto di vent’anni di sviluppo guidato da genetica, esperienza, ambiente sociale, traumi, lingua nativa, scolarizzazione. Due cervelli umani adulti sono profondamente diversi in connettività fine, distribuzione di tipi cellulari, mappe corticali individuali. Le mappe Brodmann sono uno schema medio: la realtà individuale presenta variazioni del 20-30% nelle aree primarie e maggiori nelle aree associative (Glasser et al. 2016, Nature 536: 171-178). Il sistema visivo di un cieco congenito riorganizza la corteccia visiva primaria per processare input tattili e linguistici (cross-modal plasticity). Niente di tutto questo è cablato; tutto è negoziato durante lo sviluppo.

Le ANN, una volta addestrate, sono cloni esatti. Distribuire un modello significa copiare bit per bit lo stesso set di pesi. Due deployment di GPT-4 producono lo stesso output dato lo stesso input e seed. Non c’è variabilità individuale, non c’è sviluppo, non c’è negoziazione con l’ambiente. È un’asimmetria architetturale che ha conseguenze pratiche: le ANN sono facilmente riproducibili (il vantaggio dell’industrializzazione), il cervello no (lo svantaggio: non puoi clonare un esperto, devi formarlo).

Robustezza. Il cervello è robusto al rumore biologico (sinapsi probabilistiche, circa 30% di probabilita di rilascio del neurotrasmettitore per spike), alla perdita di neuroni (graceful degradation in invecchiamento normale), alle alterazioni di input (riconoscimento di pattern in condizioni degradate, occluse, rumorose). Ha vulnerabilità specifiche a illusioni ottiche, ma queste sono “feature” del sistema percettivo bayesiano: priors su come il mondo deve essere applicati a input ambigui.

Le ANN hanno una vulnerabilità propria diversa e più seria: gli adversarial examples. Christian Szegedy e collaboratori (2014, “Intriguing properties of neural networks”, ICLR) identificano per primi che perturbazioni impercettibili all’occhio umano modificano completamente la classificazione di una rete. Ian Goodfellow, Jonathon Shlens, Christian Szegedy (2015, “Explaining and Harnessing Adversarial Examples”, ICLR) introducono il Fast Gradient Sign Method (FGSM), tecnica per generare adversarial examples in modo efficiente. Il sistema visivo umano nelle stesse condizioni non si lascia ingannare. Origine della vulnerabilità: le ANN apprendono shortcut features (Geirhos et al. 2020, Nature Machine Intelligence 2: 665-673) statisticamente correlate con la label ma non causalmente legate al concetto.

Il pattern qualitativo è chiaro: il cervello è robusto al rumore naturale e fragile a illusioni strutturate dal proprio stesso sistema; le ANN sono fragili al rumore strutturato avversario e robuste a perturbazioni naturali (entro il dominio di training). Non sono opposte, sono diverse.

Hierarchical features: CNN vs ventral visual stream

Asse 4 — Convergenze sospette

Ci sono punti dove cervello e ANN sembrano convergere. Vanno trattati con doppia cura: come analogie con evidenza empirica parziale, mai come equivalenze meccaniche.

Distributed representations. Geoffrey Hinton (1986, “Learning distributed representations of concepts”, Proceedings of the Eighth Annual Conference of the Cognitive Science Society) propone che concetti siano rappresentati da pattern di attività su molte unità, anziche da unità-concetto (“grandmother cell”). Il parallelo neuroscientifico è il population coding: il significato è codificato dal pattern di attività di una popolazione di neuroni, descritto da Alexandre Pouget, Terry Sejnowski, Kechen Zhang in vari lavori (sintetizzato in Pouget-Dayan-Zemel 2003, Nature Reviews Neuroscience 4: 432-446). Convergenza concettuale, non filiazione meccanica diretta. Hinton non ha derivato distributed representations dal population coding; entrambi i campi sono arrivati alla stessa intuizione partendo da problemi diversi.

Hierarchical features. Le CNN (convolutional neural network, da LeCun 1989 in poi) imparano feature gerarchiche: bordi e orientazioni in layer iniziali, texture e parti in layer intermedi, oggetti in layer profondi. La via ventrale del sistema visivo dei primati ha una gerarchia analoga: V1 con campi recettivi orientati (David Hubel e Torsten Wiesel, 1959, Journal of Physiology 148: 574-591), V2 per contorni e giunzioni, V4 per curvatura e colore, IT (inferotemporal cortex) per identità di oggetto.

Daniel Yamins, Ha Hong, Charles Cadieu, Ethan Solomon, Darren Seibert, James DiCarlo (Yamins-DiCarlo per brevita) pubblicano nel 2014 su PNAS (vol. 111 n. 23: 8619-8624) “Performance-optimized hierarchical models predict neural responses in higher visual cortex”: una CNN ottimizzata per ImageNet predice le risposte neurali misurate in macaco V4 e IT meglio di qualunque modello hand-crafted precedente. Risultato impressionante.

Va letto come convergenza statistica. Due sistemi diversi che ottimizzano per la stessa funzione (object recognition su immagini naturali) convergono su rappresentazioni simili. Non implica equivalenza meccanica per tre ragioni:

La predizione è su risposte medie a stimoli passivi, non su dinamica naturale temporalmente strutturata.
La corrispondenza si rompe per stimoli adversarial: la CNN viene fooled dove il sistema visivo umano resiste.
Molte caratteristiche del sistema visivo (feedback massiccio top-down dal cortex prefrontale, modulazione attentiva, plasticità rapida, integrazione multimodale) sono assenti dalla CNN.

L’inferenza corretta da Yamins-DiCarlo: quando si ottimizza per object recognition, emerge una gerarchia di feature simile a quella del sistema visivo. Non: “le CNN sono modelli del cervello”.

Attention. Il termine “attention” nei transformer è preso in prestito dalla psicologia cognitiva. Michael Posner e Steven Petersen (1990, Annual Review of Neuroscience 13: 25-42) descrivono l’attenzione come spotlight che amplifica processing in una regione (spaziale, oggetto, feature). I meccanismi neurali sono multipli: top-down dal pulvinar talamico, modulazione colinergica del basal forebrain, sincronizzazione gamma in popolazioni neurali corticali.

L’attention in transformer (Vaswani et al. 2017): dot-product Q-K, softmax, weighted sum di V. Algebra lineare pura. La parola è presa in prestito ma il meccanismo non implementa nessuna delle proprietà dell’attenzione biologica: non c’è competizione tra alternative, non c’è top-down salience guidata da goal, non c’è dinamica temporale.

Equivalenza pericolosa da smontare esplicitamente: “transformer attention = attenzione biologica” è falsa. Coincidenza di nomenclatura. Il rapporto tra le due cose è analizzato in dettaglio nel capitolo ponte-attenzione-transformer (in preparazione).

Sparse coding. Bruno Olshausen e David Field (1996, Nature 381: 607-609, “Emergence of simple-cell receptive field properties by learning a sparse code for natural images”) mostrano che imporre un vincolo di codifica sparsa su filtri imparati da statistiche di immagini naturali produce filtri Gabor-like, simili ai campi recettivi di V1. Le ANN moderne usano sparse activations (ReLU, dropout) e sparse experts (mixture-of-experts). Convergenza statistica in entrambe le direzioni: la sparsita emerge come ottima per rappresentare statistiche di dati naturali. Anche qui: convergenza, non filiazione meccanica.

Predictive coding e next-token prediction. Yann LeCun in vari talk dal 2022 al 2025 sostiene un parallelo concettuale: il cervello come predictive engine (in senso Friston) e LLM come next-token predictor condividono un obiettivo strutturale, predire il prossimo input dato il passato. Yoshua Bengio (Mila, Universite de Montreal) ha esplorato lineee simili. Demis Hassabis, Dharshan Kumaran, Christopher Summerfield, Matthew Botvinick (DeepMind) lo registrano in “Neuroscience-Inspired Artificial Intelligence” (Neuron 95: 245-258, 2017) come direzione promettente. Parallelo speculativo, evidenza empirica indiretta. Va trattato come analogia di alto livello, non come equivalenza meccanica.

Approfondimento sull’asse 4: tre tipi di convergenza

Le convergenze tra cervello e ANN non sono tutte dello stesso tipo. Distinguerle aiuta a non scambiare un tipo per un altro. Tre livelli, in ordine crescente di pretesa:

Convergenza fenomenologica: due sistemi mostrano comportamenti simili sotto stimoli simili. Esempio: una CNN classifica un’immagine di gatto come “gatto” e un osservatore umano fa la stessa classificazione. Il livello di pretesa è basso: nessuno crede che la CNN “veda” il gatto come l’umano. È convergenza di output.

Convergenza rappresentazionale: due sistemi sviluppano rappresentazioni interne simili sotto pressione di task simili. Esempio: Yamins-DiCarlo 2014, le features dei layer profondi della CNN si correlano linearmente con le risposte di V4 e IT. Il livello di pretesa è medio: si afferma che la geometria degli spazi di rappresentazione converge, senza implicare meccanismi identici.

Convergenza meccanicistica: due sistemi implementano lo stesso algoritmo passo per passo. Esempio (ipotetico): il cervello fa esattamente backpropagation con gli stessi gradienti computati da PyTorch. Il livello di pretesa è massimo, e l’evidenza empirica per qualunque caso reale è zero o quasi-zero. Le ricerche su predictive coding networks come approssimatori di backprop esplorano un punto intermedio, ma anche le loro pretese sono caute.

L’errore tipico del discorso pubblico: leggere un risultato di convergenza rappresentazionale (Yamins-DiCarlo) e parlarne come se fosse convergenza meccanicistica (“la corteccia visiva è un transformer convoluzionale”). I tre livelli vanno tenuti separati. Anche la migliore evidenza disponibile al 2026 (Yamins-DiCarlo, sparse coding, grid cells emergenti in agent navigation) non supera il livello rappresentazionale.

Una nota correlata: la convergenza rappresentazionale è interessante anche per ragioni indipendenti dalla biologia. Se due sistemi diversi che ottimizzano per la stessa funzione convergono su rappresentazioni simili, vuol dire che la funzione vincola la rappresentazione. Questa è una proprietà del problema, non dei sistemi. Il sistema visivo dei primati e una CNN convergono perché object recognition su immagini naturali impone una struttura. Lo stesso meccanismo opera nelle “convergenze evolutive” della biologia: ali di uccelli e ali di pipistrelli convergono perché volare nell’aria impone vincoli aerodinamici, non perché uccelli e pipistrelli condividono un antenato volante.

Asse 5 — Spiking neural networks e neuromorphic computing

C’è un mondo della ricerca che ha provato a essere meno infedele al cervello: le spiking neural networks (SNN). Wolfgang Maass (informatico austriaco alla Graz University of Technology) le inquadra nel 1997 (“Networks of Spiking Neurons: The Third Generation of Neural Network Models”, Neural Networks 10(9): 1659-1671) come terza generazione: dopo perceptron (binari) e ANN sigmoidali (continui), neuroni che comunicano con spike temporali, codificando informazione nel timing oltre che nella frequenza.

Maass dimostra che le SNN sono universali quanto le ANN ma con vantaggi potenziali: codifica temporale, sparsita d’evento (un neurone fa un’operazione solo quando spara, non a ogni clock), basso consumo se hardware-supportato.

Il neuromorphic computing è la corrente hardware corrispondente. Carver Mead (1934-, ingegnere americano al Caltech) pubblica nel 1989 Analog VLSI and Neural Systems (Addison-Wesley), proponendo di usare i transistor in regime sub-soglia, dove la corrente è esponenziale nel voltage di gate, in analogia con la cinetica dei canali ionici neuronali. Hardware moderno discendente da quella linea:

TrueNorth (IBM, 2014): 1 milione di neuroni, 256 milioni di sinapsi, 70 milliwatt totali.
Loihi (Intel, 2017; Loihi 2 nel 2021): chip neuromorphic configurabili per ricerca.
Akida (BrainChip, dal 2021): commerciale per edge inference.
SpiNNaker (University of Manchester, Steve Furber, dal 2018): sistema massive parallel per simulazioni cerebrali su larga scala.

Perché le SNN non hanno preso piede mainstream? Quattro ragioni convergenti, allo stato 2026:

Gap di ottimizzazione: gli spike non sono differenziabili. I surrogate gradients (Emre Neftci, Hesham Mostafa, Friedemann Zenke 2019, IEEE Signal Processing Magazine 36(6): 51-63) funzionano ma raggiungono solo parita parziale con backprop dense.
Hardware ecosystem: CUDA, PyTorch, JAX dominano. I chip neuromorphic hanno SDK proprietari, comunità ridotta, pochi modelli pre-addestrati pubblici.
Scaling: nessuno ha dimostrato che le SNN scalino come i transformer. I benchmark restano su task piccoli.
Casi d’uso: il vantaggio energetico paga solo dove la latenza istantanea e l’efficienza-per-evento contano (sensori edge, robotica, brain-computer interface). Nel data center la GPU vince per throughput.

[DATATO 2026-04] Loihi 2 e Akida 2.0 sono lo stato dell’arte commerciale; SpiNNaker 2 è stato annunciato. La situazione evolve.

L’asse SNN/neuromorphic è il punto più chiaro del confronto cervello/ANN: è la corrente che ha provato a essere fedele al cervello e si è scontrata con i vincoli pratici dell’ecosistema hardware-software. La lezione: la fedeltà biologica, da sola, non basta a vincere; serve scaling, ecosistema, casi d’uso. La biologia ha avuto 500 milioni di anni di selezione; il silicio ha avuto sessant’anni di Moore’s law. Le scelte ottime divergono.

Vale la pena notare il rapporto inverso: nella storia del calcolo, le architetture vincenti non sono mai state quelle biologicamente più fedeli. Il calcolatore di von Neumann (memoria condivisa, fetch-decode-execute, clock globale) ha vinto contro architetture parallele e asincrone più vicine al cervello. La GPU NVIDIA (parallelismo SIMD, memoria gerarchica, batch processing) ha vinto contro chip neuromorphic più asincroni. Non è un argomento contro le SNN — è un’osservazione su come i vincoli del silicio (litografia, dissipazione termica, costo del wiring) inducano scelte architetturali che divergono dal wet-ware. Il giorno in cui un nuovo substrato fisico (memristori, calcolo ottico, materiali biologici sintetici) cambiasse i vincoli di base, il bilancio potrebbe cambiare. Allo stato 2026, non sta cambiando.

Asse 6 — Considerazioni epistemiche

Cervello da decifrare; ANN da aprire ma non capire. Il cervello esiste e funziona; lo studiamo con tecniche sempre più fini (single-cell electrophysiology, two-photon calcium imaging, optogenetica, fMRI ad alta risoluzione, connettomica) ma siamo lontani da una teoria meccanicistica completa. Una review onesta direbbe: sappiamo molto del come locale (canali ionici, sinapsi, plasticità, popolazioni), poco del come globale (come emergono coscienza, ragionamento, linguaggio dalla dinamica di 86 miliardi di neuroni).

Le ANN moderne sono trasparenti per costruzione (sappiamo il codice del forward pass, sappiamo il valore di ogni peso) ma opache per comportamento: non sappiamo perché un transformer da 100 miliardi di parametri prende una specifica decisione. Il campo della mechanistic interpretability (Christopher Olah, Neel Nanda, Anthropic Interpretability Team, vedi [mech-interp-intro](in preparazione)) cerca di mappare features e circuits dentro le ANN, in parallelo con la neuroscienza che fa lo stesso sul cervello. Esempi: induction heads (Olsson et al. 2022), name-mover heads, copy circuits, sparse autoencoders per estrarre features monosemantiche (Bricken et al. 2023). È un campo giovane che applica un metodo simile (probing, ablation, encoding models) a un oggetto completamente diverso.

Predictive coding e next-token prediction: un parallelo che merita scrutinio. Vale la pena guardare in dettaglio il parallelo che LeCun e Bengio hanno spinto, perché illustra bene come una convergenza di alto livello possa essere fertile o ingannevole a seconda di quanto la si stringe.

Il free energy principle di Friston (2010) afferma che il cervello minimizza una grandezza chiamata “free energy variazionale” — operativamente, l’errore di predizione tra ciò che ci si aspetta del mondo e ciò che si osserva. Ogni livello della gerarchia corticale produce predizioni top-down sul livello sotto, riceve dal basso segnali di errore (predizioni meno osservazione), e aggiorna le sue rappresentazioni per ridurre l’errore. È una teoria unificata di percezione (aggiorna rappresentazioni interne), azione (modifica il mondo per matchare le predizioni), apprendimento (modifica i parametri delle rappresentazioni a lungo termine).

Un LLM autoregressivo durante il training fa qualcosa di strutturalmente analogo: predice il prossimo token data la sequenza precedente, calcola la cross-entropy loss tra predizione e ground truth, aggiorna i pesi per ridurre l’errore. La convergenza di alto livello è genuina: entrambi i sistemi sono predittori. La cross-entropy loss è formalmente una stima della free energy.

Dove il parallelo si tende. (1) Il cervello opera in continuous-time con gerarchia massiccia di feedback top-down; un transformer opera in batch sincroni senza feedback dinamico durante il forward pass. (2) Il cervello predice il mondo multimodale embodied; un LLM predice token in uno spazio simbolico discreto disembodied. (3) La free energy biologica include un termine di azione (active inference) — il cervello modifica il mondo per ridurre l’errore — che il pre-training di un LLM non ha. (4) Le scale temporali sono incommensurabili: la predizione cerebrale opera su millisecondi, l’aggiornamento sinaptico su minuti-ore, la consolidazione su giorni; l’LLM ha solo training-time vs inference-time, due modalita binarie.

Il parallelo è quindi reale ma di alto livello. Va trattato come convergenza fenomenologica forte (entrambi sono predittori), convergenza rappresentazionale parziale (entrambi sviluppano rappresentazioni interne predittive — l’evidenza da modelli linguistici che predicono attività corticale lo supporta), non convergenza meccanicistica (l’algoritmo di learning, l’architettura, la dinamica temporale divergono completamente).

Il valore del parallelo: orienta la ricerca in direzioni potenzialmente fertili (architetture predictive, world models, JEPA di LeCun). Il rischio del parallelo: spingere a credere che basti scalare un transformer per arrivare a qualcosa di simile a un cervello, ignorando le tre divergenze sopra. La ricetta giusta è probabilmente prendere il problema dalla biologia (predizione gerarchica come obiettivo unificante) e lasciare il meccanismo all’ingegneria, ma con disciplina su che cosa significa ciascuna delle due parti.

Cosa l’AI ha imparato dalla neuroscienza? Poco oltre l’ispirazione iniziale. Hassabis-Kumaran-Summerfield-Botvinick (2017) elencano: episodic memory (motivazione per sistemi di memoria esterna come Differentiable Neural Computer), continual learning (synaptic consolidation analoga a Elastic Weight Consolidation), attention (concettualmente, non meccanicamente), curriculum learning (analogo a sviluppo cognitivo). La maggioranza sono ispirazioni concettuali, non implementazioni dirette del meccanismo biologico.

Cosa la neuroscienza ha imparato dall’AI? Più di quello che si pensa. Il campo NeuroAI, articolato in un manifesto collettivo di Blake Richards, Tim Lillicrap e oltre quaranta coautori (“A deep learning framework for neuroscience”, Nature Neuroscience 22: 1761-1770, 2019), usa ANN come modelli generativi normativi: addestra una rete a fare un task (vision, navigation, language), confronta le sue rappresentazioni interne con dati neurali. Esempi documentati:

Yamins-DiCarlo 2014 per visione (già’ citato).
Andrea Banino e collaboratori (DeepMind, 2018, Nature 557: 429-433): un agente RL addestrato a navigare sviluppa autonomamente rappresentazioni grid-cell-like, simili a quelle scoperte da May-Britt e Edvard Moser nella corteccia entorinale (Nobel 2014).
Linsley e collaboratori (vari lavori 2023-2025): modelli di linguaggio predicono attività fMRI in corteccia temporale superiore meglio di modelli lessicali tradizionali.
Pouya Bashivan, Kohitij Kar, James DiCarlo (2019, Science 364: eaav9436): image synthesis driven by ANN models causa specifiche risposte neurali in macaco V4. La predizione diventa intervento.

Questa direzione AI -> neuroscienza è netta nel 2025-2026, e qualunque confronto onesto deve riconoscere che la freccia di influenza scorre in entrambi i sensi, non solo dal cervello alle ANN.

Esempi: tre angoli concreti

Tre esempi eterogenei, scelti per illustrare classi diverse di affermazione.

Esempio 1: McCulloch-Pitts come astrazione esplicita (filiazione storica dichiarata)

Il paper del 1943 di McCulloch-Pitts è un esempio raro nella storia della scienza di astrazione esplicitamente dichiarata. Nella sezione “Theory” gli autori scrivono che il loro modello assume cinque condizioni (riformulate qui in italiano operativo):

L’attività del neurone è un processo “tutto-o-niente” (binario).
Un certo numero fisso di sinapsi devono essere eccitate entro una latenza di addizione perché un neurone scarichi.
Il solo ritardo significativo nel sistema nervoso è il ritardo sinaptico.
L’attività di una sinapsi inibitoria previene assolutamente l’eccitazione del neurone.
La struttura della rete non cambia nel tempo.

Tutte e cinque le condizioni sono violate dal neurone biologico. Lo spike è tutto-o-niente solo a una scala; la sommazione è analogica e dipende dalla geometria dendritica; ci sono ritardi assonici significativi; l’inibizione è graduata, non assoluta; la plasticità modifica continuamente la struttura. McCulloch e Pitts lo sanno e lo dichiarano: il loro obiettivo è la trattabilita matematica, non la fedelta fisiologica.

Questo esempio mostra come la filiazione storica (la matematica delle ANN discende, per filiazione documentata, dal paper del 1943) sia perfettamente compatibile con la divergenza fisiologica (il neurone artificiale non è un modello del neurone biologico). Sono due classi di affermazione diverse e non vanno confuse.

Esempio 2: Yamins-DiCarlo CNN che predice V4 (convergenza statistica, non equivalenza)

Il setup di Yamins-DiCarlo 2014 è istruttivo. Gli autori prendono una CNN ottimizzata per object classification su ImageNet — quindi una rete non addestrata su dati neurali. Mostrano stimoli visivi a un macaco anestetizzato con elettrodi multi-canale impiantati in V4 e IT. Per ogni stimolo registrano le risposte neurali e calcolano le features della CNN per lo stesso stimolo. Costruiscono una mappatura lineare dalle features della CNN alle risposte neurali. Misurano R^2: quanto la mappatura predice risposte neurali su stimoli held-out.

Risultato: le features dei layer profondi della CNN predicono le risposte di V4 e IT con R^2 di circa 0.5-0.7, meglio di qualunque modello hand-crafted precedente (Gabor-banks, HMAX, modelli di curvatura).

Lettura corretta: una CNN ottimizzata per la stessa funzione computazionale (object recognition su immagini naturali) sviluppa rappresentazioni che si correlano con le rappresentazioni neurali corrispondenti. Convergenza sotto pressione di ottimizzazione condivisa.

Lettura scorretta (e diffusa): “le CNN sono modelli del cervello”, “la corteccia visiva è un transformer convoluzionale”. Le CNN non hanno feedback massiccio top-down, modulazione attentiva, plasticità rapida, dinamica oscillatoria. La predizione vale su risposte medie a stimoli passivi e si rompe per adversarial examples. La corrispondenza è statistica e funzionale, non meccanica.

Esempio 3: bambino impara “giraffa” vs LLM (sample efficiency qualitativamente diversa)

Una bambina di due anni vede una giraffa allo zoo, sente la parola, e generalizza: dal libro illustrato al peluche alla foto. Pochi esempi, generalizzazione robusta. Numero di esposizioni: ordine di grandezza decimale.

GPT-4 ha visto la parola “giraffa” milioni di volte nel pre-training su trilioni di token. Senza quella massa di esposizioni, non riconoscerebbe il concetto in modo affidabile. La gap di sample efficiency è di circa sei ordini di grandezza.

Cosa porta la bambina al compito che l’LLM non ha?

Priors innati e sviluppati: sistema visivo ottimizzato per object recognition (V4-IT come da Yamins-DiCarlo), capacità di parsing della scena, di tracking di oggetti, di generalizzazione viewpoint-invariant.
Embodiment e contesto multimodale: la giraffa è tridimensionale, ha un odore, un contesto sociale (la madre la indica, ne parla), una scala (è enorme). L’LLM ha solo testo.
Theory of mind sociale: la bambina capisce che la madre sta etichettando quella cosa li. La supervisione è minima ma l’attribuzione di reference è robusta.
Continual learning naturale: nessun rischio di catastrophic forgetting; l’apprendimento di “giraffa” non cancella “elefante”.

Le ricerche su few-shot learning, in-context learning, meta-learning hanno chiuso parzialmente il gap nei modelli moderni — un LLM con ICL può riconoscere un nuovo concetto da pochi esempi nel prompt — ma il pre-training resta un investimento enorme che il bambino non fa nello stesso modo.

L’esempio mostra una differenza qualitativa che non è solo quantità di dati: è come e quando l’apprendimento avviene, con quali priors, con quale embodiment, con quale supervisione sociale.

Esempio 4 (bonus): catastrophic forgetting in azione

Per fissare meglio l’asse “differenza qualitativa”, un esempio concreto. Prendi una rete neurale standard, addestrala a riconoscere cifre scritte a mano dell’MNIST. Misura: 99% di accuracy. Ora, senza riavviare il training da zero, addestrala su Fashion-MNIST (dieci categorie di vestiti). Dopo poche epoche di Fashion-MNIST, ri-misura sull’MNIST originale. La performance crolla a 20-30%. La rete ha “imparato” Fashion-MNIST, ma nel farlo ha quasi distrutto la conoscenza precedente. Questo è il catastrophic forgetting documentato da McCloskey-Cohen 1989.

Tu, invece, ricordi sia come scrivere il numero “7” sia come distinguere una giacca da una camicia. Le due competenze coesistono. Il cervello ottiene questo risultato attraverso una combinazione di meccanismi: separazione anatomica (il sistema corticale e quello ippocampale lavorano in parallelo, McClelland-McNaughton-O’Reilly 1995); replay durante sonno e veglia (le memorie recenti vengono “rigiocate” per consolidare in neocorteccia senza distruggere); modulazione neurochimica (la dopamina come segnale di salience codifica cosa vale la pena consolidare). Le tecniche ANN moderne per mitigare catastrophic forgetting (Elastic Weight Consolidation, Progressive Networks, Memory-augmented Networks, Generative Replay) si ispirano esplicitamente a questi meccanismi biologici. EWC, in particolare, calcola una matrice di Fisher per identificare i pesi “importanti” per il task A e li penalizza dal cambiare troppo durante il training su B — un’analogia funzionale, non meccanica, con la consolidazione sinaptica.

Il punto: la differenza non è solo quanto il cervello impara meglio, ma come mantiene memorie multiple senza interferenza distruttiva. È un’asimmetria architetturale, non solo di scala.

Eredità oggi: NeuroAI, brain-inspired AI, neuromorphic

La situazione al 2026 si articola in tre correnti di ricerca che intrecciano AI e neuroscienza in modi diversi.

NeuroAI (manifesto Richards et al. 2019): usa le ANN come modelli normativi di funzioni cerebrali. La domanda non è “come funziona il cervello?” ma “se ottimizziamo per questa funzione, quale rappresentazione emerge?”. Risultati notevoli: grid cells emergenti in agent navigation (Banino 2018), risposte V4 predette da CNN (Yamins 2014), modelli di linguaggio che predicono attività corticale linguistica (vari, 2020-2025). NeuroAI è diventato un sotto-campo riconosciuto, con conferenze dedicate (NeuroAI Workshop a NeurIPS) e linee di finanziamento NIH.

Brain-inspired AI: prende ispirazione concettuale dal cervello per nuove architetture. Esempi nello stato 2026: memoria esterna ispirata a episodic memory (Memory-augmented Neural Networks, MemGPT, Letta), sleep-like consolidation per continual learning (Generative Replay), attention guidata da salience top-down (lavori sperimentali). Spesso l’ispirazione è alta-livello e l’implementazione diverge dal meccanismo biologico originale.

Una distinzione utile per leggere questi lavori: ispirazione a livello di problema (il cervello risolve il problema della consolidazione di memorie multiple, come possiamo affrontarlo nelle ANN?) vs ispirazione a livello di meccanismo (il cervello usa replay ippocampale durante sleep, implementiamo qualcosa di analogo). La prima è quasi sempre fertile; la seconda è spesso traditrice, perché le condizioni operative del cervello (continuous-time, sparsity, neuromodulation) non si trasferiscono al silicio senza ripensarle profondamente. La regola pratica: prendere il problema dalla biologia, lasciare il meccanismo all’ingegneria.

Neuromorphic computing (Loihi, Akida, SpiNNaker): hardware fedele a primitive cerebrali (eventi, sparsita, sub-threshold). Non ha vinto il mainstream, vive in nicchie applicative (edge sensing, BCI, robotica low-power). Stato evolutivo, non rivoluzionario.

[DATATO 2026-04] La traccia LeCun/Bengio sostiene che il prossimo salto qualitativo arrivera da modelli del mondo (world models) e da architetture predictive coding-like (JEPA, joint embedding predictive architecture), più vicini al cervello come predictive engine. Ipotesi viva, non ancora dimostrata sui benchmark di ragionamento generale.

Tre progetti che vale la pena conoscere. Per chi vuole vedere dove la frontiera di ricerca si trova al 2026, tre progetti emblematici, uno per corrente:

Allen Institute for Brain Science (Seattle): atlante cellulare e connettomico del cervello di topo a risoluzione single-cell, dataset pubblico (Allen Brain Atlas, MICrONS). Esempio di scienza di base che alimenta NeuroAI: i modelli di topo addestrati su questi dati permettono di confrontare ANN e attività neurale a una risoluzione mai raggiunta prima.
DeepMind / Google Research: linea continuativa di lavori NeuroAI (Banino 2018 grid cells, vari follow-up su navigation e memory). Esempio di brain-inspired AI che produce sia avanzamenti AI sia ipotesi neuroscientifiche testabili.
Intel Labs Loihi (Hillsboro, Oregon): la principale piattaforma di ricerca neuromorphic accademica e industriale. Esempio della corrente che prova a essere fedele al cervello al livello hardware. Una decina di anni di dataset e benchmark sono stati pubblicati; il chip non ha vinto il mainstream ma ha alimentato un’intera generazione di tesi di dottorato e startup.

Le tre correnti non sono in competizione; sono tre angoli diversi sullo stesso problema (capire e sfruttare il rapporto tra cervello e ANN). Chi entra nel campo nel 2026 deve scegliere consapevolmente quale angolo gli interessa, perché le metriche di successo, le pubblicazioni di riferimento e gli stakeholder sono diversi per ciascuno.

Dove si rompe

Le pagine precedenti hanno costruito un confronto sistematico. Qui registriamo i punti dove le analogie scivolano in equivalenze, e dove vanno smontate esplicitamente.

Il cliche “neurone artificiale = neurone biologico semplificato”. Falsa equivalenza. In senso storico (McCulloch-Pitts) è giustificata: il primo modello è nato come astrazione del neurone. In senso contemporaneo, in un transformer da 100 miliardi di parametri, il “neurone” non corrisponde a niente di chiaro nel cervello. Il singolo peso (weight) è più vicino concettualmente a una sinapsi che a un neurone. Un’unità ReLU dopo una matrice di proiezione potrebbe essere chiamata “neurone” ma non ha controparte cellulare biologica precisa. La parola è un fossile linguistico.

Il cliche “il cervello fa backpropagation”. Falsa filiazione. Backprop ha problemi di plausibilita biologica documentati (weight transport, segnali simmetrici, gradiente globale). Esistono ipotesi che il cervello implementi qualcosa di funzionalmente equivalente con primitive locali (predictive coding networks di Whittington-Bogacz, equilibrium propagation di Scellier-Bengio), ma sono speculative e non dimostrate. L’apprendimento sinaptico documentato sperimentalmente (STDP, modulazione dopaminergica) non è backprop.

Il cliche “transformer attention = attenzione biologica”. Falsa equivalenza. Coincidenza nomenclatura. Il meccanismo di attention in transformer è dot-product Q-K seguito da softmax e weighted sum di V — algebra lineare. L’attenzione biologica è un processo neurale multi-componente (top-down dal pulvinar, modulazione colinergica, sincronizzazione gamma) con proprietà (competizione, salience top-down, dinamica) che il meccanismo trasformeriano non implementa.

Il cliche “le ANN sono modelli del cervello”. Falsa equivalenza generale. Le ANN sono ispirate dal cervello (filiazione storica diluita 1943-1986) e in casi specifici convergenti statisticamente (Yamins-DiCarlo, sparse coding) sotto pressione di ottimizzazione condivisa. Non sono simulazioni meccaniche del cervello in nessun senso forte.

Il cliche “il cervello è un computer”. Analogia datata, non equivalenza dimostrata. La teoria computazionale della mente di Hilary Putnam e Jerry Fodor (anni 1960-1970) è una posizione filosofica articolata, ma non ha mai dimostrato che il cervello sia equivalente a un calcolatore digitale. Il cervello processa informazione — questa frase è difficilmente contestabile — ma con primitive, architettura e dinamica radicalmente diverse da un calcolatore digitale, e con un substrato fisico (wet-ware, chimica, dinamica continua) che non si esaurisce nella metafora informatica. Il dibattito è aperto e l’analogia, presa come equivalenza, induce errori sistematici.

Il cliché “le ANN scaleranno fino a coincidere con il cervello”. Falsa estrapolazione. È vero che lo scaling ha portato risultati spettacolari nei transformer (GPT-2 -> GPT-3 -> GPT-4); è vero che molte capacità sono emerse aumentando i parametri. Ma estrapolare da “lo scaling funziona” a “lo scaling chiuderà la differenza con il cervello” presuppone che la differenza sia quantitativa. Le sezioni precedenti hanno mostrato che molte differenze sono qualitative: catastrophic forgetting, embodiment, plasticità lifelong, robustezza al rumore strutturato, sample efficiency. Lo scaling non risolve un’asimmetria qualitativa; al massimo la maschera nel range del training set. La posizione di Yann LeCun (2022-2025), per la quale il prossimo salto richiede architetture diverse (JEPA, world models) e non solo scaling, è un’ammissione di questo punto da uno dei principali architetti del paradigma corrente.

Il cliché “una BCI matura ci darà l’AGI”. Falsa sintesi. Le brain-computer interface (Neuralink, Synchron, BrainGate) misurano attività neurale e la traducono in segnali di controllo per dispositivi esterni. Sono utili per applicazioni mediche e per interfacce uomo-macchina. Ma non insegnano al silicio come pensare; al massimo, danno al cervello biologico un canale aggiuntivo verso macchine. Confondere “leggere/scrivere segnali neurali” con “implementare l’intelligenza in silicio” è un errore di categoria. La BCI è un’interfaccia, non una traduzione.

Reductionism in entrambe le direzioni. C’è un tipo di errore opposto, meno discusso ma altrettanto presente: il reductionism cervellocentrico che dice “un giorno simuleremo il cervello sinapsi per sinapsi e avremo l’AGI”. Sotto-stima di sei ordini di grandezza la complessità biologica (gradiente neurochimico, glia, sviluppo, embodiment), e ignora che la stessa funzione cognitiva può essere realizzata su substrati radicalmente diversi (multiple realizability, Putnam 1967). L’errore opposto al “le ANN sono il cervello” è “il cervello deve essere simulato per fare AI vera”. Entrambe sono ipotesi forti, non fatti.

Il rischio epistemico generale: l’analogia, presa per equivalenza, fa pensare di sapere più di quanto si sappia. Sapere che il cervello consuma 20 W e una GPU H100 700 W non spiega perché l’una sia 35x più efficiente dell’altra; richiede una teoria, e la teoria non c’è. L’umiltà epistemica corretta: ci sono due sistemi notevoli, alcuni punti di contatto reali (ottimizzazione per object recognition), molti punti di divergenza meccanica. Il confronto è utile come strumento di pensiero, pericoloso come fonte di certezza.

Tre regole operative che emergono da quanto detto, utili per chi legge o produce contenuti su AI e neuroscienza:

Marca la classe. Quando affermi che A “è come” B, “discende da” B, “è equivalente a” B, scegli il verbo con cura. Analogia, filiazione, equivalenza sono cose diverse. La conversazione pubblica scivola di continuo da una all’altra; resistere al pendio è un’igiene cognitiva basilare.
Distingui il livello del problema dal livello del meccanismo. Cervello e ANN possono risolvere lo stesso problema (object recognition) con meccanismi diversi (gerarchia ventrale vs CNN convoluzionale). La convergenza al livello del problema non implica equivalenza al livello del meccanismo, e la divergenza meccanica non smentisce la convergenza funzionale. Sono due assi indipendenti.
Non confondere mancanza di teoria con presenza di mistero. Sia il cervello sia un transformer da 100 miliardi di parametri sono opachi al comportamento. Questo è un problema di scienza in costruzione, non un problema di natura. La mechanistic interpretability per le ANN e la connettomica per il cervello sono due programmi paralleli che potrebbero arrivare a teorie meccanicistiche nei prossimi decenni. La prudenza epistemica del 2026 non va confusa con un’opacità ontologica.

Una sintesi operativa

Per chiudere il confronto a uso pratico, una sintesi in cinque punti che il lettore può portare via:

Cervello e ANN sono parenti lontani per filiazione storica (1943-1986), parenti vicini per nomenclatura, lontani per meccanica. La metafora “neurone artificiale = neurone biologico” ha valore didattico ma è ingannevole se presa per equivalenza.
Le differenze quantitative sono enormi (ordini di grandezza in numero di unità, energia, velocità) ma le differenze qualitative contano di più (apprendimento multi-scala, sleep consolidation, embodiment, robustezza al rumore strutturato, sample efficiency).
Le convergenze esistono e sono interessanti, soprattutto per object recognition (Yamins-DiCarlo) e per il principio generale di predizione (predictive coding ↔ next-token). Vanno trattate come convergenze rappresentazionali sotto pressione di ottimizzazione condivisa, non come equivalenze meccanicistiche.
Il neuromorphic computing è la corrente più fedele alla biologia ma non ha vinto il mainstream perché fedeltà biologica da sola non basta: servono scaling, ecosistema software, casi d’uso. Il bilancio può cambiare se cambiano i vincoli del substrato fisico.
NeuroAI è bidirezionale: usare ANN come modelli generativi normativi del cervello sta producendo risultati netti per la neuroscienza (Yamins-DiCarlo, Banino, Bashivan, vari LM-fMRI). La freccia di influenza scorre in entrambi i sensi, non solo dal cervello alle ANN.

Tre regole operative riassuntive: marca la classe (analogia/filiazione/equivalenza), distingui livello del problema dal livello del meccanismo, non confondere mancanza di teoria con presenza di mistero.

Il prossimo capitolo ([architetture-cognitive](in preparazione)) sale di un livello e guarda i tentativi storici (ACT-R, SOAR, global workspace theory) di costruire architetture cognitive complete che integrino percezione, memoria, attenzione, decisione. Il confronto cervello/ANN di questo capitolo continuerà lì in forma diversa: non più “neurone vs unità”, ma “architettura cognitiva intera vs sistema agentico end-to-end”.

Una nota finale per chi lavora al confine. Il vocabolario condiviso tra neuroscienza e AI è una risorsa e una trappola: risorsa perché permette di importare intuizioni e ipotesi da un campo all’altro, trappola perché la stessa parola in due campi diversi denota oggetti diversi. La disciplina di tradurre, ogni volta, e di chiedersi che cosa significa esattamente attention/memory/learning in questo contesto è il prezzo di lavorare al confine. Pagarlo conviene: la maggior parte delle idee fertili degli ultimi vent’anni di AI è arrivata da chi ha saputo tenere insieme i due vocabolari senza confonderli — Hinton, LeCun, Bengio, Hassabis, DiCarlo. La maggior parte delle confusioni del discorso pubblico arriva da chi ha smesso di tradurre.

Tradurre, in questo contesto, vuol dire mantenere la classe esplicita ad ogni passaggio: questa è un’analogia didattica, questa è una filiazione storica documentata, questa è una convergenza statistica sotto pressione di ottimizzazione condivisa, questa è un’equivalenza meccanica (raramente). Il rumore di fondo del 2026 — articoli divulgativi, post di blog, dichiarazioni di CEO — fa scivolare di continuo da una classe all’altra senza marcarle. Il lavoro di chi vuole capire sul serio è resistere a questo scivolamento, una frase per volta.

Collegamenti

cervello-basi: prerequisito diretto. Numeri biologici, neurone, sinapsi, plasticità, tecniche di indagine.
architetture-cognitive (in preparazione): il successivo capitolo della Parte III, su ACT-R, SOAR, global workspace theory. Confronto tra modelli simbolici e connessionisti della cognizione.
reti-neurali-80-90: la storia del connessionismo dopo Rumelhart-Hinton-Williams 1986, lo stallo per mancanza di dati e compute.
imagenet-alexnet-2012: il momento deep learning, AlexNet vince ImageNet.
transformer-2017: il paper Vaswani et al., il meccanismo di attention come algebra lineare.
attention-intuizione (in preparazione): l’intuizione del meccanismo di attention nei transformer, costruita da zero.
ponte-attenzione-transformer (in preparazione): il ponte esplicito tra attenzione psicologica e attention in transformer; quanta eredità è reale.
mech-interp-intro (in preparazione): mechanistic interpretability come progetto parallelo alla neuroscienza per aprire la scatola nera delle ANN.
cot-meccanica (in preparazione): chain-of-thought e cosa succede internamente, parallelo (o non) con il pensiero seriale umano.
embodiment-tool-use e cognizione-embodied (in preparazione): il ruolo del corpo nel pensiero, e la frontiera dei modelli vision-language-action.

Per andare oltre

Tre fonti primarie per approfondire i punti chiave del capitolo, e tre review per la mappa generale.

Primarie:

McCulloch W.S., Pitts W. (1943). “A Logical Calculus of the Ideas Immanent in Nervous Activity”. Bulletin of Mathematical Biophysics, 5: 115-133. Il paper fondativo. Leggibile in poche ore, denso ma chiaro. Documenta esplicitamente la natura di astrazione del neurone artificiale.
Yamins D.L.K., DiCarlo J.J., et al. (2014). “Performance-optimized hierarchical models predict neural responses in higher visual cortex”. PNAS, 111(23): 8619-8624. Il paper cardine della convergenza CNN-corteccia visiva. Da leggere insieme alla review di critique successiva (Schrimpf et al. 2018, “Brain-Score”).
Lillicrap T.P., Santoro A., Marris L., Akerman C.J., Hinton G. (2020). “Backpropagation and the brain”. Nature Reviews Neuroscience, 21: 335-346. Review onesta sui problemi di plausibilita biologica di backprop e sui tentativi di superarli. Da uno degli autori del paper Nature 1986.

Review:

Hassabis D., Kumaran D., Summerfield C., Botvinick M. (2017). “Neuroscience-Inspired Artificial Intelligence”. Neuron, 95(2): 245-258. Manifesto NeuroAI dal lab DeepMind. Inventario delle ispirazioni neuroscientifiche utili per l’AI.
Richards B.A., Lillicrap T.P., et al. (2019). “A deep learning framework for neuroscience”. Nature Neuroscience, 22: 1761-1770. Posizione condivisa sul ruolo delle ANN come modelli generativi normativi della funzione cerebrale.
Friston K. (2010). “The free-energy principle: a unified brain theory?”. Nature Reviews Neuroscience, 11: 127-138. Predictive coding e free energy come cornice unificata. Tecnico ma fondamentale per capire il parallelo speculativo con next-token prediction.

Una raccomandazione di lettura combinata. Per chi vuole farsi un’idea bilanciata in poche ore: leggere McCulloch-Pitts 1943 (il paper fondativo, due ore con calma); poi Yamins-DiCarlo 2014 (la convergenza meglio documentata, due ore); poi Lillicrap et al. 2020 (perché il cervello non fa backprop, due ore). Sono dieci ore di lettura primaria che cambiano la qualità di tutto quello che leggerai dopo sul tema. Le review (Hassabis 2017, Richards 2019) sono utili come mappa, ma vanno dopo i tre paper, non prima: senza i paper, le review sembrano racconti senza appigli; con i paper letti, diventano sintesi verificabili.

Una nota sul registro di questo capitolo

Il libro tiene questo capitolo in Parte III (intelligenza umana e scienze cognitive), ma la sua natura è di confronto strutturale con metà dell’argomento dal lato AI. Il presentismo nel corpo è quindi legittimo controllatamente: confronti tecnici cervello/transformer/GPT-4 sono nell’argomento centrale, non in sidebar. Le sidebar [DATATO 2026-04] sono riservate ai numeri o tendenze che possono cambiare nei prossimi due-tre anni (energia GPT-4, hardware neuromorphic, JEPA come direzione promettente).

Per i capitoli successivi della Parte III — memoria, attenzione, sviluppo cognitivo, theory of mind — il registro tornerà più storiografico, con i ponti espliciti verso AI confinati nelle sezioni ponte-* dedicate. Questo capitolo è un’eccezione di metodo, non una nuova norma.