Salta ai contenuti

Plasticità hebbiana: come una sinapsi impara

Una sinapsi con forza fissa è un cavo. Una sinapsi che cambia forza in funzione dell’attività che la attraversa è l’unità fisica dell’apprendimento. Questo capitolo segue una sola regola — le connessioni tra neuroni attivi insieme si rafforzano — dal paragrafo del 1949 che la enunciò, alla sua conferma in laboratorio nel 1973, fino alla sua versione temporalmente precisa e ai suoi rapporti, spesso fraintesi, con l’apprendimento delle reti neurali artificiali.

Nel 1949 uno psicologo canadese, Donald Hebb, pubblica un libro che contiene, in mezzo a quattrocento pagine di teoria del comportamento, un singolo paragrafo destinato a essere citato per i settant’anni successivi. Il paragrafo non descrive un esperimento. Non riporta un dato. È una congettura: una proposta su come il tessuto nervoso potrebbe registrare l’esperienza. Hebb non aveva modo di verificarla — gli strumenti per guardare una singola sinapsi cambiare forza non esistevano ancora. Eppure quel paragrafo ha funzionato come un programma di ricerca: ha detto a generazioni di neuroscienziati cosa cercare. E, decenni dopo, lo hanno trovato.

Questo capitolo è il quarto della Parte III. I tre precedenti hanno costruito l’impalcatura. Neuroni, sinapsi, plasticità ha presentato il cervello in scala. Il potenziale d’azione ha seguito il segnale elettrico lungo un neurone. La sinapsi ha descritto come due neuroni si parlano attraverso un vuoto. In tutto quel quadro, però, la sinapsi ha avuto una forza fissa: un dato peso, deciso una volta. Qui quel peso comincia a muoversi.

Comincia da una domanda che il quadro costruito finora non sa ancora risolvere. Un cervello le cui sinapsi hanno forza fissa è un circuito cablato in fabbrica: esegue sempre lo stesso calcolo, risponde sempre allo stesso modo, non registra nulla di ciò che gli capita. Non impara. Non ricorda. Non si adatta. Un animale del genere sarebbe morto in fretta.

Il mondo, però, è pieno di regolarità sfruttabili. Il lampo precede il tuono. Il rumore del barattolo precede il cibo. Il volto della madre precede l’allattamento. Un sistema nervoso che sopravvive deve, in qualche modo, registrare queste co-occorrenze: deve lasciare nel proprio tessuto un segno fisico, durevole, del fatto che due cose vanno spesso insieme. La domanda diventa allora molto concreta: dove sta quel segno, e che forma ha?

La risposta su cui neuroscienze e psicologia hanno convergato è il tema di questo capitolo. Il segno sta nella forza delle sinapsi, e quella forza cambia con l’esperienza. Il fenomeno si chiama plasticità sinaptica: la capacità di una sinapsi di modificare in modo durevole la propria efficacia. La sua versione più studiata — quella in cui la sinapsi si rafforza quando le due cellule che collega sono attive insieme — è la plasticità hebbiana, dal nome di chi per primo la formulò con precisione.

Capire questo meccanismo serve per tre ragioni che attraversano tutta la wiki. È il ponte concreto tra “neurone” e “memoria”: senza plasticità sinaptica, i capitoli sulla memoria della Parte III non avrebbero un substrato fisico. È il punto in cui il vocabolario delle neuroscienze e quello del machine learning si toccano — la parola peso, il concetto di regola di apprendimento, l’idea di modificare connessioni: nascono, in parte, proprio qui. Ed è un caso da manuale di come una buona idea iniziale sia anche, quasi sempre, un’idea incompleta: la regola di Hebb nella sua forma pura non funziona, e gran parte del capitolo racconta come è stata riparata.

Contesto: una congettura senza strumenti per verificarla

Sezione intitolata “Contesto: una congettura senza strumenti per verificarla”

L’idea che l’apprendimento corrisponda a un cambiamento delle connessioni nervose è più antica di Hebb. Verso la fine dell’Ottocento Santiago Ramón y Cajal (1852-1934, istologo spagnolo, premio Nobel 1906, il fondatore della dottrina del neurone — la sua vicenda è raccontata in Neuroni, sinapsi, plasticità) ipotizzava che l’esercizio mentale potesse far crescere nuove ramificazioni o rafforzare connessioni esistenti. Lo psicologo statunitense William James, in The Principles of Psychology (1890), parlava di vie nervose che l’uso ripetuto “scava” rendendole più percorribili. C’era, insomma, un’intuizione diffusa. Mancava una formulazione abbastanza precisa da poter essere sbagliata — e quindi verificata.

Quella formulazione arriva con Donald Olding Hebb (1904-1985, psicologo canadese, considerato uno dei fondatori della neuropsicologia per aver tentato di fondare la psicologia sui meccanismi neurali). Nel 1949 Hebb pubblica The Organization of Behavior: A Neuropsychological Theory (Wiley). L’ambizione del libro è dichiarata nel sottotitolo: ricucire lo strappo tra la psicologia, che studiava il comportamento e la “mente”, e la neurofisiologia, che studiava cellule e correnti. Hebb vuole una teoria del comportamento fondata sui neuroni.

Va sottolineato cosa Hebb non aveva. Non aveva microelettrodi capaci di registrare da una singola sinapsi. Non aveva il microscopio elettronico per vedere le vescicole. Non sapeva quasi nulla dei neurotrasmettitori — l’acetilcolina era appena stata identificata, il glutammato non era ancora riconosciuto come trasmettitore. Il suo postulato è quindi un atto di teoria pura: una proposta funzionale su cosa dovrebbe accadere, lasciando completamente aperto il come fisico. Questa onestà — affermare la regola e ammettere di non conoscerne il meccanismo — è ciò che la rende un buon programma di ricerca anziché una speculazione chiusa.

Le date che contano in questo capitolo si dispongono lungo una linea lunga, che attraversa più di un secolo e tre discipline — psicologia, fisiologia, informatica.

1890 — William James, in The Principles of Psychology, descrive le vie nervose che l’uso “scava”. È un’intuizione, non un meccanismo.

1904 circa — il biologo tedesco Richard Semon conia il termine engram per indicare la traccia fisica di un ricordo. Il nome resterà, in cerca di un referente, per oltre un secolo.

1949 — Donald Hebb pubblica The Organization of Behavior. Il postulato di Hebb, il cell assembly, la phase sequence.

1958 — Frank Rosenblatt pubblica il paper del percettrone e cita Hebb tra le influenze principali. La regola di Hebb entra nella storia delle reti neurali artificiali.

Anni ‘60 — David Hubel e Torsten Wiesel mostrano, con gli esperimenti di deprivazione monoculare, che la corteccia visiva si riorganizza in base all’esperienza durante un periodo critico. Un vincolo empirico forte per qualsiasi teoria della plasticità.

1966 — Terje Lømo, nel laboratorio di Per Andersen a Oslo, osserva per la prima volta una potenziazione sinaptica durevole nell’ippocampo del coniglio.

1973 — Timothy Bliss e Terje Lømo pubblicano la caratterizzazione canonica dell’LTP sul Journal of Physiology.

1982 — anno denso. Erkki Oja pubblica la regola di Oja; Bienenstock, Cooper e Munro pubblicano la teoria BCM; John Hopfield pubblica il modello di rete a memoria associativa con apprendimento hebbiano. Tre modi diversi di mettere la regola di Hebb dentro un formalismo stabile.

1992 — la formula divulgativa “fire together, wire together” si afferma; viene attribuita alla neuroscienziata Carla Shatz.

1997-1998 — Henry Markram e colleghi, poi Guo-qiang Bi e Mu-ming Poo, rendono il timing dei singoli picchi la variabile centrale: nasce la STDP.

Anni 2010 — gruppi come quello di Susumu Tonegawa al MIT usano l’optogenetica per etichettare e riattivare le popolazioni di neuroni associate a un ricordo: l’avvicinamento sperimentale più diretto all’idea di cell assembly. Negli stessi anni si consolida lo studio della plasticità omeostatica (scaling sinaptico), che mostra come il cervello tenga in equilibrio la plasticità hebbiana.

Da qui in avanti il capitolo procede così: prima il postulato di Hebb e i due concetti che ne derivano; poi la regola tradotta in matematica e il suo difetto strutturale; poi l’LTP, la conferma fisiologica, e il suo meccanismo molecolare; poi l’LTD, la metà mancante; poi la STDP, la versione che rende esplicito il tempo; poi le regole che stabilizzano Hebb (Oja, BCM); infine, con cura, il confronto con l’apprendimento delle reti neurali artificiali, e i limiti dell’intero quadro.

L’intuizione: due modi di guardare la stessa regola

Sezione intitolata “L’intuizione: due modi di guardare la stessa regola”

Prima del formalismo, conviene afferrare l’idea da due angoli distinti. Sono lo stesso meccanismo visto, rispettivamente, dal lato della singola cellula e dal lato della rete.

Immagina un prato. La prima volta che qualcuno lo attraversa per andare da un capo all’altro, non lascia traccia: l’erba si rialza. Ma se quel percorso viene fatto spesso, l’erba si abbassa, il terreno si compatta, si forma un sentiero. Il sentiero non è stato progettato da nessuno: è emerso dal passaggio ripetuto. E una volta formato, è anche più facile da percorrere — il che invita altri passaggi, che lo consolidano ulteriormente.

La sinapsi hebbiana funziona così. Una connessione poco usata resta debole. Una connessione attraversata ripetutamente da segnali coordinati — quando la cellula che manda e la cellula che riceve sono attive nello stesso momento — si rafforza. Il rafforzamento non è deciso da un’istanza centrale: emerge localmente, dall’attività stessa. È apprendimento locale: ogni sinapsi si aggiorna usando solo l’informazione disponibile alle sue due cellule, senza che nessuno guardi la rete dall’alto.

L’analogia del sentiero coglie l’essenziale ma ha un limite, e tenerlo a mente è utile per il resto del capitolo: un sentiero, una volta scavato, non si “riempie” da solo se smetti di usarlo — o almeno non in fretta. La regola di Hebb pura ha esattamente questo problema. Sa scavare, non sa riempire. Ci torneremo.

Cambia prospettiva. Smetti di guardare la connessione come un sentiero e guardala come un piccolo dispositivo di misura, posto sulla sinapsi, con un compito solo: rispondere alla domanda “le mie due cellule sono attive insieme?”.

Se la risposta è sì — la cellula presinaptica sta scaricando e la postsinaptica sta scaricando — il dispositivo incrementa la forza della connessione. Se la risposta è no — una sola delle due, o nessuna — non fa nulla. È un rilevatore di coincidenza (coincidence detector): un meccanismo che si attiva solo quando due eventi capitano contemporaneamente.

Questo angolo è prezioso perché anticipa il meccanismo molecolare. Quando, più avanti, incontreremo il recettore NMDA, vedremo che la biologia ha costruito un rilevatore di coincidenza letterale: una proteina-canale che si apre solo se due segnali — uno dalla cellula che manda, uno dalla cellula che riceve — arrivano insieme. L’intuizione astratta e il meccanismo fisico, qui, coincidono in modo quasi sospetto. Non per caso: il meccanismo è stato cercato perché si sapeva cosa doveva fare.

Il cuore del libro del 1949 è un singolo paragrafo. Conviene leggerlo nell’originale, perché ogni parafrasi ne perde qualcosa:

“When an axon of cell A is near enough to excite a cell B and repeatedly or persistently takes part in firing it, some growth process or metabolic change takes place in one or both cells such that A’s efficiency, as one of the cells firing B, is increased.”

In italiano: quando l’assone di una cellula A è abbastanza vicino da eccitare una cellula B e ripetutamente o persistentemente partecipa a farla scaricare, avviene un processo di crescita o un cambiamento metabolico in una o entrambe le cellule, tale che l’efficienza di A — come una delle cellule che fanno scaricare B — aumenta.

Tre dettagli del testo, che le parafrasi tendono a cancellare, vanno isolati.

Primo: Hebb scrive “takes part in firing it”, non “fires at the same time”. Non è semplice co-attività. A deve contribuire causalmente a far scaricare B. C’è una direzione — da A verso B — e c’è una nozione di causa. Una sinapsi si rafforza non perché due neuroni capitano accesi insieme, ma perché uno aiuta ad accendere l’altro. Questa distinzione, che sembra una sottigliezza, tornerà centrale quando arriveremo alla STDP, dove l’ordine temporale dei picchi decide tutto.

Secondo: Hebb parla di un cambiamento “in one or both cells”, senza specificare quale né come. Non dice se cambi la cellula che manda, quella che riceve, o entrambe; non dice se sia una crescita anatomica o un cambiamento chimico. È un postulato funzionale: afferma che qualcosa cambia e in che direzione, lasciando aperto il meccanismo. Hebb non poteva fare altro — gli strumenti non c’erano — ma questa indeterminazione è anche ciò che ha reso il postulato fertile: ha lasciato spazio a decenni di ricerca per riempirlo.

Terzo, e da dire con chiarezza per evitare un errore diffuso: la formula popolare “cells that fire together, wire together” — “le cellule che scaricano insieme si connettono insieme” — non è di Hebb. È una sintesi divulgativa coniata decenni dopo, attribuita alla neuroscienziata statunitense Carla Shatz, e diffusasi attorno al 1992 nel contesto degli studi sullo sviluppo del sistema visivo. È uno slogan efficace, ma tradisce due cose dell’originale: perde la direzione causale (A → B diventa un generico “together”) e suggerisce una simmetria temporale che Hebb non aveva — per Hebb A deve precedere e contribuire a B. Quando il capitolo userà lo slogan, lo farà come slogan; la citazione vera è il paragrafo sopra.

Il postulato sulla singola sinapsi è solo il mattone. Hebb lo usa per costruire due concetti di scala maggiore, ed è qui che il libro diventa una teoria della mente e non solo della sinapsi.

Il primo è la cell assembly (assemblea cellulare). Se molte sinapsi all’interno di un gruppo di neuroni si rafforzano per via hebbiana, il gruppo diventa fortemente interconnesso. A quel punto basta attivarne una parte perché l’attività si propaghi all’intero gruppo e vi riverberi — si autoalimenti per un certo tempo, come un’eco che rimbalza. Per Hebb, questa assemblea che si autosostiene è il substrato fisico di un concetto, di una percezione, di un’idea. È un’affermazione forte e con una conseguenza precisa: il ricordo di “nonna” non sta in un singolo neurone — l’ipotesi, poi battezzata ironicamente grandmother cell, della cellula-della-nonna — ma in un pattern distribuito di connessioni. La rappresentazione è distribuita, ed emerge dall’apprendimento.

Il secondo è la phase sequence (sequenza di fasi): una catena temporale di cell assembly che si attivano una dopo l’altra, ciascuna innescando la successiva. Per Hebb è il substrato di un pensiero che si svolge, di un ragionamento, di una sequenza percettiva.

Una nota di onestà intellettuale, che il capitolo riprenderà tra i limiti. Il postulato di Hebb è stato poi verificato sperimentalmente in modo solido — è il resto del capitolo. Il cell assembly, invece, è rimasto a lungo un costrutto teorico: un’idea elegante la cui evidenza sperimentale diretta è arrivata molto più tardi, è più difficile da ottenere e resta parziale. Vanno tenuti su due piani diversi: il postulato è un fatto consolidato, il cell assembly è un’ipotesi influente e plausibile, non un fatto al pari dell’LTP.

Per portare la regola di Hebb dentro un modello — che sia una simulazione o una rete neurale artificiale — serve tradurla in numeri. Si rappresenta la connessione tra due unità con un peso ww: un numero che dice quanto forte è la sinapsi. L’unità che manda ha un’attività xx (quanto è “accesa” la cellula presinaptica); l’unità che riceve ha un’attività yy (quanto è accesa la postsinaptica). Il postulato — “si rafforza quando le due sono attive insieme” — diventa una regola di aggiornamento del peso:

Δw=ηxy\Delta w = \eta \, x \, y

Qui Δw\Delta w è la variazione del peso a ogni passo, e η\eta (la lettera greca eta) è il tasso di apprendimento, un numero positivo piccolo che dosa quanto velocemente il peso si muove. In parole povere, questa formula dice: il peso cresce in proporzione al prodotto delle due attività. Se entrambe sono alte, il prodotto è alto e il peso sale parecchio. Se una delle due è zero, il prodotto è zero e il peso non cambia. È esattamente “attive insieme → rafforzamento”, scritto come moltiplicazione.

Questa è la regola di Hebb nella sua forma “pura”. Ed è qui, guardandola come formula, che il suo difetto strutturale diventa impossibile da ignorare. Sono tre problemi distinti, e ognuno avrà bisogno di una riparazione.

Sa solo crescere. Le attività xx e yy, intese come frequenze di scarica, non sono mai negative. Il loro prodotto xyx \cdot y è quindi sempre 0\ge 0. Di conseguenza Δw0\Delta w \ge 0 a ogni passo: il peso può solo salire o restare fermo. La regola pura non ha alcun modo di indebolire una sinapsi. Una connessione, una volta rafforzata, non torna indietro. Il sentiero, una volta scavato, non si riempie.

Non ha limite superiore. Niente ferma la crescita. E c’è di peggio: il meccanismo si autoalimenta. Se A e B sono spesso attive insieme, ww cresce; ma un ww più grande rende B ancora più probabile quando A scarica; il che produce ancora coincidenze, che fanno crescere ancora ww. È un feedback positivo. Lasciato libero, il peso non cresce linearmente: diverge in modo esponenziale. Una rete con sinapsi puramente hebbiane è, matematicamente, instabile: i pesi esplodono.

È puramente correlazionale. La regola registra co-occorrenze e basta. Non sa nulla di “corretto” o “sbagliato”: non c’è un obiettivo da raggiungere, non c’è un segnale di errore che dica “questa risposta è buona, quest’altra no”. Per questo l’apprendimento hebbiano puro appartiene alla famiglia dell’apprendimento non supervisionato: estrae struttura statistica dall’input — cosa va con cosa — senza che nessuno gli dica cosa è giusto produrre.

Questi tre problemi non sono difetti marginali da nascondere in nota. Sono il motore di tutto ciò che segue. L’LTD risolverà il primo. Le regole di Oja e BCM risolveranno il secondo. Il terzo — l’assenza di un segnale di errore — è strutturale, e diventerà il discrimine centrale quando confronteremo la regola di Hebb con il modo in cui si addestrano davvero le reti neurali moderne.

C’è un modo di riscrivere la regola che risolve già metà del primo problema, ed è utile vederlo perché chiarisce cosa la regola di Hebb “calcola” davvero. Invece del prodotto delle attività grezze, si usa il prodotto degli scostamenti dalla media:

Δw=η(xxˉ)(yyˉ)\Delta w = \eta \, (x - \bar{x})(y - \bar{y})

dove xˉ\bar{x} e yˉ\bar{y} sono le attività medie delle due cellule su un certo intervallo. È la regola di covarianza. Il vantaggio: il prodotto (xxˉ)(yyˉ)(x - \bar{x})(y - \bar{y}) può essere negativo. Lo è quando una cellula è sopra la sua media e l’altra è sotto — cioè quando le due si comportano in modo discorde. In quel caso Δw<0\Delta w < 0: la sinapsi si indebolisce. La regola di covarianza sa quindi sia rafforzare (attività concordi) sia indebolire (attività discordi), e non solo crescere. Resta che è ancora puramente correlazionale — misura covarianza, non errore — e che il problema del limite superiore non è del tutto chiuso; ma il salto dal prodotto grezzo alla covarianza è il primo passo verso una regola usabile, ed è anche il modo in cui i modellisti di solito intendono “la regola di Hebb” quando la mettono in un’equazione.

LTP: la congettura diventa un fenomeno di laboratorio

Sezione intitolata “LTP: la congettura diventa un fenomeno di laboratorio”

Per oltre vent’anni il postulato di Hebb resta una congettura senza un meccanismo osservato. Nessuno aveva visto una sinapsi rafforzarsi.

La svolta è del 1973. Timothy Bliss (neuroscienziato britannico) e Terje Lømo (neuroscienziato norvegese) pubblicano sul Journal of Physiology (vol. 232, n. 2, pp. 331-356) il paper “Long-lasting potentiation of synaptic transmission in the dentate area of the anaesthetized rabbit following stimulation of the perforant path”. È un titolo che descrive l’esperimento per intero, e vale la pena scioglierlo.

Lavorano su conigli anestetizzati. Stimolano elettricamente la via perforante (perforant path), un fascio di assoni che porta segnali dentro l’ippocampo — una struttura ripiegata del lobo temporale, da decenni associata alla memoria. Registrano la risposta dei neuroni bersaglio nel giro dentato (dentate gyrus), una sottoregione dell’ippocampo. La procedura ha tre tempi. Primo: mandano un singolo stimolo-test e misurano quanto rispondono i neuroni bersaglio — è la misura “prima”. Secondo: applicano un treno ad alta frequenza, una raffica breve e intensa di stimoli, ciò che in gergo si chiama tetanizzazione. Terzo: tornano a mandare lo stesso singolo stimolo-test di prima e rimisurano.

Il risultato: dopo il treno, lo stesso stimolo-test produce una risposta più forte. E non per un istante — più forte e basta. Nei loro dati, in 15 conigli su 18, la potenziazione dura da 30 minuti fino a 10 ore. La sinapsi è cambiata, in modo durevole, per effetto dell’attività che l’ha attraversata.

Questo fenomeno prende il nome di LTP — long-term potentiation (potenziamento a lungo termine): un aumento durevole dell’efficienza di una sinapsi indotto dall’attività. Terje Lømo aveva intravisto il fenomeno già nel 1966, nel laboratorio di Per Andersen a Oslo; il paper del 1973 con Bliss è la prima caratterizzazione completa, e resta la fonte canonica.

Il significato per la teoria hebbiana è diretto. L’LTP è un meccanismo fisico, misurabile, durevole, che fa esattamente ciò che il postulato richiedeva: rafforza una sinapsi in funzione dell’attività. Dal 1973 la regola di Hebb smette di essere una congettura di carta e diventa un fenomeno con un nome, un protocollo di laboratorio e una regione del cervello in cui osservarlo.

Dentro la sinapsi: il meccanismo molecolare dell’LTP

Sezione intitolata “Dentro la sinapsi: il meccanismo molecolare dell’LTP”

Negli anni successivi al 1973 viene chiarito il meccanismo dell’LTP più studiato: quello delle sinapsi che usano il glutammato come neurotrasmettitore (le sinapsi glutammatergiche), nell’ippocampo, in particolare nella regione chiamata CA1. È la traduzione molecolare del rilevatore di coincidenza intuito sopra, e merita di essere seguita passo per passo.

I protagonisti sono due tipi di recettore del glutammato, entrambi presenti sulla membrana postsinaptica. Il recettore AMPA (dal nome di una molecola, l’acido alfa-ammino-3-idrossi-5-metil-4-isossazolpropionico, usata in laboratorio per attivarlo) è il recettore “veloce”: quando il glutammato lo raggiunge, si apre subito e fa passare corrente. È lui a mediare la normale risposta sinaptica rapida. Il recettore NMDA (dal nome di un’altra molecola, l’N-metil-D-aspartato) è il recettore speciale, ed è il vero rilevatore di coincidenza.

Il punto cruciale è una particolarità del canale NMDA. A potenziale di membrana di riposo — quando cioè la cellula postsinaptica è “tranquilla” — il canale NMDA è fisicamente tappato da uno ione magnesio (Mg²⁺) che gli si infila dentro. È il blocco da magnesio. Finché quel tappo c’è, anche se il glutammato è presente e ha legato il recettore, il canale non lascia passare nulla di significativo.

Perché il canale NMDA si apra davvero servono due condizioni, insieme:

  1. il glutammato deve essere presente — cioè la cellula presinaptica deve aver scaricato e rilasciato il neurotrasmettitore. È il segnale “pre”.
  2. la membrana postsinaptica deve essere depolarizzata, cioè già attiva, abbastanza da espellere lo ione magnesio dal canale. Questa depolarizzazione, di norma, è prodotta dai recettori AMPA che si sono aperti per primi, o dal fatto che la cellula postsinaptica sta scaricando per conto suo. È il segnale “post”.

Solo quando entrambe le condizioni sono soddisfatte — glutammato presente e membrana depolarizzata — il magnesio se ne va, il canale NMDA si apre, e lascia entrare calcio (Ca²⁺). Il recettore NMDA è quindi la traduzione molecolare quasi letterale del “A contribuisce a far scaricare B” di Hebb: si apre solo se la cellula che manda e la cellula che riceve sono attive insieme. Hebb aveva descritto la funzione nel 1949; la natura aveva costruito il dispositivo molto prima.

L’ingresso di calcio è il segnale che innesca il cambiamento. Un afflusso ampio di Ca²⁺ attiva una cascata di enzimi — in primo piano la CaMKII, una proteina chinasi calcio/calmodulina-dipendente — che fanno due cose: rendono più efficienti i recettori AMPA già presenti e ne fanno inserire di nuovi nella membrana postsinaptica. Più recettori AMPA significa che, alla prossima scarica di glutammato, la risposta sarà più grande: la sinapsi è più forte. Questa prima fase si chiama early LTP, dura da una a poche ore, e usa proteine che la cellula ha già — non richiede di costruirne di nuove. Se lo stimolo è abbastanza intenso o ripetuto, parte anche la late LTP: questa sì richiede l’attivazione di geni nel nucleo, la sintesi di nuove proteine e il rimodellamento strutturale della spina dendritica, e dura molto più a lungo. La sinapsi non cambia solo regolazione: cambia anatomia.

Tre proprietà dell’LTP, e perché coincidono con Hebb

Sezione intitolata “Tre proprietà dell’LTP, e perché coincidono con Hebb”

L’LTP non è solo “una sinapsi che si rafforza”. Ha tre proprietà misurabili che, prese insieme, la rendono il candidato ideale a substrato di un apprendimento associativo — e che corrispondono, una per una, a ciò che il postulato di Hebb richiedeva. Vale la pena isolarle, perché spiegano perché l’LTP è considerata “hebbiana” e non genericamente “plastica”.

La prima è la specificità di input (input specificity). Quando un treno ad alta frequenza induce LTP su una certa sinapsi di un neurone, le altre sinapsi dello stesso neurone — quelle che non hanno ricevuto il treno — non si potenziano. Il cambiamento è confinato alle connessioni che sono state attive. Questo è cruciale: significa che il neurone non “alza il volume” indiscriminatamente, ma rafforza in modo selettivo solo le vie che hanno partecipato. Una memoria precisa richiede esattamente questo — altrimenti ogni esperienza spalmerebbe il suo effetto su tutto.

La seconda è la cooperatività (cooperativity). Per indurre LTP serve superare una soglia: un singolo assone, attivato debolmente, non basta. Servono abbastanza fibre attive insieme da depolarizzare la cellula postsinaptica oltre il livello che libera il blocco da magnesio sui recettori NMDA. Le sinapsi, in altre parole, devono cooperare: è l’azione congiunta di più input a far scattare il rafforzamento, non lo sforzo isolato di uno.

La terza, la più direttamente hebbiana, è l’associatività (associativity). Un input debole, da solo incapace di indurre LTP, può comunque potenziarsi se viene attivato insieme a un input forte sullo stesso neurone. Il forte depolarizza la cellula; quella depolarizzazione libera i recettori NMDA anche sulle sinapsi del debole; se in quel momento anche il debole sta rilasciando glutammato, la sua sinapsi vede la coincidenza e si potenzia. È il meccanismo cellulare dell’associazione: una via debole “si aggancia” a una via forte se sono attive insieme. Si riconosce qui, quasi parola per parola, il condizionamento pavloviano — uno stimolo neutro (il debole) che si lega a uno stimolo efficace (il forte) per co-occorrenza. E si riconosce, soprattutto, il postulato di Hebb: una sinapsi si rafforza quando “prende parte” alla scarica della cellula, ed è la cellula nel suo insieme — depolarizzata dall’input forte — a fornire il contesto che lo permette.

Le tre proprietà non sono indipendenti: discendono tutte dalla stessa logica del recettore NMDA come rilevatore di coincidenza. La specificità viene dal fatto che il glutammato agisce solo sulle sinapsi che lo rilasciano; la cooperatività e l’associatività vengono dal fatto che la depolarizzazione che libera il magnesio è una proprietà globale della cellula, prodotta dalla somma degli input. Il singolo dispositivo molecolare, replicato su ogni sinapsi, genera un comportamento di rete che ha esattamente la forma dell’apprendimento associativo.

L’LTP è una conferma splendida del postulato di Hebb, ma ne ripara solo metà. Dà un meccanismo per rafforzare le sinapsi. Resta in piedi, intatto, il primo dei tre problemi della regola pura: senza un modo di indebolire, le sinapsi possono solo salire, e l’instabilità non è risolta — anzi, una rete che sa solo potenziare satura in fretta, ogni sinapsi al massimo, e a quel punto non discrimina più nulla.

Quel meccanismo opposto esiste, e si chiama LTD — long-term depression (depressione a lungo termine): una riduzione durevole dell’efficienza di una sinapsi, anch’essa indotta dall’attività.

Il modo di indurla, in laboratorio, contrasta nettamente con quello dell’LTP. L’LTP ippocampale si ottiene con treni ad alta frequenza. L’LTD ippocampale si ottiene tipicamente con una stimolazione a bassa frequenza e prolungata — un esempio classico è circa 900 impulsi a 1 Hz, cioè uno stimolo al secondo per un quarto d’ora abbondante. E qui arriva la sorpresa: anche l’LTD, in molte sinapsi, dipende dal recettore NMDA e dall’ingresso di calcio. Lo stesso recettore, lo stesso ione, produrrebbe l’effetto e il suo contrario?

La risposta è uno dei risultati più eleganti del campo, ed è nota come ipotesi del calcio (calcium hypothesis): ciò che conta non è se entra calcio, ma quanto ne entra e con che dinamica. Un afflusso grande e rapido di Ca²⁺ attiva preferenzialmente le chinasi — gli enzimi, come la CaMKII, che fosforilano e fanno aggiungere recettori AMPA. Esito: LTP. Un afflusso piccolo e prolungato attiva invece preferenzialmente le fosfatasi — enzimi che fanno il lavoro opposto, defosforilano e provocano la rimozione di recettori AMPA dalla membrana. Esito: LTD. Stesso rilevatore di coincidenza, stesso messaggero, due cascate enzimatiche diverse selezionate dalla quantità del segnale.

Vale la pena seguire la cascata dell’LTD con lo stesso dettaglio dedicato a quella dell’LTP, perché non è una semplice immagine speculare. L’attore chiave è una fosfatasi specifica, la calcineurina (nota anche come fosfatasi PP2B), che ha un’affinità per il complesso calcio-calmodulina più alta di quella della CaMKII. È questa differenza di affinità a fare da interruttore: una concentrazione di calcio bassa e protratta è sufficiente ad attivare la calcineurina ad alta affinità, ma resta sotto la soglia che recluterebbe la CaMKII. La calcineurina, una volta attiva, innesca a sua volta altre fosfatasi (in particolare la PP1) che defosforilano i recettori AMPA. La defosforilazione cambia il destino del recettore: lo segnala per la rimozione dalla membrana. Il recettore viene allora inghiottito dalla cellula per endocitosi — la membrana si invagina e forma una vescicola che porta il recettore dentro il citoplasma — e ritirato dalla densità postsinaptica. Meno recettori AMPA significa che, alla prossima scarica di glutammato, la corrente sarà più piccola: la sinapsi è più debole. Dove la LTP inserisce recettori, la LTD li internalizza. Anche la LTD ha una sua forma tardiva e strutturale: una depressione prolungata può portare al restringimento, e nei casi estremi alla scomparsa, della spina dendritica — il rovescio anatomico della crescita osservata nella late LTP.

Il ruolo computazionale dell’LTD va oltre il semplice “chiudere la regola di Hebb”. Una sinapsi che può solo salire dimentica nulla: ogni associazione registrata resta incisa per sempre, e una rete così satura accumula correlazioni vecchie e ormai irrilevanti finché non distingue più nulla. L’LTD è il meccanismo che permette di disimparare: di indebolire un’associazione quando il mondo smette di confermarla, di liberare capacità per registrarne di nuove. È anche uno strumento di debiasing, di correzione delle distorsioni. Se una sinapsi si è rafforzata per una co-occorrenza che si rivela spuria — due eventi che capitavano insieme per caso e poi smettono — la stimolazione a bassa frequenza, tipica di una via che si attiva debolmente e in modo scorrelato, la riporta indietro. La dimenticanza, in questa luce, non è un difetto della memoria ma una sua funzione attiva: una rete che non sa indebolire non sa nemmeno aggiornarsi. La LTD dà alla plasticità hebbiana la reversibilità senza cui non sarebbe apprendimento, ma solo accumulo.

Con l’LTD la regola di Hebb è completa: le sinapsi possono salire e scendere. È anche il motivo per cui una versione realistica della regola, nei modelli, non si scrive più come semplice prodotto xyx \cdot y — che è sempre positivo — ma come una covarianza, una grandezza che può essere anche negativa, e quindi capace di produrre un Δw\Delta w negativo quando le attività si discostano dalle loro medie in modo discorde.

Torniamo a un dettaglio del postulato del 1949 che era rimasto, fin qui, sotto traccia. Hebb aveva scritto “takes part in firing it”: A contribuisce a far scaricare B. Implicito in questa frase c’è un ordine temporale — A deve agire prima che B scarichi, perché possa contribuirci. Ma né la formula Δw=ηxy\Delta w = \eta x y né i protocolli classici di LTP rendevano esplicito quell’ordine: si stimolava ad alta o bassa frequenza, si guardava la quantità di attività, non il timing relativo dei singoli picchi.

Negli anni ‘90 due gruppi mettono il timing al centro del tavolo.

Il primo è quello di Henry Markram (neuroscienziato, allora al Max Planck di Heidelberg), con un paper su Science nel 1997: “Regulation of synaptic efficacy by coincidence of postsynaptic APs and EPSPs”. Lavorando su neuroni piramidali della neocorteccia, Markram e colleghi mostrano che ciò che modifica la sinapsi è la coincidenza tra il potenziale d’azione della cellula postsinaptica (l’AP, da action potential) e il potenziale postsinaptico eccitatorio che l’input genera (l’EPSP, da excitatory postsynaptic potential) — e, soprattutto, che il segno della modifica dipende da quale dei due viene prima.

Il secondo è quello di Guo-qiang Bi e Mu-ming Poo (neuroscienziati allora alla University of California, San Diego), con un paper sul Journal of Neuroscience nel 1998: “Synaptic Modifications in Cultured Hippocampal Neurons: Dependence on Spike Timing, Synaptic Strength, and Postsynaptic Cell Type”. Su colture di neuroni ippocampali, Bi e Poo mappano in modo sistematico la finestra temporale entro cui il timing produce l’uno o l’altro effetto.

Il fenomeno che ne emerge prende il nome di STDP — spike-timing-dependent plasticity (plasticità dipendente dal timing dei picchi). La regola, in sintesi:

  • Se il picco presinaptico precede quello postsinaptico di pochi millisecondi — in Bi & Poo, entro una finestra di circa 20 ms — la sinapsi si potenzia (LTP). È l’ordine “causale”: prima A, poi B. Coerente al millimetro con il “A contribuisce a far scaricare B” di Hebb: se A ha scaricato appena prima di B, A può davvero aver contribuito.
  • Se il picco postsinaptico precede quello presinaptico, sempre entro una finestra di circa 20 ms, la sinapsi si deprime (LTD). È l’ordine “anti-causale”: B ha scaricato prima che l’input da A arrivasse. Quell’input, quindi, non può aver causato la scarica di B — e la sinapsi viene indebolita, come a dire “questa connessione non è predittiva, declassala”.
  • Se i due picchi sono lontani nel tempo — decine di millisecondi o più — non succede quasi nulla. La coincidenza non c’è, e la sinapsi resta com’è.

Messo in grafico, questo diventa la curva STDP, uno dei diagrammi più riconoscibili delle neuroscienze. Sull’asse orizzontale si mette la differenza di tempo Δt=tposttpre\Delta t = t_{post} - t_{pre}, cioè istante del picco postsinaptico meno istante del picco presinaptico. Sull’asse verticale, la variazione del peso Δw\Delta w. Per Δt>0\Delta t > 0 — pre prima di post — la curva è positiva (potenziamento) e decade esponenzialmente man mano che Δt\Delta t cresce. Per Δt<0\Delta t < 0 — post prima di pre — la curva è negativa (depressione) e anch’essa decade. Il segno della curva è il segno della causalità: la STDP è il postulato di Hebb reso temporalmente preciso, e — a differenza della regola pura del 1949 — capace anche di indebolire.

Il meccanismo, di nuovo, è il rilevatore di coincidenza, con un attore in più. Quando la cellula postsinaptica scarica, il suo potenziale d’azione non viaggia solo in avanti lungo l’assone: si propaga anche all’indietro, su per i dendriti, verso le sinapsi che ricevono input. Questo si chiama back-propagating action potential — potenziale d’azione retropropagante. Attenzione a non confonderlo, per assonanza, con la backpropagation degli algoritmi di apprendimento: sono cose diverse, e tra poco diremo quanto. Il back-propagating action potential è il modo in cui la sinapsi “viene a sapere” che la cellula postsinaptica ha scaricato. Se questo segnale retropropagante raggiunge i dendriti mentre il recettore NMDA è ancora “armato” dal glutammato appena rilasciato dalla cellula presinaptica, la coincidenza è massima, l’afflusso di calcio è grande, e si ottiene LTP. Se invece il post scarica e poi arriva l’input, il glutammato trova un recettore la cui depolarizzazione sta già svanendo: coincidenza scarsa, calcio modesto, LTD. Il timing dei picchi si traduce, una volta di più, nella quantità di calcio.

L’LTD ha chiuso il problema del “sa solo crescere”. Restano in piedi il “nessun limite superiore” e un problema imparentato: la competizione. In un neurone reale le sinapsi non sono indipendenti — se ne crescono troppe, la cellula scarica sempre, e una cellula che risponde a tutto non distingue nulla. Servono meccanismi che tengano i pesi entro limiti e che facciano competere le sinapsi tra loro. Due regole degli anni ‘80, nate nel contesto delle reti neurali e della modellistica della corteccia, affrontano il problema sul piano teorico.

La prima è la regola di Oja, proposta da Erkki Oja (informatico finlandese) nel 1982 sul Journal of Mathematical Biology (vol. 15, pp. 267-273). Oja parte dalla regola di Hebb e le aggiunge un termine di “dimenticanza” (decay). La regola diventa:

Δw=ηy(xyw)\Delta w = \eta \, y \, (x - y \, w)

Il termine nuovo è il ηy2w-\eta \, y^2 w nascosto dentro la parentesi. In parole povere: c’è ancora il pezzo hebbiano ηyx\eta \, y \, x che fa crescere il peso quando pre e post sono attivi insieme, ma ora c’è anche un freno, ηy2w-\eta \, y^2 w, proporzionale al quadrato dell’output e al peso stesso. L’effetto è una normalizzazione moltiplicativa: più l’output yy cresce, più forte diventa il freno, finché crescita e freno si bilanciano. Il vettore di tutti i pesi del neurone, invece di divergere, si stabilizza su una lunghezza fissa (norma unitaria). E c’è un regalo inatteso: un neurone che impara con la regola di Oja converge sulla prima componente principale dell’input — cioè sulla direzione di massima variabilità dei dati. La regola di Hebb stabilizzata diventa, di fatto, un estrattore di componenti principali, un algoritmo di PCA (principal component analysis, analisi delle componenti principali). È un legame profondo: la plasticità hebbiana, una volta resa stabile, calcola statistica.

La seconda è la regola BCM, dalle iniziali di Elie Bienenstock, Leon Cooper e Paul Munro, pubblicata nel 1982 sul Journal of Neuroscience (vol. 2, pp. 32-48), e sviluppata per spiegare lo sviluppo della selettività dei neuroni nella corteccia visiva. L’idea centrale è una soglia mobile (sliding threshold), indicata con θM\theta_M, che separa potenziamento e depressione: se l’attività della cellula postsinaptica supera θM\theta_M, la sinapsi si potenzia; se resta sotto, si deprime. La mossa elegante è che θM\theta_M non è un valore fisso: si muove in funzione della storia recente di attività della cellula. Se la cellula è stata molto attiva di recente, θM\theta_M sale; se è stata poco attiva, scende. Questo crea una stabilizzazione automatica — una forma di metaplasticità, cioè una plasticità della plasticità stessa. Una cellula iperattiva alza la propria soglia e rende più difficile potenziarsi ulteriormente; una cellula spenta la abbassa e diventa più facile da reclutare.

Vale la pena dire da quale problema empirico nasce la BCM, perché illustra come una regola di plasticità venga vincolata dai dati. Negli anni ‘60 i neurofisiologi David Hubel e Torsten Wiesel (premio Nobel 1981) avevano mostrato che, suturando un occhio a un gattino durante un periodo critico dello sviluppo, i neuroni della corteccia visiva smettono di rispondere a quell’occhio e si “spostano” tutti verso l’occhio rimasto aperto. È un fenomeno difficile da spiegare con la sola regola di Hebb pura: se le sinapsi possono solo crescere, perché quelle dell’occhio chiuso si indeboliscono? La BCM lo spiega con eleganza: l’occhio chiuso trasmette comunque attività spontanea, debole e scorrelata; questa attività resta sotto la soglia mobile θM\theta_M, e ciò che sta sotto soglia viene depresso. La regola BCM, in altre parole, è stata costruita per essere coerente con un esperimento — non è un’invenzione matematica libera, ma un modello disciplinato dai dati. La sua fenomenologia si è poi rivelata in larga parte compatibile con quella, misurata indipendentemente molti anni dopo, della STDP.

Il filo conduttore di Oja e BCM è uno solo: la regola di Hebb “nuda” è instabile, e renderla utile richiede sempre di affiancarle un meccanismo di normalizzazione o di competizione. La biologia lo fa con l’LTD, con le soglie metaplastiche, con lo scaling sinaptico omeostatico; la modellistica lo fa con Oja, con la BCM e con le loro varianti. È lo stesso problema, affrontato da due lati — il vetrino e l’equazione.

Quattro esempi eterogenei, per ancorare la regola a casi concreti: uno numerico, due in codice, uno scenario.

Esempio numerico: l’instabilità in cinque passi

Sezione intitolata “Esempio numerico: l’instabilità in cinque passi”

Prendiamo la regola pura Δw=ηxy\Delta w = \eta \, x \, y e mostriamo l’esplosione con numeri minimi. Sia η=0.1\eta = 0.1. Supponiamo che la cellula presinaptica sia sempre attiva al valore x=1x = 1. E supponiamo, per semplificare, che l’output della postsinaptica sia proporzionale all’input pesato: y=wx=wy = w \cdot x = w. Partiamo da un peso piccolo, w0=0.5w_0 = 0.5.

Passo 1: y=0.5y = 0.5, quindi Δw=0.110.5=0.05\Delta w = 0.1 \cdot 1 \cdot 0.5 = 0.05, e w1=0.55w_1 = 0.55. Passo 2: y=0.55y = 0.55, Δw=0.110.55=0.055\Delta w = 0.1 \cdot 1 \cdot 0.55 = 0.055, e w2=0.605w_2 = 0.605. Passo 3: w3=0.605+0.0605=0.6655w_3 = 0.605 + 0.0605 = 0.6655. Passo 4: w40.732w_4 \approx 0.732. Passo 5: w50.805w_5 \approx 0.805.

Ogni passo l’incremento è più grande del precedente, perché dipende da ww che intanto è cresciuto. Non è una crescita lineare che prima o poi si stabilizza: è una crescita che accelera. Continuando, ww va all’infinito. Questo, in cinque righe, è il problema del “nessun limite superiore”: senza un termine che freni, la regola di Hebb pura non converge mai.

Ripetiamo ora il passo 1 con la regola di Oja, Δw=ηy(xyw)\Delta w = \eta \, y \, (x - y \, w). Con w0=0.5w_0 = 0.5, x=1x = 1, y=0.5y = 0.5: Δw=0.10.5(10.50.5)=0.10.50.75=0.0375\Delta w = 0.1 \cdot 0.5 \cdot (1 - 0.5 \cdot 0.5) = 0.1 \cdot 0.5 \cdot 0.75 = 0.0375. Più piccolo. E man mano che ww e yy crescono, il fattore (xyw)(x - y w) si riduce verso zero: quando ywy \cdot w raggiunge xx, l’incremento si annulla e il peso smette di crescere. Il freno è dentro la formula.

Un terzo conto, brevissimo, mostra invece come la regola di covarianza sappia indebolire. Supponiamo che le attività medie siano xˉ=0.5\bar{x} = 0.5 e yˉ=0.5\bar{y} = 0.5. Caso concorde: in un istante in cui x=0.9x = 0.9 e y=0.8y = 0.8 (entrambe sopra la media), Δw=η(0.90.5)(0.80.5)=η0.40.3=+0.12η\Delta w = \eta (0.9 - 0.5)(0.8 - 0.5) = \eta \cdot 0.4 \cdot 0.3 = +0.12\,\eta, positivo: rafforzamento. Caso discorde: in un istante in cui x=0.9x = 0.9 ma y=0.2y = 0.2 (una sopra, una sotto la media), Δw=η(0.90.5)(0.20.5)=η0.4(0.3)=0.12η\Delta w = \eta (0.9 - 0.5)(0.2 - 0.5) = \eta \cdot 0.4 \cdot (-0.3) = -0.12\,\eta, negativo: indebolimento. Lo stesso identico calcolo, con il segno deciso dalla concordanza delle due attività rispetto alle loro medie. È la differenza tra la regola di Hebb pura — che sa solo sommare cose positive — e la regola di covarianza, che sa anche sottrarre.

La regola STDP si scrive in poche righe. La funzione riceve il ritardo Δt=tposttpre\Delta t = t_{post} - t_{pre} in millisecondi e restituisce la variazione di peso.

import math
def stdp(delta_t_ms, a_plus=0.10, a_minus=0.12,
tau_plus=20.0, tau_minus=20.0):
"""Variazione di peso secondo la regola STDP classica.
delta_t_ms = t_post - t_pre, in millisecondi.
delta_t > 0: pre prima di post -> potenziamento.
delta_t < 0: post prima di pre -> depressione.
"""
if delta_t_ms > 0:
# ordine causale: A ha contribuito a far scaricare B
return a_plus * math.exp(-delta_t_ms / tau_plus)
elif delta_t_ms < 0:
# ordine anti-causale: B ha scaricato prima dell'input
return -a_minus * math.exp(delta_t_ms / tau_minus)
return 0.0
for dt in (-40, -10, -2, 0, 2, 10, 40):
print(f"dt = {dt:+3d} ms -> dw = {stdp(dt):+.4f}")

L’output mostra la curva STDP punto per punto: per Δt\Delta t positivo e piccolo, Δw\Delta w è positivo e grande; cresce Δt\Delta t e Δw\Delta w positivo svanisce; per Δt\Delta t negativo e piccolo, Δw\Delta w è negativo; lontano dallo zero, in entrambi i versi, Δw\Delta w tende a zero. Due dettagli non casuali. Primo: a_minus è leggermente maggiore di a_plus — nelle misure di Bi & Poo il lato depressivo della curva tende a essere un po’ più marcato, e questa piccola asimmetria, sommata su molti eventi, contribuisce a tenere i pesi sotto controllo. Secondo: questa è una regola a due fattori (pre e post). Una versione più realistica è a tre fattori: pre, post, e un terzo segnale neuromodulatorio — di questo nei limiti.

Un neurone NN riceve due input. L’input PP è predittivo: tende a scaricare sistematicamente qualche millisecondo prima che NN scarichi — fa parte della catena causale che porta NN a rispondere. L’input RR è rumore: scarica a caso, scorrelato da NN; a volte capita appena prima, a volte appena dopo, senza alcuna regolarità.

Sotto la regola STDP, l’esito è una selezione. Per la sinapsi da PP, la situazione tipica è Δt>0\Delta t > 0 (pre prima di post): potenziamento, ripetuto, evento dopo evento. La sinapsi da PP si rafforza. Per la sinapsi da RR, i Δt\Delta t sono distribuiti più o meno simmetricamente attorno allo zero: a volte un piccolo potenziamento, a volte una piccola depressione. Sommando, e ricordando che il lato depressivo della curva è un po’ più pesante, il bilancio per RR è leggermente negativo o nullo. La sinapsi da RR resta debole o si indebolisce.

Il neurone, senza che nessuno gli abbia detto cosa è “giusto”, ha imparato a dare retta agli input predittivi e a ignorare il rumore. Questo è apprendimento non supervisionato in azione: la STDP estrae la struttura causale dell’input — chi predice chi — dal solo timing dei picchi. Ed è anche il senso operativo del postulato di Hebb: la sinapsi che “prende parte” alla scarica si rafforza, quella che non c’entra no.

Esempio in codice: la regola di Oja trova la direzione dei dati

Sezione intitolata “Esempio in codice: la regola di Oja trova la direzione dei dati”

L’affermazione che “la regola di Hebb stabilizzata calcola statistica” — che un neurone con regola di Oja converge sulla prima componente principale dell’input — è il genere di cosa che conviene vedere girare, non solo leggere. Il codice qui sotto fa esattamente questo, con la sola libreria standard di Python. I dati di input sono punti sparsi attorno a una retta diagonale: la loro direzione di massima variabilità è, per costruzione, la diagonale stessa.

import random
random.seed(0)
def sample():
"""Un punto allungato lungo la diagonale (1, 1)."""
t = random.gauss(0, 1) # variabilita lungo la diagonale
n = random.gauss(0, 0.15) # rumore trasversale, piccolo
return [t + n, t - n] # x e y correlati
w = [0.7, -0.2] # peso iniziale, direzione arbitraria
eta = 0.01
for step in range(20000):
x = sample()
y = w[0] * x[0] + w[1] * x[1] # output del neurone
# regola di Oja: Hebb (y*x) meno il freno normalizzante (y*y*w)
w[0] += eta * y * (x[0] - y * w[0])
w[1] += eta * y * (x[1] - y * w[1])
norm = (w[0] ** 2 + w[1] ** 2) ** 0.5
print(f"peso finale: ({w[0]:+.3f}, {w[1]:+.3f}) norma = {norm:.3f}")

Due cose vanno notate nell’output. La prima: la norma del vettore dei pesi finisce vicinissima a 1, non importa da dove fosse partita. È il termine di freno ηy2w-\eta\, y^2 w all’opera — la normalizzazione moltiplicativa che impedisce la divergenza vista nell’esempio numerico. La seconda: la direzione del peso finale si allinea alla diagonale (1,1)(1, 1) — a meno del segno, dato che una componente principale è definita a meno del verso — cioè proprio alla direzione lungo cui i dati variano di più. Il neurone non ha ricevuto alcuna etichetta, alcun target: gli sono passati solo punti grezzi, e ha estratto da sé la struttura dominante. È la PCA emersa da una regola locale di plasticità. Cambiando la regola di aggiornamento nelle due righe centrali con la Hebb pura wi+=ηyxiw_i \mathrel{+}= \eta\, y\, x_i, lo stesso ciclo manderebbe invece la norma all’infinito: la stabilità è tutta nel termine in più.

La plasticità hebbiana è anzitutto un capitolo di neuroscienze, ma la sua influenza esce dal laboratorio in tre direzioni concrete.

La prima è la medicina e la farmacologia della memoria. L’idea che certe forme di apprendimento dipendano dal recettore NMDA non è teoria astratta: ha conseguenze cliniche. Antagonisti del recettore NMDA compromettono l’induzione dell’LTP e, sperimentalmente, certe forme di apprendimento spaziale. All’opposto, capire la cascata LTP/LTD orienta la ricerca su disturbi della memoria e su come certe sostanze — alcol, anestetici, farmaci — interferiscano con il consolidamento. La distinzione early/late LTP, con la sua dipendenza dalla sintesi proteica, è il motivo per cui esiste una finestra temporale in cui un ricordo è ancora “fragile” e modificabile — un punto ripreso nel capitolo sul consolidamento della memoria.

La seconda è il calcolo neuromorfico e l’hardware ispirato al cervello. Esiste una famiglia di chip e di reti — le spiking neural network, reti neurali a impulsi — che invece di usare la backpropagation classica adottano regole di plasticità locali tipo STDP. Il vantaggio dichiarato è energetico: una regola locale, che aggiorna ogni sinapsi con la sola informazione delle sue due cellule, non richiede di propagare un gradiente all’indietro attraverso tutta la rete, e si presta a implementazioni hardware molto efficienti. È un’area di ricerca attiva, non una tecnologia matura: le reti addestrate con STDP, oggi, non competono con quelle addestrate con backpropagation sui compiti complessi. Ma è il caso più diretto in cui la regola di Hebb, nella sua veste STDP, viene usata come algoritmo, non solo studiata come fenomeno biologico.

La terza è la modellistica come strumento di scoperta. Le regole di Oja e BCM non sono nate per costruire prodotti: sono nate per capire dati biologici — lo sviluppo della selettività dei neuroni nella corteccia visiva, la competizione tra gli occhi negli esperimenti di deprivazione. Qui la regola di Hebb stabilizzata funziona come un modello: si scrive l’equazione, si simula, si confronta ciò che la simulazione produce con ciò che gli esperimenti misurano. Quando il modello prevede correttamente un fenomeno — come la BCM ha previsto gli effetti della deprivazione monoculare — non ha “costruito” niente, ma ha mostrato che un certo set di regole locali è sufficiente a generare ciò che si osserva. È un uso del formalismo che vale la pena tenere distinto dall’uso ingegneristico: non serve a far funzionare un sistema, serve a stabilire quali ipotesi sul cervello reggono. Lo stesso scopo che il legame con la PCA, via regola di Oja, illumina dal lato statistico: scoprire cosa calcola la plasticità hebbiana, non sfruttarla.

Plasticità hebbiana e reti neurali artificiali: distinguere le classi

Sezione intitolata “Plasticità hebbiana e reti neurali artificiali: distinguere le classi”

Questo è il punto su cui il capitolo deve essere chirurgico, perché è dove le confusioni abbondano — e dove la regola editoriale della wiki sulle classi di affermazioni va applicata con il bisturi. La domanda è: che rapporto c’è tra la regola di Hebb e il modo in cui si addestrano le reti neurali artificiali? La risposta non è una, è tre, e vanno tenute separate.

Filiazione, documentata, verso il connessionismo nascente. La regola di Hebb ha influenzato storicamente le prime reti neurali artificiali, e questo è un fatto con evidenza documentale, non un’analogia. Il caso più netto: la rete di Warren McCulloch e Walter Pitts del 1943, il primo modello di neurone artificiale, aveva pesi fissi — non imparava nulla. È con Hebb, nel 1949, che entra in scena l’idea che le connessioni debbano cambiare secondo una regola. E Frank Rosenblatt (psicologo statunitense, 1928-1971), nel paper che introduce il percettrone“The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain”, Psychological Review, 1958 — cita esplicitamente Hebb tra le sue influenze principali. Qui il marcatore corretto è filiazione: “l’idea di un apprendimento per modifica dei pesi, nelle prime reti neurali artificiali, deriva — tra le altre fonti — dal postulato di Hebb” è un’affermazione storica difendibile, sostenuta da paper che citano. Esiste inoltre un’intera famiglia di algoritmi che porta in modo esplicito il nome di Hebbian learning: l’apprendimento non supervisionato alla Oja, le reti di Hopfield con regola hebbiana, e altre. Per quella famiglia, il legame con Hebb non è analogia: è discendenza diretta e dichiarata.

Un caso concreto di questa filiazione, abbastanza pulito da valere come esempio, è la rete di Hopfield, introdotta dal fisico statunitense John Hopfield in un paper del 1982 (premio Nobel per la fisica 2024, condiviso con Geoffrey Hinton, proprio per i contributi fondativi alle reti neurali artificiali). Una rete di Hopfield è una memoria associativa: le si “insegnano” alcuni pattern, e poi, presentandole una versione disturbata o parziale di uno di essi, la rete converge sul pattern intero più vicino. Il modo in cui i pattern vengono memorizzati nei pesi della rete è una regola di tipo hebbiano: il peso tra due unità si fissa in base a quanto spesso, attraverso i pattern da memorizzare, quelle due unità hanno lo stesso valore — concordi si rafforzano, discordi si indeboliscono. È la regola di covarianza, applicata a una rete. Qui il legame con Hebb non è analogia né suggestione: la regola di apprendimento è hebbiana per costruzione, e Hopfield lo dichiara. È filiazione nel senso più forte. La rete di Hopfield mostra anche una cosa che il capitolo ha già detto in astratto: la regola di Hebb, da sola, ha una capacità limitata — una rete di Hopfield può memorizzare solo un numero di pattern proporzionale al numero di unità, e oltre quella soglia i ricordi interferiscono e si corrompono. La regola hebbiana funziona, ma entro limiti precisi e dimostrabili.

Analogia parziale e debole — non filiazione, non equivalenza — verso la regola dominante del deep learning. Le reti neurali che oggi sono ovunque — quelle dietro i modelli linguistici, la visione artificiale, gli agenti — non si addestrano con la regola di Hebb. Si addestrano con la backpropagation (retropropagazione dell’errore): un algoritmo che calcola di quanto la risposta della rete sbaglia rispetto a un obiettivo, e poi propaga questo errore all’indietro attraverso tutti gli strati, aggiornando ogni peso in proporzione a quanto ha contribuito allo sbaglio complessivo. La regola di Hebb e la backpropagation non sono la stessa cosa, e non c’è tra loro filiazione diretta. Le differenze sono strutturali:

  • La regola di Hebb è locale: ogni sinapsi si aggiorna usando solo l’informazione delle sue due cellule, xx e yy. La backpropagation è globale: l’aggiornamento di un singolo peso dipende da una funzione di costo calcolata sull’output dell’intera rete.
  • La regola di Hebb è non supervisionata: nessun obiettivo, nessun segnale di errore, solo correlazione. La backpropagation è supervisionata: richiede un target — la risposta giusta — e un errore da minimizzare.

Sono due principi diversi di apprendimento. La somiglianza che si sente citare — “entrambe modificano dei pesi” — è un’analogia superficiale e didatticamente quasi inutile: vera ma poco informativa, come dire che un’auto e un orologio “hanno entrambi parti che girano”. Non è una filiazione (la backpropagation ha una genealogia tecnica propria, che passa per il calcolo del gradiente e la regola della catena, non per Hebb) e non è certo un’equivalenza. La discesa del gradiente, su cui la backpropagation si basa, è trattata nella Parte sul training; discesa-gradiente (in preparazione) ne sarà il riferimento.

Una questione aperta, da non spacciare per fatto. Esiste una linea di ricerca attiva nelle neuroscienze computazionali che si chiede se il cervello implementi qualcosa che approssima la backpropagation pur usando solo regole locali — proposte come la feedback alignment, la target propagation, o letture del predictive coding come approssimazione del gradiente. È ricerca seria e aperta. Ma il punto fermo da fissare nel capitolo è l’opposto del luogo comune: la backpropagation, nella sua forma standard, non è biologicamente plausibile — richiede che il segnale di errore torni indietro lungo le stesse connessioni in modo che un neurone reale non sa fare. Dire “il cervello è una rete addestrata con backpropagation” è un errore di classe: spaccia per equivalenza una somiglianza che, allo stato dell’arte, non è nemmeno una filiazione, ma una questione di ricerca non risolta. Il legame onesto tra cervello e reti artificiali è approfondito in Cervello e rete neurale: somiglianze reali e analogie ingannevoli.

In sintesi, le quattro affermazioni e le loro classi:

  • Hebb → prime reti con apprendimento (percettrone, modelli connessionisti): filiazione, documentata.
  • Hebb → algoritmi espliciti di Hebbian learning e PCA via Oja: filiazione e sviluppo formale diretto.
  • Regola di Hebb ↔ backpropagation: analogia parziale e debole; non equivalenza, non filiazione.
  • “Il cervello fa backpropagation”: questione aperta, non un fatto; nella forma standard la backpropagation non è biologicamente plausibile.

La plasticità hebbiana è un meccanismo solido e ben documentato, ma il quadro ha bordi netti, e ignorarli porta a fraintendimenti. I limiti che seguono sono di tre tipi, e conviene tenerli distinti. Alcuni sono limiti della regola: cose che la regola di Hebb, anche nelle sue versioni riparate, strutturalmente non sa fare. Altri sono limiti dell’evidenza: punti in cui ciò che si osserva in laboratorio non si trasferisce in modo pulito al cervello che si comporta. Altri ancora sono questioni aperte: domande che il campo riconosce come irrisolte e su cui la ricerca è in corso. Confondere i tre tipi — spacciare un’ipotesi per un fatto, o un limite di misura per un limite di principio — è l’errore che questa sezione vuole prevenire.

La regola pura, da sola, non è un modello di apprendimento utilizzabile. Vale la pena ripeterlo perché è il punto più frainteso: Δw=ηxy\Delta w = \eta \, x \, y è instabile, sa solo crescere, diverge. Tutto ciò che la rende utile — LTD, Oja, BCM, scaling omeostatico — è aggiunto. Chi cita “la regola di Hebb” come se fosse un algoritmo di apprendimento funzionante sta citando un’intuizione, non un metodo.

I protocolli classici di LTP sono artificiali. La tetanizzazione — un treno di stimoli ad alta frequenza imposto dall’esterno — è una condizione di laboratorio. Le frequenze impiegate, e il fatto che lo sperimentatore attivi insieme un intero fascio di assoni, non corrispondono necessariamente a ciò che una via sinaptica vive durante un apprendimento naturale. Quanto i protocolli classici riproducano l’apprendimento reale è quindi oggetto di discussione legittima.

LTP saturata e prova per occlusione: una verifica che dà risultati ambigui. Un argomento classico a favore di “LTP = memoria” è la prova per occlusione: se si induce artificialmente LTP fino a saturare le sinapsi di un circuito — portarle al massimo, dove non possono più crescere — un apprendimento che dipendesse da quelle stesse sinapsi dovrebbe risultare bloccato, perché non c’è più margine di potenziamento da spendere. L’idea è pulita. I risultati sperimentali, però, sono stati storicamente contrastanti: alcuni studi hanno trovato il deficit di apprendimento atteso, altri no, e l’esito si è rivelato sensibile a quanto completa fosse la saturazione e a quale circuito venisse colpito. Esperimenti più recenti, con saturazione più estesa, hanno rafforzato l’argomento; ma la storia di questa prova mostra che anche la verifica più diretta del legame LTP-memoria non produce un sì o un no netto. È un esempio concreto di quanto sia difficile passare dalla sinapsi al comportamento.

La STDP “da manuale” non sopravvive intatta al passaggio in vivo. La curva STDP elegante che si disegna sui libri — potenziamento per pre-prima-di-post, depressione per l’ordine inverso, finestre simmetriche di circa 20 ms — è stata misurata in larga parte su preparazioni semplificate: colture di neuroni o fettine di tessuto, con coppie di picchi isolati e controllati. Esperimenti più recenti, in condizioni più vicine a un cervello che lavora, hanno mostrato che quella curva è molto meno universale di quanto sembri. Tre dipendenze, in particolare, la complicano:

  • Dipendenza dalla posizione sul dendrite. La regola STDP classica assume che il back-propagating action potential arrivi puntuale a ogni sinapsi a portare la notizia che la cellula ha scaricato. Ma il potenziale d’azione retropropagante si attenua salendo lungo l’albero dendritico: sulle sinapsi più distali dal corpo cellulare arriva debole o non arriva affatto. Su quei dendriti lontani la finestra può invertirsi — si è osservato potenziamento anche per l’ordine “sbagliato” — o richiedere, per ottenere LTP, eventi dendritici locali (i dendritic spike, picchi di calcio o di sodio generati nel dendrite stesso) invece del singolo picco somatico. La plasticità non dipende solo da quando arrivano i picchi, ma da dove sulla cellula.
  • Dipendenza dalla frequenza. La forma della curva STDP cambia con il ritmo a cui le coppie pre-post vengono ripetute. A bassa frequenza di ripetizione può prevalere la depressione anche quando l’ordine temporale è “causale”; ad alta frequenza la potenziazione domina indipendentemente dall’ordine. Timing e frequenza non sono variabili separate: interagiscono, e la STDP “pura” basata sul solo Δt\Delta t è un’astrazione di un caso particolare.
  • Dipendenza dalla neuromodulazione. La presenza o assenza di dopamina, acetilcolina, noradrenalina può non solo amplificare o smorzare la plasticità, ma cambiarne il segno: ciò che senza neuromodulatore sarebbe LTD può diventare LTP in presenza di dopamina. Una regola che ignora il contesto neuromodulatorio descrive una sinapsi in vitro, non una sinapsi dentro un cervello che si comporta.

Non esiste, insomma, una curva STDP universale: ne esiste una famiglia, dipendente da regione cerebrale, tipo cellulare, età dell’animale, geometria dendritica, frequenza e stato neuromodulatorio. La STDP da manuale è un modello utile e un buon punto di partenza, non una legge della natura.

Esiste plasticità non hebbiana, e non è un dettaglio. Il caso più importante è lo scaling sinaptico omeostatico, studiato in particolare dalla neuroscienziata statunitense Gina Turrigiano: un meccanismo che riscala tutte le sinapsi di un neurone, verso l’alto o verso il basso, per mantenere stabile la sua attività media nel tempo. La differenza con la plasticità hebbiana è di tipo, non di grado. La regola di Hebb è differenziale e moltiplicativa nel senso del feedback positivo: rafforza alcune sinapsi e non altre, e ciò che rafforza tende a rafforzarsi ancora di più — è esattamente questa selettività a renderla instabile. Lo scaling omeostatico è invece globale e negativo come feedback: se un neurone scarica troppo a lungo sopra il suo livello tipico, abbassa proporzionalmente tutte le sue sinapsi; se scarica troppo poco, le alza tutte. Non dipende dalla coincidenza pre/post — non è hebbiano — e agisce su una scala di tempo più lenta, di ore o giorni. La cosa elegante è che lo scaling è moltiplicativo: riscala ogni peso per uno stesso fattore, così le proporzioni relative fra le sinapsi — l’informazione che la plasticità hebbiana ha inciso — vengono preservate, mentre il livello complessivo torna in banda. Hebb scrive l’informazione, l’omeostasi tiene il sistema lontano dalla saturazione e dal silenzio senza cancellare ciò che Hebb ha scritto. È un secondo meccanismo di stabilizzazione, accanto a LTD, Oja e BCM, e mostra che la plasticità hebbiana, da sola, non solo è instabile in teoria: il cervello reale ha dovuto dotarsi di un sistema apposito per contenerla.

Il cell assembly non ha lo stesso statuto dell’LTP. Il postulato di Hebb sulla singola sinapsi è stato verificato. Il cell assembly come substrato fisico di un concetto resta un costrutto teorico influente, la cui evidenza sperimentale diretta — registrazioni da molti neuroni insieme, manipolazioni optogenetiche — è arrivata molto più tardi ed è ancora parziale. Va presentato come ipotesi forte e feconda, non come fatto al pari della potenziazione sinaptica. La linea di ricerca più vicina a darle corpo è quella sull’engram — il termine, coniato dal biologo tedesco Richard Semon attorno al 1904, indica la traccia fisica di un ricordo. A partire dagli anni 2010, gruppi come quello di Susumu Tonegawa al MIT hanno usato tecniche optogenetiche per etichettare le popolazioni di neuroni attive durante un apprendimento e poi riattivarle artificialmente, mostrando che la riattivazione può evocare il comportamento associato al ricordo. È l’avvicinamento sperimentale più diretto all’idea di cell assembly; resta però un’area di ricerca attiva, con risultati che vanno letti con cautela e non come una conferma chiusa del costrutto hebbiano.

Il problema della stabilità a lungo termine: come può una sinapsi durare quanto un ricordo. C’è una tensione che il quadro presentato finora lascia in ombra. Un ricordo d’infanzia può durare ottant’anni. Ma una sinapsi è fatta di proteine, e le proteine hanno vita breve: i recettori AMPA della densità postsinaptica vengono ricambiati nell’arco di ore o giorni, la stessa CaMKII non è eterna. Come fa un cambiamento di forza sinaptica — codificato in molecole che si degradano e si rinnovano di continuo — a persistere per decenni? È il problema della stabilità a lungo termine della traccia, e non è risolto. Sono state proposte risposte parziali: meccanismi di auto-mantenimento in cui la CaMKII, una volta attivata, si autofosforila e si tiene “accesa” facendo da interruttore bistabile; il rimodellamento strutturale della spina dendritica nella late LTP, che sposta la traccia da uno stato chimico (fragile) a uno stato di forma (più robusto); il consolidamento di sistema, che ridistribuisce la memoria dall’ippocampo alla neocorteccia. Ma nessuna chiude del tutto la domanda di come un substrato molecolare in costante turnover regga una traccia che dura una vita. È, a oggi, una delle questioni aperte di fondo della neurobiologia della memoria.

LTP come engram: un’identità che non è dimostrata. Da questa tensione nasce un dibattito più ampio. La posizione classica — che l’LTP sia il meccanismo dell’engram, la traccia fisica del ricordo — è sostenuta da molta evidenza: bloccare l’LTP compromette l’apprendimento, indurla artificialmente in certi circuiti può creare o cancellare associazioni. Ma esiste una linea di critica seria, sostenuta tra gli altri dal neuroscienziato Randy Gallistel, secondo cui la sinapsi plastica è il posto sbagliato dove cercare il ricordo: una rete di pesi sinaptici sarebbe troppo instabile e troppo poco precisa per immagazzinare le quantità numeriche esatte (durate, distanze, conteggi) che certi comportamenti animali dimostrano di ricordare, e l’informazione starebbe piuttosto dentro il neurone, in forma molecolare. Non occorre prendere posizione: il punto editoriale è che “LTP = engram” è una ipotesi dominante e ben sostenuta, non un teorema. Va presentata come la migliore spiegazione disponibile, non come un fatto chiuso.

Plasticità sinaptica e memoria comportamentale: correlazione, non identità. Anche assumendo che la traccia stia nelle sinapsi, resta un salto logico da non saltare con leggerezza. Ciò che si misura in laboratorio — un aumento della risposta sinaptica dopo una tetanizzazione — e ciò che chiamiamo memoria — un animale che si comporta diversamente perché ha imparato qualcosa — sono due livelli di descrizione diversi. Che siano correlati è ben documentato; che siano la stessa cosa non lo è. Bloccare farmacologicamente l’LTP con un antagonista del recettore NMDA compromette certi apprendimenti spaziali: questo mostra che la plasticità NMDA-dipendente è necessaria, non che è la memoria. Il recettore NMDA serve anche alla normale trasmissione e allo sviluppo dei circuiti; bloccarlo ha effetti che vanno oltre la sola formazione del ricordo. E la memoria, come comportamento, coinvolge sistemi — l’ippocampo, la neocorteccia, l’amigdala, i processi di consolidamento e di replay durante il sonno, il richiamo — che vanno ben oltre la singola sinapsi potenziata. La sinapsi è l’unità candidata; la memoria è un fenomeno di sistema. Confondere i due livelli — dire “ho visto la memoria” indicando una traccia di LTP su un oscilloscopio — è lo stesso errore di classe che il capitolo ha segnalato altrove: scambiare un correlato necessario per un’identità. La relazione è il tema di Consolidamento della memoria e di Memoria a lungo termine.

La regola a due fattori è incompleta: serve il terzo. Una STDP che dipende solo da pre e post ignora che, nel cervello reale, la plasticità è gatata da neuromodulatori — dopamina, acetilcolina, noradrenalina. La sinapsi può registrare la coincidenza pre/post, ma se quella coincidenza si traduca in un cambiamento durevole dipende spesso da un terzo segnale che dice, in sostanza, “questo momento conta, ricordalo”. Una STDP a tre fattori è oggi considerata più realistica della regola a due fattori, e apre il ponte verso l’apprendimento per rinforzo: il terzo fattore dopaminergico assomiglia a un segnale di ricompensa. Il tema è ripreso in sistemi-dopaminergici-reward (in preparazione).

La regola di Hebb non spiega l’apprendimento supervisionato. È il limite più strutturale, ed è una conseguenza diretta del terzo difetto della regola pura — l’essere puramente correlazionale. La regola di Hebb sa registrare cosa va con cosa: estrae la struttura statistica dell’input. Ma non ha alcun modo di rappresentare un obiettivo. Molti degli apprendimenti che contano hanno la forma “di fronte a questo input, la risposta corretta è quella” — riconoscere una cifra scritta a mano, associare un comando a un’azione, prevedere la parola successiva. Imparare questo significa confrontare ciò che il sistema produce con ciò che avrebbe dovuto produrre, e correggere in base alla differenza. La regola di Hebb non contiene quel confronto: non c’è un target, non c’è un segnale di errore, non c’è la nozione di “sbagliato”. Una sinapsi hebbiana che vede pre e post attivi insieme si rafforza, e basta — anche se quella risposta della rete era completamente errata. Per questo l’apprendimento hebbiano puro è e resta non supervisionato: può scoprire le componenti principali dell’input (lo fa la regola di Oja), può costruire una memoria associativa (lo fa la rete di Hopfield), ma non può, da solo, imparare a produrre la risposta giusta a un compito definito dall’esterno. Quella capacità richiede un ingrediente che la regola di Hebb non ha.

Il problema dell’assegnazione del credito. Lo stesso limite, guardato dal lato della rete, prende il nome di problema dell’assegnazione del credito (credit assignment): quando una rete profonda sbaglia, quale delle sue migliaia di sinapsi è responsabile dell’errore, e di quanto? Una regola locale come quella di Hebb non può rispondere — ogni sinapsi vede solo le sue due cellule, nessuna ha accesso all’errore globale della rete. È esattamente il problema che la backpropagation risolve, propagando il gradiente dell’errore all’indietro per stabilire la quota di colpa di ciascun peso. Che la regola di Hebb non risolva l’assegnazione del credito non è un dettaglio tecnico: è la ragione di fondo per cui le reti neurali moderne non si addestrano alla maniera hebbiana, e per cui — come argomentato nella sezione precedente — equiparare le due regole è un errore di classe.

Il problema ha anche una versione temporale, che la STDP a tre fattori attenua ma non risolve. La finestra della STDP è di pochi millisecondi: la sinapsi registra una coincidenza solo se i due picchi sono quasi simultanei. Ma molti apprendimenti utili richiedono di collegare una causa a una conseguenza distanti secondi o minuti — un’azione e la ricompensa che arriva molto dopo. Come fa una sinapsi a “sapere”, quando finalmente arriva il segnale di ricompensa, quale coincidenza di millisecondi fa vada premiata? Questo è l’assegnazione del credito nel tempo (temporal credit assignment), e la sola regola di Hebb non lo scioglie. La biologia sembra usare “tracce di eleggibilità” (eligibility traces) — marcatori molecolari che restano sulla sinapsi appena attivata e la rendono modificabile per un po’, in attesa che arrivi o no un segnale modulatorio che la converta in cambiamento durevole. È, di nuovo, un’area dove la modellistica del reinforcement learning e la neurobiologia si guardano da vicino, senza che il quadro sia chiuso.

Tirando le somme di questa sezione: nessuno di questi limiti smentisce la plasticità hebbiana, e non vanno letti come un atto d’accusa. La regola di Hebb resta uno dei concetti meglio fondati che colleghino l’attività neurale all’apprendimento. Ma il quadro onesto è quello di un meccanismo necessario e parziale. Necessario, perché senza un substrato di sinapsi modificabili non c’è memoria di alcun tipo. Parziale, perché la regola pura è instabile e va riparata; perché la sinapsi plastica è un correlato della memoria, non la memoria; perché il timing dei millisecondi non basta a spiegare l’apprendimento di obiettivi e di ricompense lontane; e perché il cervello ne fa uso solo dentro un’orchestrazione di plasticità omeostatica, neuromodulazione e consolidamento di sistema. La regola di Hebb è il mattone giusto; non è la casa.

  • Donald Hebb, The Organization of Behavior: A Neuropsychological Theory, Wiley, 1949. La fonte. Il capitolo 4 contiene il postulato e il cell assembly. Datato nel linguaggio, ma il paragrafo centrale si legge in un minuto e vale la pena leggerlo all’origine.
  • Bliss & Lømo, “Long-lasting potentiation of synaptic transmission in the dentate area of the anaesthetized rabbit…”, Journal of Physiology, 232(2), 1973. Il paper che trasforma la congettura in fenomeno. Per chi vuole vedere come si argomenta un risultato sperimentale pulito.
  • Bi & Poo, “Synaptic Modifications in Cultured Hippocampal Neurons…”, Journal of Neuroscience, 18(24), 1998. La caratterizzazione sistematica della finestra STDP; la curva STDP nasce qui.
  • Bliss & Collingridge, “The discovery of long-term potentiation”, Philosophical Transactions of the Royal Society B, 2003. Resoconto storico in prima persona: come si arrivò all’LTP, raccontato da chi c’era.
  • Erkki Oja, “A Simplified Neuron Model as a Principal Component Analyzer”, Journal of Mathematical Biology, 15(3), 1982. Per il lettore matematico: il punto in cui la plasticità hebbiana stabilizzata si rivela un algoritmo di PCA.