Working memory: Baddeley, loop fonologico, taccuino visuospaziale

Lo stadio della memoria umana che tiene attive — manipolandole — le informazioni necessarie al computo corrente. Scoperto come “rehearsal buffer” da Atkinson e Shiffrin nel 1968, riformulato come sistema multicomponente da Alan Baddeley e Graham Hitch nel 1974, sfidato dal modello a “embedded processes” di Nelson Cowan nel 1995, dotato di un correlato neurale dal lavoro di Patricia Goldman-Rakic sui macachi nel 1989. Capacità reale: circa quattro elementi, non sette. Durata: pochi secondi senza rehearsal. Funzione: tenere insieme i pezzi del pensiero abbastanza a lungo da farli interagire. È il componente cognitivo a cui i divulgatori di AI assomigliano più volentieri il context window di un LLM — e la cui struttura interna spiega perché quell’analogia è didattica al massimo, mai un’equivalenza.

Bethesda, Maryland, 1989. In un laboratorio della Yale School of Medicine, una scimmia rhesus addestrata da mesi siede in una sedia da primati, la testa fissata, gli occhi puntati su uno schermo. Al centro dello schermo brilla un piccolo punto. La scimmia ha imparato a fissarlo: se lo guarda fisso, ottiene una goccia di succo. Per un istante il punto centrale resta acceso e contemporaneamente lampeggia, in una delle otto posizioni intorno, una luce per mezzo secondo. Poi il flash sparisce. Tre secondi di buio totale: solo il punto centrale resta acceso. Tre secondi sono lunghi, per un cervello. Alla fine dei tre secondi il punto centrale si spegne — è il segnale di esecuzione — e la scimmia compie una saccade, un rapido movimento oculare, verso il punto dove la luce era apparsa. Riceve la sua goccia.

Dentro la corteccia prefrontale dorsolaterale (dlPFC) della scimmia, infilato nel tessuto con precisione micrometrica, c’è un elettrodo sottile come un capello. Registra l’attività di un singolo neurone. Quando la luce flash appare in alto a destra, il neurone scarica con un picco transiente. Poi — ed è qui il fatto interessante — continua a scaricare. Per tutti e tre i secondi del delay, nel buio, mentre la scimmia non vede più nulla di rilevante e deve solo aspettare, quel neurone mantiene una frequenza di scarica elevata. Il flash è finito, ma il neurone non lo sa: per lui, l’informazione “luce in alto a destra” è ancora presente. Quando il go signal arriva e la saccade si compie, il neurone ritorna alla sua attività di base.

Shintaro Funahashi (neurofisiologo giapponese, oggi alla Kyoto University), Charles Bruce (neuroscienziato americano alla Yale) e Patricia Goldman-Rakic (1937–2003, neuroscienziata americana alla Yale, una delle figure più influenti delle neuroscienze cognitive del Novecento) pubblicano il risultato sul Journal of Neurophysiology con il titolo “Mnemonic Coding of Visual Space in the Monkey’s Dorsolateral Prefrontal Cortex”. È la prova diretta più nitida che il cervello dei primati possiede neuroni capaci di mantenere una rappresentazione attiva oltre la presenza fisica dello stimolo. Una memoria che lavora in tempo reale, sostenuta dall’attività neuronale stessa. Non un magazzino passivo: un’attivazione persistente. Quel risultato fissa, sotto il microscopio, il fenomeno che la psicologia cognitiva aveva descritto da decenni con altri strumenti.

Questo capitolo ricostruisce la storia di quel fenomeno: la working memory. Cominciamo da George Miller nel 1956, con il numero magico sette; passiamo per il rehearsal buffer di Atkinson e Shiffrin del 1968; arriviamo al modello multicomponente di Baddeley e Hitch del 1974, che ha dominato il campo per cinquant’anni; lo confrontiamo con la rilettura di Nelson Cowan, che riduce il numero magico da sette a quattro e ridefinisce la WM come “stato attivo della memoria a lungo termine”; descriviamo i task standard (digit span, n-back, complex span); le basi neurali (persistent activity, theta-gamma coupling, modello activity-silent); le controversie (training della WM, transfer alla fluid intelligence). Chiudiamo con una sezione cauta sull’eredità per i sistemi AI, dove l’analogia “context window come working memory” tira fortissimo — e dove distinguere analogia da filiazione da equivalenza è la differenza fra capire e fraintendere.

Perché questo capitolo

Tre ragioni: storica, concettuale, e di ponte verso l’AI.

La storica: la working memory è il caso di studio più chiaro di come la psicologia cognitiva sia maturata nel Novecento. Si parte da una costante numerica (il “sette” di Miller) presa per soglia rigida, si scopre che è un’illusione di chunking, si arriva a un modello strutturato a quattro componenti, e si finisce con un dibattito vivo fra due architetture rivali (Baddeley vs Cowan) che probabilmente sono complementari più che alternative. Cinquant’anni di riformulazioni di un concetto. La storia stessa dell’oggetto è istruttiva su come funziona la scienza cognitiva.

La concettuale: la working memory è il punto in cui psicologia comportamentale, neuroscienze cellulari, e neuroimaging si incontrano. Nessun altro componente cognitivo ha questo livello di convergenza fra livelli di descrizione. Capire come Miller (comportamentale), Baddeley (cognitivo), Goldman-Rakic (cellulare) e Constantinidis-Klingberg (neuroimaging) parlino dello stesso fenomeno con linguaggi diversi è un esercizio formativo per chiunque debba ragionare a più livelli — anche per chi disegna sistemi AI.

La terza: chi lavora con LLM tende a cercare nella cognizione umana paralleli per ogni componente del proprio sistema. Per il context window, il candidato naturale è la working memory. La somiglianza è seducente ma scivolosa. Il context tiene informazione attiva durante un turno di inferenza; la WM tiene informazione attiva durante un computo cognitivo; entrambi hanno capacità limitata; entrambi gestiscono ciò che è “in primo piano” rispetto a ciò che è “in archivio”. La somiglianza si ferma quasi subito. Distinguere quale parte è analogia didattica e quale è equivalenza meccanica è il compito che questo capitolo si pone, e che ritorna in modo distillato nel ponte-memoria-agenti (in preparazione).

Contesto: tre date strutturanti, e un’evoluzione lunga

1956 — Miller, “The Magical Number Seven, Plus or Minus Two”. George Miller (1920–2012, psicologo americano alla Harvard, fondatore della rivoluzione cognitiva e cofondatore del Center for Cognitive Studies) tiene il discorso presidenziale all’Eastern Psychological Association nel 1955; il testo, ampliato, esce sulla Psychological Review nel 1956. La frase di apertura è celebre: “My problem is that I have been persecuted by an integer. For seven years this number has followed me around, has intruded in my most private data, and has assaulted me from the pages of our most public journals.” Quell’intero è il sette. Miller osserva che ricorre in tre fenomeni distinti: (1) lo span di giudizio assoluto su dimensioni unidimensionali (suoni più o meno acuti, luci più o meno intense: distinguiamo bene fino a circa sette livelli, non oltre); (2) lo span della memoria immediata (riusciamo a ripetere una sequenza appena udita di circa sette item); (3) lo span dell’attenzione (subitizing fino a circa sette punti). Miller propone che il numero sia un limite della capacità di canale del sistema cognitivo — e introduce l’idea cruciale di chunking (raggruppamento): trasformiamo cifre in date, lettere in parole, parole in frasi, espandendo di fatto lo span funzionale ricodificando informazione in unità di livello superiore. Il chunk è l’unità di capacità, non il bit.

1968 — Atkinson e Shiffrin, “Human Memory: A Proposed System”. Richard Atkinson (1929–, psicologo americano allora a Stanford, poi presidente UCSD e direttore della National Science Foundation) e Richard Shiffrin (1942–, suo allievo allora dottorando, oggi a Indiana University) pubblicano sul volume 2 di The Psychology of Learning and Motivation il capitolo che fissa il modal model: Sensory Register, Short-Term Store (STS), Long-Term Store (LTS). Lo STS è descritto come rehearsal buffer: capacità ~7±2 (eredità diretta di Miller), durata ~20 secondi senza rehearsal, infinita con rehearsal. È un magazzino unico, passivo, amodale: la sua funzione è semplicemente conservare brevemente informazione finché non viene consolidata in LTS o sostituita. Il modello viene rapidamente accettato come schema di riferimento, ma nasconde un’assunzione che si rivelerà fragile: che il “magazzino a breve termine” sia un solo magazzino.

1974 — Baddeley e Hitch, “Working Memory”. Alan Baddeley (1934–, psicologo britannico, oggi alla University of York) e Graham Hitch (psicologo britannico, allora suo collaboratore, oggi anch’egli a York) pubblicano nel volume 8 della stessa serie di Bower un capitolo di rottura. Il loro programma sperimentale parte da una domanda semplice: se lo STS è il magazzino del pensiero corrente, e ha capacità ~7 item, allora caricarlo dovrebbe disturbare seriamente il ragionamento. Test: chiedere a un soggetto di tenere in mente una sequenza di 6-8 cifre (digit span concorrente al limite della capacità) mentre svolge un compito di reasoning verbale o di comprensione. Risultato: il reasoning rallenta di pochissimo, la comprensione resta sostanzialmente intatta. Se lo STS fosse un magazzino unico, avremmo dovuto vedere collasso. Non lo vediamo. La conclusione: lo STS non è un magazzino passivo unico, è un sistema con sub-componenti dedicati. Baddeley e Hitch propongono tre componenti: un central executive (controllore attenzionale amodale), un phonological loop (sub-sistema verbale-acustico), un visuospatial sketchpad (sub-sistema visivo-spaziale). Inaugurano il termine working memory per nominare l’insieme. Per cinquant’anni il modello sarà riferimento standard.

flowchart TD
    CE["Central executive"]
    CE --> VS["Visuospatial sketchpad"]
    CE --> EB["Episodic buffer"]
    CE --> PL["Phonological loop"]
    VS <--> SV["Semantica visiva"]
    EB <--> LE["LTM episodica"]
    PL <--> LG["Linguaggio"]
    SV --- LTM["Long-term memory<br/>(sistemi cristallizzati)"]
    LE --- LTM
    LG --- LTM

Figura 1 — Baddeley working memory model (2000): central executive, phonological loop, visuospatial sketchpad, episodic buffer, LTM connection

Tre date in diciotto anni. Quello che viene dopo — Logie 1995 sul sketchpad, Cowan 1995 sull’embedded process model, Baddeley 2000 sull’episodic buffer, Cowan 2001 sul “magical number 4”, Engle 2002 su WMC come executive attention, Stokes 2015 sull’activity-silent — sono raffinamenti, alternative, e specificazioni neurali. Le tre date danno il vocabolario, l’architettura iniziale, e il programma di ricerca. Tutto il resto cresce dentro questo perimetro.

Una nota sul rapporto con il capitolo precedente. Il modal model di Atkinson-Shiffrin colloca il Sensory Register prima dello Short-Term Store: input sensoriale → SR → STS → LTS. Il capitolo memoria-sensoriale ha trattato in dettaglio il Sensory Register, con i suoi due canali principali (iconico, echoico). Qui partiamo da dove quel capitolo finisce: dal momento in cui l’attenzione seleziona dalla traccia sensoriale e la porta in un magazzino di durata e capacità diverse. Quel magazzino è lo STS del modal model — e diventa la working memory di Baddeley-Hitch. Il rehearsal buffer di Atkinson-Shiffrin non è abbandonato: viene assorbito, in forma più articolata, nel phonological loop del modello successivo.

L’intuizione: due angoli prima del formalismo

Prima dei modelli e dei numeri, due angoli aiutano a sentire cosa la working memory fa.

Angolo 1: il quaderno di lavoro

Pensa alla working memory come al quaderno di brutta del pensiero. Stai facendo un calcolo a mente: “diciassette per ventitré”. Non hai carta. Procedi: 17 × 20 = 340; 17 × 3 = 51; 340 + 51 = 391. Mentre fai il secondo passo (17 × 3) devi tenere a mente il primo (340). Mentre fai il terzo (sommare) devi tenere a mente entrambi. Senza un magazzino temporaneo che mantenga i risultati intermedi, il calcolo non si fa. Senza qualcosa che manipoli i contenuti — che combini 340 e 51 in 391 — il calcolo si fa peggio.

La WM è esattamente quel quaderno: un magazzino temporaneo + un manipolatore. La capacità del quaderno è limitata: prova a moltiplicare 1473 × 286 a mente e capirai dove si rompe. Non è che l’algoritmo sia difficile: è che il quaderno ha poche righe, e i numeri intermedi traboccano.

L’analogia con i sistemi tecnici è immediata: la WM è una RAM cognitiva. La metafora ha pregi (cattura limite di capacità, accesso rapido, contenuto attivo) e difetti (la RAM è uniforme e passiva, la WM è strutturata e attiva). È una analogia didattica utile, non una filiazione: nessun ingegnere ha progettato la RAM ispirandosi a Baddeley, e Baddeley non ha modellato la WM sulla RAM. Risolvono problemi simili con meccanismi profondamente diversi.

Angolo 2: il neurone che ricorda

Il secondo angolo è cellulare. Torna alla scimmia di Funahashi-Bruce-Goldman-Rakic. C’è un fatto sorprendente in quel risultato: come fa un sistema a mantenere una rappresentazione nel tempo? I neuroni, di base, scaricano in risposta a un input e tornano alla baseline non appena l’input cessa. Per tenere viva una rappresentazione oltre lo stimolo, qualcosa deve sostenere l’attivazione.

Una possibilità è il circuito ricorrente: un gruppo di neuroni che si eccitano a vicenda formano un attractor, uno stato stabile dell’attività di rete che persiste finché non viene perturbato. Il flash della luce porta il sistema in un attractor specifico per “luce in alto a destra”; il sistema rimane in quell’attractor per tutto il delay; il go signal lo destabilizza e lo riporta a baseline. Questa lettura, sostenuta da modelli teorici (Xiao-Jing Wang e collaboratori, anni 90-2000) e dati elettrofisiologici, è il quadro classico della working memory neurale.

L’angolo cellulare conta perché ci dice una cosa profonda: la WM non è “un posto dove si mettono le cose”, è uno stato dinamico del sistema. Il sostantivo “memoria” suggerisce un magazzino, ma il fenomeno è più simile a un’attività sostenuta. L’informazione è conservata nel fatto che il sistema sta facendo qualcosa (scaricare in modo persistente), non in una struttura statica come un file. Vedremo a breve che esistono modelli alternativi (activity-silent) in cui anche la persistent activity costante può mancare e l’informazione vive in pattern sinaptici brevi: ma il punto rimane — la WM è uno stato di un sistema, non un contenitore.

Questa intuizione discrimina la WM da modelli di memoria che si trovano in ingegneria. Un buffer in RAM è uno spazio; la WM è una attività. La RAM persiste se non si scrive sopra; la WM persiste solo finché il sistema continua a sostenerla. Spegni il sistema, perdi la WM. Non perdi (subito) la RAM. Differenza strutturale che ritornerà nella sezione sull’AI.

La meccanica: il modello a quattro componenti

Apriamo ora il merito. Procediamo nell’ordine canonico: phonological loop, visuospatial sketchpad, central executive, episodic buffer. Poi il modello alternativo di Cowan, poi le basi neurali, poi i task standard.

Il phonological loop

Il phonological loop è il sub-sistema verbale-acustico della WM. La sua funzione è mantenere informazione fonologica (suoni di parole, sequenze di lettere come stringhe pronunciabili) per pochi secondi, e si articola in due sotto-componenti:

Phonological store (magazzino fonologico): tiene una traccia acustica passiva per circa 1.5–2 secondi. Decade naturalmente. Capacità misurata in durata di pronunciazione, non in numero di item.
Articulatory rehearsal process (processo di rehearsal articolatorio): una sub-vocalizzazione interna che rinfresca la traccia, ri-immettendola nello store prima del decadimento. È quello che fai quando ripeti silenziosamente un numero di telefono finché non lo componi.

La struttura a due componenti non è stata postulata gratuitamente: è stata costruita per spiegare quattro effetti sperimentali robusti.

Word-length effect (Baddeley, Thomson, Buchanan 1975, Journal of Verbal Learning and Verbal Behavior). Soggetti memorizzano liste di parole, alcune corte (e.g. “wit, sum, harm, bay, top”), altre lunghe (e.g. “university, opportunity, refrigerator, television, hippopotamus”). Il digit span — pardon, word span — è significativamente più lungo per le parole corte. La regola empirica è: span ≈ numero di parole pronunciabili in circa 2 secondi. Implicazione: la capacità del loop non si misura in item, si misura in durata di pronuncia. Più una parola è lunga da pronunciare, meno parole stanno nel loop. Coerente con un magazzino di durata fissa rinfrescato dal rehearsal.

Una conseguenza cross-linguistica: parlanti cinesi mandarino mostrano digit span superiori (~9-10) rispetto a parlanti inglesi (~7) e gallesi (~5-6). Hoosain (1979) e Ellis-Hennelly (1980) attribuiscono la differenza alla durata di pronuncia dei nomi numerici: in mandarino i nomi delle cifre sono monosillabi corti (yī, èr, sān, sì, wǔ, liù, qī, bā, jiǔ — circa 250 ms ciascuno); in inglese sono mediamente più lunghi (one, two, three, four, five, six, seven — il “seven” è bisillabico); in gallese sono i più lunghi. Il digit span varia di conseguenza. Il numero di Miller (~7) non è una costante neurale: è una funzione della lingua del soggetto. Risultato che riposiziona il “sette” da soglia rigida a regolarità statistica linguistico-dipendente.

Phonological similarity effect (Conrad 1964, Baddeley 1966). Liste di parole foneticamente simili (B, D, P, T, V — tutte con vocale “i” e consonanti plosive) sono ricordate peggio di liste foneticamente dissimili (W, K, R, Y, Q). Implicazione: il loop codifica informazione in formato acustico-fonologico, non semantico. Item che si confondono per come suonano si confondono nel loop. Se la codifica fosse semantica, dovremmo vedere confusioni fra parole con significato simile (cat/dog), non con suono simile.

Articulatory suppression (Murray 1968). Far ripetere al soggetto “the the the the” o “blah blah blah” durante la presentazione della lista blocca il rehearsal sub-vocalico. Effetto: il word-length effect scompare per stimoli presentati visivamente, e il phonological similarity effect si attenua. Interpretazione: la suppressione blocca il rehearsal ma anche, per stimoli visivi, blocca la traduzione da visivo a fonologico. Il loop non riesce più a fare il suo lavoro.

Irrelevant speech effect (Salame, Baddeley 1982). Rumore vocale di sottofondo (anche in lingua incomprensibile per il soggetto, e.g. arabo per un anglofono) degrada significativamente il recall di liste verbali. Rumore non vocale (musica strumentale, white noise) ha effetto molto minore. Interpretazione: lo speech in input ha accesso obbligatorio al phonological store e interferisce con il contenuto target; suoni non-speech non hanno questo accesso.

I quattro effetti, presi insieme, costituiscono uno dei pacchetti sperimentali più robusti della psicologia cognitiva. Replicati migliaia di volte, in lingue diverse, con popolazioni diverse (bambini, anziani, pazienti). Il phonological loop come oggetto teorico è probabilmente la parte più solida della WM in senso Baddeley.

Il visuospatial sketchpad

Il visuospatial sketchpad è il sub-sistema parallelo per informazione visiva e spaziale. Tiene a mente l’immagine mentale di un oggetto, la posizione di qualcosa in una scena, una sequenza di movimenti spaziali. Robert Logie (psicologo britannico, oggi alla University of Edinburgh) raffina nel 1995 (libro Visuo-Spatial Working Memory) il sketchpad in due sotto-componenti analoghi al loop:

Visual cache: tiene rappresentazione statica di forme, colori, pattern visivi. È la versione “store” del sketchpad.
Inner scribe: tiene rappresentazione dinamica di sequenze spaziali e movimenti, e fa rehearsal spaziale (l’equivalente del rehearsal articolatorio, ma per il movimento). È la versione “rehearsal” del sketchpad.

La distinzione è sostenuta da doppie dissociazioni in pazienti neurologici e in studi di interferenza selettiva (concurrent visual task interferisce con visual cache, concurrent spatial task interferisce con inner scribe).

Esempi di task per il sketchpad:

Corsi block-tapping task (Philip Corsi, tesi di dottorato 1972, McGill University Montreal). Su un tavolo, nove cubetti disposti in modo apparentemente casuale. Lo sperimentatore tocca una sequenza di cubetti (e.g. 3-7-2-5-8). Il soggetto deve ripeterla nello stesso ordine. Lo span tipico è 5–6 — leggermente inferiore al digit span. Misura primaria della componente spaziale.
Mental rotation (Roger Shepard, Jacqueline Metzler, 1971, Science, “Mental Rotation of Three-Dimensional Objects”). Coppie di figure 3D presentate in orientamenti diversi: il soggetto deve dire se sono identiche (a meno di rotazione) o specchiate. Tempo di reazione cresce linearmente nell’angolo di rotazione richiesto. Evidenza che la rappresentazione visiva è analogica: ruotarla mentalmente richiede tempo proporzionale all’angolo, come se ruotassi un oggetto fisico.
Brooks 1967 matrix task. Memorizzare una sequenza di descrizioni del tipo “nella casella in alto a sinistra metti 1, nella casella sotto al 1 metti 2…” (versione spaziale) o “nella prima frase metti la parola che, nella seconda metti chi…” (versione verbale). Recall concorrente di tipo visuo-spaziale interferisce con la versione spaziale ma non con quella verbale, e viceversa. Doppia dissociazione che supporta la separazione fra loop e sketchpad.

Una cosa notevole: il sketchpad ha attratto meno ricerca del loop, in parte perché è più difficile da operazionalizzare (la natura “visiva” della rappresentazione è scivolosa: parla di pixel? di forme? di descrizioni proposizionali con contenuto spaziale?), in parte perché i deficit clinici puri sono rari. Ma le sue proprietà funzionali sono coerenti con quelle del loop, e la struttura store + rehearsal sembra essere generale.

Il central executive

Il central executive è il componente meno specificato del modello, e Baddeley lo ha sempre ammesso. Nel 1974 lo descrive come un homunculus di servizio: il “controllore” che governa loop e sketchpad, attinge dalla LTM, distribuisce le risorse attentive. Non è amodale per virtù — è amodale perché non ha un substrato modality-specifico identificato.

Nel 2000 Baddeley riorganizza l’esecutivo prendendo a prestito dal Supervisory Attentional System (SAS) di Donald Norman e Tim Shallice (1986). Il SAS è il sistema che interviene quando le routine automatiche (governate da uno schedulatore di base detto contention scheduling) non bastano: situazioni nuove, conflittuali, richiedenti pianificazione. Le funzioni del central executive nella riorganizzazione sono:

Inibizione: sopprimere risposte automatiche quando non appropriate. Misurato dallo Stroop (Stroop 1935): leggere il colore dell’inchiostro di una parola scritta in un colore diverso (parola “ROSSO” scritta in inchiostro blu — devi dire “blu”, non “rosso”). Inibire la lettura automatica.
Switching: passare fra task diversi. Misurato dai task switching paradigms (Allport et al. 1994, Rogers e Monsell 1995). Switch cost: tempo aggiuntivo nel primo trial dopo un cambio di task.
Updating: aggiornare i contenuti del loop o del sketchpad in modo controllato. Misurato dall’n-back task (vedi sotto) e dal keep-track task.
Divided attention: fare due cose insieme. Misurato dai dual-task paradigms.

Le quattro funzioni — inibizione, switching, updating, divided attention — sono il trio (o quartetto) di Akira Miyake e collaboratori (2000, Cognitive Psychology, “The Unity and Diversity of Executive Functions”), uno dei tentativi più riusciti di operazionalizzare l’esecutivo. La loro analisi fattoriale suggerisce che le tre funzioni separable but unified sono inibizione, switching, e updating; “divided attention” è probabilmente una combinazione.

Il central executive resta il componente più contestato del modello. Per i critici (in primis Cowan), è troppo simile a un deus ex machina: tutto ciò che non si spiega con loop e sketchpad finisce nell’esecutivo. È un magazzino di ignoranza più che un costrutto operativo. Il dibattito non si è mai chiuso.

L’episodic buffer (Baddeley 2000)

Il modello a tre componenti aveva due lacune. Prima: come fa un’informazione a passare da loop a sketchpad o viceversa? Se ti dico “cane” e tu visualizzi un cane, dove avviene il binding fra la stringa fonologica /kane/ e l’immagine mentale? Né nel loop né nel sketchpad puro: serve un magazzino in cui rappresentazioni di modalità diverse possano convivere e essere legate.

Seconda lacuna: pazienti con amnesia severa (LTM compromessa) riescono a ripetere prosa di 15-25 parole appena ascoltata. Più di quanto il loop da solo permetta (~5-7 parole). Da dove viene la capacità extra? Non dalla LTM, che è compromessa. Servirebbe un buffer aggiuntivo, multimodale, capace di bind e di accesso conscio.

Baddeley nel 2000 (Trends in Cognitive Sciences, “The Episodic Buffer: A New Component of Working Memory?”) aggiunge il quarto componente: episodic buffer. Caratteristiche:

Multimodale: combina informazione fonologica, visivo-spaziale, e semantica da LTM.
Capacità ~4 chunks (ironicamente, lo stesso valore che Cowan trova in tutta la WM).
Accesso conscio: il contenuto del buffer è ciò di cui sei attualmente consapevole.
Controllato dal central executive: l’esecutivo decide cosa caricare e cosa scaricare.

L’episodic buffer è la componente più recente e meno empiricamente vincolata del modello. Per alcuni critici (e per Cowan stesso) è una concessione al modello rivale: aggiungere un magazzino multimodale a capacità ~4 è praticamente riconoscere che il focus of attention di Cowan ha ragione. Per Baddeley è una specificazione coerente dentro l’architettura originale. Il dibattito riflette in piccolo il dibattito più grande Baddeley vs Cowan.

Persistent activity in dlPFC during delayed response task (Funahashi-Bruce-Goldman-Rakic 1989 style): timeline + neuronal firing rate trace

Il modello rivale: embedded processes (Cowan 1995, 2001)

Mentre Baddeley raffinava il suo modello, Nelson Cowan (1951–, psicologo americano alla University of Missouri-Columbia) costruiva un’alternativa concettualmente più parsimoniosa. La proposta, formulata nel libro Attention and Memory: An Integrated Framework (1995, Oxford University Press) e raffinata nel paper “The Magical Number 4 in Short-Term Memory” (2001, Behavioral and Brain Sciences), è radicale: la working memory non è un magazzino separato dalla long-term memory. È uno stato attivato della LTM più un focus of attention.

L’architettura Cowan ha tre stati di rappresentazione, in ordine di accessibilità decrescente:

Focus of attention (~4 chunks). Stato di accessibilità immediata. È ciò che hai “in mente” in questo istante. Capacità nettamente limitata, ~4 chunks (con item dissimili e chunking impedito).
LTM attivata (durata di minuti). Sotto-insieme della LTM in stato di alta attivazione, accessibile rapidamente ma non istantaneamente. Decade più lentamente del focus, ~10-20 secondi senza attenzione.
LTM dormiente. Il resto della memoria a lungo termine. Accesso più lento, richiede recupero attivo.

In questa lettura, “working memory” non è una scatola separata sopra la LTM: è un gradiente di attivazione dentro la LTM stessa, modulato dall’attenzione. Il focus è il picco del gradiente; la LTM attivata è il decadimento; la LTM dormiente è la base.

Vantaggi del modello Cowan rispetto a Baddeley:

Parsimonia: un sistema invece di quattro componenti.
Spiegazione naturale del binding: non serve un buffer multimodale separato, perché il focus stesso può tenere insieme rappresentazioni di modalità diverse.
Continuità con la LTM: il passaggio da WM a LTM non è una transizione fra magazzini ma un cambio di stato di attivazione.

Critiche al modello Cowan:

Difficoltà a spiegare doppie dissociazioni (un paziente con loop danneggiato ma sketchpad intatto suggerisce magazzini separati, non gradienti uniformi).
Il “focus of attention” è esso stesso un costrutto teorico complesso: limitarsi a chiamarlo così non spiega come funzioni.

Cowan (2001) propone, sulla base di una meta-analisi di task in cui il chunking è impedito (item visivi nuovi, presentazioni rapide, articulatory suppression), che la capacità reale del focus of attention sia ~4 chunks, non ~7. Il “sette” di Miller è un artefatto: in molti dei task di Miller i soggetti potevano chunkare item, e quindi 7 era il numero di item dopo ricodifica, non il numero di chunks. Quando si impedisce il chunking, il numero scende a 4±1.

Una sintesi possibile fra i due modelli (proposta da Cowan stesso, 2010): non sono incompatibili. Baddeley descrive l’architettura modulare (loop, sketchpad, esecutivo, buffer); Cowan descrive il funzionamento attentivo (focus + attivazione gradiente). I due livelli di descrizione possono convivere. Quando un soggetto fa un complex span task, sta usando i moduli di Baddeley (loop per gli item verbali, sketchpad per quelli spaziali) e gradiente di Cowan (focus che illumina i 4 item correnti). La dicotomia “Baddeley vs Cowan” è probabilmente una falsa dicotomia.

Tasks classici: come si misura la WM

Cinque task — più una famiglia — coprono la quasi totalità della letteratura empirica sulla WM.

Digit span (Wechsler)

Il test più antico e più usato. Lo sperimentatore legge una sequenza di cifre a una al secondo (e.g. “3-9-2-5-8-1”); il soggetto la ripete. Si comincia da sequenze di 3, si aumenta finché il soggetto non sbaglia due trial consecutivi a una data lunghezza. Lo span è la lunghezza massima ripetuta correttamente.

Versioni:

Forward span: ripetizione nello stesso ordine. Misura primariamente capacità del phonological loop. Span medio adulto inglese: ~7±2 con cifre, ~5±1 con item non-chunkabili.
Backward span: ripetizione nell’ordine inverso. Carico aggiuntivo sul central executive. Span tipico: ~5±1.

Il digit span è componente del WAIS (Wechsler Adult Intelligence Scale, sviluppata da David Wechsler 1896–1981, psicologo americano alla New York University Bellevue) e di praticamente ogni batteria neuropsicologica clinica. Misura grezza ma robusta.

N-back (Kirchner 1958)

Walter Kirchner introduce il task in Journal of Experimental Psychology per studiare differenze di età. Il soggetto vede una sequenza di stimoli (lettere, posizioni, forme) presentati uno dopo l’altro. Deve premere un tasto quando lo stimolo corrente è identico a quello n posizioni prima. Per n=1: confronta con il precedente. Per n=2: tieni a mente una sequenza di 2 e confronta col penultimo. Per n=3: 3 elementi, confronto con il terzultimo. La difficoltà cresce rapidamente.

L’n-back è diventato lo standard de facto nel neuroimaging della WM. Si presta bene a fMRI perché ha una struttura a blocchi (blocchi di 2-back vs blocchi di 1-back vs blocchi di 0-back) e permette di isolare l’attività cerebrale specifica del carico di WM. La rete che si attiva — dlPFC bilaterale, parietale superiore, anteriore cingolato — è la frontoparietal control network, considerata il substrato neurale principale della WM.

Sternberg memory scanning (1966)

Saul Sternberg (1933–, psicologo americano alla University of Pennsylvania) pubblica su Science nel 1966 un paradigma che ha avuto enorme influenza metodologica. Il soggetto vede un memory set — una sequenza di 1 a 6 cifre (e.g. “3-9-7”). Pausa. Poi appare una probe (una singola cifra, e.g. “9”). Il soggetto preme rapidamente “sì” se la probe era nel set, “no” altrimenti. Si misura il tempo di reazione (RT).

Risultato: RT cresce linearmente con la dimensione del set, con pendenza ~38 ms per item. Sternberg interpreta il dato come scanning seriale exhaustive: il sistema attraversa il contenuto della WM uno per uno, anche se trova la match prima della fine. Interpretazione classica, ampiamente discussa. Letture alternative (parallel scanning con accuracy degrading, modelli a familiarità) propongono spiegazioni diverse della stessa pendenza. Il dibattito sul modello è ancora aperto cinquant’anni dopo, ma la regolarità del dato è solida.

Brown-Peterson task

John Brown (psicologo britannico, paper 1958 Quarterly Journal of Experimental Psychology) e i Peterson (Lloyd Peterson e Margaret Intons-Peterson, psicologi americani alla Indiana University, paper 1959 Journal of Experimental Psychology) introducono indipendentemente un paradigma per studiare il decadimento dello STS. Lo sperimentatore legge tre consonanti (e.g. “C-J-X”). Subito dopo, un numero (e.g. “287”). Il soggetto deve contare all’indietro di tre da quel numero (“284, 281, 278…”) per un intervallo variabile (3-18 secondi). L’intervallo impedisce il rehearsal della tripla. Alla fine il soggetto deve riprodurre la tripla.

Risultato: la performance crolla rapidamente con l’intervallo. A 3 secondi, ~80% di accuracy; a 18 secondi, ~10%. Interpretazione iniziale: decadimento autonomo della traccia in assenza di rehearsal. Critica successiva (Keppel e Underwood 1962, Murdock 1961): la performance dipende fortemente da quanti trial sono stati fatti precedentemente — i primi trial mostrano poco decadimento, i successivi ne mostrano molto. Implicazione: gran parte del “decadimento” è in realtà proactive interference (item dei trial precedenti interferiscono con il recupero). Il dibattito decay vs interference è uno dei più vecchi e meno risolti della psicologia della memoria.

Complex span tasks (Daneman-Carpenter 1980 e successivi)

Meredyth Daneman e Patricia Carpenter (psicologhe americane alla Carnegie-Mellon, poi University of Toronto) introducono nel 1980 (Journal of Verbal Learning and Verbal Behavior) il reading span task. Il soggetto legge una serie di frasi (per processarle: deve giudicare se ognuna ha senso o no) e contemporaneamente memorizza la parola finale di ognuna. Alla fine deve recuperare le parole finali in ordine. Il task alterna processing (lettura+giudizio) e storage (memorizzazione delle parole finali).

Il reading span misura una cosa che nessun task semplice misura: la capacità di mantenere informazione sotto interferenza del processing concorrente. È questa capacità — non lo span passivo — a correlare fortemente con la fluid intelligence e con la comprensione linguistica.

Randall Engle (psicologo americano alla Georgia Tech) e collaboratori (Kane, Conway, Bunting, Hambrick) sviluppano negli anni 90-2000 una famiglia di complex span tasks: operation span (operazioni matematiche + memorizzazione di parole), symmetry span (giudizio di simmetria + memorizzazione di posizioni), rotation span (rotazione mentale + memorizzazione). Insieme costituiscono lo strumento standard per misurare la working memory capacity (WMC) come tratto individuale stabile. Conway, Kane, Bunting, Hambrick, Wilhelm, Engle (2005, Psychonomic Bulletin & Review) pubblicano un manuale operativo dei complex span che è oggi il riferimento.

Engle (2002, Current Directions in Psychological Science, “Working Memory Capacity as Executive Attention”) propone che la WMC misuri primariamente la capacità di mantenere informazione attiva sotto interferenza — non la capacità del loop, non lo storage passivo, ma il controllo attentivo esecutivo. La correlazione fra WMC e fluid intelligence (Gf), misurata sulla base dei test di Raven o batterie analoghe, è dell’ordine di r=0.5–0.7 a livello latente (Conway et al. 2003, Intelligence). Una delle correlazioni più forti in psicologia individuale.

Una nota importante: correlazione non è causalità. WMC alta predice Gf alta, ma non significa che allenando la WM si migliori la Gf. Ne parliamo nella sezione su WM training.

Basi neurali

Tre filoni di ricerca convergono sulla biologia della WM: persistent activity (Funahashi et al. 1989, Goldman-Rakic 1995), reti distribuite (Constantinidis-Klingberg 2016), modelli activity-silent (Stokes 2015).

Persistent activity nel dlPFC

L’esperimento di apertura di questo capitolo. Funahashi-Bruce-Goldman-Rakic 1989 mostrano neuroni nel dorsolateral prefrontal cortex (dlPFC, area 46 di Brodmann nei primati) che mantengono firing rate elevato durante il delay di un delayed response task, e sono selettivi per la posizione dello stimolo (campo recettivo memnonico). Goldman-Rakic riassume il programma di ricerca in “Cellular Basis of Working Memory” (1995, Neuron): la WM è una proprietà emergente di reti corticali con feedback eccitatorio NMDA-dipendente, in cui un attractor stabile mantiene la rappresentazione attiva oltre lo stimolo.

Il modello attractor è stato formalizzato matematicamente da Xiao-Jing Wang (neuroscienziato computazionale, Yale poi NYU) e collaboratori negli anni 90-2000. In un modello a rete con neuroni eccitatori e inibitori reciprocamente connessi, esiste una famiglia di stati stabili (“bumps” di attività) ognuno dei quali codifica una posizione spaziale. Lo stimolo “innesca” il bump corrispondente; il bump si auto-sostiene durante il delay; un input perturbativo (distrattore o go signal) lo destabilizza. Il modello riproduce qualitativamente la persistent activity osservata.

Critiche al quadro classico:

La persistent activity è osservata anche fuori dal dlPFC, in cortecce sensoriali alte (V4, IT, parietale). Probabilmente la WM è distribuita: il dlPFC fa controllo esecutivo e mantenimento di rappresentazioni astratte, le aree sensoriali fanno mantenimento di rappresentazioni modality-specific.
Lesioni del dlPFC compromettono la WM in modo più sottile di quanto il modello classico predirrebbe: i pazienti hanno deficit di flessibilità e di inibizione, non solo di mantenimento.

Activity-silent working memory (Stokes 2015)

Mark Stokes (neuroscienziato britannico alla University of Oxford) propone nel 2015 (Trends in Cognitive Sciences, “‘Activity-Silent’ Working Memory in Prefrontal Cortex: A Dynamic Coding Framework”) un modello alternativo. Osservazione: in alcuni paradigmi, la persistent activity decade significativamente durante il delay, eppure il soggetto risponde correttamente alla fine. Come fa il sistema a tenere l’informazione se i neuroni non scaricano persistentemente?

La risposta: plasticità sinaptica a breve termine. Quando uno stimolo passa, lascia una traccia nelle sinapsi (potenziamento o depressione transienti, durata centinaia di ms a secondi) anche se l’attività di firing torna a baseline. Quando un input “ping” successivo arriva, le sinapsi modificate guidano una risposta che ricostruisce la rappresentazione. La WM in questo modello è “silenziosa” durante il delay (no firing rate elevato) e riemerge solo quando un input la riattiva.

Evidenza: Wolff, Jochim, Akyürek, Stokes (2017, Nature Neuroscience) usano TMS (Transcranial Magnetic Stimulation) come “ping” durante il delay di un task WM. Anche quando il segnale EEG di decoding della rappresentazione è andato a baseline (rappresentazione “silenziosa”), il TMS pulse fa riemergere il decoding: l’informazione era latente nel pattern sinaptico.

Implicazione concettuale: la WM non è necessariamente “un neurone che continua a scaricare”. È uno stato dinamico del sistema che può essere espresso come firing rate elevato (persistent activity classica) o come pattern sinaptico latente (activity-silent). I due regimi probabilmente coesistono e il sistema commuta fra l’uno e l’altro a seconda delle richieste.

Theta-gamma coupling (Lisman-Jensen 2013)

John Lisman (1944–2017, neuroscienziato americano alla Brandeis) e Ole Jensen (neuroscienziato danese alla Birmingham) propongono nel 2013 (Neuron, “The Theta-Gamma Neural Code”) un meccanismo per la WM multi-item. L’idea: ogni item è codificato in un ciclo gamma (oscillazione neurale a ~30–100 Hz, periodo ~10–40 ms); più item sono incastrati come ciclietti gamma successivi dentro un ciclo theta più lungo (~4–8 Hz, periodo ~125–250 ms). Il ciclo theta fa da “frame” temporale, i ciclietti gamma fanno da “slot” per i singoli item.

Il numero di cicli gamma per ciclo theta è circa sette: una coincidenza con il numero di Miller che alcuni hanno trovato suggestiva. Cautela: i modelli oscillatori della WM sono attraenti e supportati da evidenza (MEG umano, registrazioni intracraniche nei roditori) ma il rapporto causale fra oscillazioni e capacità non è dimostrato. Le oscillazioni potrebbero essere correlato del processo di mantenimento, non il meccanismo del mantenimento.

Esempi concreti

Tre esempi eterogenei aiutano a fissare i concetti.

Esempio 1: il calcolo a mente come dual-task

Tieni a mente due numeri: 47 e 36. Adesso somma. Mentre fai la somma — 47 + 36 = 83 — hai dovuto:

Tenere “47” e “36” nel phonological loop (rehearsal sub-vocalico: “quarantasette, trentasei…”).
Eseguire l’algoritmo di somma incolonnata mentale: 7 + 6 = 13, scrivi 3 riporto 1; 4 + 3 = 7, più riporto 1 = 8. Il riporto va tenuto attivo nell’esecutivo.
Aggregare i risultati intermedi (3 e 8) in 83.
Riportare il risultato.

Quattro operazioni che coinvolgono loop (per i numeri di partenza), esecutivo (per l’algoritmo e il riporto), focus of attention (per la combinazione finale). Il dual-task implicito è: tenere gli input mentre li manipoli. Working memory in azione.

Adesso prova: 6473 + 8295. Quasi certamente hai dovuto rallentare, e probabilmente hai sbagliato. Non perché l’algoritmo sia diverso: è lo stesso. Ma il loop e l’esecutivo, insieme, non hanno abbastanza capacità per tenere quattro cifre per addendo + i risultati intermedi + i riporti. Si trabocca. Da qui la regola pratica: chi calcola a mente sopra una certa soglia sta usando strategie di chunking (es. 6500 + 8300 = 14800; sottraggo 27 + 5 = 32; risultato 14768) per ridurre il carico. Le strategie spostano il lavoro dal loop al focus of attention, dove un chunk astratto come “6500” pesa quanto una cifra singola.

Esempio 2: word-length effect numerico

Ricostruzione del paradigma Baddeley-Thomson-Buchanan 1975. Soggetti memorizzano liste di 5 parole, presentate visivamente per 1.5 secondi, poi riproducono in ordine.

Lista A (parole monosillabiche corte, ~250 ms di pronuncia ciascuna):

wit · sum · harm · bay · top

Lista B (parole polisillabiche lunghe, ~700 ms di pronuncia ciascuna):

opportunity · refrigerator · university · hippopotamus · helicopter

Risultato tipico:

Lista A: ~4.5 parole su 5 corrette (90%).
Lista B: ~2.2 parole su 5 corrette (44%).

Stima della capacità del loop in termini di durata di pronunciazione:

Lista A: 4.5 × 250 ms = ~1.13 s di parole pronunciate.
Lista B: 2.2 × 700 ms = ~1.54 s di parole pronunciate.

Le due stime convergono a ~1.2–1.6 secondi. Coerenti con l’ipotesi che il loop tenga circa 1.5–2 secondi di pronunciazione, non un numero fisso di item. Il “word span” non è un numero, è una durata.

Una predizione che il modello fa, e che è confermata sperimentalmente: parlanti di lingue con nomi numerici corti hanno digit span superiori. Ellis e Hennelly (1980) confrontano studenti gallesi bilingui in inglese e gallese: lo stesso studente ha digit span medio 6.55 in inglese e 5.77 in gallese. La differenza non è nelle teste, è nella durata di pronuncia delle cifre.

Esempio 3: comparare WM umana e LLM context window

Provo a rendere concreto il problema della comparabilità. Considera un soggetto a cui leggo questa sequenza:

7 · 2 · 9 · 4 · 1 · 8 · 3 · 5

Otto cifre. Probabilmente le ricordi bene (entro lo span di un anglofono medio). Ora considera il contenuto informativo di quelle otto cifre:

8 cifre × log₂(10) bit/cifra ≈ 26.6 bit.

Adesso considera lo stesso soggetto a cui chiedo di tenere a mente questa frase:

“il gatto nero saltò elegantemente sopra il muretto del giardino di mia nonna”

14 parole. Il soggetto le ricorda perfettamente. Contenuto informativo:

14 parole × log₂(N parole italiane) ≈ 14 × 17 ≈ 238 bit (assumendo vocabolario di ~130k parole).

Sembrerebbe un paradosso: stesso soggetto, stessa WM, contenuto informativo dieci volte maggiore nella seconda condizione. La risoluzione è il chunking: la frase è chunkata in significato. Le parole non sono memorizzate come 14 item indipendenti, sono integrate in 3-4 chunks semantici (“gatto nero saltò”, “sopra il muretto”, “del giardino”, “di mia nonna”). Quattro chunks, pieni ognuno di significato denso.

Ora confronta con un LLM. Frontier model 2026, context window di 200,000 token. La stessa frase italiana è tokenizzata in ~25-30 token. La sequenza di 8 cifre è ~16 token. Il modello “ha in WM” (tra virgolette) la frase facilmente, e potrebbe averne 6,000 di simili contemporaneamente.

Domanda: il modello ha una WM di 6,000 frasi, mentre l’umano di una? Risposta: la domanda è mal posta. I 200,000 token sono atomi sintattici sub-parola, non chunks semantici. I 4 chunks dell’umano sono unità semantiche dense, ognuna con accesso a tutta la rete semantica della LTM associata. Confrontare 4 e 200,000 è confrontare unità non commensurabili. Il modello ha una capacità nominale enorme, ma quella capacità non è stratificata in chunks: ogni token è uguale agli altri, nessun token sub-rappresenta un’unità semantica autonoma. La struttura cognitiva dei due “magazzini” è radicalmente diversa.

Vedremo nella sezione sull’eredità che questa non commensurabilità ha conseguenze pratiche sulla progettazione di agenti.

Sviluppo, patologia, training

Una sezione necessaria per non fare un capitolo solo teorico.

Sviluppo

La capacità di WM cresce con l’età in modo regolare. Bambini di 4 anni: ~1.5 chunks. Bambini di 8 anni: ~3 chunks. Adolescenti: ~4 chunks. La crescita è correlata con la maturazione della corteccia prefrontale (mielinizzazione degli assoni, pruning sinaptico), che si completa tardivamente — fino ai 20-25 anni. Capacità WM e Gf crescono in parallelo nello sviluppo, suggerendo una causa comune (probabilmente la maturazione PFC-parietale).

Aging

In età avanzata, declino moderato della WM, soprattutto sulle componenti executive (backward span, complex span). Il forward span è relativamente preservato. Anche qui, il declino correla con cambiamenti strutturali nella PFC.

Patologia

ADHD (Attention Deficit Hyperactivity Disorder): deficit principalmente sul versante esecutivo (inibizione, switching), capacità del loop relativamente preservata. La fenomenologia “non riesce a stare attento” mappa su un central executive sotto-funzionante.
Schizofrenia: deficit WM ben documentato, correlato a ipofunzione del dlPFC (riduzione del firing rate dopaminergico in PFC). Considerato uno dei deficit cognitivi core della malattia.
Aphasia di Broca: deficit del phonological loop, in linea con la lesione frontale inferiore sinistra che danneggia il sistema verbale-motorio sub-vocalico.

Il dibattito sul WM training

Negli anni 2000 emerge un programma commerciale, Cogmed, sviluppato da Torkel Klingberg (neuroscienziato svedese al Karolinska Institute). L’idea: training adattivo di task n-back e simili, somministrato per settimane, dovrebbe migliorare la capacità di WM e — la promessa più ambiziosa — trasferire a fluid intelligence, attenzione, sintomi ADHD. Klingberg pubblica risultati positivi su bambini ADHD; Susanne Jaeggi e Martin Buschkuehl (2008, PNAS, “Improving Fluid Intelligence with Training on Working Memory”) riportano transfer alla Gf con dual n-back training in adulti sani. Il campo si eccita.

Le repliche e meta-analisi successive sono molto meno entusiaste:

Shipstead, Redick, Engle (2012) in Psychological Bulletin fanno review critica: la maggior parte degli studi WM training ha problemi metodologici (no active control group, near transfer e far transfer non distinti, effetto Hawthorne non controllato).
Melby-Lervåg e Hulme (2013) in Developmental Psychology: meta-analisi di 23 studi su WM training. Conclusione: improvements robusti su task simili al training (near transfer), nessun transfer significativo a Gf, lettura, attenzione (far transfer).
Au, Sheehan, Tsai, Duncan, Buschkuehl, Jaeggi (2015) trovano effetto piccolo ma significativo sulla Gf in una meta-analisi parziale; Melby-Lervåg, Redick, Hulme (2016) replicano l’analisi con criteri più stringenti e l’effetto svanisce.

Verdetto attuale (2026): il WM training migliora il task allenato (questo è scontato — è apprendimento procedurale specifico). Il transfer a Gf, attenzione, performance scolastica è scettico-by-default. La WMC è probabilmente un tratto stabile, debolmente plastico nell’adulto. Le promesse divulgative di “potenzia il tuo cervello” via app sono al momento non supportate.

Constantinidis e Klingberg (2016) provano una sintesi più cauta in Nature Reviews Neuroscience: il WM training produce cambiamenti misurabili nell’attività cerebrale (riduzione del carico nel dlPFC dopo training), ma il significato funzionale di questi cambiamenti rimane controverso.

Eredità oggi: working memory e sistemi AI

[DATATO 2026-04] Questa sezione mappa il rapporto fra working memory umana e componenti dei sistemi AI moderni. Le tecnologie cambieranno; il punto strutturale — la distanza fra il fenomeno cognitivo e l’ingegneria dei context — è più stabile.

L’analogia che tira più forte qui è “context window dell’LLM = working memory dell’umano”. È un’analogia attraente, didatticamente utile, e pericolosamente facile da scivolare in equivalenza. Procediamo per livelli, dichiarando la classe di ogni affermazione.

Analogia funzionale: cosa hanno in comune

A livello funzionale (cosa fanno, non come lo fanno), context window e WM condividono tre proprietà:

Magazzino transitorio per il computo corrente: entrambi tengono disponibile l’informazione necessaria al “qui e ora” del processing.
Capacità limitata: entrambi hanno un limite oltre cui il sistema degrada.
Accesso uniforme: il contenuto è disponibile per essere usato dal computo, senza un retrieval costoso da memoria a lungo termine.

A livello funzionale, l’analogia regge. Tom Sumers, Shunyu Yao, Karthik Narasimhan, Tom Griffiths (2024, “Cognitive Architectures for Language Agents”, TMLR) propongono in CoALA una mappatura esplicita: il context window è il “working memory” del language agent. La proposta è prudente — gli autori parlano di analogia, non di equivalenza (“we draw on cognitive architectures”) — ed è un buon punto di partenza per progettare agenti con memoria stratificata.

Disanalogie strutturali: cosa è radicalmente diverso

A livello strutturale (come il magazzino è organizzato e cosa fa al suo interno), le differenze sono profonde.

Capacity comparison: human WM (~4 chunks) vs LLM context window (~200k tokens). Note: chunks and tokens are NOT comparable units

Disanalogia 1 — Unità non commensurabili. La capacità della WM umana è ~4 chunks. La capacità di un context window 2026 frontier è ~200,000 token. Confrontare 4 con 200,000 è categorialmente sbagliato. Un chunk umano è un’unità semantica densamente legata: “la macchina della mamma”, “Pasqua del 2003”, “il teorema di Pitagora” sono ognuno un singolo chunk, e ognuno apre l’accesso a una rete semantica vastissima nella LTM. Un token LLM è invece un atomo sintattico sub-parola di 3-4 caratteri. I due tipi di unità vivono su scale diverse di astrazione e non sono direttamente confrontabili in numero. Dire “la WM ha capacità 4, il context ne ha 200,000, quindi gli LLM hanno una WM 50,000 volte più grande” è come dire “la mela ha 5 semi, il melograno ne ha 600, quindi il melograno è 120 volte più nutriente”. Le unità non sono confrontabili.

Disanalogia 2 — Assenza di central executive attivo. La WM umana ha un controllore (il central executive) che inibisce, switcha, fa updating, manipola attivamente i contenuti durante il computo. Mentre risolvi 17 × 23 manipoli i numeri dentro la WM. Il context window di un LLM è statico durante un turn: i token sono presenti, vengono letti dall’attention, ma nessun “manager” attivo li riarrangia, li scarta, li manipola. L’unica “manipolazione” è il forward pass del modello, che produce nuovi token e li appende in fondo. Niente inibizione attiva, niente switching strategico, niente updating selettivo. L’agente attorno all’LLM (il harness) può fare manipolazione sul context fra turn, ma quella è un’attività esterna al modello, non una funzione cognitiva del modello stesso.

Disanalogia 3 — Position bias ≠ decay. I lavori su long-context (Liu, Lin, Hewitt, Paranjape, Bevilacqua, Petroni, Liang, 2023, “Lost in the Middle: How Language Models Use Long Contexts”, arXiv:2307.03172) mostrano che gli LLM tendono a recuperare meglio informazione all’inizio e alla fine del context, peggio a metà. È un effetto che assomiglia superficialmente al primacy and recency effect della memoria umana. La somiglianza è ingannevole: il primacy/recency umano emerge da decadimento temporale e rehearsal differenziale; il “lost in the middle” degli LLM emerge da position encoding, training distribution, e attention pattern dominanti. Stesso fenomeno superficiale, meccanismi radicalmente diversi. Trattarli come equivalenti porta a predizioni sbagliate (es. aspettarsi che ripetere informazione “rinfreschi” la traccia in un LLM come fa il rehearsal nel loop — non funziona così).

Disanalogia 4 — Niente phonological loop, niente sketchpad. La WM umana ha sub-componenti modality-specific. Un LLM testuale non ha un equivalente di loop fonologico (anche se è interessante notare che il phonological loop è precisamente la modalità in cui il pensiero linguistico interno si svolge, e gli LLM testuali codificano qualcosa di analogo nella loro rappresentazione interna). Un LLM multimodale (vision-language) non ha sketchpad: ha un encoder visivo che proietta immagini in token, e poi tutti i token sono uniformi nel context. Niente magazzino visuo-spaziale separato con sub-rehearsal spaziale.

Disanalogia 5 — KV cache ≠ persistent activity. La KV cache (vedi kv-cache, in preparazione) di un transformer è la cache delle proiezioni K e V calcolate per i token già processati, riusata ad ogni step di generazione per evitare ricomputo. È una struttura ingegneristica per ottimizzare l’inferenza, attiva dentro il forward pass. La persistent activity dei neuroni dlPFC (Funahashi 1989) è uno stato dinamico sostenuto da circuiti ricorrenti che mantiene una rappresentazione attiva nel tempo. Sono due meccanismi che risolvono problemi diversi (caching vs storage attivo) con modalità diverse (memoria statica indicizzata vs attractor dinamico). Confondere KV cache e persistent activity, come a volte si vede in divulgazione, è un errore concettuale. La somiglianza è superficiale (“entrambi tengono qualcosa nel tempo”).

Cosa si può imparare dall’analogia, comunque

Detto tutto questo, l’analogia ha valore se usata con attenzione.

Lezione 1 — Architettura stratificata di memoria per agenti. Il modello multi-store (Sensory Register → STS → LTS) e la WM stratificata di Baddeley sono ispirazione per architetture agentiche con livelli di memoria: short-term context (working memory analogo), episodic memory (chat history, log delle azioni), semantic memory (vector store di knowledge), procedural memory (skill, prompt template). MemGPT (Packer et al. 2023) e Letta sono esempi di architetture stratificate. La filiazione concettuale è debole — non sono implementazioni di Baddeley, sono soluzioni ingegneristiche con paralleli funzionali — ma le analogie hanno aiutato a sistematizzare il design space.

Lezione 2 — Capacity ≠ effective use of capacity. L’umano ha capacità nominale di 4 chunks ma usa quei 4 chunks in modo straordinariamente efficace via chunking gerarchico e accesso a LTM ricca. L’LLM ha capacità nominale di 200,000 token ma li usa in modo molto meno efficace di quanto la dimensione lasci pensare (lost in the middle, attention dilution, fallimenti di reasoning su context lungo). La lezione: la dimensione del context non si traduce linearmente in capacità di ragionamento. Espandere il context senza migliorare l’organizzazione dei contenuti e l’accesso strutturato dà rendimenti decrescenti. Per gli agent designer, questo suggerisce di investire in retrieval mirato e context compression piuttosto che solo in finestre più lunghe.

Lezione 3 — Manca un central executive vero. Il fatto che gli LLM non abbiano un central executive interno spiega molte loro fragilità: difficoltà a inibire pattern automatici (jailbreak via prompt injection), incapacità di switching strategico vero (anche con CoT, il “passaggio di task” è simulato non controllato), updating selettivo del context limitato. Sistemi più avanzati cercano di supplire con meccanismi esterni: un planner esplicito (vedi planner-esecutore, in preparazione), un meta-agente di controllo, un harness con hooks. Sono tutti tentativi di esternalizzare il central executive che il modello non ha al suo interno.

Cosa NON dire

Per chiudere la sezione, una lista di affermazioni da evitare:

❌ “Il context window è la working memory dell’LLM.” Ridotto a slogan, equivalenza pericolosa. Va sempre marcato come analogia funzionale parziale.
❌ “La capacità del context (200k token) è 50000 volte la WM umana (4 chunks).” Confronto categoriale sbagliato.
❌ “KV cache = persistent activity.” Falso a livello meccanico.
❌ “RAG è la long-term memory dell’agente.” Analogia funzionale lontana; equivalenza pericolosa. La LTM umana è integrata semanticamente; un vector store è retrieval-by-similarity. Differenze profonde.
❌ “Lost in the middle è il primacy/recency effect degli LLM.” Effetto superficiale simile, meccanismo diverso.
❌ “Allenare i modelli su long context allena la loro working memory.” L’apprendimento di un LLM non è il WM training di un umano. Categorialmente diversi.

Dove si rompe: limiti, controversie, raffinamenti

Una sezione larga, perché la WM è uno dei costrutti più dibattuti della scienza cognitiva.

Il numero magico: 7, 4, o nessuno?

Miller 1956: ~7. Cowan 2001: ~4. Letteratura recente: dipende dal task, dal contenuto, e dal grado di chunking permesso. In condizioni di chunking impedito (item nuovi e dissimili, articulatory suppression che blocca il rehearsal verbale, presentazione rapida), la capacità sembra convergere a 3-4. In condizioni che permettono chunking, può arrivare a 7-9 con materiale ricco. La domanda “quanti item entrano nella WM?” non ha una risposta unica: dipende da cosa è “un item” e da quale strategia il soggetto può usare.

Una posizione moderna (Oberauer 2002, Brady-Konkle-Alvarez 2011): la WM è meglio descritta in termini di risorsa continua distribuita su più item, non come un numero fisso di slot. Più item → meno precisione per ciascuno. Il limite “4” emerge quando si chiede di ricordare ogni item con piena precisione; sotto criteri meno stringenti, ne entrano di più con qualità degradata.

Decay vs interference

Il dibattito Brown-Peterson è ancora vivo. La performance crolla con l’intervallo: è perché la traccia decade nel tempo, o perché item successivi (proactive interference da trial precedenti, retroactive da distrattori del trial corrente) la cancellano? Modelli moderni (Lewandowsky, Oberauer) tendono a dare peso maggiore all’interferenza. Ma il tempo non è completamente irrilevante: anche in assenza di distrattori, alcune evidenze suggeriscono decadimento intrinseco. Il dibattito è probabilmente mal posto: decay e interference non sono mutuamente esclusivi.

L’esecutivo come homunculus

Il central executive di Baddeley è stato criticato come homunculus problem: spiegare la WM postulando un controllore intelligente che gestisce il sistema sposta la spiegazione, non la fornisce. Chi controlla il controllore? Da Miyake et al. (2000) in poi, la tendenza è scomporre l’esecutivo in funzioni specifiche (inibizione, switching, updating) implementabili senza homunculus. Il central executive resta utile didatticamente ma è teoricamente fragile.

Baddeley vs Cowan: davvero rivali?

Una decisione di campo: i due modelli sono presentati spesso come rivali, ma la convergenza è probabilmente più di quanto sembri. Baddeley ha aggiunto l’episodic buffer (~4 chunks, multimodale) che ricorda molto il focus of attention di Cowan. Cowan ha riconosciuto componenti modality-specific dentro la sua LTM attivata che ricordano il loop e il sketchpad. Sotto la lettura conciliante (Cowan 2010, D’Esposito-Postle 2015 nella Annual Review of Psychology), Baddeley descrive la scomposizione modulare del sistema, Cowan ne descrive la dinamica attentiva. I due livelli di descrizione possono coesistere.

WM training: il consenso fragile

Il consenso 2013-2016 (“WM training non transfer”) ha vacillato in alcuni paper successivi (Au 2015, Schwaighofer 2015) e poi è stato ribadito (Melby-Lervåg 2016, Sala-Gobet 2017). Lo stato 2026 è: WM training migliora i task allenati con dimensioni di effetto medie; transfer a near-transfer è incerto; transfer a far-transfer (Gf, attenzione, scuola) è negativo o trascurabile. L’industria di app che promettono brain training (Lumosity, condannata FTC nel 2016 a $2M per claim non supportati; e successori) opera in una zona scientificamente fragile. Il pratico: la WMC è probabilmente un tratto stabile, e i tentativi di migliorarla con training sono al massimo modestamente efficaci.

L’analogia con AI: il rischio cumulativo

Il rischio cumulativo nel discorso “WM ↔ context window” è lo scivolamento progressivo, in un singolo paragrafo, da analogia a filiazione a equivalenza. Esempio reale (parafrasato da divulgazione comune):

“Il context window funziona come la working memory umana [analogia]. Entrambi hanno capacità limitata e accesso rapido. Anzi, il context window è proprio la working memory dell’LLM [equivalenza]. La sua espansione a 1M token significa che gli LLM ora hanno una working memory enormemente superiore alla nostra [equivalenza con confronto numerico]. È come se Baddeley avesse vinto: il modello multi-store si trova adesso negli LLM [filiazione].”

Quattro frasi, quattro livelli di affermazione confusi. Ognuno preso singolarmente è un’affermazione diversa: la prima è didatticamente accettabile, le altre tre sono falsi progressivamente più gravi. Quando leggi divulgazione AI sulle “memorie degli LLM”, controlla che ogni frase resti nel livello dichiarato. Se scivola, riconsidera.

Collegamenti

memoria-sensoriale: lo stadio precedente nel pipeline classico. La distinzione SR/WM è centrale: SR è modality-specific, pre-attentivo, alta capacità, bassa durata; WM è (parzialmente) amodale, attentiva, bassa capacità, durata media.
cervello-basi: per il substrato neurale generale. La persistent activity è un fenomeno che si capisce solo con i prerequisiti su neuroni e sinapsi.
cervello-vs-rete-neurale: per la categoria delle “analogie ingannevoli”. Il rapporto WM ↔ context window è un caso esemplare e va incrociato con questo capitolo.
architetture-cognitive: ACT-R e SOAR includono moduli di WM con proprietà ispirate a Baddeley. Il modale model è anche una delle componenti del Common Model 2017.
memoria-lungo-termine (in preparazione): per il magazzino successivo. Il rapporto WM ↔ LTM è centrale nel modello Cowan (WM = stato attivato della LTM).
attenzione-psicologia (in preparazione): l’esecutivo e il focus of attention vivono al confine fra WM e attenzione. Le due letterature si parlano poco ma sono fortemente connesse.
ponte-attenzione-transformer (in preparazione): per l’analogia “attention” psicologica vs transformer attention. Il phonological loop ha un suo sub-rehearsal interno che ricorda funzionalmente la self-attention; l’analogia è didattica, non meccanica.
dual-process-kahneman (in preparazione): la WM è il substrato del Sistema 2 di Kahneman. Il pensiero deliberato senza WM non si dà.
intelligenza-g-factor (in preparazione): WMC e Gf correlano fortemente. La natura della relazione (causale o riflesso di un fattore comune) è centrale qui.
ponte-memoria-agenti (in preparazione): la sintesi del rapporto fra memorie umane e memorie agentiche. Estensione della sezione “Eredità oggi” a tutte le memorie.
context-anatomia (in preparazione): per il context window come oggetto ingegneristico, non come oggetto cognitivo.
kv-cache (in preparazione): da NON confondere con persistent activity. Soluzione ingegneristica al problema del ricomputo, non implementazione neurale di WM.
lost-in-the-middle (in preparazione): l’effetto Liu et al. 2023, da NON confondere con primacy/recency.
memoria-agentica (in preparazione): l’architettura di memoria stratificata negli agenti, debolmente ispirata al multi-store.

Per andare oltre

Miller, G. A. (1956), “The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information”, Psychological Review 63(2): 81–97. Il paper fondante. Storico e leggibile, breve. Da leggere per il piacere stesso.
Baddeley, A. D., & Hitch, G. J. (1974), “Working Memory”, in G. H. Bower (ed.), The Psychology of Learning and Motivation vol. 8, pp. 47–89. Il manifesto del modello multicomponente. Tecnico ma chiaro.
Baddeley, A. D. (2000), “The Episodic Buffer: A New Component of Working Memory?”, Trends in Cognitive Sciences 4(11): 417–423. Per l’introduzione del quarto componente.
Baddeley, A. D. (2012), “Working Memory: Theories, Models, and Controversies”, Annual Review of Psychology 63: 1–29. Sintesi a 35 anni del modello. Punto migliore per orientarsi sullo stato dell’arte 2012, ancora largamente valido.
Cowan, N. (2001), “The Magical Number 4 in Short-Term Memory: A Reconsideration of Mental Storage Capacity”, Behavioral and Brain Sciences 24(1): 87–114. Con peer commentary: la versione lunga, con dialogo aperto coi critici.
Cowan, N. (1995), Attention and Memory: An Integrated Framework, Oxford University Press. Per il modello embedded processes a libro intero.
Funahashi, S., Bruce, C. J., & Goldman-Rakic, P. S. (1989), “Mnemonic Coding of Visual Space in the Monkey’s Dorsolateral Prefrontal Cortex”, Journal of Neurophysiology 61(2): 331–349. Il paper della scimmia. Tecnico, ma la descrizione del paradigma e dei singoli neuroni vale lo sforzo.
Constantinidis, C., & Klingberg, T. (2016), “The Neuroscience of Working Memory Capacity and Training”, Nature Reviews Neuroscience 17(7): 438–449. Review autoritativa delle basi neurali e del dibattito sul training.
Engle, R. W. (2002), “Working Memory Capacity as Executive Attention”, Current Directions in Psychological Science 11(1): 19–23. Per la posizione che lega WMC, attenzione esecutiva e Gf.
Conway, A. R. A., Kane, M. J., Bunting, M. F., Hambrick, D. Z., Wilhelm, O., & Engle, R. W. (2005), “Working Memory Span Tasks: A Methodological Review and User’s Guide”, Psychonomic Bulletin & Review 12(5): 769–786. Manuale operativo dei complex span. Indispensabile per chi vuole misurare seriamente la WMC.
Stokes, M. G. (2015), “‘Activity-Silent’ Working Memory in Prefrontal Cortex: A Dynamic Coding Framework”, Trends in Cognitive Sciences 19(7): 394–405. Per il modello dinamico, alternativa moderna alla persistent activity classica.
Sumers, T., Yao, S., Narasimhan, K., Griffiths, T. (2024), “Cognitive Architectures for Language Agents” (CoALA), Transactions on Machine Learning Research. Per il framework che mappa componenti cognitive su agenti LLM. Cauto, ben fatto, ottimo punto di partenza per chi progetta agenti pensando alla cognizione umana.