Buffer sensoriale: memoria iconica e memoria echoica

Il primo stadio della memoria umana — un magazzino brevissimo, modality-specific, pre-attentivo, di alta capacità — scoperto da George Sperling nel 1960 con un tachistoscopio e un tono di richiamo, battezzato “iconic” ed “echoic” da Ulric Neisser nel 1967, formalizzato come Sensory Register da Atkinson e Shiffrin nel 1968. Cosa misura davvero, perché decade in 250 millisecondi, e perché nessun sistema AI moderno ha qualcosa di funzionalmente equivalente.

Nel 1959, in un laboratorio dei Bell Labs nel New Jersey, uno studente di dottorato di ventiquattro anni siede davanti a un tachistoscopio. George Sperling (1934-, psicologo americano oggi alla University of California Irvine) sta cercando di rispondere a una domanda apparentemente banale: quante lettere riusciamo a vedere in un singolo lampo. La domanda non era nuova. Almeno dal 1885, con i lavori di James McKeen Cattell a Lipsia, si sapeva che i soggetti, esposti a una matrice di lettere per pochi millisecondi, riportavano stabilmente quattro o cinque lettere. Mai sei o sette. Sembrava una soglia rigida del sistema visivo. La spiegazione standard, accettata per quarant’anni, era che il sistema vedesse solo quelle quattro-cinque lettere; il resto era buio.

Sperling però aveva notato qualcosa di curioso. I soggetti, dopo l’esperimento, dicevano cose come “le ho viste tutte, ma ho fatto in tempo a leggerne solo poche”. Era un’introspezione, non un dato sperimentale, e l’introspezione in psicologia degli anni Cinquanta era considerata sospetta. Ma era ripetibile, e indicava un’ipotesi alternativa: forse le lettere erano disponibili tutte e dodici, almeno per un attimo, e la limitazione era nel processo di lettura/scrittura del report. Se così fosse stato, bisognava trovare un modo di interrogare il sistema prima che la traccia svanisse, senza chiedere il report dell’intera matrice.

L’idea sperimentale è di una semplicità che ha fatto storia. Sperling presenta una matrice di tre righe per quattro colonne di lettere, per 50 millisecondi. Subito dopo, presenta un tono — alto, medio, o basso — che indica quale riga il soggetto deve riportare. Solo quella riga. Il soggetto non sa in anticipo quale tono arriverà, quindi al momento dell’offset dello stimolo l’attenzione non ha ancora avuto tempo di concentrarsi su una riga in particolare. Il sistema visivo deve aver tenuto, sia pure brevemente, tutte le righe a disposizione.

I risultati, pubblicati nel 1960 sui Psychological Monographs (vol. 74 n. 11) come “The Information Available in Brief Visual Presentations”, sono netti. Nel report integrale (whole report) il soggetto ne riporta 4-5 su 12 (~35%). Nel report parziale (partial report) con il tono che arriva immediatamente dopo l’offset, il soggetto ne riporta correttamente 3-3.5 su 4 della riga indicata: il 75-90%. Per estrapolazione, ~9 di 12 lettere erano disponibili. La differenza fra whole report (~4) e partial report (~9) è la traccia sensoriale: l’informazione presente in un magazzino di alta capacità, che però decade prima che il soggetto possa riportarla tutta. Variando il delay del tono fra 0 e 1000 millisecondi, l’accuracy del partial report decade fino a coincidere con il whole report a ~500-1000 ms. Conclusione: c’è un registro sensoriale visivo, di capacità alta e durata di pochi centesimi di secondo, che cattura l’intera scena e poi svanisce.

Questo capitolo ricostruisce quello che da Sperling discende. Il magazzino è stato battezzato memoria iconica da Ulric Neisser nel 1967, integrato come Sensory Register nel modello multi-store di Atkinson-Shiffrin nel 1968, esteso al canale uditivo come memoria echoica, raffinato da Coltheart, Di Lollo e Cowan, e dotato di un correlato neurale (la mismatch negativity, Näätänen 1978). È uno dei più solidi pezzi di scienza cognitiva del Novecento: paradigma replicato per sessant’anni, predizioni quantitative, correlato fisiologico. Ed è anche, allo stato 2026, il componente cognitivo che meno assomiglia a qualcosa che si trova nei sistemi AI moderni — al punto che cercare analogie strette tra “memoria iconica” e “frame buffer” o “context window” è un esercizio pericoloso, di cui parleremo.

Perché questo capitolo

Tre ragioni: la prima storica, la seconda metodologica, la terza per orientarsi nel rapporto fra cognizione umana e AI.

La storica: Sperling 1960 è un esempio raro di esperimento decisivo, in cui un disegno sperimentale ingegnoso fa cadere una credenza consolidata da decenni. Per decenni il limite di “4-5 item visibili” era stato letto come limite percettivo. Sperling mostra che è un limite del report, non della percezione. La differenza ha implicazioni enormi su come si concepisce il rapporto fra coscienza, attenzione, e memoria. Vale la pena raccontare bene il paradigma e capire perché funziona.

La metodologica: la memoria sensoriale è il caso di studio più chiaro per imparare a distinguere fra capacità e accessibilità. La traccia c’è, ma per essere riportata deve essere consolidata in altri stadi. Questa distinzione tornerà in molti altri contesti — coscienza fenomenica vs di accesso (vedi coscienza-access-phenomenal), memoria di lavoro vs memoria a lungo termine, attenzione bottom-up vs top-down. Imparare a leggerla qui rende il resto più facile.

La terza: chi lavora con sistemi AI tende a cercare paralleli per ogni componente cognitivo umano. Per la memoria di lavoro c’è il context window. Per la memoria a lungo termine c’è il vector store o il modello stesso. Per la memoria sensoriale, invece, non c’è niente di analogo. Capire perché aiuta a non vedere paralleli fasulli e a capire una differenza profonda fra come gli umani percepiscono il mondo e come i sistemi linguistici processano testo o immagini. La memoria sensoriale è il punto in cui l’analogia “agente AI come mente umana” si rompe in modo più netto.

Contesto: tre date che strutturano il campo

1960 — Sperling, “The Information Available in Brief Visual Presentations”. Tesi di dottorato sotto George Miller alla Harvard, lavoro sperimentale ai Bell Labs. Il paper conta 29 pagine, è tecnico ma leggibile, e ha una struttura modello: ipotesi, paradigma, risultati, conclusione, replica, varianti. La sua eredità è triplice: un metodo (partial report con cue ritardato), una stima (~250-500 ms di traccia, ~9-12 item di capacità), e una concettualizzazione (un magazzino sensoriale separato dalla memoria a breve termine).

1967 — Neisser, Cognitive Psychology. Ulric Neisser (1928-2012, psicologo tedesco-americano alla Cornell, poi Emory) pubblica con Appleton-Century-Crofts il libro che fonda terminologicamente la psicologia cognitiva. In quel libro Neisser conia tre termini chiave: cognitive psychology (campo), iconic memory (per il magazzino visivo studiato da Sperling), echoic memory (per il corrispettivo uditivo, che Neisser intuisce per analogia teorica prima ancora che sperimentale: se i suoni del parlato si segmentano in parole, deve esistere un buffer che tenga i suoni recenti vivi abbastanza da permetterne il raggruppamento). I termini sono didascalici: “icon” come icona/immagine residua; “echo” come eco/risonanza acustica. Hanno avuto fortuna perché sono visivamente intuitivi.

1968 — Atkinson e Shiffrin, “Human Memory: A Proposed System”. Richard Atkinson (1929-, psicologo americano allora a Stanford, poi presidente UCSD e direttore della National Science Foundation) e Richard Shiffrin (1942-, suo allievo, oggi a Indiana University) pubblicano sul volume 2 di The Psychology of Learning and Motivation un capitolo di 107 pagine che propone un’architettura della memoria a tre stadi: Sensory Register (SR), Short-Term Store (STS), Long-Term Store (LTS), con processi di controllo (attenzione, rehearsal, retrieval) che governano i passaggi. Il modello è modale (modality-specific al primo stadio, amodale dopo) e diventerà noto come “modal model” o “modello multi-store”. È la versione canonica del cognitivismo classico, e per quasi vent’anni è lo schema di riferimento universale.

Sperling (1960) partial-report paradigm: tachistoscopic display, auditory cue, partial vs whole report

Una nota sul contesto intellettuale. Il 1960 è l’anno in cui George Miller (1920-2012, psicologo americano allora alla Harvard, fondatore della rivoluzione cognitiva) ha appena pubblicato (1956) “The Magical Number Seven, Plus or Minus Two” sulla Psychological Review, fissando 7±2 come capacità tipica della memoria immediata. Donald Broadbent (1926-1993, psicologo britannico alla Cambridge Applied Psychology Unit) nel 1958 ha pubblicato Perception and Communication, dove propone il filtro attentivo come modello dell’attenzione selettiva: un canale a banda limitata che seleziona uno dei tanti input disponibili. Broadbent stesso aveva ipotizzato un buffer pre-attentivo a monte del filtro, ma non aveva i dati sperimentali. Sperling 1960 è la prova diretta che quel buffer esiste. La scoperta entra immediatamente nella sintesi cognitivista nascente, e otto anni dopo viene formalizzata come “Sensory Register” da Atkinson e Shiffrin.

Una seconda nota, sulla strumentazione. Il tachistoscopio è un dispositivo ottico-meccanico (a specchi e otturatori, prima dei monitor CRT) che permette di presentare uno stimolo visivo per una durata controllata al millisecondo. Senza tachistoscopio, il paradigma Sperling non è realizzabile: il controllo della durata di esposizione è essenziale, perché stimoli più lunghi di ~250 ms permettono al soggetto di muovere gli occhi e fare scanning, contaminando la misura. Il tachistoscopio è uno di quegli strumenti che rendono possibile una scoperta: quando si studia la storia delle scienze cognitive, vale la pena ricordare che molte delle “leggi” del campo sono leggibili solo grazie a strumenti che hanno reso visibili processi normalmente troppo veloci per l’osservazione naturale.

Tre date nello spazio di otto anni che fissano paradigma sperimentale, vocabolario, e architettura teorica. Quello che viene dopo — 1973 Coltheart sulla persistenza neurale, 1974 Baddeley-Hitch che riformulano STS come working memory, 1978 Näätänen sulla MMN, 1980 Coltheart sulla distinzione visible/informational persistence, 1980 Di Lollo sul modello a fasi, 1984 e 1995 Cowan sull’embedded process model — sono raffinamenti, correzioni, e rilocazioni del concetto. Ma il nocciolo rimane.

L’intuizione: due angoli prima del formalismo

Prima del modello multi-store e dei numeri di durata, due angoli aiutano a sentire cosa la memoria sensoriale fa.

Angolo 1: il problema della banda

Considera la quantità di informazione che il sistema visivo riceve in un istante. La retina ha circa 126 milioni di fotorecettori (120 milioni di bastoncelli, 6 milioni di coni). Ognuno trasmette un segnale, modulato in frequenza, lungo il nervo ottico (~1 milione di assoni). Anche con la compressione già fatta dalla retina, la banda è enorme. Il cervello cosciente non può processare tutto in tempo reale. Eppure abbiamo l’impressione fenomenica di vedere una scena ricca, dettagliata, completa.

Una possibilità (l’ipotesi pre-Sperling) è che l’impressione sia illusoria: vediamo davvero solo un piccolo subset, e il resto è confabulato. Una possibilità alternativa (l’ipotesi che Sperling rende plausibile) è che il sistema catturi tutto — in un magazzino di alta banda e bassa durata — e poi l’attenzione seleziona cosa portare ai sistemi a banda più bassa (memoria a breve termine, decisione, report verbale). La memoria sensoriale è, sotto questa lettura, il broker fra una sensazione ad alta banda e un’attenzione a bassa banda.

L’analogia con i sistemi tecnici è didattica: pensa a un microfono che registra ininterrottamente in un buffer circolare di pochi secondi; quando senti qualcosa di interessante puoi salvare quel buffer su disco, altrimenti viene sovrascritto. La memoria echoica fa qualcosa di simile per il canale uditivo umano. Attenzione: questa è un’analogia didattica, non una filiazione. Nessun ingegnere ha progettato i buffer audio ispirandosi a Neisser; nessun neuroscienziato ritiene che la memoria echoica funzioni esattamente come un buffer circolare. Le due cose si rassomigliano perché risolvono un problema simile, non perché una discende dall’altra.

Angolo 2: il problema della continuità percettiva

Il secondo angolo è fenomenologico. Quando muovi gli occhi (saccade) la visione si interrompe per ~30-50 ms: il cervello sopprime attivamente l’input visivo durante il movimento (saccadic suppression), perché altrimenti la scena ti sembrerebbe smossa. Eppure tu non noti questa interruzione: la scena ti appare continua. Una candidata spiegazione è che durante la saccade il sistema riempie il “buco” con la traccia visiva precedente, ancora viva nella memoria iconica.

Lo stesso vale per l’udito. Mentre ascolti qualcuno parlare, le parole arrivano come un flusso continuo. Per segmentarle in unità lessicali — distinguere “lacasa” da “la casa” — devi tenere a mente i suoni passati abbastanza a lungo da poterli analizzare retrospettivamente. La memoria echoica fornisce questa finestra retroattiva. Senza di essa, la segmentazione del parlato sarebbe enormemente più difficile.

Un esempio quotidiano lo illustra: stai lavorando con la testa nei tuoi pensieri, qualcuno entra e ti fa una domanda. Per un istante sembra che tu non abbia sentito; poi, in modo strano, recuperi la frase appena pronunciata e rispondi. Non l’hai elaborata in tempo reale; ma la traccia echoica era ancora lì, e l’attenzione, una volta ingaggiata, è tornata indietro a leggerla. Questa è la memoria echoica al lavoro nel suo modo più visibile.

Apriamo ora il merito tecnico. Procediamo per accumulo: prima il modello multi-store come cornice generale, poi la memoria iconica, poi quella echoica, poi le altre modalità, poi le basi neurali.

Il modello multi-store

Atkinson e Shiffrin propongono un’architettura a tre magazzini collegati in serie, con processi di controllo che governano le transizioni.

Sensory input ──> Sensory Register ──> Short-Term Store ──> Long-Term Store
                  (modality-specific)   (capacity ~7±2,      (capacity vast,
                  (capacity high,        duration ~20s        duration lifetime)
                   duration ms-sec)      with rehearsal)
                        |                      ^
                        | attention            | retrieval
                        v                      |
                    selected                forgotten
                    information

Il Sensory Register è il primo stadio. Riceve direttamente l’input sensoriale, mantiene una traccia ad alta fedeltà per un tempo brevissimo, e dà all’attenzione una finestra per selezionare cosa portare nel magazzino successivo. Crucialmente:

È modality-specific: c’è un SR visivo (memoria iconica), uno uditivo (echoica), uno tattile, eccetera. La traccia non è “pensiero” o “concetto” ma rappresentazione sensoriale grezza, ancora attaccata al canale di origine.
È pre-attentivo: la traccia esiste indipendentemente dall’attenzione. L’attenzione seleziona dalla traccia, non crea la traccia.
Ha alta capacità (in termini di banda): ~9-12 item visibili nel paradigma Sperling, con una stima difficile da fare per l’audio.
Ha bassa durata: 250-500 ms per il visivo, 3-4 secondi (con riserve) per l’uditivo, ~1.5 s per il tattile.

flowchart LR
    SI[Input sensoriale<br/>visivo, uditivo, tattile] --> SR[Sensory Register<br/>buffer modality-specific]
    SR -->|attenzione, selezione| STS[Short-Term Store]
    STS -->|rehearsal, codifica| LTS[Long-Term Store]
    LTS -->|recupero| STS

Figura 2 — Multi-store memory model (Atkinson & Shiffrin 1968): Sensory Register, Short-Term Store, Long-Term Store with control processes

Lo Short-Term Store è lo stadio successivo: capacità molto più bassa (~7±2 item, secondo la stima classica di George Miller del 1956, “The Magical Number Seven, Plus or Minus Two”), durata di ~20 secondi senza rehearsal, codifica in gran parte amodale. Il rehearsal (ripetizione interna) può mantenere informazioni nello STS indefinitamente; in assenza di rehearsal o con interferenza, decade. Trasferimento allo STS richiede attenzione.

Il Long-Term Store è il magazzino di capacità vasta e durata virtualmente illimitata. Vi tratteremo di Long-Term Memory in memoria-lungo-termine (in preparazione). Il passaggio da STS a LTS richiede consolidamento, processo che dipende da rehearsal elaborativo, sonno (vedi consolidamento-memoria, in preparazione), e altre variabili.

Il modello multi-store è stato profondamente rivisto. La revisione più importante è Baddeley e Hitch 1974, che sostituiscono lo STS con un sistema multicomponente di working memory (loop fonologico, taccuino visuospaziale, esecutivo centrale, e dal 2000 il buffer episodico). La Sensory Register, però, sopravvive sostanzialmente intatta in tutte le revisioni. È un componente robusto del consenso cognitivo.

Una nota sulla terminologia. “Sensory Register” è il termine teorico di Atkinson-Shiffrin; “memoria iconica” e “memoria echoica” sono i termini di Neisser per le sue componenti modali; “memoria sensoriale” tout court è l’ombrello generico. Nei manuali più moderni (e.g. Goldstein) si usa quasi sempre “memoria sensoriale” per indicare l’intero sistema, con “iconica” ed “echoica” come specializzazioni canale-specifiche. Sotto la lettura di Cowan, anche “Sensory Register” come scatola separata è un’astrazione comoda ma non necessariamente ontologica.

La memoria iconica in dettaglio

Sperling 1960 è il punto di partenza. Il paradigma del partial report è diventato uno strumento standard: variando il delay del cue, si misura la curva di decadimento della traccia. Le stime canoniche sono:

Capacità: ~9-12 item disponibili nei primi 50-150 ms (estrapolazione partial report).
Durata di accesso: ~250-500 ms; oltre, l’accesso degrada al livello del whole report.
Codifica: visiva, ad alta fedeltà, con dettagli pre-categorici (forma, posizione, colore) ma con discusso accesso a categorie semantiche (lettera vs numero).

Un esempio numerico: nel disegno classico Sperling 3x4, presentato per 50 ms.

Whole report: 4.5 lettere su 12 → 37.5%.
Partial report con cue immediato: 3.3 su 4 = 82.5% per riga → 9.9 su 12 estrapolate.
Partial report con cue a 250 ms: 2.5 su 4 = 62.5% → 7.5 su 12.
Partial report con cue a 500 ms: 1.8 su 4 = 45% → 5.4 su 12.
Partial report con cue a 1000 ms: 1.5 su 4 = 37.5% → 4.5 su 12 (uguale al whole report).

Il decadimento dal 75% al 35% in un secondo è la firma sperimentale della memoria iconica. La forma esatta della curva (esponenziale? lineare? a fasi?) è stata oggetto di dibattito; Di Lollo 1980 propone un modello a due fasi.

Vincent Di Lollo (psicologo canadese, Simon Fraser University) introduce il temporal integration paradigm: due semi-pattern (e.g. una griglia 5x5 con 12 punti accesi, e un’altra griglia con i 12 complementari) presentati in successione. Se l’intervallo fra il primo e il secondo è breve (~50-100 ms), il soggetto vede la griglia completa di 24 punti come un singolo pattern: la memoria iconica del primo è integrata col secondo. Aumentando l’intervallo, l’integrazione fallisce e i due pattern si vedono separati. La transizione fra integrazione e separazione misura indirettamente la persistenza della traccia.

Coltheart 1980 distingue due livelli che Sperling aveva confuso. La visible persistence è la sensazione fenomenica che lo stimolo continui a apparire dopo l’offset fisico. Dipende inversamente dall’intensità e durata dello stimolo (legge inversa: stimoli più brevi e meno intensi producono visible persistence più lunga). Dura tipicamente ~100-150 ms. La informational persistence è l’informazione disponibile al sistema cognitivo per essere riportata, indipendentemente dalla esperienza fenomenica. Dura ~250-500 ms o più. Sperling stava misurando la informational; il senso comune di “vedere ancora” lo stimolo riguarda la visible. Sono due fenomeni con leggi diverse, e confonderli ha generato molta letteratura.

Una tecnica complementare per misurare la memoria iconica è il backward masking. Si presenta uno stimolo target (e.g. una lettera) e poi, a brevissimo intervallo (SOA, stimulus-onset asynchrony, da pochi millisecondi a centinaia), una maschera: un pattern visivo, spesso una griglia o un campo di noise, presentato nello stesso luogo. La maschera “cancella” la traccia iconica del target: il soggetto, esposto a target+maschera, riporta accuratamente solo se SOA è sufficientemente lungo perché la traccia abbia avuto tempo di consolidarsi. Variando SOA si traccia un’altra curva di accessibilità.

La memoria echoica in dettaglio

La memoria echoica è meno netta della iconica perché l’unità “item uditivo” è più difficile da definire. Le stime di durata variano molto a seconda del paradigma.

Paradigma analogo a Sperling. Darwin, Turvey, Crowder 1972 (“An Auditory Analogue of the Sperling Partial Report Procedure”, Cognitive Psychology 3:255-267) presentano stimoli uditivi in tre canali spaziali (sinistra, centro, destra) usando cuffie e tre voci diverse. Cue visivo dopo lo stimolo indica quale canale riportare. Risultato: la curva di decadimento è più lenta della iconica, con persistenza utile fino a ~3-4 secondi.

Suffix effect. Crowder e Morton 1969 mostrano che se a una lista uditiva da memorizzare segue un suono extra irrilevante (e.g. la parola “stop” o un beep), la performance sull’ultimo elemento della lista crolla, come se il suffisso lo avesse cancellato dal buffer uditivo. Il suffix effect è presente solo per stimoli uditivi (non visivi), è modulato da fattori acustici (timbro, posizione spaziale), e fornisce una prova indiretta dell’esistenza di un buffer uditivo modality-specific.

Persistenza differenziale per pitch e timbro. La memoria echoica conserva caratteristiche acustiche (frequenza fondamentale, timbro, posizione spaziale) per durate diverse. Pitch persiste tendenzialmente più a lungo del timbro; localizzazione spaziale è particolarmente robusta. La traccia echoica non è un’unica entità ma un insieme di rappresentazioni feature-specific con cinetiche di decadimento parzialmente diverse.

Effetto recency uditivo. Nel recall di liste, gli ultimi elementi sono ricordati meglio. La parte di “recency” oltre quanto spiegabile da working memory generica è attribuita alla memoria echoica.

Due componenti (Cowan 1984). Nelson Cowan (1951-, psicologo americano alla University of Missouri-Columbia) sintetizza dati apparentemente contraddittori (alcuni paradigmi danno 250 ms, altri 10-20 secondi) proponendo che la memoria echoica abbia due componenti:

Una componente breve (~150-350 ms), sensoriale-grezza, paragonabile alla iconica. Misurata da paradigmi di mascheramento e suffix effect.
Una componente lunga (2-20 secondi), più astratta, sopravvive a interferenze diverse. Misurata da paradigmi di recency e partial report ritardato.

Le due componenti potrebbero essere fenomeni distinti — la prima genuina memoria sensoriale, la seconda più simile a working memory uditiva — ma il modello di Cowan le tratta come un continuum.

Mismatch Negativity (MMN). Risto Näätänen (1939-2023, neuroscienziato finlandese alla University of Helsinki) e collaboratori scoprono nel 1978 una componente ERP (event-related potential) che è diventata il principale correlato neurale della memoria echoica. Il paradigma è oddball: una sequenza di stimoli uditivi standard (e.g. tono a 1000 Hz) interrotta occasionalmente da uno stimolo deviante (e.g. tono a 1100 Hz). La risposta cerebrale al deviante mostra una negatività frontale-centrale a 100-250 ms post-stimolo: la MMN.

Cosa misura la MMN? L’interpretazione canonica è che il sistema mantenga una traccia dei suoni recenti (memoria echoica), confronti automaticamente ogni nuovo stimolo con la traccia, e generi una risposta quando rileva una violazione. Questa interpretazione fa due affermazioni:

La traccia è pre-attentiva: la MMN è presente anche quando il soggetto sta facendo altro (leggere, guardare un film senza audio rilevante) o è addormentato. Non richiede attenzione conscia al canale uditivo.
La traccia ha una durata misurabile: variando l’intervallo fra deviante e standard precedenti, la MMN si attenua e scompare oltre ~10 secondi. Coerente con la componente lunga di Cowan.

Una lettura alternativa (proposta da alcuni, cf. May e Tiitinen 2010) sostiene che la MMN non rifletta una traccia ma un meccanismo di adaptation neurale: i neuroni che codificano lo standard si adattano (riducono la loro risposta) per stimoli ripetuti, e il deviante “risveglia” neuroni non adattati. In questa lettura non c’è una memoria, ma una soglia neurale modulata dall’esposizione recente. Il dibattito non è chiuso. Per i nostri scopi, la MMN funge da marker affidabile di qualcosa che ha le proprietà attese di una memoria echoica, anche se la natura precisa di quel qualcosa è contesa.

Le altre modalità

Memoria tattile (haptic). Bliss, Crane, Mansfield e Townsend (1966, “Information Available in Brief Tactile Presentations”, Perception & Psychophysics 1:273-283) replicano il paradigma Sperling con stimoli tattili: vibratori applicati ai polpastrelli, pattern di stimolazione, cue post-stimolo. Stime: ~1.3 secondi di persistenza utile, capacità alta. Lavori successivi (Gallace e Spence anni 2000) hanno suggerito durate più lunghe in altri paradigmi, ma la letteratura è sottile. Il consenso è che esista una memoria sensoriale tattile, modality-specific, con proprietà qualitativamente simili a iconica ed echoica.

Memoria olfattiva. Dibattuta. Trygg Engen (psicologo americano, Brown University) negli anni 80-90 sostiene l’esistenza di un magazzino sensoriale olfattivo. Critici controbattono che ciò che si misura è working memory specifica per odori, non un buffer pre-attentivo: gli odori arrivano lentamente al cervello (latenza decine-centinaia di ms) e mancano del problema “alta-banda-grezza-da-bufferizzare” che hanno visione e udito. La domanda se esista un SR olfattivo separato resta aperta.

Gustativa, propriocettiva, dolorifica. Trattate raramente nel framework della memoria sensoriale. Quando se ne parla, si tende a parlare di “persistenza percettiva” più che di “magazzino” — distinzione che riflette il fatto che per queste modalità non si è trovato un paradigma comparabile a Sperling.

Stima della durata: dipendenza dal paradigma

Una raccomandazione metodologica. I numeri di durata che si trovano nei manuali (“memoria iconica: 250 ms; memoria echoica: 4 secondi”) sono approssimazioni grossolane di valori che dipendono pesantemente dal paradigma sperimentale, dall’intensità dello stimolo, dalle caratteristiche del soggetto, e dalla definizione operativa di “fine della traccia”.

Una traccia iconica può essere misurata come:

Tempo a cui il partial report scende al livello del whole report (Sperling 1960): ~500-1000 ms.
Tempo a cui il temporal integration di Di Lollo fallisce: ~100 ms.
Tempo a cui la visible persistence fenomenica scompare: ~120-150 ms.
Tempo a cui il backward masking smette di degradare l’accuracy: ~200-300 ms.
Tempo a cui le risposte ERP nelle aree visive precoci tornano al baseline: ~150-200 ms.

Sono cinque numeri diversi per “lo stesso” fenomeno. Ognuno misura un aspetto diverso della persistenza. Quando si dice “memoria iconica dura 250 ms”, si sta riassumendo questa famiglia di stime.

Lo stesso vale per la echoica: stime da 200 ms a 20 secondi a seconda di paradigma e definizione. La componente breve di Cowan (~250 ms) e la lunga (~10 s) probabilmente non misurano la stessa cosa.

Conseguenza didattica: i numeri sono utili come ordini di grandezza, non come costanti fisiche. La memoria sensoriale è un campo di fenomeni, non un cronometro.

Basi neurali

La base neurale della memoria iconica è nelle cortecce visive primarie (V1, area 17 di Brodmann, lobo occipitale) e nelle aree visive secondarie (V2, V4). La persistenza ha due componenti fisiche:

Persistenza retinica: dipende dall’inerzia chimica dei pigmenti fotorecettori. Genera l’after-image (l’immagine residua quando chiudi gli occhi dopo aver guardato una luce). È un fenomeno periferico, non è la memoria iconica.
Persistenza corticale: l’attività nei neuroni di V1/V2 continua oltre l’offset dello stimolo per decine di millisecondi. La memoria iconica vera (informational persistence) probabilmente coinvolge anche attività in aree di livello superiore, dove la rappresentazione è meno legata al pixel.

Il limite biologico ultimo della persistenza neurale è dato dalla dinamica delle membrane, descritta da Alan Hodgkin (1914-1998) e Andrew Huxley (1917-2012, fisiologi britannici a Cambridge, Nobel 1963 con John Eccles per il modello del potenziale d’azione). Le costanti di tempo delle membrane neuronali sono ~10-30 ms; circuiti ricorrenti possono prolungare la persistenza fino a centinaia di ms. Oltre, servono meccanismi sinaptici di consolidamento.

Per la memoria echoica, le aree coinvolte sono le cortecce uditive nel lobo temporale superiore. Le aree primarie sono nelle circonvoluzioni di Heschl (Richard Ladislaus Heschl, 1824-1881, anatomista austriaco a Vienna che le descrisse nel 1855), nascoste nella scissura silviana. Le aree secondarie e associative (Wernicke, planum temporale) elaborano caratteristiche più astratte. La MMN è generata principalmente da queste aree, con un contributo prefrontale in alcune varianti (passive vs attentive oddball).

Persistenza retinica vs persistenza corticale

Una distinzione utile. La “persistenza retinica” si riferisce al fatto che i fotorecettori della retina hanno una risposta non istantanea: dopo l’offset di una luce, l’attività dei coni e bastoncelli decade in alcune decine di millisecondi. Questo produce l’after-image (l’immagine residua quando guardi una luce intensa e poi chiudi gli occhi). Le after-image sono fenomeni periferici, dipendenti dall’adattamento dei pigmenti, e non sono la memoria iconica.

La “persistenza corticale” è invece l’attività protratta dei neuroni nelle cortecce visive (V1, V2, e oltre) dopo che l’input retinico è cessato. Questa attività dipende da circuiti ricorrenti, da feedback dalle aree superiori, e da meccanismi sinaptici. È la base biologica della memoria iconica vera.

La distinzione conta perché le after-image hanno proprietà fenomeniche peculiari (colori complementari, dipendenza dalla saturazione del pigmento) che la memoria iconica non ha. Confondere i due fenomeni è un errore frequente: la memoria iconica non è un’after-image. È molto più astratta, accessibile cognitivamente per il riporto, e legata alle aree corticali — non alla periferia oculare.

Esempi concreti

Tre esempi eterogenei aiutano a fissare cosa la memoria sensoriale fa nella vita reale e in laboratorio.

Esempio 1: l’esperimento Sperling al banco

Immagina di essere il soggetto. Sei seduto davanti a uno schermo nero, con la testa in un mentoniera per stabilizzarla. Hai cuffie alle orecchie. Lo sperimentatore preme un tasto, e per 50 millisecondi sullo schermo appare:

F   T   J   K
B   X   N   Q
M   L   R   S

Subito dopo, nelle cuffie, senti un tono. Tre possibilità: alto (riga superiore), medio (riga centrale), basso (riga inferiore). Diciamo: tono medio. Devi riportare a voce, in ordine, le quattro lettere della riga centrale.

Quello che senti soggettivamente è che hai visto tutta la matrice — un flash, un’impressione di lettere ovunque — ma quando il tono arriva la “memoria” della matrice si sta già dissolvendo. Riesci a riportare con sicurezza B, X, e poi tentenni: era N o R? Sei abbastanza sicuro di Q, ma non è possibile, Q era più a destra. Riporti “B-X-N-Q” e ti accorgi che hai mischiato la riga centrale con quella sotto.

Ripetuto su 100 trial, il tuo dato è (è realistico): ~3.2 lettere corrette su 4 quando il tono arriva immediatamente, ~1.5 quando arriva dopo un secondo. La media stabile lungo i soggetti è ~9.5 lettere disponibili al partial report immediato, contro ~4.5 lettere nel whole report. Il differenziale è la traccia iconica.

Nota un dettaglio: la riga su cui il tono ti dice di concentrarti è casuale. Non puoi prepararti in anticipo. Se potessi, l’esperimento non funzionerebbe — staresti facendo attenzione selettiva durante lo stimolo, non dopo. Il design forza l’attenzione a recuperare dalla traccia, non a creare la traccia.

Esempio 2: la memoria echoica in salotto

Stai leggendo un libro, concentrato. Tuo coinquilino entra e dice qualcosa. Tu, rapito dal libro, non senti veramente: il flusso sonoro entra, ma non viene processato semanticamente in tempo reale. Il coinquilino, dopo qualche secondo, chiede: “mi senti?”. Tu alzi gli occhi e — questo è il momento interessante — recuperi la frase appena pronunciata. Non l’hai ascoltata, ma in qualche modo “torna indietro” e adesso la senti.

Quello che è successo: la tua memoria echoica ha trattenuto il segnale acustico delle ultime parole per qualche secondo. Quando l’attenzione si è ingaggiata, ha avuto tempo di tornare alla traccia echoica e processarla retroattivamente. Non è magia né confabulazione: è la componente lunga della memoria echoica al lavoro.

Lo stesso meccanismo opera in modo invisibile durante l’ascolto del parlato. Quando senti “la casa”, il tuo sistema deve aver tenuto i suoni [la] e [ka] e [sa] abbastanza a lungo da poterli raggruppare come due parole (la e casa) e non come una (lacasa). La segmentazione richiede una finestra retroattiva di 200-500 ms minimum. Senza memoria echoica, la comprensione del parlato non sarebbe possibile in tempo reale.

Esempio 3 bis: il suffix effect a tavola

Un esperimento da fare mentalmente. Hai un amico al telefono che ti detta una sequenza di nove cifre, una al secondo, perché tu le scriva. Senza interruzioni, nel recall scritto subito dopo il nono, riproduci tipicamente bene le ultime due-tre cifre (il classico recency effect): erano ancora “vive” in memoria.

Ora ripeti l’esperimento con una variante: dopo la nona cifra, l’amico aggiunge la parola “fine”. Non ti chiede di scriverla, è solo un segnale di chiusura. Quando ti metti a scrivere, ti accorgi che le ultime cifre sono meno chiare: la “fine” sembra averti rubato l’ultima posizione. Hai sperimentato il suffix effect: il suffisso uditivo ha sovrascritto la traccia echoica dell’ultimo elemento, riducendo la performance sul recency.

Nota la specificità: lo stesso risultato non si ottiene presentando la sequenza visivamente e aggiungendo un’immagine “fine” alla fine. Il suffix effect è modality-specific al canale uditivo. È una delle prove più dirette dell’esistenza di un buffer uditivo separato.

Esempio 3 ter: il calcolo numerico della capacità

Per chi ama vedere i numeri lavorare, ricostruiamo la stima di Sperling.

Parametri. Stimolo: matrice 3 righe x 4 colonne = 12 lettere. Durata: 50 ms. Cue: tono che indica una delle 3 righe a delay variabile.

Risultati (approssimati, ricostruzione da Sperling 1960 Tab. 1).

Condizione	Lettere riportate corrette	Su quanto possibile
Whole report	4.5	12
Partial report, cue 0 ms	3.3	4
Partial report, cue 150 ms	2.9	4
Partial report, cue 300 ms	2.5	4
Partial report, cue 500 ms	2.0	4
Partial report, cue 1000 ms	1.5	4

Per il partial report l’estrapolazione assume che il numero di lettere accessibili sia uniforme su righe (assunzione di simmetria del paradigma randomizzato): se ne riporti 3.3 di 4 sulla riga indicata casualmente, ne avevi 3.3 / 4 = 82.5% di accuracy media disponibile su tutta la matrice di 12, dunque 12 * 0.825 = 9.9 disponibili.

Condizione	Stima accessibili (su 12)
Whole report	4.5
Cue 0 ms	9.9
Cue 150 ms	8.7
Cue 300 ms	7.5
Cue 500 ms	6.0
Cue 1000 ms	4.5

La stima accessibile parte da ~9.9 e decade fino a ~4.5 (livello del whole report) in circa un secondo. Il differenziale 9.9 - 4.5 = 5.4 lettere è la informazione che la traccia sensoriale rendeva disponibile e che il bottleneck del whole report nascondeva. La curva di decadimento è la firma della memoria iconica.

Funzione adattiva: perché esiste un buffer sensoriale

Una domanda biologica. Perché un cervello dovrebbe avere un magazzino sensoriale separato? La risposta funzionalista è in tre punti.

Punto 1 — Mismatch fra banda sensoriale e banda attentiva. I canali sensoriali consegnano dati a frequenze altissime: la retina trasmette dell’ordine di 10^7 bit/s, la coclea ~10^5 bit/s. La consapevolezza fenomenica e l’elaborazione cognitiva lavorano a banda enormemente più bassa: stime di working memory danno ~50 bit/s. C’è un fattore 10^5 fra “ciò che entra” e “ciò che si può processare”. Senza un buffer, l’informazione che non viene immediatamente processata sarebbe persa. Il buffer estende la finestra temporale per la selezione attentiva.

Punto 2 — Costo evolutivo di perdere informazione. Un predatore che attacca dura una frazione di secondo. Se il sistema percettivo non avesse memoria sensoriale, la chance di reagire dipenderebbe interamente dall’allineamento fra istante della comparsa del predatore e direzione corrente dell’attenzione. Con un buffer di 250 ms, la comparsa lascia una traccia che un meccanismo di detezione di novità (qualcosa come MMN per la modalità visiva) può usare per redirigere l’attenzione. Il buffer è una finestra di seconda chance per stimoli ad alta rilevanza ma bassa probabilità.

Punto 3 — Coerenza percettiva nonostante interruzioni. Saccadi (decine di volte al secondo), blink (una volta ogni 3-5 secondi), micromovimenti involontari, occlusioni momentanee: l’input sensoriale è costantemente interrotto. Senza memoria sensoriale, ogni interruzione produrrebbe un “buco” percepito. Con il buffer, le interruzioni sono mascherate: il sistema riempie con la traccia precedente.

Nessuno di questi tre punti è una giustificazione evolutiva certa — la psicologia evoluzionista è notoriamente incline a just-so stories. Sono ipotesi funzionali coerenti con i dati. La mia posizione qui è didattica: queste sono le ragioni che si danno; valutale criticamente.

Eredità oggi: cosa c’è (e cosa non c’è) nei sistemi AI moderni

[DATATO 2026-04] Questa sezione mappa il rapporto fra la memoria sensoriale umana e i sistemi AI dello stato dell’arte 2026. I dettagli tecnologici cambieranno; il punto strutturale — la distanza fra il meccanismo psicologico e quello ingegneristico — è più stabile.

L’esercizio più istruttivo qui non è trovare paralleli ma non trovarli. Quando si mette accanto la lista dei componenti cognitivi umani (memoria sensoriale, working memory, LTM episodica, LTM semantica, attenzione, decision loop) alla lista delle componenti di un agente AI moderno (context window, vector store, prompt template, tool registry, planner), ogni componente cognitivo trova un parallelo plausibile — tranne la memoria sensoriale.

Working memory ↔ context window. CoALA (Sumers et al. 2024, “Cognitive Architectures for Language Agents”) propone questa mappatura: il context window di un LLM è il magazzino transitorio in cui vivono i contenuti attivi del computo, esattamente come la working memory. L’analogia è attraente: capacità limitata, accesso uniforme, contenuto manipolabile. CoALA è attenta a chiamarla analogia, non equivalenza (“we draw on cognitive architectures”).

LTM ↔ vector store + filesystem. Anche qui un parallelo plausibile: vector store per memoria semantica (embeddings di concetti), filesystem o chat history per episodica.

Memoria sensoriale ↔ ?. Qui non c’è nessuna mappatura buona. I motivi sono strutturali, non contingenti.

Motivo 1 — Nessun canale sensoriale continuativo. Un LLM non riceve uno stream sensoriale continuo. Riceve token discreti, immessi in input, già tokenizzati. Non c’è una “banda” sensoriale che eccede la capacità attentiva e che richiede un buffer pre-attentivo. Anche un modello multimodale (vision-language) riceve immagini come input occasionale, già patchificato e proiettato in token. Non c’è un flusso continuo da bufferizzare.

Motivo 2 — Nessuna distinzione pre-attentivo / attentivo. L’attenzione del transformer è applicata uniformemente a tutto il context window: ogni token vede ogni altro token (modulo causal masking). Non esiste uno strato “tutto disponibile, decade rapidamente, l’attenzione seleziona” e uno strato “selezionato, mantenuto, manipolato”. È tutto un solo livello.

Motivo 3 — Frame buffer ≠ memoria iconica. In computer vision e in pipeline video real-time esiste qualcosa che si chiama frame buffer: un’area di RAM che mantiene gli ultimi frame catturati dalla camera per permettere all’inferenza di leggerli. Funzionalmente assomiglia: tiene dati sensoriali grezzi recenti. Strutturalmente è lontano: il frame buffer è uniforme in profondità (tutti i pixel uguali), non decade autonomamente, non c’è un “tono di Sperling” che selezioni una porzione mentre altre svaniscono. È un’analogia didattica al massimo, non una filiazione né un’equivalenza.

Motivo 4 — Audio buffer in ASR ≠ memoria echoica. Sistemi di speech recognition come Whisper o pipeline streaming mantengono finestre uditive recenti per detezione di endpoint e segmentazione. Anche qui: parallelo funzionale al problema (buffering del flusso uditivo per analisi retroattiva), ma il meccanismo è totalmente diverso. Nessuna decadenza pre-attentiva, nessuna distinzione fra capacità alta e accessibilità bassa, nessuna struttura modulare separata.

Motivo 5 — KV cache ≠ memoria iconica. La KV cache (vedi kv-cache, in preparazione) di un transformer è la cache delle proiezioni key e value calcolate per i token già processati, riusata per evitare ricomputo ad ogni nuovo token generato. È una cache di rappresentazioni post-tokenization e post-projection, già nel residual stream del modello, già attentiva (ogni K/V parteciperà al calcolo di attention). È tanto distante dalla memoria iconica quanto la cache L1 di una CPU lo è dalla retina. Confondere i due è un errore frequente in divulgazione e va attivamente evitato.

Motivo 6 — Streaming inference non è percezione continua. Anche modelli di voice agent end-to-end (vedi voice-agents, in preparazione) che processano audio in streaming non hanno nulla che ricordi la struttura “registro sensoriale → working memory → LTM”. Hanno una pipeline di pre-processing (encoder audio), una rappresentazione intermedia, e un decoder. Tutto il flusso è allenato end-to-end; non c’è un magazzino pre-attentivo emerso come componente strutturalmente separato.

Conseguenza per chi progetta agent. Non aspettarsi che un LLM abbia una “buffer sensoriale” che lo renda capace di fare quello che noi facciamo con il parlato: tornare indietro retrospettivamente su input recenti per processarli quando l’attenzione si ingaggia. Gli LLM elaborano ogni input al momento in cui arriva, con il context window come unico magazzino. Se un input non è stato emesso o non è nel context, è perso.

Conseguenza per la divulgazione. Diffidare di affermazioni del tipo “il context window è la memoria sensoriale degli LLM” o “il frame buffer è analogo della memoria iconica”. Sono equivalenze pericolose: scivolano da analogia a filiazione a equivalenza nello spazio di un paragrafo. Il context window è working memory, al massimo. La memoria sensoriale, in senso umano, semplicemente non c’è.

Dove si rompe: limiti, raffinamenti, controversie

Una sezione larga, perché la memoria sensoriale è un campo dove molte cose date per scontate sono state successivamente raffinate.

Il modello multi-store è una semplificazione

Atkinson e Shiffrin hanno presentato un modello a tre scatole con frecce. La realtà è più fluida. Baddeley e Hitch 1974 hanno mostrato che lo STS non è un magazzino unico ma un sistema multicomponente (working memory). Cowan negli anni 80-90 ha proposto un modello embedded process: la working memory non è una scatola separata ma il focus dell’attenzione su contenuti che possono provenire dalla LTM o dalla memoria sensoriale. Sotto questa lettura, la SR non è uno stadio sequenziale precedente alla WM ma un aspetto della rappresentazione sensoriale che diventa progressivamente meno accessibile mano a mano che l’attenzione si sposta.

La conseguenza: la “memoria iconica” non è necessariamente un magazzino fisicamente separato; potrebbe essere il modo in cui le rappresentazioni nelle cortecce sensoriali decadono naturalmente. Il modal model funziona didatticamente, ma chi lo prende troppo letteralmente perde di vista che le scatole sono astrazioni.

Il cliché “memoria iconica come fotografia mentale”

Una semplificazione popolare: “la memoria iconica è come una fotografia che dura un quarto di secondo”. Falso e fuorviante per due motivi:

Non è completa. La traccia iconica decade differenzialmente: alcune feature (forma globale, posizione) durano più di altre (dettagli locali, colore preciso). Non è una rappresentazione uniforme come una foto.
Non è stabile. La “fotografia” implica una rappresentazione persistente che si possa ispezionare. La traccia iconica decade mentre la guardi: a metà del partial report la traccia è già degradata.

Inoltre, Sperling stesso ha sottolineato che il partial report misura la informazione disponibile, non la fenomenologia del soggetto. La sensazione di “vedere ancora” lo stimolo (visible persistence, Coltheart 1980) è un fenomeno diverso, con leggi diverse.

Visible vs informational persistence

Sperling 1960 confondeva i due livelli. Coltheart 1980 li distingue. La distinzione ha conseguenze metodologiche: paradigmi diversi misurano cose diverse. Backward masking misura tendenzialmente la visible persistence (la maschera “cancella” la sensazione visiva). Partial report misura la informational persistence (l’informazione disponibile per il riporto, anche se la sensazione visiva è già svanita). Confonderli ha generato letteratura inconcludente.

Il “buffer” è davvero un buffer?

Critiche moderne (Ned Block, Ian Phillips, Jonathan Cohen, anni 2010-2020) chiedono se la memoria sensoriale sia un magazzino reale o una ricostruzione attentiva post-hoc. Sotto la lettura ricostruttiva, non c’è una traccia pre-attentiva ad alta capacità che decade; c’è un’illusione di alta capacità generata dal fatto che, quando l’attenzione si ingaggia su una porzione (la riga indicata dal tono), riesce a recuperare quella porzione perché le rappresentazioni sensoriali sottostanti sono ancora attive — non perché esistesse un magazzino separato.

La differenza fra le due letture è sottile e legata al dibattito sulla coscienza fenomenica vs di accesso (vedi coscienza-access-phenomenal). Per i nostri scopi: la memoria sensoriale come fenomeno è robusta (Sperling replicato decine di migliaia di volte); la memoria sensoriale come meccanismo (un magazzino separato) è una lettura, fra altre.

Le due componenti echoiche

Il modello a due componenti di Cowan (breve ~250 ms, lunga ~10-20 s) unifica dati discordanti. Ma le due componenti potrebbero essere fenomeni diversi: la breve genuina memoria sensoriale, la lunga più simile a working memory uditiva. Trattarle come un continuum unico è una scelta teorica con vantaggi (parsimonia) e svantaggi (perde distinzioni che forse esistono biologicamente).

MMN come traccia o come adaptation?

L’interpretazione canonica della MMN (Näätänen 1992, Attention and Brain Function) è che misuri il confronto fra stimolo nuovo e traccia echoica. Una lettura alternativa (May, Tiitinen, Westo, anni 2000-2010) sostiene che la MMN sia un effetto di stimulus-specific adaptation: i neuroni che codificano lo standard si abituano e rispondono meno; il deviante “risveglia” neuroni non adattati. Sotto questa lettura non c’è memoria, c’è adattamento.

Le due letture predicono cose diverse in casi limite (sequenze molto lunghe, varianti del paradigma) e il dibattito non è chiuso. Per usare la MMN come marker della memoria echoica bisogna esserne consapevoli.

La distinzione “buffer” vs “trace” nella letteratura recente

Negli anni 2010-2020 una fascia di letteratura (Sligte, Scholte, Lamme; Pinto e collaboratori) ha proposto di distinguere ulteriormente fra iconic memory classica (~250-500 ms) e fragile visual short-term memory (FM, ~4 secondi), una traccia intermedia fra iconica e working memory che sopravvive al masking ma è cancellata dalla presentazione di un nuovo stimolo nello stesso luogo. Sotto questa lettura, ciò che la psicologia classica chiamava “memoria iconica” sarebbe in realtà la sovrapposizione di due fenomeni: una persistenza retinico-corticale rapidissima (~100 ms) e una FM più lunga e robusta. Il dibattito sulla realtà di FM come terzo magazzino non è chiuso. Per i nostri scopi: la memoria sensoriale, lungi dall’essere un blocco monolitico, si frammenta nella ricerca recente in un paesaggio di magazzini con proprietà parzialmente diverse.

L’analogia ingannevole con AI

Il rischio più grande, oggi, è di lasciar scivolare l’analogia in equivalenza. Frasi come “la memoria iconica è il frame buffer del cervello” sono didatticamente accettabili se marcate come analogia, fuorvianti se prese alla lettera. Il frame buffer di una camera digitale non ha:

decadenza differenziale per feature
distinzione fra visible e informational persistence
selezione attentiva post-hoc
correlato neurale ricco
esistenza in un sistema biologico con vincoli evolutivi

Sono solo immagini in RAM. Una camera ha un frame buffer perché deve consegnare frame al processore; il cervello ha (forse) memoria iconica perché deve gestire un canale ad alta banda con attenzione a banda bassa. Il problema risolto è simile, la soluzione no.

Lo stesso per il context window di un LLM. Funzionalmente assomiglia più a working memory che a memoria sensoriale. Confonderli porta a sbagliare predizioni: chi pensa che un LLM abbia “qualcosa come memoria iconica” si aspetterà (a torto) che sia capace di tornare indietro retrospettivamente su input recenti non ancora processati. Non lo è. Non c’è nulla che faccia quel lavoro.

flowchart LR
    SI[Input sensoriale<br/>visivo, uditivo, tattile] --> SR[Sensory Register<br/>buffer modality-specific]
    SR -->|attenzione, selezione| STS[Short-Term Store]
    STS -->|rehearsal, codifica| LTS[Long-Term Store]
    LTS -->|recupero| STS

Figura 2 — Decay curves comparison: iconic, echoic (short and long), tactile, working memory

Collegamenti

cervello-basi: per neuroni, sinapsi, cortecce. Il substrato su cui la memoria sensoriale si sviluppa è descritto qui.
cervello-vs-rete-neurale: per la categoria delle “analogie ingannevoli”. Il rapporto memoria sensoriale ↔ frame buffer è un caso esemplare.
architetture-cognitive: il Sensory Register è uno dei moduli del modal model e del Common Model 2017. ACT-R lo include come buffer percettivo associato a moduli visivi e uditivi.
memoria-working (in preparazione): il successivo nel pipeline classico. La distinzione SR/WM è centrale e va capita qui.
memoria-lungo-termine (in preparazione): per dove le tracce vengono consolidate.
attenzione-psicologia (in preparazione): la memoria sensoriale è pre-attentiva ma esiste per l’attenzione. Il broker fra alta banda sensoriale e bassa banda attentiva.
ponte-attenzione-transformer (in preparazione): per chi vuole capire perché “attention” nel transformer non è attenzione psicologica.
percezione-priors (in preparazione): la percezione opera sul substrato che la memoria sensoriale fornisce.
coscienza-access-phenomenal (in preparazione): il dibattito Block-Phillips sulla natura del buffer sensoriale tocca direttamente la coscienza fenomenica.
ponte-memoria-agenti (in preparazione): per il rapporto fra le memorie umane e le memorie agentiche LLM.
kv-cache (in preparazione): da NON confondere con memoria iconica. Cache di proiezioni post-tokenization.
context-anatomia (in preparazione): per il context window come parallelo (parziale) di working memory, non di memoria sensoriale.

Una sintesi in cinque punti

Per chi rilegge a posteriori, cinque tesi compatte da portare via:

Esiste un magazzino sensoriale modality-specific, pre-attentivo, di alta capacità e bassa durata, scoperto da Sperling 1960 con il paradigma del partial report e formalizzato da Atkinson-Shiffrin 1968 come Sensory Register. Replicato per sessant’anni, è uno dei pezzi più solidi della scienza cognitiva.
Tre canali ben studiati: iconica (visiva, ~250-500 ms), echoica (uditiva, due componenti a ~250 ms e ~10 s), tattile (~1.3 s). Olfattiva e gustativa restano dibattute.
La capacità apparente non è la capacità reale. La differenza fra whole report (4-5 item) e partial report (~9-12 item) misura un bottleneck di accesso, non un limite percettivo. Distinguere capacità da accessibilità è l’eredità metodologica di Sperling.
Il modello multi-store è una semplificazione utile. Le revisioni di Baddeley-Hitch e Cowan hanno mostrato che le scatole sono astrazioni didattiche, non entità neurobiologiche distinte. La memoria iconica come “magazzino separato” è una lettura, non un fatto bruto.
Nessun analogo diretto in AI. Frame buffer, KV cache, context window sono analogie didattiche al massimo, mai filiazioni o equivalenze. Confonderli porta a fraintendere sia la psicologia sia l’ingegneria.

Per andare oltre

Sperling, G. (1960), “The Information Available in Brief Visual Presentations”, Psychological Monographs 74(11). Paper fondante. Tecnico ma accessibile, breve, ben scritto. Si trova online liberamente.
Cowan, N. (1995), Attention and Memory: An Integrated Framework, Oxford University Press. Sintesi teorica. Capitoli 2 e 3 sulla memoria sensoriale.
Coltheart, M. (1980), “Iconic Memory and Visible Persistence”, Perception & Psychophysics 27(3): 183-228. Per chi vuole capire la distinzione visible/informational a fondo.
Näätänen, R., Paavilainen, P., Rinne, T., Alho, K. (2007), “The Mismatch Negativity (MMN) in Basic Research of Central Auditory Processing: A Review”, Clinical Neurophysiology 118(12): 2544-2590. Review autoritativa di MMN, lunga e dettagliata.
Block, N. (2007), “Consciousness, Accessibility, and the Mesh Between Psychology and Neuroscience”, Behavioral and Brain Sciences 30(5-6): 481-548. Per il dibattito filosofico sulla natura del buffer sensoriale e il suo rapporto con la coscienza fenomenica.
Atkinson, R. C., & Shiffrin, R. M. (1968), “Human Memory: A Proposed System and Its Control Processes”, in The Psychology of Learning and Motivation vol. 2. Manifesto del modal model. Lungo, denso, ma fondazionale.
Darwin, C. J., Turvey, M. T., & Crowder, R. G. (1972), “An Auditory Analogue of the Sperling Partial Report Procedure”, Cognitive Psychology 3:255-267. La replica auditiva del paradigma Sperling. Per chi vuole il complemento tecnico del paper del 1960.
Sumers, T., Yao, S., Narasimhan, K., Griffiths, T. (2024), “Cognitive Architectures for Language Agents” (CoALA), Transactions on Machine Learning Research. Per il framework che mappa componenti cognitive su agenti LLM. Importante per capire dove si ferma l’analogia.