Attenzione psicologica: Broadbent, Treisman, modelli a spotlight

L’attenzione come funzione cognitiva di selezione, allocazione e controllo. Studiata sperimentalmente da Cherry nel 1953 con cuffie binaurali al MIT, modellata come filtro early-selection da Broadbent nel 1958, ammorbidita in attenuatore da Treisman nel 1964, riorganizzata come spotlight spaziale da Posner nel 1980, scomposta in tre reti (alerting, orienting, executive) da Posner e Petersen nel 1990. Capacità misurata in tempo di reazione, errori, dilatazione pupillare. Funzione: decidere — sotto un budget limitato — cosa entra nell’esperienza cosciente e nel computo successivo. È il componente cognitivo a cui il deep learning ha rubato il nome nel 2014, e il motivo per cui questo capitolo deve marcare con disciplina chirurgica la differenza fra attention psicologica e attention dei transformer: stessa parola, oggetti diversi, nessuna filiazione documentata.

Cambridge, Massachusetts, 1953. In un laboratorio del MIT Research Laboratory of Electronics, un soggetto è seduto con un paio di cuffie audio binaurali sulle orecchie. Nelle cuffie ascolta due voci umane simultaneamente: una voce maschile a sinistra che racconta un brano in inglese, un’altra voce maschile a destra che ne racconta un altro. L’istruzione è tassativa: ripetere ad alta voce, parola per parola, con la voce sovrapposta che si tiene poco più indietro dello speaker, solo il brano che arriva all’orecchio sinistro. Si chiama shadowing. Il soggetto lo fa, scivola un poco sulle parole più lunghe, ma tiene il passo. Dopo qualche minuto l’esperimentatore ferma il nastro e fa due domande. Cosa ha detto la voce sinistra? Riassunto fedele. Cosa ha detto la voce destra? Risposta: “Una voce maschile, in inglese.” Cosa ha detto, di preciso? Silenzio.

Lo sperimentatore è Colin Cherry (1914–1979, ingegnere elettrotecnico britannico all’Imperial College, formato in information theory). Il paper esce sul Journal of the Acoustical Society of America col titolo “Some experiments on the recognition of speech, with one and with two ears”. Le sue conclusioni cambiano il discorso scientifico sull’attenzione: il canale non attended viene processato per le proprietà fisiche (sesso del parlante, presenza di parlato vs silenzio, lingua a livello acustico) ma non per il contenuto semantico. Eccezioni note: il proprio nome (lo dimostrerà Neville Moray, psicologo britannico, nel 1959) e parole con valenza emotiva alta. Il fenomeno popolare prende il nome di cocktail party effect: in una stanza affollata segui una conversazione e filtri il resto, ma il tuo nome detto a un altro tavolo “salta fuori”.

L’esperimento di Cherry è il momento in cui l’attenzione smette di essere oggetto di introspezione filosofica e diventa oggetto sperimentale rigoroso. Con esso si apre il capitolo che racconta come, fra il 1953 e oggi, la psicologia cognitiva abbia decostruito l’idea ovvia di “attenzione” — quella riassunta nella frase di William James (1842–1910, filosofo-psicologo americano a Harvard, fratello dello scrittore Henry James) nei Principles of Psychology del 1890: “Everyone knows what attention is. It is the taking possession by the mind, in clear and vivid form, of one out of what seem several simultaneously possible objects or trains of thought.”

La frase di James è la più citata della letteratura sull’attenzione. È anche, nelle prime parole, falsa: nessuno sapeva esattamente cosa fosse l’attenzione nel 1890, e settant’anni di esperimenti hanno mostrato che molte intuizioni di senso comune erano sbagliate. La fovea non coincide con l’attenzione. Il filtro non è on/off. La percezione consapevole richiede attenzione, non solo stimolo. Il “saliente” non è “attinto”, è prerequisito. L’attenzione non è una facoltà unitaria, è un sistema di tre reti.

Questo capitolo ricostruisce quella decostruzione: Cherry 1953 → Broadbent 1958 → Treisman 1964/1980 → Posner 1980 → Mack-Rock 1998 e Simons-Chabris 1999 → Petersen-Posner 2012. Chiude con una sezione sull’eredità per i sistemi AI, dove la sovrapposizione terminologica con “attention” dei transformer è seducente e — qui sta il punto — fuorviante. Distinguere quale parte è analogia, quale filiazione, quale equivalenza è il compito principale del capitolo.

Perché questo capitolo

Tre ragioni: storica, concettuale, e di igiene terminologica per chi si muove nell’AI moderna.

La storica: l’attenzione è il caso di studio in cui la psicologia cognitiva ha fatto i passi più chiari sull’asse “intuizione popolare → modello sperimentale → revisione → mappa neurale”. In settant’anni si parte da una frase di James che dichiara la cosa ovvia, si arriva a una tripartizione anatomica (alerting, orienting, executive) con neurotrasmettitori distinti. Cinque grandi modelli sono stati formulati e parzialmente superati lungo la strada. La storia dell’attenzione è anche il modo migliore per vedere come una scienza cognitiva matura.

La concettuale: l’attenzione è il punto di contatto fra percezione (cosa entra nei sensi), memoria (cosa viene mantenuto attivo), e controllo (cosa fa il sistema). Senza un quadro chiaro dell’attenzione gli altri capitoli della Parte III restano sospesi. Il memoria-working ha già toccato il central executive di Baddeley, che è in larga parte attention control. Qui l’attenzione viene trattata come oggetto autonomo, dal lato dell’input.

La terza, e per chi legge questa wiki probabilmente la più rilevante: nel 2014, in un paper di Neural Machine Translation, Bahdanau, Cho e Bengio scelgono il termine “attention” per battezzare un meccanismo di pesatura dell’input. Nel 2017 Vaswani e colleghi pubblicano “Attention Is All You Need”. Da allora la parola “attention” in deep learning è ovunque. La domanda che torna in ogni discussione divulgativa — e nel capitolo dedicato ponte-attenzione-transformer (in preparazione) — è quanto di quella parola sia ereditato dalla psicologia. Risposta breve: il nome, nient’altro di documentato. L’attention dei transformer non si ispira a Posner, Treisman o Broadbent. È un’operazione algebrica che condivide con l’attenzione cognitiva una metafora di “selezione pesata” e poco più. Marcare la differenza è il servizio che questo capitolo intende rendere.

Contesto: cinque date strutturanti

1890 — James, Principles of Psychology. James fissa la definizione introspettiva. Distingue passive (attratta dallo stimolo) vs voluntary (controllata dall’intenzione), sensorial vs intellectual, immediate vs derived. Non produce esperimenti sull’attenzione: descrive. Il valore storico è nella tassonomia, non nella metodologia. Il valore retrospettivo è essere il bersaglio implicito di tutto il programma sperimentale che segue.

1953 — Cherry, dichotic listening. Tradotto sopra. Per la prima volta l’attenzione diventa misurabile in laboratorio: si shadowa, si verifica cosa è sopravvissuto al canale unattended, si quantifica.

1958 — Broadbent, Perception and Communication. Donald Broadbent (1926–1993, psicologo britannico al Medical Research Council Applied Psychology Unit di Cambridge, formato durante la Seconda Guerra Mondiale studiando vigilanza in operatori radar della RAF) propone il primo modello formale: il filter model o early-selection model. L’input sensoriale entra in parallelo in un buffer pre-attentivo a breve persistenza; un filtro seleziona uno dei canali sulla base di feature fisiche (orecchio sinistro vs destro, frequenza acuta vs grave, intensità) e lo passa al canale a capacità limitata della percezione consapevole. Il resto è scartato. Il modello è dichiaratamente influenzato dalla teoria dell’informazione di Claude Shannon (1948): l’attenzione come gating su un canale di trasmissione a banda finita.

1964 e 1980 — Treisman. Anne Treisman (1935–2018, psicologa britannico-americana, formata a Oxford sotto Broadbent, poi UCSD e Princeton, una delle figure più influenti della cognitive psychology del Novecento) compie due passi. Nel 1964, in British Medical Bulletin, propone il modello a attenuazione: il filtro non è on/off, è un attenuatore. Le informazioni del canale unattended non vengono cancellate, vengono ridotte di gain. Stimoli con soglia bassa di attivazione (proprio nome, parole molto familiari) sopravvivono all’attenuazione e affiorano. Nel 1980, con Garry Gelade, pubblica in Cognitive Psychology “A feature-integration theory of attention” — la FIT, di cui parleremo a fondo.

1980 — Posner, “Orienting of attention”. Michael Posner (1936–, psicologo americano alla University of Oregon, una delle metodologie più produttive della psicologia attenzionale) introduce in Quarterly Journal of Experimental Psychology il cuing paradigm e con esso la metafora dello spotlight spaziale. L’attenzione si sposta nel campo visivo come un fascio di luce, indipendentemente dal punto di fissazione oculare.

1990 — Posner & Petersen, “The attention system of the human brain”. Steven Petersen (1953–, neuroscienziato americano alla Washington University in St Louis) e Posner pubblicano in Annual Review of Neuroscience la sintesi che colloca l’attenzione su tre reti cerebrali distinte: alerting, orienting, executive control. Aggiornata venti anni dopo (Petersen-Posner 2012).

In mezzo, due esperimenti che hanno ridefinito la nozione popolare di percezione: Mack & Rock 1998 sull’inattentional blindness e Simons & Chabris 1999 sull’invisible gorilla. Diremo perché questi sono il momento in cui l’attenzione passa da “modulatore di prestazioni” a “prerequisito dell’esperienza cosciente”.

Posner cuing paradigm: timeline of fixation, cue, SOA, target across valid/invalid/neutral conditions, with RT bar chart showing validity effect

L’intuizione: due angoli prima del formalismo

Prima di entrare nei modelli, due angoli di lettura.

Angolo 1: il cocktail party

Sei a una festa. Trenta persone parlano contemporaneamente. Tu segui la persona davanti a te e capisci ogni parola. Il rumore degli altri tavoli c’è, lo senti, ma non lo elabori: è uno sfondo acustico. Improvvisamente, da un tavolo distante tre metri, qualcuno pronuncia il tuo nome. Ti volti. In quell’istante hai constatato due cose insieme:

Stavi filtrando efficacemente: per cinque minuti il tuo nome poteva essere stato pronunciato dieci volte e non te ne saresti accorto. Il filtro funziona.
Il filtro non è cieco: qualcosa, sotto il livello della consapevolezza, monitorava lo sfondo abbastanza da catturare il tuo nome. Il filtro è sensibile a contenuti specifici.

Questo conflitto apparente — filtro che lascia passare, filtro che catturare — è il problema centrale dell’attenzione selettiva. Broadbent (1958) lo risolve dicendo “filtro early, ma il proprio nome non passa nel paradigma di Cherry tipico”. Treisman (1964) lo risolve dicendo “il filtro attenua, non blocca”. Deutsch & Deutsch (1963) lo risolvono dicendo “selezione late, dopo l’identificazione semantica completa”. Lavie (1995) lo risolve dicendo “dipende dal carico percettivo del task”. Cinquant’anni di letteratura su un singolo conflitto fenomenologico.

Tieni in mente la festa quando leggerai i modelli. Ogni modello sta cercando di rendere conto di quella scena.

Angolo 2: il sistema con tre interruttori

Il secondo angolo sposta il livello di descrizione dal comportamento al cervello. Quando dici “presto attenzione”, non c’è nel cervello un singolo interruttore. Ci sono almeno tre sistemi distinti, anatomicamente e neurochimicamente separati, che cooperano.

Il primo è uno stato di vigilanza: quanto sei sveglio, quanto sei pronto. Lo controlla un piccolo nucleo del tronco encefalico, il locus coeruleus, che proietta diffusamente alla corteccia rilasciando norepinefrina. Stai bevendo il primo caffè della mattina: il locus coeruleus si attiva, la corteccia si “tona”, il segnale di alerting cresce.

Il secondo è la selezione spaziale e di feature: cosa nel campo visivo o uditivo viene privilegiato. Lo controllano la corteccia parietale superiore, i frontal eye fields, i colliculi superiori, il pulvinar talamico. Neurotrasmettitore principale: acetilcolina.

Il terzo è il controllo esecutivo: gestione di conflitti, monitoring degli errori, scelta di priorità. Lo controllano l’anterior cingulate cortex (ACC) e la dorsolateral prefrontal cortex (dlPFC). Neurotrasmettitore: dopamina.

Questa è la mappa di Posner-Petersen. La diciamo qui all’inizio per un motivo preciso: chi legge avendo in mente “attenzione = una cosa” deve sostituire l’immagine. Sono tre cose, parzialmente indipendenti, dissociabili da lesione e da farmaci. Quando la psicologia cognitiva del Novecento parla di “attention” non parla di un meccanismo unico: parla di una funzione composita realizzata da almeno tre reti. Questo dato strutturale è rilevante per il punto di chiusura del capitolo: nessuna delle tre reti corrisponde, neanche lontanamente, all’operazione algebrica che i transformer chiamano “attention”.

La meccanica: dai filtri allo spotlight, dallo spotlight alle reti

Apriamo i modelli nell’ordine canonico: filter theories (early/late/attenuation/load), spatial cuing, FIT e binding, saliency, reti Posner-Petersen, capacity model di Kahneman.

Filter theories: early, late, attenuation, load

Broadbent 1958 — early selection. Il filtro opera dopo l’analisi delle feature fisiche e prima dell’identificazione semantica. È coerente con i risultati di Cherry: il canale unattended è elaborato fino a livello acustico (sesso voce) ma non semantico (contenuto). Difetto: non spiega l’effetto del proprio nome.

Treisman 1964 — attenuation. Riformulazione: il filtro è un attenuatore, non un blocco. Stimoli con soglia di attivazione bassa (parole familiari, nomi propri, parole emotive) possono superare l’attenuazione. Coerente con Cherry e Moray.

Deutsch & Deutsch 1963 — late selection. J. Anthony Deutsch e Diana Deutsch (psicologi americani a UCSD) propongono il contrario: tutto viene processato fino al significato, l’attenzione seleziona quale rappresentazione semantica entra in WM e in risposta. Parsimonioso per spiegare il proprio nome (deve essere identificato per “saltare fuori”) ma costoso: implica processing semantico massiccio in parallelo.

Lavie 1995 — perceptual load. Nilli Lavie (psicologa israeliano-britannica all’UCL) riconcilia le due tradizioni: la selezione è early quando il task primario è perceptually loaded (consuma capacità sensoriale, e.g. discriminare lettere piccole in un display denso), late quando il task è poco loaded (capacità residua si versa sui distrattori, che vengono processati semanticamente). Non è una proprietà fissa, è una funzione del carico.

In termini di classe di affermazione: Lavie 1995 è una riconciliazione empirica, non una sintesi teorica forte. La letteratura post-2000 ha mostrato qualche eccezione e qualche raffinamento (Tsal-Benoni 2010 sulla “dilution”), e il dibattito non è chiuso al 100%. Per i nostri scopi: il quadro early/late/attenuation/load è la cornice operativa standard.

Posner cuing e lo spotlight

Posner 1980. Il soggetto fissa una crocetta centrale. Compare un cue: può essere una freccia simbolica al centro (cue endogeno: richiede interpretazione, attiva l’attenzione voluntary) o un flash periferico nella posizione (cue esogeno: cattura automatica, bottom-up). Dopo un SOA (stimulus onset asynchrony) variabile compare un target, in posizione valid (cued), invalid (opposta), o neutral (cue non direzionale). Misura: tempo di reazione.

Risultato robusto: RT_valid < RT_neutral < RT_invalid. La differenza valid-invalid (~50 ms tipicamente) è il validity effect. Si interpreta come uno spostamento covert dello spotlight attentivo verso la posizione cued, indipendentemente dal movimento oculare (controllato con eye tracker).

Posner distingue:

Endogenous orienting (cue centrale, simbolico): attivazione voluntary, top-down, lenta, sviluppo del cue per ~300 ms.
Exogenous orienting (cue periferico, flash): attivazione automatica, bottom-up, rapida, sviluppo per ~100 ms, riflessiva.

L’inhibition of return (IOR), scoperto da Posner e Cohen (1984), è un effetto opposto al validity con cue esogeni a SOA lunghi (>500 ms): RT_valid diventa maggiore di RT_invalid. Interpretazione: il sistema “evita” di tornare in luoghi già esplorati, una euristica utile per la ricerca visiva.

La metafora spotlight di Posner è stata raffinata dal modello zoom-lens di Charles Eriksen e St. James (1986, Perception & Psychophysics): lo spotlight ha apertura variabile. Quando si stringe (focus alto), il guadagno per regione è massimo ma la copertura ridotta. Quando si allarga, copre più area con minor guadagno. Trade-off zoom/risoluzione.

Feature Integration Theory: il binding

Treisman & Gelade 1980. La percezione visiva opera in due stadi.

Stadio preattentivo. Le feature primarie — colore, orientamento, dimensione, movimento, profondità — vengono codificate in mappe di feature separate, in parallelo, su tutto il campo visivo, senza costo attentivo. Una mappa per il rosso, una per il blu, una per il verticale, una per l’orizzontale, e così via. Il sistema “sa” che c’è del rosso e c’è una linea verticale, ma non sa ancora cosa va con cosa.

Stadio attentivo. Per legare (binding) le feature di uno stesso oggetto — il quadrato rosso è rosso e è quadrato, distinto dal cerchio rosso adiacente — serve l’attenzione spaziale, che funge da glue o da puntatore di binding. Senza attenzione, il sistema sa che ci sono colori e forme ma non chi sta con chi.

Evidenza decisiva: il visual search.

Pop-out (single feature): cercare un elemento rosso fra elementi blu. RT indipendente dal numero di distrattori (4, 8, 16, 32 distrattori → RT costante). Search parallel, gratuito.
Conjunction search (più feature da combinare): cercare un quadrato rosso fra cerchi rossi e quadrati blu. Nessuna feature singola distingue il target dai distrattori (rosso e quadrato sono entrambe condivise). RT lineare nel numero di distrattori. Search serial, attention-dependent.

Dimensione	Attenzione psicologica	Transformer attention
Natura	funzione cognitiva	operazione algebrica
Selettività	seleziona uno stream tra molti	tutte le posizioni pesate insieme
Controllo	endogeno (top-down) + esogeno (bottom-up)	nessun esecutivo separato
Substrato	parietale, prefrontale, ACC, locus coeruleus, collicoli	moltiplicazioni di matrici su GPU/TPU
Neurochimica	noradrenalina, acetilcolina, dopamina	nessuna
Scala temporale	decine-centinaia di ms	parallela su tutti i token
Operazione	filtraggio + binding + controllo	softmax(QK^T / √d) · V
Differenziabilità	no (sistema biologico)	sì (gradienti scorrono attraverso la softmax)
Embodied	movimenti oculari, postura, loop motorio	nessun loop percezione-azione

Conferma indiretta: illusory conjunctions. Sotto carico attentivo elevato (display flashato per 200 ms con task di backup primario), i soggetti riportano combinazioni di feature non presenti. Mostrato un quadrato verde e un cerchio rosso, riportano un quadrato rosso. Le feature sono codificate, l’attenzione manca, il binding fallisce, la percezione cosciente fabbrica.

Jeremy Wolfe (psicologo americano al Brigham and Women’s Hospital di Harvard) raffina FIT con Guided Search (1994, 2017): le feature maps possono guidare la ricerca, riducendo gli RT di conjunction rispetto a un puro serial search. Il colore “rosso” pre-filtra le posizioni candidate; l’attenzione visita serialmente solo quelle.

Saliency models e l’unica filiazione documentata

Laurent Itti (informatico italo-americano alla USC) e Christof Koch (neuroscienziato tedesco-americano al Caltech, oggi all’Allen Institute) implementano fra il 1998 e il 2001 un modello computazionale di saliency map. L’algoritmo:

Input: immagine RGB.
Estrazione di mappe di feature low-level: intensity, color (red-green, blue-yellow), orientation (filtri Gabor a diverse angolazioni).
Operatore center-surround che enfatizza differenze locali (un punto rosso in un campo verde diventa molto saliente).
Combinazione lineare in una saliency map unificata.
Winner-take-all sulla mappa: il punto più saliente diventa la prossima fissazione candidata.
Inhibition of return: il punto appena visitato viene soppresso, il sistema passa al secondo più saliente.

Il paper di riferimento — Itti, Koch, Niebur 1998 IEEE Trans. PAMI, e Itti-Koch 2001 Nature Reviews Neuroscience — cita esplicitamente Treisman FIT (per la separazione feature maps) e Koch & Ullman 1985 “Shifts in selective visual attention: towards the underlying neural circuitry” (per il meccanismo winner-take-all).

Questa è — nel territorio AI — l’unica filiazione genuinamente documentata dalla letteratura psicologica/neurale dell’attenzione a un sistema computazionale. Il saliency model entra negli anni 2000 in object detection, image segmentation pre-deep learning, robotic vision, advertising research (heatmaps di “dove guardano i clienti”). È un caso reale di trasferimento di idee, non di sola coincidenza terminologica. Lo isoliamo qui perché tutto il resto della sezione “Eredità oggi” andrà nella direzione opposta.

Le tre reti di Posner-Petersen

Posner-Petersen 1990, aggiornato Petersen-Posner 2012. L’attenzione non è una facoltà unitaria. È un sistema di tre reti.

Alerting. Stato di vigilanza tonica e fasica. Substrato anatomico: locus coeruleus (un piccolo nucleo del tronco encefalico) che proietta diffusamente alla corteccia, con asimmetria emisferica destra in particolare nella corteccia parietale destra. Neurotrasmettitore chiave: norepinefrina. Misurato con i continuous performance test (Mackworth 1948): vigilance decrement dopo 30 minuti di task monotono. Aspetto fasico: il warning signal che precede il target produce un’accelerazione di RT.

Orienting. Selezione spaziale e di feature, priorizzazione dell’input. Substrato: parietale superiore (per orienting endogeno) e parietale inferiore + giunzione temporo-parietale (per orienting esogeno, “reorienting”), frontal eye fields, colliculi superiori, pulvinar talamico. Neurotrasmettitore: acetilcolina. Misurato con il cuing paradigm di Posner.

Executive control. Risoluzione di conflitti, monitoring degli errori, scelta della priorità, controllo top-down. Substrato: anterior cingulate cortex (ACC) e dorsolateral prefrontal cortex (dlPFC), con coinvolgimento dei gangli della base. Neurotrasmettitore principale: dopamina. Misurato con paradigmi di conflict come lo Stroop (1935) — leggere il colore dell’inchiostro ignorando la parola scritta — o l’Eriksen flanker task (1974) — rispondere al target ignorando flankers compatibili o incompatibili.

Le tre reti hanno sviluppo ontogenetico distinto (alerting matura per primo nell’infanzia, executive matura più tardi e fino all’adolescenza), sono dissociabili da lesioni focali (lesione parietale destra danneggia orienting senza toccare executive; lesione frontale danneggia executive senza toccare orienting), rispondono a farmaci diversi (modafinil su alerting, nicotina su orienting, metilfenidato su executive). Posner ha sviluppato l’Attention Network Test (ANT), un singolo paradigma che misura le tre componenti separatamente in 30 minuti — usato in clinica e in ricerca sull’ADHD.

Capacity model di Kahneman

Daniel Kahneman (1934–2024, psicologo israeliano-americano a Princeton, Nobel per l’economia 2002) in Attention and Effort (1973) propone un capacity model di tipo flessibile: l’attenzione è una risorsa limitata con allocazione strategica. Il livello di effort non è fisso, è una variabile modulata dalla difficoltà del task e dalle contingenze motivazionali. Quando un task è facile, il sistema alloca poco; quando diventa difficile, ne alloca di più; sopra un limite, si satura.

Indice fisiologico: la dilatazione pupillare. Kahneman e Beatty (1966) mostrano che durante un task aritmetico la pupilla si dilata progressivamente con la difficoltà del problema, raggiunge un massimo, e contrae al rilascio della risposta. Curva di pupillometria come tracciato in tempo reale dell’effort cognitivo. La pupillometria è oggi uno standard in psicologia sperimentale e neuroergonomia.

Christopher Wickens (psicologo americano dell’aviazione, University of Illinois), in multiple resource theory (1980, raffinata 2002), nega il capacity model unico e propone risorse separate per modalità (visiva vs auditiva), stadio (perceptual vs response selection), code (verbale vs spaziale). Spiegazione: alcune dual-task sono possibili (driving + conversazione, su modalità separate) e altre rovinose (driving + texting, sulla stessa modalità visiva-spaziale-manuale).

Esempi

Tre esempi eterogenei, in dettaglio.

Esempio 1 — Cherry 1953 dichotic listening

Setup. Cuffie binaurali. Voce maschile A all’orecchio sinistro, racconta un brano di prosa in inglese, ritmo normale. Voce maschile B all’orecchio destro, racconta un brano diverso in inglese, ritmo simile. Le due voci partono insieme. Istruzione: shadow del brano sinistro — ripetere ad alta voce, in tempo reale, parola per parola, ciò che dice la voce sinistra. Il soggetto si esercita per qualche minuto, poi parte la registrazione di test, di durata 5–10 minuti.

Variante critica 1. Dopo due minuti la voce destra cambia da inglese a tedesco (lingua che il soggetto non conosce). Domanda finale: hai notato qualcosa? Risposta tipica: no, era una voce maschile, in inglese. Il cambio di lingua non è rilevato.

Variante critica 2. La voce destra cambia da maschile a femminile a metà. Risposta tipica: sì, c’era una donna a un certo punto. Il cambio di timbro è rilevato.

Variante critica 3 (Moray 1959). La voce destra pronuncia il nome del soggetto. Rilevato in circa il 30% dei casi (varia per studio).

Implicazioni:

Le proprietà fisiche del canale unattended (timbro, presenza speech) vengono processate automaticamente.
Il contenuto semantico non viene processato, salvo eccezioni di alta saliency personale (proprio nome).
Il filtro è precoce ma non è cieco assoluto.

Il paradigma di Cherry è una macchina di scoperta: ogni variante che si testa rivela un pezzo della struttura del filtro. Sessant’anni dopo, il dichotic listening è ancora usato, raffinato con EEG (componente N1, MMN) e fMRI.

Esempio 2 — Simons & Chabris 1999, invisible gorilla

Setup. Video di 75 secondi. Sei attori, tre con maglia bianca e tre con maglia nera, si passano due palloni da basket: i bianchi si passano un pallone fra loro, i neri un altro. Si muovono in uno spazio ristretto, si incrociano. Istruzione al soggetto: “Conta i passaggi della squadra bianca. Distingui i bouncing pass (palla a terra) dagli aerial pass (al volo).” Il soggetto guarda il video con attenzione, conta, riporta il totale.

A circa 30 secondi dall’inizio, una persona in costume da gorilla cammina al centro della scena da destra a sinistra. Dopo 4 secondi si ferma al centro per altri 5, si batte il petto alla maniera di King Kong, riprende a camminare ed esce di scena dopo 9 secondi totali. Il gorilla è centrale, contrastante (costume scuro, ma chiaramente non un giocatore), inequivocabilmente saliente.

Domanda finale, ordine cruciale: prima il conteggio (per non insospettire), poi: “Hai notato qualcosa di insolito?” Se sì: “Hai visto un gorilla?” Risultato canonico (variabile per condizione: nello studio originale, 56% in condizione standard non ha visto il gorilla, 27% nella condizione facile, 73% nella condizione difficile con count separato bianchi/neri).

Quando il gorilla viene mostrato a posteriori, i soggetti che non lo hanno visto reagiscono con incredulità: “Non c’era.” Si verifica il video. C’era. La risposta diventa: “Allora non l’ho visto.”

Implicazione di rottura. La percezione visiva consapevole non è un canale broadcast dell’input retinico: è un’estrazione selettiva, e ciò che non riceve attenzione non entra nell’esperienza cosciente, anche se è fisicamente presente, centrale, e altamente saliente. Inattentional blindness (cecità da inattenzione). L’esperimento di Simons-Chabris è la manifestazione più nitida e didattica della tesi di Mack-Rock 1998: l’attenzione è prerequisito per l’esperienza, non un suo modulatore.

L’esperimento ha anche un’eredità metodologica: è riproducibile in aula universitaria con un proiettore, e ha contribuito a portare l’inattentional blindness nella conoscenza pubblica (citato in tribunale per testimonianze di testimoni oculari, in formazione di piloti e medici, in safety training).

Esempio 3 — Posner cuing, numeri concreti

Setup. Schermo nero. Crocetta di fissazione al centro, due quadrati vuoti ai lati (left box, right box) come “luoghi” possibili del target. Il soggetto fissa la crocetta e tiene gli occhi fermi (eye-tracker controlla).

Trial valid (80% dei trial nella condizione standard).

t=0: fixation only.
t=500 ms: cue. Una freccia centrale punta a sinistra.
t=500+SOA: target. Una “X” appare nel box di sinistra (cued).
Risposta: il soggetto preme un tasto al rilevamento.
RT tipico: ~280 ms.

Trial invalid (20%).

t=500 ms: cue freccia sinistra.
t=500+SOA: target a destra.
RT tipico: ~330 ms.

Trial neutral (alternativa di controllo, in alcuni studi).

t=500 ms: cue di simbolo non direzionale (un più).
t=500+SOA: target a sinistra o destra, equiprobabile.
RT tipico: ~310 ms.

Validity effect = RT_invalid – RT_valid ≈ 50 ms.

Manipolazioni canoniche.

SOA. A 100 ms con cue endogeno, l’effetto è piccolo (l’attenzione non ha avuto tempo di muoversi). A 300–500 ms, effetto pieno. A 800+ ms, effetto stabile. Con cue esogeno (flash periferico): effetto pieno già a 100 ms, ma a 500+ ms emerge IOR (RT_valid > RT_invalid).
Probabilità. Se si rivela al soggetto che il cue è valido al 50% (non informativo), l’attenzione endogena scompare; resta solo l’orienting esogeno automatico se il cue è periferico.
Carico. Aumentando il carico al fixation, l’attentional shift è più costoso e l’effetto cala.

Da queste manipolazioni Posner deriva la mappa endogeno/esogeno, voluntary/automatico, e la metafora dello spotlight con velocità di shift di circa 8–10 ms per grado di angolo visivo.

Confronto fra modelli di filtro

Per fissare la sequenza storica, conviene ricapitolare i quattro modelli classici a confronto, sullo stesso paradigma di Cherry.

Modello	Stadio della selezione	Cosa accade al canale unattended	Effetto del proprio nome
Broadbent 1958	Early, prima del significato	Scartato dopo le feature fisiche	Anomalia non spiegata
Treisman 1964	Early, ma graduale	Attenuato (gain ridotto), non bloccato	Sopravvive l’attenuazione (soglia bassa)
Deutsch & Deutsch 1963	Late, dopo l’identificazione semantica	Processato fino al significato, poi scartato	Naturale: è già stato identificato
Lavie 1995	Variabile, funzione del carico	Loaded: scartato early. Unloaded: passa	Dipende dal carico del task primario

La tabella non è solo storica: è uno strumento per disinnescare l’idea che la “selezione attentiva” sia una singola operazione. È un fenomeno multi-stadio, modulato da carico, contesto, e priorità. I modelli classici hanno ciascuno isolato un pezzo della verità.

Tipi di attenzione e patologie: una mappa rapida

Per coordinazione interna del capitolo, ecco la mappa che la letteratura usa.

Per dimensione del task:

Selective attention: focus su un canale, filtro del resto.
Divided attention: divisione fra canali. Costosa, soggetta a interferenza.
Sustained attention (vigilance): mantenere il focus nel tempo. Mackworth 1948 — operatori radar che perdono segnali dopo 30 minuti.
Alternating attention (task switching): switch fra task. Costo di switch (200–400 ms) misurato come differenza fra trial repeat e switch.

Per fonte del controllo:

Endogenous (top-down, voluntary): il controllo viene da intenzioni e schemi.
Exogenous (bottom-up, stimulus-driven): la cattura viene dalla salienza dello stimolo.

Per oggetto della selezione:

Spatial attention: regioni di campo visivo o uditivo.
Feature-based attention: una feature (e.g. “tutto ciò che è rosso”) trasversalmente al campo.
Object-based attention: l’oggetto coerente come unità.

Patologie informative:

Hemineglect: lesione parietale (più spesso destra). Il paziente non attende lo spazio controlaterale. Non è cecità — l’informazione arriva ai primi stadi sensoriali — è una mancanza di selezione attentiva. Mangia metà del piatto, copia metà di un disegno, si rade metà del viso. Riabilitazione lenta e parziale.
Sindrome di Bálint: lesione bilaterale parieto-occipitale, rara. Simultanagnosia (il paziente vede solo un oggetto alla volta), aprassia oculomotoria, ottica atassia. Esempio drammatico: descrivendo una scena con tavola apparecchiata, vede “una forchetta”. Non è cieco; è incapace di integrare in un’immagine unica.
ADHD (attention-deficit/hyperactivity disorder): categoria DSM con criteri comportamentali. Base neurobiologica: ipofunzione dopaminergica nell’executive network. Controversie diagnostiche (sotto-diagnosi e sovra-diagnosi a seconda dei contesti) non discusse qui in dettaglio.
Sviluppo: l’alerting matura entro l’infanzia, l’orienting tra i 2 e i 6 anni, l’executive matura lentamente fino all’adolescenza tardiva e oltre. Predicibile dal continuous performance test e dall’ANT.

Una nota sul rapporto attenzione–memoria di lavoro

La distinzione fra attenzione e working memory è didatticamente comoda ma operativamente sottile. Randall Engle (psicologo americano alla Georgia Tech) negli anni 90 e 2000 ha mostrato che la working memory capacity (misurata con complex span task come operation span e reading span) correla fortemente con misure di executive attention (Stroop, antisaccade, dichotic listening). La sua proposta: la WMC riflette in larga parte la capacità di mantenere attivo un goal task-relevant in presenza di interferenza — ovvero attention control. Questa lettura collega working memory ed executive network di Posner-Petersen come due facce di un medesimo costrutto: tenere viva un’informazione che il sistema vuole privilegiare, contro la pressione di distrattori interni ed esterni.

Per i nostri scopi, la mappa minima è: il memoria-working descrive il magazzino strutturato; questo capitolo descrive il sistema di selezione e controllo; entrambi convergono sul central executive di Baddeley, che è in larga parte attention control. L’attenzione, dal lato del controllo, e la WM, dal lato del contenuto, sono due lati dello stesso meccanismo. Tenerli artificiosamente separati semplifica l’esposizione, ma falsa il quadro.

Mind-wandering, default mode, training: le frontiere recenti

Jonathan Smallwood (psicologo britannico a York e Aberystwyth) e Jonathan Schooler (psicologo americano a UCSB) in Psychological Bulletin 2006 (“The restless mind”) e in Annual Review of Psychology 2015 documentano che durante un task il pensiero deriva verso contenuti task-unrelated dal 30% al 50% del tempo, spesso senza meta-consapevolezza. Quando il soggetto viene interrotto e gli viene chiesto “a cosa stavi pensando?”, la risposta rivela contenuti spesso non correlati al task.

Substrato neurale. Il default mode network (DMN — Marcus Raichle, neuroscienziato americano alla Washington University, 2001) è una rete di regioni (corteccia mediale prefrontale, posterior cingulate/precuneus, parietale inferiore) che si attiva quando il sistema non è impegnato in task esogeni e si disattiva in task attentivi. Il DMN è correlato con mind-wandering e con elaborazione autoreferenziale. Il task-positive network (executive + dorsal attention) è anti-correlato con il DMN: alta attivazione in uno corrisponde a bassa nell’altro.

Mindfulness training. Antoine Lutz (neuroscienziato francese a Lyon) e Heleen Slagter (psicologa olandese ad Amsterdam) hanno documentato che training intensivi di focused attention meditation e open monitoring meditation modificano indici comportamentali (riduzione dell’attentional blink, lo svantaggio nel rilevare un secondo target rapidamente dopo il primo) e correlati EEG. Letteratura empirica con risultati misti, controllo placebo difficile, transfer ecologico contestato. Per i nostri scopi: menzione cauta — il training di attention sembra produrre effetti misurabili in laboratorio, ma il valore ecologico è materia di discussione attiva.

Eredità oggi

[DATATO 2026-04] — Questa sezione tocca AI. È la sezione “presentista” di un capitolo storico-scientifico. Ciò che segue è la materia che cambia più rapidamente; il resto del capitolo è impostato per durare.

Tre questioni: la coincidenza terminologica con “attention” dei transformer; la filiazione documentata di un solo filone (saliency); la tentazione delle equivalenze.

La parola “attention” in deep learning: una storia di metafore

Nel 2014, Dzmitry Bahdanau (allora dottorando a Jacobs University e in stage all’Université de Montréal sotto Yoshua Bengio), Kyunghyun Cho (allora ricercatore a Montréal, oggi NYU), e Yoshua Bengio (1964–, informatico canadese all’Université de Montréal, Turing Award 2018) pubblicano “Neural Machine Translation by Jointly Learning to Align and Translate” (arXiv:1409.0473). Il problema tecnico: nel seq2seq encoder-decoder (Sutskever-Vinyals-Le 2014), l’intera frase sorgente viene compressa in un unico vettore di stato finale dell’encoder, da cui il decoder genera la traduzione. È un bottleneck informativo: frasi lunghe perdono qualità.

La soluzione di Bahdanau-Cho-Bengio: lasciare al decoder accesso a tutti gli stati nascosti dell’encoder. Per ogni passo di decodifica si calcola un vettore di pesi di allineamento (un coefficiente per ogni token sorgente, normalizzato a softmax) e si produce un vettore di contesto come somma pesata. I pesi sono prodotti da un piccolo MLP che valuta la compatibilità (decoder state, encoder state at position i).

Nel paper, gli autori chiamano questo meccanismo attention. Perché? Per analogia comunicativa: “il decoder presta attenzione alle parti rilevanti dell’input”. Il termine è scelto come metafora pedagogica. La bibliografia del paper cita lavori di NMT, recurrent networks, alignment, gradient-based learning. Non cita Treisman, Posner, Broadbent, Cherry, Lavie, James, Helmholtz, Koch. Non c’è alcuna importazione tecnica dalla letteratura cognitivo-neurale dell’attenzione.

Tre anni dopo, Vaswani et al. 2017 “Attention Is All You Need” (NeurIPS) costruisce sul lavoro di Bahdanau, generalizza il meccanismo a self-attention (dove Q, K, V derivano dalla stessa sequenza), elimina la ricorrenza, parallelizza, scala. La bibliografia: tutta ML/NMT/seq2seq. Nessun riferimento alla psicologia o alle neuroscienze dell’attenzione. Il titolo del paper è un calembour interno alla comunità ML: “tutto ciò che ti serve è attention” sostituendo la ricorrenza. Non è una claim cognitiva sulla mente.

Classe di affermazioni, esplicita

Coincidenza terminologica metaforica: il nome “attention” in Bahdanau-Vaswani è una scelta linguistica per analogia, non una filiazione tecnica documentata. Stessa parola, oggetti diversi.
Nessuna filiazione documentata dall’attenzione psicologica/neurale al transformer attention. L’operazione softmax(Q·K^T / √d) · V non si ispira a Posner-Petersen networks, a Treisman FIT, a Broadbent filter, a Lavie load. Storicamente nasce dal problema di alignment in NMT, non da un trasferimento dalle scienze cognitive.
Filiazione genuina: solo i saliency model di Itti-Koch nascono da un lineage psicologico-neurale documentato (Treisman → Koch-Ullman → Itti-Koch). Lì sì, è importazione di idee. È stata utile in computer vision pre-deep-learning. Con le ConvNet e i transformer, i saliency model sono passati in second’ordine.
Analogia debole produttiva: il Perceiver IO (Andrew Jaegle e collaboratori, DeepMind, 2021) ha un latent bottleneck cross-attention che funzionalmente ricorda un bottleneck di working memory — un piccolo spazio latente che integra input ad alta dimensionalità. È un’analogia, utile come euristica di design, non un’equivalenza meccanica.

Equivalenze pericolose, da evitare

“Transformer attention = attenzione umana”. Falso. L’attention transformer è un’operazione algebrica parallela, differenziabile, su matrici. L’attenzione umana è una funzione di selezione embodied, embedded in un loop percettivo-motorio, lenta, modulata da neurotrasmettitori, con tre reti dissociabili. Sostrato: GPU/TPU vs neuroni. Tempo: nanosecondi-millisecondi (forward pass parallelo) vs decine-centinaia di millisecondi (orienting + identificazione). Controllo: nessun executive system separato vs ACC/dlPFC dedicati.
“Attention Is All You Need = la mente è solo attention”. Doppio fraintendimento. Il paper di Vaswani è ingegneria di NMT, non una claim cognitiva. E anche se lo fosse: la mente, secondo Posner-Petersen, non è solo attention, e neanche l’attention da sola è una facoltà unitaria.
“Saliency = bottom-up attention biologica”. Qui filiazione c’è, ma con caveat. I saliency model catturano un sotto-insieme dell’orienting esogeno (cattura di stimoli salienti per feature low-level). Non includono il top-down task-driven, non includono l’oggetto, non includono il binding feature-luogo che FIT richiede.
“Self-attention = self-monitoring meta-cognitivo”. Falso. Il prefisso “self” in self-attention significa “Q, K, V derivano dalla stessa sequenza di input”, non riflessione su di sé. Non c’è meta-rappresentazione, non c’è soggetto che monitora, non c’è coscienza riflessiva. Confusione che ogni tanto compare in articoli divulgativi e che va smascherata.

flowchart LR
    I[Input image] --> F1[Intensity map]
    I --> F2[Color maps<br/>RG, BY]
    I --> F3[Orientation maps<br/>0°, 45°, 90°, 135°]
    F1 --> CS[Center-surround<br/>su scale multiple]
    F2 --> CS
    F3 --> CS
    CS --> COMB[Combinazione lineare<br/>normalizzata]
    COMB --> S[Saliency map]
    S --> WTA[Winner-take-all]
    WTA --> NF[Next fixation]
    WTA -.IOR.-> S

Figura 3 — Saliency map computation pipeline (Itti–Koch): input image → feature maps (intensity, color, orientation) → center-surround → linear combination → saliency map → winner-take-all → next fixation; arrows trace lineage from Treisman FIT and Koch–Ullman 1985

Cosa è realmente diverso: tre assi di confronto

Per chi ha bisogno di una mappa operativa, ecco tre assi su cui le due “attention” divergono in modo non trascurabile.

Asse 1 — Controllo. L’attenzione psicologica è governata da un sistema di controllo esecutivo (ACC, dlPFC, modulato dalla dopamina) che pesa goal, salienza, costi-benefici, e seleziona dinamicamente quale stimolo privilegiare. Si esprime in tempo lungo rispetto ai processi sensoriali: orienting endogeno richiede ~300 ms per attivarsi, alerting modula su scale di secondi, executive control opera nell’ordine delle centinaia di ms. Il transformer attention non ha controllore separato: i pesi softmax sono calcolati in un singolo forward pass parallelo, in microsecondi su GPU, senza un sotto-sistema “executive” che li arbitri. Il “controllo”, nel transformer, è cristallizzato nei parametri appresi.

Asse 2 — Embodiment. L’attenzione psicologica è embodied: si lega a saccadi oculari, postura, movimenti della testa, in un loop continuo percezione-azione. Anche la covert attention, che non muove gli occhi, è un’attivazione preparatoria del sistema oculomotore (premotor theory of attention, Rizzolatti 1987). Il transformer attention vive su tensori, senza corpo, senza loop esterno. La differenza non è solo metaforica: studi su tool use, perifocal vision, gesture, mostrano che l’attenzione umana è strutturalmente legata al corpo che la implementa.

Asse 3 — Storia di apprendimento. L’attenzione psicologica si forma in vent’anni di sviluppo (alerting nei primi mesi, orienting tra 2 e 6 anni, executive fino all’adolescenza tardiva), modulato da maturazione mielinica, esperienza, training mirato. È plastica ma con tempi biologici. Il transformer attention emerge dall’ottimizzazione gradiente su miliardi di token in giorni o settimane di training. I tempi, le scale, i meccanismi sono incomparabili. Questo asse spiega perché il “pre-training” non è “sviluppo” e perché analogie ontogenetiche fra LLM e umani sono fuorvianti.

Tre assi, tre divergenze radicali. La tabella mentale da portarsi via: stessa parola, contesto diverso, da non sommare.

Mind-wandering, drift, e riflessioni di harness

In agent loops moderni si osserva un comportamento etichettato a volte come “mind-wandering”: un agente che persiste su un sotto-task irrilevante, che torna su un’idea fallita, che produce reflection failures dove il self-critique non corregge l’errore. Sembra mind-wandering. Non lo è, nel senso cognitivo del termine. Smallwood-Schooler studiano il drift cosciente in un soggetto umano con default mode network attivo. L’agent loop drift è una failure mode di pianificazione e gestione del contesto. Analogia, non identità. Più produttivamente, è un problema di harness (vedi harness-definizione, compaction, subagenti — in preparazione) e di context engineering. Vestirlo del lessico cognitivo confonde diagnosi e cura.

Un esempio integrato: la sequenza completa di una saccade attentiva

Per legare i pezzi, immagina un soggetto seduto davanti a uno schermo che cerca un quadrato rosso fra distrattori. La sequenza, integrando le diverse cornici teoriche, è la seguente.

Stato di alerting. Il sistema è in vigilanza tonica grazie all’attivazione del locus coeruleus. Una warning tone ha appena prodotto un picco fasico di norepinefrina che ha “tonato” la corteccia.
Codifica preattentiva (FIT). L’immagine è codificata in mappe di feature parallele: una mappa di rosso, una di blu, una di orientamento, e così via. Il sistema “sa” già dove c’è del rosso senza aver ancora speso attention.
Guided search (Wolfe). La feature map del rosso e quella della forma quadrata si combinano in una mappa di priorità che pesa le posizioni candidate.
Orienting covert (Posner). L’attenzione si sposta covertly verso il candidato più probabile in ~150–250 ms. Il pulvinar e i frontal eye fields preparano la prossima saccade.
Saccade (overt orienting). Lo sguardo si sposta sulla posizione (~30 ms di esecuzione, dopo ~200 ms di latenza). La fovea cattura il candidato.
Identificazione e binding. Il binding feature-luogo conferma o rigetta l’ipotesi: è davvero un quadrato rosso?
Conflict detection (executive). Se il candidato non è il target, l’ACC registra il conflitto e dlPFC attiva la prossima scelta.
Inhibition of return. La posizione appena visitata viene soppressa, il sistema passa al prossimo candidato.
Risposta. Trovato il target, l’executive autorizza la risposta motoria.

In meno di mezzo secondo il sistema ha integrato alerting (norepinefrina), orienting (acetilcolina, parietale, FEF, pulvinar), executive (dopamina, ACC, dlPFC), feature integration (V1–V4), motor planning (SC, FEF). Nessuna di queste operazioni ha un equivalente meccanico in un forward pass di un transformer.

Dove si rompe

L’attenzione è uno dei territori più studiati della psicologia. Anche per questo è pieno di crepe, di concetti tirati troppo, di equivalenze che sembrano ovvie e non sono.

La frase di James 1890 viene citata come definizione e usata per coprire l’ignoranza. “Tutti sanno cosa è l’attenzione” è il modo migliore per evitare di chiedersi cosa sia davvero. La storia successiva dimostra che nessuno lo sapeva — e che la risposta non è una, è tre (alerting, orienting, executive), e ciascuna è strutturata internamente. Quando una frase del 1890 viene citata in un paper del 2026 senza contesto critico, sta facendo lavoro retorico, non tecnico.

Lo spotlight è una metafora, non un meccanismo. La metafora dello spotlight di Posner ha guidato la ricerca per quarant’anni e ha permesso esperimenti precisi. Ma il sistema visivo non ha un fascio di luce attentivo: ha pattern di guadagno modulati top-down su mappe corticali (V4, IT, FEF). La metafora copre l’intuizione, il meccanismo è un altro. Lo zoom-lens ammorbidisce un’arbitrarietà della metafora. La feature-based attention la rompe del tutto: non c’è “luogo” privilegiato quando attendi a “tutto il rosso” — c’è un’intera feature map modulata. Lo spotlight è un buon punto d’ingresso, non l’arrivo.

Il filtro early/late è un dibattito che si è dissolto, non risolto. Lavie 1995 propone perceptual load come mediator, ma la letteratura post-2000 (dilution, set-size effects, working memory load) ha mostrato che il quadro è più sfaccettato di “early se loaded, late se non loaded”. Il filtro non è un singolo gate; è un insieme di selezioni a vari stadi (sensoriale, percettivo, semantico, response selection) che possono avvenire in modo distribuito. Insegnare ancora “early vs late” come dicotomia stretta è didatticamente comodo ma scientificamente datato.

FIT è quasi vera ma non del tutto. La separazione preattentivo/attentivo regge per molte feature, ma alcune “feature” che dovrebbero essere preattentive (e.g. categorie semantiche di alto livello, volti) si comportano in modo intermedio: pop-out parziale, dipendenza dal task. Il binding non è un’operazione singola; è una collezione di processi che variano per modalità e per livello. FIT resta un’ottima cornice introduttiva, va etichettata come tale.

Le tre reti di Posner-Petersen sono utili ma non incontestate. L’evidenza di dissociazione è forte ma non perfetta. ADHD non è solo executive deficit. Mind-wandering coinvolge DMN, che non rientra nella tripartizione classica. La mappa 1990/2012 è cornice operativa, non verità anatomica finale.

La coincidenza terminologica con i transformer è un cliché didattico. Vale la pena ribadirlo: divulgazioni AI introducono spesso il transformer dicendo “come la mente umana, presta attenzione alle parti rilevanti”. È una metafora utile per il primo minuto, è un errore concettuale dal secondo in poi. Il transformer attention è un’operazione algebrica con proprietà computazionali specifiche. La sua “selettività” emerge dall’apprendimento dei pesi, non da un sistema di controllo cognitivo. Il fatto che riusciamo, retrospettivamente, a interpretare alcune attention heads come “name-mover” o “induction head” (vedi attention-heads-circuits in preparazione) non implica che stiano facendo “attenzione” nel senso di Posner; stanno realizzando funzioni computazionali specifiche emerse dal training.

“Attention is all you need” come slogan filosofico è un fraintendimento. Il titolo è ingegneria, è efficace come marketing accademico, è una claim ristretta sull’architettura NMT. Estenderlo a una tesi sulla mente o sulla coscienza è un caso da manuale di slippage di classe di affermazione: da titolo di paper → tesi tecnica → tesi cognitiva → tesi metafisica. Ogni passaggio richiede argomenti che il paper non fornisce.

Antropomorfismo bidirezionale. Quando attribuisci attention “vera” a un transformer, stai antropomorfizzando il modello (vedi antropomorfismo-rischi). Quando descrivi l’attenzione umana come “softmax” mentale, stai meccanizzando ingenuamente l’umano. Entrambi i movimenti producono cattiva teoria. Il rimedio è disciplina sui referenti: chiedere sempre a quale dei due “attention” ci si stia riferendo.

Self-attention non è auto-coscienza. Lo abbiamo già detto, lo ripetiamo perché compare di frequente: “self” in self-attention significa “stessa sequenza”, non “soggetto che si osserva”. L’introduzione di Vaswani 2017 lo chiarisce in due righe; due righe che vengono regolarmente ignorate.

L’indagine empirica sull’attenzione costa tempo. La chiusura più importante: i risultati che abbiamo descritto vengono da decine di migliaia di esperimenti su umani, in laboratori specializzati, con paradigmi raffinati. Non sono ottenibili da introspezione. Quando un agent coder dice “ho intuizione su come funziona l’attenzione”, probabilmente sta riportando l’illusione della trasparenza introspettiva — la stessa che James prendeva per buona nel 1890. La storia raccontata in questo capitolo è la storia di quella illusione, smontata pezzo per pezzo.

Collegamenti

memoria-working — il central executive di Baddeley è essenzialmente attention control. Capacità WM e capacità attentiva si sovrappongono fortemente in molte misure (operation span ↔ executive attention, Engle 2002).
cervello-basi — substrati neurali (locus coeruleus, ACC, parietale, FEF) menzionati qui, descritti in dettaglio lì.
cervello-vs-rete-neurale — il caso “attention” è uno dei test più nitidi di “somiglianze reali vs analogie ingannevoli”.
architetture-cognitive — global workspace theory (Baars, Dehaene) è un’estensione del concetto di attention come “broadcaster” della coscienza.
memoria-sensoriale — l’iconica di Sperling è terminata da una “lettura” attentiva della traccia.
percezione-priors (in preparazione) — l’attenzione modula i priors percettivi.
dual-process-kahneman (in preparazione) — Sistema 2 ≈ executive control sotto vari aspetti.
cognizione-embodied (in preparazione) — overt attention come motore (saccadi, postura, tool use).
ponte-attenzione-transformer (in preparazione) — il capitolo dedicato a smontare in dettaglio la coincidenza terminologica anticipata qui.
antropomorfismo-rischi — il caso “attention” come esempio paradigmatico di antropomorfismo bidirezionale.
attention-bahdanau-2014 — origine del termine in deep learning.
transformer-2017 — generalizzazione e self-attention.
attention-intuizione, qkv-da-zero, multi-head (in preparazione) — meccanica dell’attention transformer.
multimodal-vision (in preparazione) — saliency vive ancora come componente.
mech-interp-intro, attention-heads-circuits (in preparazione) — cosa fanno davvero le attention heads di un transformer.

Per andare oltre

James, W. (1890). The Principles of Psychology, Vol. 1, Cap. XI. Henry Holt. — Da leggere per il piacere della prosa e per problematizzare la frase celebre nel suo contesto.
Broadbent, D. E. (1958). Perception and Communication. Pergamon Press. — Il libro che inaugura la cognitive psychology e l’information-processing approach all’attenzione.
Treisman, A., & Gelade, G. (1980). “A feature-integration theory of attention”. Cognitive Psychology, 12(1), 97–136. — Il paper di FIT, la singola opera più influente sull’attenzione visiva del Novecento.
Posner, M. I. (1980). “Orienting of attention”. Quarterly Journal of Experimental Psychology, 32(1), 3–25. — Il paradigma più produttivo della letteratura attenzionale.
Petersen, S. E., & Posner, M. I. (2012). “The attention system of the human brain: 20 years after”. Annual Review of Neuroscience, 35, 73–89. — La sintesi aggiornata sui tre network. Punto di partenza obbligato per chiunque voglia un quadro neurale unificato.
Kahneman, D. (1973). Attention and Effort. Prentice-Hall. — Capacity model, pupillometria, allocazione strategica. Lettura formativa anche oltre l’attenzione.
Mack, A., & Rock, I. (1998). Inattentional Blindness. MIT Press. — Per il programma sperimentale dietro Simons-Chabris.
Itti, L., & Koch, C. (2001). “Computational modelling of visual attention”. Nature Reviews Neuroscience, 2(3), 194–203. — Per il caso di filiazione genuina psicologia → AI.
Bahdanau, D., Cho, K., & Bengio, Y. (2014). “Neural Machine Translation by Jointly Learning to Align and Translate”. arXiv:1409.0473. — Da leggere con il presente capitolo aperto: il paper non cita la psicologia dell’attenzione, ed è il momento in cui la parola “attention” si stacca dal suo referente cognitivo per diventare termine tecnico ML.