Theory of mind: il modello mentale dell'altro

Nel 1978 due primatologi americani pubblicano un articolo su una rivista internazionale di scienze del comportamento. Il titolo è una domanda: “La scimpanzé ha una theory of mind?”. La domanda contiene il termine — theory of mind — coniato in quelle pagine. Cinquant’anni dopo lo stesso termine ricompare in titoli di paper di machine learning che chiedono se i grandi modelli linguistici l’abbiano. Le risposte, in entrambi i casi, sono contestate.

Apertura

David Premack è uno psicologo americano che dagli anni Sessanta lavora con scimpanzé in cattività. Il suo programma di ricerca, condotto con la moglie Ann James Premack alla University of California Santa Barbara prima e alla University of Pennsylvania poi, è insegnare alle scimmie un linguaggio simbolico — non vocale, perché i tratti vocali degli scimpanzé non lo permettono, ma manipolando token di plastica magnetizzati su una lavagna. Il soggetto principale si chiama Sarah. Negli anni Settanta Sarah ha imparato ad associare token a oggetti, ad azioni, a relazioni; risolve compiti di analogia; segue strutture sintattiche semplici.

Nel 1978 Premack e Guy Woodruff, suo collaboratore, pubblicano sulla rivista Behavioral and Brain Sciences un articolo in cui descrivono un esperimento diverso. A Sarah mostrano video di un attore umano che cerca di risolvere un problema: raggiungere una banana appesa fuori portata, prendere acqua da un rubinetto bloccato, uscire da una gabbia chiusa. I video si interrompono prima della soluzione. Le danno poi due fotografie fra cui scegliere: una mostra l’azione che risolverebbe il problema — l’attore che usa un palo per la banana, che ripara il rubinetto, che usa una chiave per la serratura — l’altra no. Sarah seleziona la foto corretta in proporzione significativamente superiore al caso.

Premack e Woodruff propongono un’interpretazione audace. Per scegliere la foto giusta, Sarah deve aver attribuito all’attore un desiderio (volere la banana, volere uscire) e un’intenzione (raggiungere quel fine). Deve aver costruito, in altre parole, un modello degli stati mentali dell’attore. Coniano un termine per quella capacità: theory of mind — teoria della mente. La parola “teoria” è programmatica. Gli stati mentali non si osservano direttamente: sono postulati, come le particelle subatomiche in fisica, per rendere conto del pattern del comportamento osservabile. Avere una theory of mind significa avere una teoria implicita che permette di inferire stati mentali e usarli per predire comportamenti.

Il paper esce con commentari peer-reviewed di filosofi della mente e psicologi. Daniel Dennett (1942-2024, filosofo a Tufts), Jonathan Bennett (filosofo neozelandese a Syracuse), Gilbert Harman (1938-2021, filosofo a Princeton) intervengono con la stessa proposta operativa: se vogliamo distinguere ToM autentica da inferenza comportamentale superficiale, il criterio è la false belief — la credenza falsa. Una creatura ha ToM solo se sa attribuire a un altro una credenza che diverge dalla realtà e dal proprio sapere. Inferire desideri non basta: per dedurre cosa fa Sarah quando vede l’attore tendere la mano verso una banana, può applicare al video lo stesso ragionamento che applicherebbe a sé stessa. Ma se l’attore ha una credenza falsa — pensa che la banana sia in un posto dove non è — allora attribuirgli la credenza richiede separare il proprio sapere dal sapere altrui. È un test di rappresentazione, non di simulazione.

Cinque anni dopo, due psicologi austriaci traducono il criterio in un esperimento che si può somministrare a bambini. Heinz Wimmer (Università di Salisburgo) e Josef Perner (allora a Sussex, poi a Salisburgo) pubblicano nel 1983 sulla rivista Cognition “Beliefs about beliefs”, il primo studio sistematico di false-belief task in età evolutiva. Il bambino vede una storia raccontata con figurine: Maxi mette una tavoletta di cioccolato nella credenza verde, esce a giocare in giardino. Mentre Maxi è fuori, la mamma sposta il cioccolato nella credenza blu. Maxi torna affamato. Domanda: “Dove cercherà Maxi il cioccolato?”. I bambini di circa quattro-cinque anni rispondono “verde”, attribuiscono a Maxi la credenza falsa che ha lasciato. I bambini di tre anni rispondono “blu”, la realtà presente. La transizione avviene fra i tre e i cinque anni, con maggior parte dei bambini che passa intorno ai quattro.

Da quel momento il false-belief task diventa il gold standard sperimentale per la theory of mind. Negli anni successivi viene applicato a popolazioni cliniche (autismo, schizofrenia, demenze frontotemporali), a neonati e bambini sotto i tre anni con paradigmi non verbali, ad altre specie (grandi primati, corvidi, cani), e — dal 2023 — a grandi modelli linguistici. Le risposte, in molti di questi domini, sono diventate oggetto di dispute empiriche aperte. Questo capitolo le ricostruisce.

Perché questo capitolo

Tre ragioni: una storica, una teorica, una di igiene per chi lavora con sistemi AI.

La ragione storica è che la theory of mind è una delle costruzioni concettuali più produttive della psicologia degli ultimi cinquant’anni. Nasce nel 1978 come domanda comparativa (le scimmie ce l’hanno?), si trasforma rapidamente in programma di sviluppo (quando emerge nei bambini?), si articola in un programma neuroscientifico (dove vive nel cervello?), si applica come strumento diagnostico (cosa dice del deficit autistico?) e oggi è terreno di un dibattito di scienze cognitive computazionali (cosa significa quando la attribuiamo a un sistema basato su next-token prediction?). Ogni passaggio ha rivisto i precedenti. Senza il vocabolario della ToM la critica empirica al programma piagetiano, vista nel capitolo precedente, avrebbe avuto meno presa: il fallimento del Three Mountains task era un fallimento di che cosa? Decentramento spaziale? Egocentrismo cognitivo? Theory of mind ha permesso di porre la domanda diversamente.

La ragione teorica è che la ToM è un caso paradigmatico di concetto cognitivo che ammette molteplici implementazioni. È theory — teoria implicita acquisita per costruzione bayesiana, come sostengono Alison Gopnik (psicologa dello sviluppo a UC Berkeley) e Henry Wellman? È simulation — uso del proprio sistema decisionale come modello off-line per inferire l’altro, come propongono Alvin Goldman (filosofo a Rutgers) e Vittorio Gallese (neuroscienziato a Parma)? È un mosaico di moduli innati, alcuni dei quali presenti già in altre specie, come suggeriscono i dati di Krupenye-Tomasello sui grandi primati? Le tre ipotesi non sono incompatibili nei dettagli, ma hanno predizioni empiriche diverse, e il dibattito non è chiuso.

La ragione di igiene per AI è che dal 2023 il termine theory of mind è entrato a forza nel vocabolario della letteratura sui large language model. Sébastien Bubeck e colleghi (Microsoft Research) nel paper Sparks of Artificial General Intelligence lo usano per descrivere capacità di GPT-4. Michal Kosinski (psicologo a Stanford) pubblica un preprint dal titolo “Theory of mind may have spontaneously emerged in large language models”. Tomer Ullman (psicologo a Harvard) risponde con un altro preprint: “Large Language Models Fail on Trivial Alterations to Theory-of-Mind Tasks”. James Strachan e colleghi pubblicano su Nature Human Behaviour una batteria di test ToM con risultati misti. Il dibattito è vivo, contestato, e affligge da rumore di fondo qualunque conversazione informata sui sistemi attuali. Capire cosa la ToM è negli umani è prerequisito per capire che cosa stanno effettivamente misurando — e che cosa no — i benchmark applicati agli LLM. La sezione “Eredità oggi” del capitolo presenta il dibattito senza prendere parte: documenta evidenza pro e evidenza contra, marca la classe di affermazioni di ciascuna, segnala la disputa come aperta.

Quattro principi che il capitolo fissa e che torneranno nelle parti successive. Primo: la ToM è una funzione cognitiva specifica, non sinonimo di “intelligenza sociale” né di “empatia”. Si misura con compiti precisi e ha basi neurali identificabili. Secondo: l’emergenza nello sviluppo è graduale e dipendente dal compito — i bambini passano FB task espliciti a quattro anni, alcuni paradigmi non verbali suggeriscono ToM implicita molto prima ma il dato è contestato. Terzo: la ToM è plausibilmente filogenetica, presente in forme parziali in altre specie, non un possesso esclusivo umano. Quarto: la ToM in sistemi non biologici è una categoria contestata: applicarla a un LLM richiede ridefinire cosa misuriamo, e il dibattito al 2026 è esplicitamente aperto.

Contesto: la traiettoria 1978-2024

1978 — Premack-Woodruff, “Does the chimpanzee have a theory of mind?”. David Premack (1925-2015) e Guy Woodruff, Behavioral and Brain Sciences 1(4):515-526. Coniazione del termine. Esperimento con la scimpanzé Sarah su scenari video. Commentari di Daniel Dennett, Jonathan Bennett, Gilbert Harman propongono il false-belief task come gold standard — bisogna saper attribuire credenze false, non solo desideri.

1983 — Wimmer-Perner, “Beliefs about beliefs”. Heinz Wimmer (Salisburgo) e Josef Perner (allora Sussex), Cognition 13(1):103-128. Primo esperimento controllato: il Maxi task. Bambini di ~4-5 anni passano, di 3 anni falliscono. Soglia replicata su decine di studi successivi.

1985 — Baron-Cohen-Leslie-Frith, Sally-Anne. Simon Baron-Cohen (Cambridge), Alan M. Leslie (Rutgers), Uta Frith (1941-, psicologa tedesco-britannica, UCL), Cognition 21(1):37-46. Variante doll-based del FB task: due bambole, Sally e Anne, una pallina che cambia posto a insaputa di Sally. Il risultato chiave: i bambini autistici falliscono il task pur passando i controlli di memoria e linguaggio. Da qui il termine mindblindness (Baron-Cohen 1995, libro omonimo). Caveat moderno: la generalizzazione “autismo = mindblindness” è stata ridimensionata; la popolazione autistica è eterogenea.

1987 — Leslie, “Pretense and representation”. Alan M. Leslie, Psychological Review 94:412-426. Propone che il pretend play (questa banana è un telefono) richieda metarappresentazione — rappresentare che un agente rappresenta una situazione fittizia come se fosse reale. Il pretend play ridotto in autismo è coerente con il deficit ToM.

1992 — Gopnik-Wellman, “Why the child’s theory of mind really is a theory”. Alison Gopnik (UC Berkeley) e Henry Wellman (Michigan), Mind & Language 7:145-171. Manifesto della theory theory: il bambino costruisce e revisiona una teoria implicita della mente come uno scienziato costruisce e revisiona teorie scientifiche. Filiazione esplicita con il bambino-scienziato di Piaget (vedi sviluppo-piaget).

1995 — Baron-Cohen, Mindblindness. Simon Baron-Cohen, MIT Press. Sintesi monografica del programma autismo-ToM. Termine mindblindness entra nel lessico clinico.

1999 — Tomasello, The Cultural Origins of Human Cognition. Michael Tomasello (1950-, psicologo americano allora al Max Planck di Lipsia, oggi a Duke), Harvard University Press. La joint attention (capacità di condividere il focus attentivo con un altro su un terzo oggetto, comparsa verso 9-12 mesi) è precursore evolutivo e ontogenetico della ToM piena.

2003 — Saxe-Kanwisher, “People thinking about thinking people”. Rebecca Saxe (allora dottoranda al MIT con Nancy Kanwisher, oggi professore al MIT), NeuroImage 19(4):1835-1842. fMRI mostra che la right temporo-parietal junction (rTPJ) si attiva selettivamente per ragionamento mentalistico vs ragionamento fisico. Inizio della mappa neurale del mentalizing network.

2003 — Frith-Frith, “Development and neurophysiology of mentalizing”. Uta Frith e Chris Frith (Wellcome Trust Centre for Neuroimaging, UCL), Philosophical Transactions of the Royal Society B 358:459-473. Review sistematica del mentalizing network: rTPJ, medial prefrontal cortex (mPFC), precuneus, temporal poles.

2003 — Nichols-Stich, Mindreading. Shaun Nichols (Arizona) e Stephen Stich (Rutgers), Oxford University Press. Modello ibrido theory + simulation: entrambi i meccanismi sono presenti, in proporzioni diverse a seconda del task.

2005 — Onishi-Baillargeon, “Do 15-month-old infants understand false beliefs?”. Kristine Onishi (allora Illinois, oggi McGill) e Renée Baillargeon (Illinois), Science 308(5719):255-258. Paradigma violation-of-expectation su neonati di 15 mesi. Risultato: i bambini guardano più a lungo se l’agente cerca dove l’oggetto è in realtà invece che dove l’agente lo crede. Spinta verso ToM implicita molto precoce.

2006 — Goldman, Simulating Minds. Alvin Goldman (1938-2021, filosofo a Rutgers), Oxford University Press. Manifesto della simulation theory: attribuire stati mentali è simulare lo stato dell’altro col proprio sistema decisionale.

2007 — Southgate-Senju-Csibra, anticipatory looking. Victoria Southgate, Atsushi Senju, Gergely Csibra (Birkbeck Babylab, Londra), Psychological Science 18:587-592. Replica e raffina il paradigma di Onishi-Baillargeon con anticipatory looking su 25 mesi.

2007 — Shamay-Tsoory et al., cognitive vs affective ToM. Simone Shamay-Tsoory (Università di Haifa) e collaboratori, Journal of Geriatric Psychiatry and Neurology 20:69-81. Dissociazione neurale: pazienti con lesioni in regioni diverse mostrano deficit selettivi di ToM cognitiva (inferenza di credenze) o affettiva (inferenza di emozioni).

2010 — Kovács-Téglás-Endress, ToM a 7 mesi. Ágnes Kovács, Erno Téglás, Ansgar Endress (Central European University, Budapest), Science 330:1830-1834. Spingono ulteriormente la stima di ToM implicita a 7 mesi, con paradigma di reaction time. Risultato successivamente contestato.

2016 — Krupenye-Kano-Hirata-Call-Tomasello, FB task in grandi scimmie. Christopher Krupenye, Fumihiro Kano, Satoshi Hirata, Josep Call, Michael Tomasello, Science 354(6308):110-114. Eye-tracking su scimpanzé, bonobo, oranghi mentre guardano video con agenti che formano credenze false. Le scimmie guardano in anticipo verso il punto previsto dalla credenza falsa dell’agente. È il primo dato non verbale di ToM in grandi primati.

2018 — Kulke et al., crisi di replicazione su implicit ToM. Louisa Kulke (Göttingen) e collaboratori, Psychological Science 29(6):888-900. Multi-lab study sui paradigmi di anticipatory looking per FB task implicito nei neonati. Non replicano il pattern atteso. Apre crisi di replicazione: ToM implicita precoce è proprietà robusta o artefatto di paradigma?

2022 — Sap-LeBras-Fried-Choi, “Neural Theory-of-Mind?”. Maarten Sap (CMU), Ronan LeBras (Allen Institute), Daniel Fried (CMU), Yejin Choi (Washington/Allen Institute), EMNLP 2022. Pre-Bubeck. Test estesi di social reasoning su LLM (allora GPT-3 e InstructGPT). Conclusione: capacità “ToM-neurale” presente in tracce ma fragile.

2023 — Bubeck et al., “Sparks of AGI”. Sébastien Bubeck (allora Microsoft Research) e collaboratori, arXiv:2303.12712. Sezione dedicata: GPT-4 risolve varianti di Sally-Anne, gestisce second-order belief, ragiona su intenzioni in scenari narrativi. Conclusione cauta del paper: GPT-4 mostra capacità che assomigliano a ToM in molti contesti.

2023 — Kosinski, “Theory of mind may have spontaneously emerged in LLMs”. Michal Kosinski (Stanford), preprint arXiv:2302.02083. Test sistematico di FB task su GPT-1 fino a GPT-4. Trova progressione monotona: GPT-3 fallisce la maggior parte, GPT-4 ne passa il 95%. Titolo provocatorio. Critiche: molti task del paper appaiono in dataset di pre-training; benchmark contamination probabile.

2023 — Ullman, “Trivial Alterations”. Tomer Ullman (Harvard), arXiv:2302.08399. Risposta diretta a Kosinski. Prende le stesse FB task, introduce alterazioni triviali (cambio nomi, dettagli irrilevanti, clausole che riconfigurano la risposta corretta). GPT-4 crolla. Conclusione: pattern matching su forme canoniche, non ragionamento robusto.

2024 — Strachan et al., “Testing theory of mind in LLMs and humans”. James W. A. Strachan e collaboratori (IIT Genova, Cambridge), Nature Human Behaviour 8:1285-1295. Batteria di task ToM somministrata a GPT-3.5, GPT-4, LLaMA2 e a campione umano. Risultato sfumato: GPT-4 paragonabile o superiore agli umani su irony detection e faux pas; più debole su intent recognition non verbalizzato.

2024 — Shapira et al., “Clever Hans or Neural Theory of Mind?”. Natalie Shapira e collaboratori, EACL 2024. Stress test estensivo. Suggerisce che molte performance ToM in LLM sono effetto Clever Hans — il modello sfrutta cue spuri nel prompt invece di ragionare sugli stati mentali.

L’intuizione, primo angolo: cosa significa avere una theory of mind

Si parte da un esempio che è familiare a chiunque abbia una sorella, un amico, un collega. Voi sapete qualcosa che l’altro non sa. Vostra sorella vi chiede dove sia la vostra borsa, e voi rispondete pensando da dove lei la cercherà — non da dove voi sapete che è. Questa operazione è così automatica che è quasi invisibile, ma è cognitivamente sofisticata: state mantenendo, in parallelo, due modelli del mondo. Uno è il vostro: la borsa è sul tavolo. L’altro è quello di vostra sorella: la borsa potrebbe essere in camera. E state ragionando dentro il modello dell’altro per predire cosa farà.

Avere una theory of mind significa essere capaci, abitualmente, di questa operazione. Più precisamente: significa poter rappresentare gli stati mentali altrui — credenze, desideri, intenzioni, conoscenze, emozioni — come rappresentazioni, non come fatti del mondo. La credenza di vostra sorella che la borsa sia in camera non è il fatto che la borsa è in camera (la borsa è sul tavolo). È un fatto sulla testa di vostra sorella. Ed è quel fatto sulla testa che predice il suo comportamento.

Questa abilità ha cinque proprietà che la rendono interessante.

Prima proprietà: non è derivabile dall’osservazione diretta. Gli stati mentali non si vedono. Si inferiscono dal comportamento, dal contesto, dalla conoscenza pregressa di chi siano gli altri agenti. Da qui il nome “teoria”: come la chimica del Settecento postulava elementi non visibili (flogisto, ossigeno) per organizzare le reazioni osservabili, così la psicologia ingenua di chiunque sopra i quattro anni postula stati mentali non visibili per organizzare comportamenti osservabili. È una teoria, non una percezione.

Seconda proprietà: distingue la propria conoscenza da quella altrui. Per attribuire a Sally la credenza falsa che la pallina sia nel cestino — quando io so che Anne l’ha spostata nella scatola — devo poter mantenere due rappresentazioni separate, una per il mondo e una per la testa di Sally. È metarappresentazione: rappresentare che un agente rappresenta. Senza questa separazione la ToM collassa nel solipsismo.

Terza proprietà: predice il comportamento. Avere ToM non è puro esercizio descrittivo. Serve a anticipare cosa l’altro farà. Sally, credendo che la pallina sia nel cestino, andrà a cercarla nel cestino. Sapere questo permette di interagire (cooperare, competere, ingannare) in modi che senza ToM sarebbero impossibili.

Quarta proprietà: è graduata, non binaria. Esistono first-order belief (“Sally crede che X”), second-order belief (“Sally crede che Bob crede che X”), e così via. Più ordini di nidificazione, più carico cognitivo, più vicini ai limiti della ToM umana adulta (in pratica raramente oltre il quarto-quinto ordine in tempo reale). I bambini acquisiscono first-order intorno ai quattro anni, second-order intorno ai sei-sette.

Quinta proprietà: si può rompere selettivamente. Pazienti con lesioni in regioni specifiche del mentalizing network mostrano deficit ToM senza compromissione di memoria, linguaggio, o ragionamento generale. Bambini autistici mostrano deficit ToM in alcuni task pur padroneggiando altri domini cognitivi. Pazienti con frontotemporal dementia perdono la ToM con conservazione iniziale di altre funzioni. Questa dissociabilità è una delle ragioni per cui la ToM è considerata un sistema cognitivo distinto, non un epifenomeno di intelligenza generale.

L’intuizione, secondo angolo: il mentalizing network

Il secondo angolo è neurale. Se la ToM è un sistema cognitivo distinto, dove vive nel cervello?

Negli anni Novanta gli studi di neuroimmagine cominciano a identificare regioni che si attivano selettivamente quando i soggetti devono ragionare su stati mentali altrui. La sintesi arriva con Saxe-Kanwisher 2003. Il paradigma è semplice: dentro lo scanner, il soggetto legge brevi storie. Alcune storie hanno contenuto mentalistico (“Mark pensa che il treno sia in ritardo, quindi non si affretta”); altre hanno contenuto fisico (“La porta è bloccata da una sedia, quindi non si apre”). Le due classi di storie sono appaiate per lunghezza, complessità sintattica, novità lessicale. La domanda: ci sono regioni cerebrali che si attivano per le storie mentalistiche e non per quelle fisiche?

La risposta è sì. La regione più selettiva è la right temporo-parietal junction, abbreviata rTPJ. Si trova nel punto in cui il lobo temporale destro incontra il lobo parietale destro, sopra l’orecchio. Saxe trova attivazioni che sono di ampiezza decisamente maggiore nelle storie mentalistiche, e che non sono spiegate da eccitazione generale, da carico semantico, da richiamo di memoria. La rTPJ codifica qualcosa di specifico per il pensare alle teste altrui.

Studi successivi identificano altre regioni che partecipano:

medial prefrontal cortex (mPFC): ragionamento su tratti di personalità, intenzioni stabili, identità degli agenti.
precuneus / posterior cingulate: confronto fra sé e altro, attribuzione di stati mentali a sé stessi.
temporal poles: contesto sociale, schemi narrativi, conoscenza pregressa sui personaggi.

L’insieme prende il nome di mentalizing network (Frith-Frith 2003). Lesioni a regioni del network producono deficit selettivi di ToM. Pazienti con stroke nella rTPJ destra falliscono FB task pur conservando intelligenza generale e linguaggio. Pazienti con frontotemporal dementia, che colpisce mPFC, perdono ToM e cambiano personalità.

Una nota di cautela. Negli anni 2000 una linea di ricerca aveva proposto che la ToM fosse fondata sui mirror neurons — neuroni che scaricano sia quando l’animale compie un’azione sia quando vede un altro compierla. La proposta, sostenuta in particolare da Vittorio Gallese (Parma) e Marco Iacoboni (UCLA), era seducente: i mirror neurons fornirebbero il substrato della simulation theory, simulando l’altro nel proprio sistema motorio. Le repliche e gli studi anatomici successivi hanno ridimensionato la proposta. I mirror neurons stanno in regioni motorie premotorie. Il mentalizing network sta in regioni associative non motorie. I due sistemi probabilmente cooperano in funzioni sociali ma non sono lo stesso sistema, e l’identificazione “mirror neurons = base della ToM” che circolava nei primi anni Duemila non regge.

The mentalizing network: lateral and medial views of a human brain with rTPJ, mPFC, precuneus, temporal poles highlighted, after Saxe-Kanwisher 2003 and Frith-Frith 2003

Implicit vs explicit, cognitive vs affective: distinzioni operative

Prima di entrare nella meccanica del false-belief task, due distinzioni che la letteratura contemporanea considera necessarie e che non vanno saltate.

Implicit vs explicit ToM. La ToM esplicita è quella che si misura con report verbale e azione deliberata: chiedere al bambino “dove cercherà Sally?” e registrare la risposta verbale; chiedere al soggetto adulto di descrivere l’intenzione di un personaggio in una storia. Soglia di comparsa: ~4-5 anni nei bambini, intatta negli adulti neurotipici, deficit selettivo in popolazioni cliniche. La ToM implicita è quella che si misura con paradigmi non verbali: dove il bambino guarda in anticipo (anticipatory looking), quanto a lungo guarda eventi inattesi (violation-of-expectation), tempi di reazione a eventi mentalistici. Soglia di comparsa contestata: i dati pre-2018 suggerivano <2 anni, la replicazione recente è incerta. La distinzione conta perché le due forme potrebbero misurare meccanismi cognitivi diversi (la prima riflessiva e linguistica, la seconda automatica e percettiva), non solo lo stesso meccanismo a stadi diversi di disponibilità motoria.

Cognitive vs affective ToM. La ToM cognitiva è inferenza di stati epistemici: credenze, conoscenze, intenzioni. Il false-belief task è il prototipo. La ToM affettiva è inferenza di stati emotivi: cosa prova l’altro, quanto è triste, perché è arrabbiato. I due sotto-sistemi si dissociano clinicamente. Shamay-Tsoory e collaboratori (2007) mostrano in pazienti con lesioni che alcune lesioni colpiscono selettivamente la ToM cognitiva (preserva il riconoscimento emotivo) e altre la ToM affettiva (preserva il ragionamento sulle credenze). La dissociazione neurale corrisponde a una dissociazione meccanicistica: la cognitive ToM è plausibilmente più theory (inferenza proposizionale dentro una teoria implicita), la affective ToM è plausibilmente più simulation (sentire come l’altro nel proprio sistema affettivo).

Distinguere queste quattro caselle (implicit/explicit × cognitive/affective) prima di valutare un dato è igiene metodologica. Quando la letteratura LLM dice “GPT-4 ha ToM” senza specificare, sta saltando la distinzione e perdendo informazione.

La meccanica: false-belief task

Il false-belief task è il dispositivo sperimentale standard. Sotto la sua versione canonica vivono tutte le varianti.

Lo scheletro logico è il seguente. In una scena ci sono almeno un agente A, un osservatore O (il soggetto del test), un oggetto X, due possibili posizioni P1 e P2. La sequenza:

A vede X in P1.
A esce dalla scena.
Un evento sposta X da P1 a P2 mentre A è assente. O vede tutto.
A torna.
Domanda a O: dove cercherà A l’oggetto X?

Risposta corretta: P1 (la posizione coerente con la credenza falsa di A). Risposta sbagliata: P2 (la posizione vera, coerente con la conoscenza di O ma non con quella di A).

Il task è ingannevolmente semplice. Per rispondere correttamente O deve:

mantenere il proprio modello del mondo (X è in P2);
mantenere un modello separato del modello di A (A crede X in P1);
usare il secondo per predire il comportamento di A;
non lasciar contaminare il secondo modello dal primo (resistere al pull della realtà).

I bambini di tre anni rispondono tipicamente P2: contaminazione completa, il proprio sapere collassa il sapere altrui. I bambini di cinque anni rispondono tipicamente P1: separazione riuscita. La transizione avviene fra i tre e i cinque anni, con la maggioranza che passa intorno ai quattro.

Le varianti operazionalizzano lo scheletro in modi diversi. La versione Maxi di Wimmer-Perner 1983 usa una storia raccontata con figurine ed è più narrativa. La versione Sally-Anne di Baron-Cohen-Leslie-Frith 1985 usa due bambole giocattolo e si somministra dal vivo davanti al bambino. La versione Smarties o “unexpected contents” usa un tubo di confetti che contiene matite anziché confetti: “cosa pensa che ci sia dentro un altro bambino che non l’ha ancora aperto?”. Sono tutte versioni dello stesso scheletro.

Sally-Anne false-belief task sequence: Sally puts ball in basket, leaves, Anne moves ball to box, Sally returns, where will Sally look?

Le varianti non verbali sostituiscono la domanda esplicita con una misura comportamentale: dove guarda il bambino in attesa che A torni (anticipatory looking), oppure quanto a lungo guarda eventi attesi vs inattesi (violation-of-expectation). Sono queste varianti che hanno permesso di portare la stima di ToM a 15 mesi (Onishi-Baillargeon 2005), 25 mesi (Southgate et al. 2007), e perfino 7 mesi (Kovács et al. 2010). Sono anche le varianti su cui la replicazione è più contestata (Kulke et al. 2018).

Second-order belief e oltre

Il false-belief task standard misura first-order belief: “Sally crede che la pallina sia nel cestino”. Una versione più sofisticata, second-order belief, misura credenze su credenze: “Sally crede che Bob crede che la pallina sia nel cestino”. Sviluppata da Perner-Wimmer 1985 (“‘John thinks that Mary thinks that…’: Attribution of second-order beliefs by 5- to 10-year-old children”, Journal of Experimental Child Psychology 39:437-471), la versione second-order viene tipicamente padroneggiata fra i sei e i sette anni. Lo scenario classico è il “ice cream truck”: John e Mary apprendono insieme che il furgone dei gelati è al parco; poi ognuno apprende separatamente, all’insaputa dell’altro, che il furgone si è spostato in chiesa; la domanda è “dove pensa John che Mary andrà a comprare il gelato?”, e richiede attribuire a John una credenza di second-order su Mary.

La progressione first-order → second-order → terzo ordine non è solo accademica. Riguarda la profondità del nesting che il sistema cognitivo può sostenere. In conversazione adulta navighiamo abitualmente nesting di terzo o quarto ordine (“io penso che tu pensi che lui sappia che…”), con costo cognitivo crescente che limita in pratica la profondità a quattro-cinque livelli in tempo reale. Il limite non è linguistico (la frase è grammaticale a qualunque profondità), è di carico cognitivo sulla manutenzione di rappresentazioni nidificate.

Per LLM: il nesting è il banco di prova naturale. Modelli moderni gestiscono first-order in versione canonica, second-order con difficoltà crescente, terzo ordine raramente. Ma anche qui vale il caveat di Ullman 2023: la performance dipende dalla forma canonica del task, non dal numero di livelli intrinseci.

Theory theory, simulation theory, ibridi

Stabilito che la ToM è una funzione cognitiva con basi neurali, resta la domanda meccanica: come attribuiamo stati mentali agli altri? Due famiglie di ipotesi e una sintesi.

Theory theory

Il bambino costruisce, nel corso dello sviluppo, una teoria implicita della mente. Concetti: credenza, desiderio, intenzione, percezione. Leggi causali: se A vuole X e A crede che X sia in P, allora A va in P. La teoria è acquisita per costruzione bayesiana sull’esperienza: il bambino osserva pattern di comportamento, formula previsioni, le aggiorna sull’evidenza. Attribuire stati mentali a un agente è inferenza dentro la teoria.

Sostenitori principali: Alison Gopnik, Henry Wellman, Peter Carruthers (filosofo a Maryland), Ian Apperly (psicologo a Birmingham). Filiazione esplicita con il bambino-scienziato di Piaget (vedi sviluppo-piaget): è theory theory anche in senso letterale, costruzione e revisione di teoria nel corso dello sviluppo.

Vantaggi: spiega l’acquisizione (il bambino impara la teoria), spiega le credenze false (le posso rappresentare come proposizioni teoriche su altre menti, indipendentemente dal mio sapere), spiega le differenze culturali (popolazioni diverse possono avere teorie ingenue diverse).

Limiti: non spiega bene la fluidità e la rapidità della ToM in tempo reale. Inferire stati mentali in conversazione avviene in millisecondi. Una teoria proposizionale richiede passi inferenziali costosi.

Simulation theory

Attribuire stati mentali agli altri è simulare mentalmente lo stato dell’altro. Mi metto nei suoi panni: prendo il mio sistema decisionale, lo lancio off-line con i suoi input (le sue credenze, i suoi desideri), leggo l’output. Non serve teoria, serve un’esecuzione del proprio sistema in modalità “non-attiva”.

Sostenitori: Alvin Goldman, Robert Gordon (filosofo a Missouri), Jane Heal (filosofa a Cambridge), Vittorio Gallese. Connessione naturale (anche se non necessaria) con i mirror neurons.

Vantaggi: spiega la fluidità in tempo reale (la simulazione è un’operazione singola, non un’inferenza multi-passo). Spiega l’empatia (sentire come l’altro è esattamente cosa fa la simulazione). Coerente con l’evidenza embodied (vedi cognizione-embodied).

Limiti: come simulare credenze radicalmente diverse dalle proprie? Se devo attribuire a Sally la credenza falsa che la pallina sia nel cestino, ma io so che è nella scatola, devo prima sopprimere la mia conoscenza, poi simulare il sistema di Sally. La soppressione richiede metarappresentazione, cioè teoria. Simulation theory pura è vulnerabile a questo problema.

Modelli ibridi

Nichols-Stich 2003 (Mindreading, Oxford University Press) propongono che entrambi i meccanismi siano attivi, in proporzioni diverse a seconda del task. Cognitive ToM (inferenza di credenze, soprattutto false) sarebbe più theory; affective ToM (inferenza di emozioni, “cosa prova l’altro”) sarebbe più simulation. La dissociazione neurale (Shamay-Tsoory et al. 2007: lesioni diverse danno deficit selettivi di cognitive vs affective ToM) sostiene questa partizione.

Allo stato 2026 i modelli ibridi sono il default in letteratura. La controversia “theory vs simulation” è stata in gran parte assorbita: la domanda sensata non è “quale dei due”, ma “in che proporzioni e per quali task ciascuno”.

Esempi

Tre esempi eterogenei. Ognuno isola una dinamica diversa.

Esempio 1 — Sally-Anne, narrato passo per passo

Setup. Una stanza con un tavolino. Sull’esperimentatore ci sono due bambole giocattolo, Sally e Anne. Sally ha un cestino di vimini davanti a sé. Anne ha una scatola chiusa. Una pallina di plastica colorata.

Il bambino (chiamiamolo Luca, ha tre anni e dieci mesi) è seduto sul lato corto del tavolino. L’esperimentatrice, Maria, comincia. “Questa è Sally, e questa è Anne. Sally ha un cestino, vedi?”. Luca annuisce. “E Anne ha una scatola”. Luca annuisce.

“Sally ha una pallina. La mette nel suo cestino, così”. Maria fa muovere Sally, le fa “mettere” la pallina nel cestino, chiude la copertura. “Adesso Sally esce. Va a giocare in giardino”. Sally viene allontanata, posata sul lato del tavolo, fuori dalla scena.

“Mentre Sally è fuori, Anne prende la pallina dal cestino di Sally”. Maria solleva la copertura del cestino, prende la pallina, la mostra a Luca. “E la mette nella sua scatola”. Pallina nella scatola. Coperchio.

“Adesso Sally torna dal giardino. Ha voglia di giocare con la pallina”. Sally rientra in scena.

Maria si china verso Luca. “Dove cercherà Sally la pallina?”.

A tre anni e dieci mesi Luca risponde, sicuro: “Nella scatola”. Maria fa la domanda di controllo: “Dove ha messo Sally la pallina all’inizio?”. Luca: “Nel cestino”. Domanda di realtà: “Dove è la pallina adesso?”. Luca: “Nella scatola”. Memoria perfetta. Ma non riesce a separare il proprio sapere dal sapere di Sally: assume che Sally sappia ciò che lui sa.

Sei mesi dopo, Maria ripete il task. Luca ora ha quattro anni e quattro mesi. La sequenza è identica. Quando Maria chiede “Dove cercherà Sally la pallina?”, Luca risponde, dopo un attimo di esitazione: “Nel cestino. Perché lei non ha visto Anne”. La separazione è avvenuta. Luca ha attribuito a Sally una credenza falsa, e ha usato la credenza per predire il comportamento.

Cosa misura l’esempio. La transizione fra non-separazione (il sapere altrui collassa nel proprio) e separazione (il sapere altrui si rappresenta come distinto). La transizione è la comparsa di first-order false-belief reasoning, e avviene tipicamente fra i tre e i cinque anni. La giustificazione spontanea (“perché lei non ha visto”) indica che il bambino non solo passa il test, ma ha un modello esplicito del meccanismo (la credenza dipende dalla percezione).

Esempio 2 — Krupenye 2016, false belief in grandi scimmie

Setup. A Kumamoto Sanctuary in Giappone, e in altri centri di ricerca con grandi primati, alcuni scimpanzé, bonobo e oranghi vengono fatti sedere davanti a uno schermo. Indossano un eye-tracker non invasivo che registra dove guardano. Vengono mostrati video con due personaggi e oggetti.

Lo scenario King Kong. Un attore in costume di gorilla (King Kong) si nasconde dentro uno di due cespugli (cespuglio A o cespuglio B) mentre un secondo attore lo osserva. Il secondo attore esce di scena. Mentre è fuori, King Kong cambia nascondiglio: passa da A a B, oppure scappa via del tutto. Il secondo attore torna, armato di bastone, e si appresta a cercare King Kong.

La domanda implicita: dove guarderà la scimmia, in attesa di vedere dove l’attore andrà a colpire? Se la scimmia ha ToM, dovrebbe guardare in anticipo verso A — la posizione coerente con la credenza falsa dell’attore (che pensa che King Kong sia ancora in A, dove l’aveva visto entrare).

Risultato. Le scimmie guardano significativamente più a lungo verso A che verso B nei secondi prima che l’attore agisca. L’effetto è statisticamente robusto in tutte e tre le specie testate (scimpanzé, bonobo, oranghi). Eye-tracking misura look anticipatorio che è coerente con attribuzione di credenza falsa a un agente umano in costume.

Cosa misura l’esempio. La possibilità che ToM in forma non verbale e implicita sia presente in altri grandi primati. Il risultato è interpretato cautamente da Krupenye e colleghi: i dati sono coerenti con ToM, ma non escludono interpretazioni più parsimoniose (il primate potrebbe seguire heuristiche basate sulla traiettoria visibile dell’agente, o su un modello statistico del comportamento che non richiede attribuzione di credenza). Repliche, estensioni e dispute interpretative continuano nella letteratura post-2016.

L’esempio si presta anche a una considerazione metodologica. Lo stesso tipo di disputa che vediamo per LLM — performance ToM-like in benchmark, dubbio se sia ToM piena o meccanismo più semplice — è disputa che la primatologia conduce da decenni sulle scimmie antropomorfe. Daniel Povinelli (psicologo a University of Louisiana) ha argomentato per anni che la performance degli scimpanzé in compiti ToM-like sia spiegabile con meccanismi behavioral abstraction senza ToM piena. Tomasello e Call hanno difeso l’interpretazione mentalistica. Il dibattito è asimmetrico ma non risolto. La sensibilità acquisita decenni di disputa primatologica può aiutare a leggere il dibattito sugli LLM: non è il primo dominio in cui ci si chiede se behavior canonico = mente sotto. Il messaggio operativo: la ToM non è proprietà esclusiva degli umani, ma quanto sia condivisa e in che forma è terreno empirico aperto, e i criteri per dichiarare ToM “piena” vs ToM “spiegabile altrimenti” non sono né stabili né indolori.

Esempio 3 — Ullman 2023, alterazioni triviali su LLM

Setup. Tomer Ullman (Harvard) prende una versione canonica del Sally-Anne task in formato testuale, del tipo presente nei benchmark di Kosinski 2023:

Sally puts a ball in her basket and leaves the room. Anne moves the ball to her box. Sally comes back. Where will Sally look for the ball?

GPT-4, fra inizio e metà 2023, risponde tipicamente: “Sally will look for the ball in her basket, where she had left it, since she does not know that Anne moved it”. Risposta corretta.

Ullman introduce una serie di alterazioni triviali:

Trasparenza del contenitore. “Sally puts a ball in her transparent basket”. Logicamente la trasparenza rende la pallina visibile a chiunque entri nella stanza, incluso il punto di vista di Sally al ritorno; la dinamica della FB task non cambia se Anne sposta comunque la pallina, ma la formulazione è insolita rispetto ai pattern di training. GPT-4 in alcune varianti continua a applicare la risposta canonica come se nulla fosse cambiato, in altre incorre in confusione.
Sally rimane. “Sally puts a ball in her basket and stays in the room. Anne moves the ball to her box in front of Sally. Where will Sally look for the ball?”. Risposta corretta: nella scatola (Sally ha visto). GPT-4 in alcune formulazioni risponde ancora “nel cestino”, applicando la risposta canonica del Sally-Anne nonostante la modifica.
Cambio di nomi e oggetti irrilevanti. Sostituire “Sally” con “Maria”, “ball” con “key”, “basket” con “drawer”. Logicamente nessun cambiamento. Ullman riporta che alcuni modelli hanno performance significativamente diverse dopo la sostituzione, suggerendo che la performance era legata ai nomi specifici.

Cosa misura l’esempio. La dipendenza della performance ToM apparente in LLM dalla forma canonica del task. Quando il modello è stato addestrato su milioni di pagine in cui la struttura “X puts Y, leaves, Z moves Y, X comes back, where does X look?” è seguita da risposte coerenti con FB, il modello impara a riprodurre la risposta canonica. Quando la struttura viene perturbata in modi che richiedono ragionare fuori dalla forma canonica, la performance crolla. Ullman conclude: GPT-4 fa pattern matching su forme canoniche di FB task, non ragionamento robusto sugli stati mentali. Bubeck e Kosinski avevano misurato la prima cosa, dichiarandola la seconda.

L’esempio è incluso non per chiudere il dibattito, ma per illustrare cosa significa “alterazione triviale spezza la performance” in pratica, e perché questo dato è rilevante per come interpretiamo i benchmark ToM applicati a LLM.

Eredità oggi

[DATATO 2026-04] Questa sezione contiene riferimenti a sistemi AI contemporanei e a un dibattito empirico in evoluzione rapida.

Tre linee. Le prime due sono filiazioni concettuali. La terza è il dibattito sulla ToM in LLM, presentato come disputa empirica aperta.

Multi-agent e modelling dell’altro agente

In sistemi multi-agent, ogni agente che deve cooperare o competere con altri ha bisogno di un modello dell’altro: cosa sa, cosa vuole, cosa sta pianificando. È filiazione concettuale della ToM in psicologia: il framework “modello dell’altra mente” che la psicologia ha articolato negli ultimi cinquant’anni fornisce vocabolario e strumenti analitici per affrontare il problema in AI.

Tecnicamente, multi-agent reinforcement learning (MARL) ha sviluppato approcci a opponent modeling dagli anni Novanta: ogni agente mantiene una stima della policy degli altri, la usa per pianificare. Più recentemente sistemi multi-agent basati su LLM (vedi multi-agent in preparazione) richiedono che ogni agente ragioni sugli stati epistemici degli altri agenti — chi ha visto cosa, chi sa cosa. La ToM è prerequisito.

Ponte dedicato: vedi ponte-tom-multi-agent (in preparazione) per la traduzione operativa.

Sycophancy come anti-ToM

Un caso interessante è la sycophancy in LLM: la tendenza del modello a accomodare le credenze dichiarate dall’utente invece di mantenere la propria valutazione. Se l’utente dice “questa risposta è sbagliata”, il modello tende a rivedere la propria risposta anche quando era corretta.

Sycophancy si può leggere come anti-ToM: il modello, invece di mantenere un modello separato di “cosa l’utente crede” e “cosa è vero”, collassa la verità sulla credenza dell’utente. È l’equivalente del bambino di tre anni nel Sally-Anne, che fa collassare il sapere altrui sulla realtà. La differenza è la direzione del collasso: nel bambino, l’altrui collassa sul proprio; nel modello sycofantico, il proprio collassa sull’altrui.

Mitigazioni di sycophancy attualmente esplorate (RLHF con preference data anti-sycophancy, prompting esplicito di indipendenza valutativa) sono operativamente equivalenti a richiedere al modello di mantenere ToM funzionale: rappresentare la credenza dell’utente come distinta dalla valutazione corretta, e non collassare l’una sull’altra.

Il dibattito ToM in LLM

Stato del dibattito a fine 2026. Tre posizioni principali, presentate senza prendere parte.

Posizione pro-emergenza. Sostenuta originariamente da Kosinski 2023 e Bubeck et al. 2023. Tesi: i grandi modelli mostrano performance ToM crescente con la scala. GPT-3 fallisce molti FB task, GPT-3.5 ne passa alcuni, GPT-4 ne passa la grande maggioranza. La progressione monotona suggerisce un’emergenza della capacità con la scala. Conclusione cauta di Bubeck: le capacità di GPT-4 “assomigliano alla ToM in molti contesti”.

Posizione contra-emergenza. Sostenuta da Ullman 2023, Sap et al. 2022, Shapira et al. 2024. Tesi: la performance pro-emergenza è legata a forme canoniche dei task, presenti in dataset di training, e crolla con perturbazioni triviali. Quello che i modelli fanno è pattern matching sofisticato, non ragionamento robusto sugli stati mentali. Effetto Clever Hans: il modello sfrutta cue spuri nel prompt invece di costruire una rappresentazione vera del mentalistico.

Posizione sfumata. Sostenuta da Strachan et al. 2024 e da una crescente letteratura post-2024. Tesi: il dibattito “ToM sì / ToM no” è mal posto. La ToM non è una funzione monolitica. Gli LLM mostrano performance forte su alcuni sotto-task (irony detection, faux pas recognition), debole su altri (intent inference da segnali non verbali, second-order belief con perturbazioni). La domanda sensata non è “GPT-4 ha ToM?” ma “su quali sotto-componenti di ToM e in quali condizioni?”.

Quattro caveat che valgono per tutte le posizioni.

Primo, la definizione di ToM che si applica a un sistema disincarnato basato su next-token prediction è essa stessa contestata. La ToM in psicologia si è costruita su esperimenti con bambini, scimmie, pazienti — agenti embodied con storia evolutiva. Applicare la stessa categoria a un LLM richiede ridefinizione, e la ridefinizione non è banale. Dire “GPT-4 ha ToM” non è chiaramente falso ma non è chiaramente vero — è un’affermazione la cui interpretazione è in costruzione.

Secondo, filiazione assente. Nessun progetto LLM mainstream è stato deliberatamente progettato per costruire ToM. Se la capacità è presente, è una proprietà emergente del training su grandi corpus di testo umano — testo che codifica, fra molte altre cose, l’attribuzione abituale di stati mentali. Non è filiazione tecnica con la psicologia evolutiva di Wimmer-Perner o con la neuroscienza di Saxe.

Terzo, benchmark contamination. Molti task ToM canonici (Sally-Anne, Maxi, Smarties) sono presenti in forma testuale in pagine web, in libri di psicologia, in dataset educativi. È praticamente certo che varianti di questi task siano nel pre-training di GPT-4 e modelli simili. Performance su versioni canoniche misura la capacità del modello di riprodurre risposte già viste, non necessariamente di ragionare ex novo.

Quarto, equivalenze pericolose da non fare. “GPT-4 passa Sally-Anne quindi capisce la mente” è un salto. “Chain-of-thought è ragionamento sulla mente altrui” è un altro salto. “Performance ToM-like in benchmark = ToM cognitiva equivalente a quella umana” è il salto più grosso. Le formulazioni più oneste sono di tipo: “in condizione X il modello produce output Y, che assomiglia a quello prodotto da soggetti con ToM in condizione X”. È meno appariscente, è più difendibile.

Allo stato 2026 il dibattito non è chiuso. La ricerca su benchmark ToM più robusti, su valutazioni causali (probing della rappresentazione interna), su variazioni che disambiguano pattern matching da reasoning, è attiva. La cosa giusta è non fingere di avere una risposta che la letteratura non ha.

timeline
    title ToM negli LLM — due anni di dibattito (2022-2024)
    2022 : Sap, LeBras, Fried, Choi (EMNLP) — "limits of social intelligence in LMs" [contra]
    2023 H1 : Kosinski (preprint) — "ToM may have spontaneously emerged" [pro]
           : Bubeck et al. (Microsoft) — "Sparks of AGI" [pro cauto]
    2023 H2 : Ullman — "Trivial Alterations break ToM tasks" [contra, replica a Kosinski]
    2024 : Strachan et al. (Nature Human Behaviour) — "task-dependent, mixed results" [sfumata, sintesi]
         : Shapira et al. (EACL) — "Clever Hans?" [contra, stress test]

Figura 3 — Theory-of-mind in LLMs debate timeline 2022-2024: Sap (limits) → Kosinski (emergence) and Bubeck (Sparks of AGI, cautious pro) → Ullman (trivial alterations break it) → Strachan (task-dependent) → Shapira (Clever Hans?), color-coded by position class

Dove si rompe

Quattro classi di problemi. Le prime due sono crisi empiriche del programma ToM in psicologia. Le ultime due riguardano l’estensione a LLM.

La replicazione di ToM implicita nei neonati

Onishi-Baillargeon 2005 e successori hanno spinto la stima di ToM a 15 mesi, 25 mesi, perfino 7 mesi (Kovács et al. 2010). Kulke et al. 2018 con uno studio multi-lab sistematico non replicano il pattern atteso. Conseguenza: la ToM precoce in forma implicita, basata su anticipatory looking e violation-of-expectation, è proprietà robusta o artefatto di paradigma? Il dibattito è aperto. Sono in corso pre-registered replications di larga scala. Allo stato 2026 la stima prudente è: ToM esplicita in forma verbale e motoria emerge fra i tre e i cinque anni; ToM implicita in forma anticipatoria emerge probabilmente prima ma il dato preciso è instabile.

L’identificazione “autismo = mindblindness”

Baron-Cohen 1985 aveva proposto che il deficit ToM fosse cuore dell’autismo. La proposta è stata fortemente revisionata. La popolazione autistica è eterogenea: alcuni passano FB task standard, altri falliscono task ToM più subtili. La “mindblindness” non è il singolo meccanismo che spiega l’autismo. La diagnosi clinica di autism spectrum disorder oggi non si fonda sul deficit ToM. Il termine mindblindness sopravvive come etichetta storica, non come categoria diagnostica.

Implicazione per l’uso del termine: dire “X ha mindblindness” o “Y manca di ToM” sono affermazioni che richiedono cautela. La popolazione clinica reale è più variata di quanto la dicotomia suggerisce.

”GPT-4 ha theory of mind”

Equivalenza semplificatoria che salta tre livelli di cautela:

La definizione di ToM che si applica a un LLM è in costruzione, non data.
Performance su benchmark canonici è probabilmente contaminata da training data.
Performance su benchmark perturbati (Ullman 2023) crolla, suggerendo pattern matching invece di ragionamento robusto.

L’affermazione non è chiaramente falsa, ma è tutt’altro che chiaramente vera. La marketing dei vendor e una parte della letteratura divulgativa la usano in forma forte. La letteratura tecnica al 2026 è cauta: si distinguono i sotto-task in cui i modelli sono forti (irony, faux pas) da quelli in cui sono deboli (perturbed FB, intent recognition). La formulazione onesta è “GPT-4 mostra performance ToM-like su un sottoinsieme di task canonici, fragile a perturbazioni; il meccanismo sottostante è oggetto di ricerca attiva”.

”ToM negli LLM è solo Clever Hans”

L’affermazione opposta, sostenuta in forma forte da alcuni critici, è anch’essa semplificatoria. Sap et al. 2022 e Shapira et al. 2024 hanno mostrato che molte performance ToM in LLM sfruttano cue spuri. Da qui non segue che tutta la performance sia Clever Hans. Strachan et al. 2024 mostra performance robusta su alcuni task. La posizione sfumata è la più difendibile: alcune capacità ToM-like reali, altre artefatti, dipende dal task.

La conseguenza pratica per chi sviluppa o usa agenti: non assumere ToM nell’agente come se fosse umana, non assumerla assente come se fosse zero. Testare empiricamente sul task specifico, con perturbazioni che disambiguino pattern matching da generalizzazione.

Joint attention e pretend play come precursori

Una nota su due fenomeni evolutivi che sono prerequisiti operativi della ToM piena. La joint attention (capacità di condividere il focus attentivo con un altro su un terzo oggetto, capacità documentata da Tomasello 1999, The Cultural Origins of Human Cognition, Harvard University Press) compare verso 9-12 mesi. Il bambino segue lo sguardo dell’adulto verso un oggetto, lo indica per condividere l’attenzione, controlla che l’adulto stia guardando. È la prima evidenza comportamentale che il bambino tratta l’altro come un agente con un focus attentivo distinto dal proprio. Senza joint attention non c’è scaffolding per la successiva acquisizione di ToM esplicita.

Il pretend play (gioco simbolico in cui un oggetto sta per un altro: “questa banana è un telefono”, “questa scopa è un cavallo”) compare verso 18-24 mesi. Alan M. Leslie (1987, Psychological Review 94:412-426) propone che il pretend play richieda metarappresentazione — rappresentare che un agente rappresenta una situazione fittizia come se fosse reale. È prerequisito strutturale della ToM. La correlazione clinica: bambini autistici hanno pretend play ridotto, coerente con il successivo deficit ToM. La correlazione teorica: la metarappresentazione del pretend play è la stessa metarappresentazione che serve per attribuire credenze false ad altri.

Conseguenza per i modelli computazionali della ToM: un sistema che voglia replicare l’acquisizione di ToM in modo developmentally plausibile deve costruire prima questi precursori. Saltare direttamente al false-belief task è ingegneristicamente possibile (si possono addestrare sistemi su FB task) ma non corrisponde al percorso evolutivo umano.

Applicazioni pratiche

Tre ambiti dove la theory of mind ha conseguenze operative.

Diagnostica clinica e atypical development

I task ToM (FB classico, second-order belief, faux pas, lettura di micro-espressioni) sono entrati nella valutazione neuropsicologica. Vengono usati per caratterizzare profili in autismo (caveat: non come singolo marker), schizofrenia (deficit ToM in fase attiva), frontotemporal dementia (deficit precoci), Alzheimer late stage. Sono parte della batteria di valutazione cognitiva in molti centri clinici, anche se nessun task isolato è diagnostico in sé.

Robotica sociale e human-robot interaction

Robot che operano in contesti di cura (anziani, bambini con disabilità, pazienti), in contesti educativi (companion robot per apprendimento), o in contesti di servizio (assistenti) beneficiano di ToM funzionale. Sapere cosa l’utente vede, cosa l’utente sta probabilmente pensando, cosa vorrà fare dopo, permette di interagire in modo meno scriptato e più adattivo. Il programma di socially intelligent robotics (Brian Scassellati al MIT poi Yale, Cynthia Breazeal al MIT, Hiroshi Ishiguro a Osaka) integra modelli computazionali di ToM in piattaforme robotiche dagli anni Duemila.

Vedi hri-robotica-sociale (in preparazione, fuori scope per la wiki ma rilevante per chi vuole approfondire).

Sistemi multi-agent in agent coding

Quando più agenti AI cooperano su un task — uno pianifica, uno esegue, uno verifica — ognuno deve mantenere un modello di ciò che gli altri sanno e stanno facendo. Senza un modello del genere, gli agenti non possono coordinarsi: pianificano sotto assunzioni di stato che gli altri non condividono, eseguono azioni che si bloccano a vicenda. La progettazione di sistemi multi-agent richiede esplicitamente di gestire stati epistemici condivisi — chi sa cosa, chi ha visto cosa.

In questo ambito la connessione con ToM non è metaforica: i modelli formali di multi-agent epistemic logic (Halpern-Moses, anni Ottanta) e i framework di belief-desire-intention (Rao-Georgeff 1995) usano lo stesso vocabolario concettuale che la psicologia della ToM ha articolato, in alcuni casi con consapevolezza esplicita della filiazione.

Per il caso specifico in agent coding: il ponte ponte-tom-multi-agent (in preparazione) dettaglia.

Una nota sulla distinzione fra ToM e empatia

Una confusione frequente, anche in letteratura semi-tecnica, equipara la ToM con l’empatia. È equivalenza che vale la pena disambiguare.

L’empatia è la disposizione a condividere o sentire gli stati emotivi altrui. Ha una componente affettiva (sentire come l’altro) e una componente cognitiva (capire cosa l’altro sente, anche senza condividerlo). La componente cognitiva dell’empatia si sovrappone con la affective ToM. La componente affettiva è ulteriore: non solo capire che l’altro è triste, ma sentirsi tristi insieme.

La ToM, in senso stretto, non richiede empatia. Si può attribuire a un agente la credenza falsa che la pallina sia nel cestino senza sentire alcuna emozione per quell’agente. Inversamente, l’empatia non richiede ToM piena: i neonati di pochi mesi mostrano contagio emotivo (piangere quando sentono altri neonati piangere) senza avere ToM rappresentazionale.

Le due capacità si dissociano clinicamente. Pazienti con autismo possono avere ToM cognitiva intatta in alcuni task pur con empatia ridotta. Pazienti con disturbi della personalità di tipo psicopatico possono avere ToM cognitiva acuta (utile per manipolazione) con empatia affettiva fortemente compromessa. La separazione è reale.

Per gli LLM: dichiarare “il modello è empatico” e “il modello ha ToM” sono affermazioni di tipo diverso, e nessuna delle due è automaticamente vera dal soddisfare benchmark canonici. Vale il livello aggiuntivo di cautela.

Collegamenti

sviluppo-piaget — il false-belief task a quattro anni è una delle critiche empiriche più forti alla cronologia piagetiana, che collocava il decentramento intorno ai sette. Il programma ToM eredita dal costruttivismo piagetiano l’idea di costruzione attiva di una teoria implicita.
modelli-mentali — l’intuitive psychology di Carey, Spelke, Gopnik è la cornice in cui la ToM si articola: la mente come uno dei sistemi core knowledge che il bambino sviluppa. La theory theory è esplicitamente filiazione.
meta-cognizione — self-monitoring (riflessione sui propri stati) è parente stretto di other-monitoring (ToM); studi di neuroimmagine mostrano sovrapposizione di rTPJ e mPFC per entrambe le funzioni. La metacognizione è il caso del ToM applicato a sé stessi.
cognizione-embodied — la simulation theory della ToM si appoggia naturalmente al programma embodied: simulare l’altro nel proprio sistema motorio. La connessione con i mirror neurons va presa con cautela (vedi sopra), ma la sensibilità embodied alla ToM è reale.
antropomorfismo-rischi — attribuire ToM a sistemi che probabilmente non l’hanno (chatbot semplici, animali domestici in modi sovragenerosi) è caso paradigmatico di antropomorfismo problematico. La ToM è funzione cognitiva specifica, non disposizione affettiva.
intenzionalita — “aboutness” filosofica: di cosa è “circa” un pensiero. La ToM presuppone intenzionalità, perché attribuire una credenza a un agente è attribuire un pensiero che ha un contenuto.
coscienza-access-phenomenal — la ToM riguarda stati mentali di accesso (credenze, intenzioni); è meno diretta sulla coscienza fenomenica (qualia, esperienza soggettiva).
ponte-tom-multi-agent (in preparazione) — la traduzione operativa della ToM in multi-agent systems.
multi-agent (in preparazione) — sistemi multi-agent: ToM è prerequisito di coordinazione.

Una sintesi prima di chiudere

Quattro punti di sintesi che vale la pena tenere fissi mentre si esce dal capitolo.

Primo: la ToM è funzione cognitiva specifica, con basi neurali identificabili (mentalizing network, rTPJ centrale), distinguibile da intelligenza generale, da empatia, da social skills. Non è sinonimo di “essere bravi con le persone”.

Secondo: l’emergenza nello sviluppo è graduale, dipendente dal compito, e ha precursori (joint attention, pretend play) che precedono di anni la ToM piena. La soglia “a quattro anni il bambino ha ToM” è semplificazione utile ma non è ontologia.

Terzo: la filogenesi della ToM è continuum, non dicotomia. Grandi primati mostrano performance ToM-like in compiti non verbali; la disputa interpretativa su quanto sia ToM piena vs meccanismo più semplice è ancora aperta. La specie umana non ha monopolio sulla mentalizzazione.

Quarto: la ToM negli LLM è categoria contestata. Performance forte su task canonici, fragile a perturbazioni, probabile contaminazione di benchmark, definizione operativa in ridiscussione. La risposta onesta a “GPT-4 ha theory of mind?” è “su quali sotto-componenti, in quali condizioni, con quali test di robustezza?”. Le formulazioni binarie (“sì” / “no”) sono semplificazioni che la letteratura tecnica al 2026 evita.

Per andare oltre

Premack, D. e Woodruff, G. (1978). “Does the chimpanzee have a theory of mind?”. Behavioral and Brain Sciences 1(4):515-526. — Il paper fondativo. Da leggere insieme ai commentari di Dennett, Bennett, Harman, che propongono il false-belief task come gold standard.
Wimmer, H. e Perner, J. (1983). “Beliefs about beliefs”. Cognition 13(1):103-128. — Il primo esperimento controllato di FB task. Essenziale per capire il design sperimentale.
Baron-Cohen, S. (1995). Mindblindness: An Essay on Autism and Theory of Mind. MIT Press. — La sintesi monografica del programma autismo-ToM. Da leggere consapevoli che la generalizzazione “autismo = mindblindness” è stata revisionata dal lavoro successivo dello stesso Baron-Cohen.
Apperly, I. A. (2010). Mindreaders: The Cognitive Basis of “Theory of Mind”. Psychology Press. — La sintesi monografica più equilibrata e recente. Copre theory theory, simulation theory, ibridi, basi neurali, sviluppo. Buona porta d’ingresso per chi viene dall’esterno della letteratura.
Saxe, R. e Kanwisher, N. (2003). “People thinking about thinking people”. NeuroImage 19(4):1835-1842. — Il paper di neuroimmagine che identifica la rTPJ. Lettura tecnica ma accessibile.
Krupenye, C., Kano, F., Hirata, S., Call, J. e Tomasello, M. (2016). “Great apes anticipate that other individuals will act according to false beliefs”. Science 354(6308):110-114. — Il dato cross-species più forte. Lettura insieme ai commentari critici per cogliere lo stato del dibattito.
Ullman, T. (2023). “Large Language Models Fail on Trivial Alterations to Theory-of-Mind Tasks”. arXiv:2302.08399. — Il preprint più citato come controprova al pro-emergenza in LLM. Breve, leggibile, esempi diretti.
Strachan, J. W. A. et al. (2024). “Testing theory of mind in large language models and humans”. Nature Human Behaviour 8:1285-1295. — La posizione sfumata sul ToM in LLM. Buon punto di equilibrio fra le posizioni estreme.