Pensare sul pensiero: knowledge about cognition, monitoring, control

Nel 1966 John Flavell, allora alla University of Minnesota, registra un fatto piccolo che inaugura un programma cinquantennale: i bambini di cinque anni, lasciati soli con una lista di sette oggetti da ricordare per due minuti, restano lì in silenzio. I bambini di otto anni cominciano a muovere le labbra: ripetono. La differenza non è nel ricordare — la prestazione finale dei piccoli, se opportunamente sollecitati a ripetere, sale al livello dei grandi. La differenza è che i piccoli non sanno che dovrebbero ripetere. Sanno meno della propria mente. Questo capitolo ricostruisce come, da quell’osservazione, sia nato il vocabolario della metacognizione — la cognizione che ha per oggetto la cognizione stessa — e come, sessant’anni dopo, sistemi artificiali di linguaggio mostrino proprietà funzionalmente analoghe a quelle metacognitive, sotto un meccanismo che non è quello descritto dalla psicologia.

Il fenomeno che Flavell ha messo a fuoco è apparentemente banale e in realtà profondo: c’è un livello in cui sappiamo, e un livello in cui sappiamo di sapere; c’è un’attività cognitiva, e c’è la cognizione che la osserva. Quando lei legge un paragrafo difficile e a un certo punto si accorge che non sta capendo, qualcosa la sta monitorando. Quando si chiede “ce la farò a ricordare questo numero di telefono?”, qualcosa sta predicendo. Quando, dopo aver risposto a una domanda, sente che la risposta era sicura o incerta, quel sentimento è un’informazione che il pensiero ha sul pensiero. La metacognizione è il nome che la psicologia cognitiva degli anni Settanta dà a questa famiglia di fenomeni.

Il capitolo precedente, memoria-working, ha trattato la working memory di Alan Baddeley con il suo central executive — il “direttore d’orchestra” che alloca attenzione e coordina i sottosistemi. Il capitolo dual-process-kahneman ha trattato la doppia natura del pensiero veloce e lento. Il capitolo euristiche-bias ha mostrato come l’overconfidence sia uno dei pattern più robusti dei giudizi umani. Il presente capitolo si situa al loro incrocio: la metacognizione è ciò che il central executive fa quando si interroga su sé stesso, il sistema 2 che monitora e controlla il sistema 1, il filtro che dovrebbe — ma spesso non lo fa — correggere l’overconfidence dell’intuizione. È una funzione cognitiva specifica con un suo apparato sperimentale, una sua neuroanatomia, e — questa è la parte più delicata — una sua eredità contemporanea nei sistemi LLM che non è una filiazione documentata ma un’analogia funzionale.

Perché questo capitolo

Tre ragioni: una scientifica, una concettuale, una di igiene per chi parla di AI.

La scientifica: la metacognizione è un programma di ricerca empirico con cinquant’anni di accumulo. Ha vocabolario standardizzato (FOK, JOL, calibration, resolution, meta-d’), paradigmi sperimentali consolidati, neurocorrelati documentati. Senza di esso, parole come “self-monitoring”, “self-awareness”, “introspection” — che ricorrono in tutta la letteratura su agenti, sicurezza, allineamento — restano vaghe. Conoscere il framework Nelson-Narens consente di chiedere domande precise: c’è monitoring? Da dove al dove? C’è control? Su cosa agisce? Calibrato come? Senza framework, le stesse domande sono retoriche.

La concettuale: la distinzione che Thomas Nelson e Louis Narens hanno introdotto nel 1990 — object-level e meta-level, monitoring e control — è una delle architetture descrittive più portabili che la psicologia abbia prodotto. Si applica alla memoria, al ragionamento, alla percezione, all’apprendimento. Dà una grammatica per parlare di “sapere di non sapere”, e per distinguere il sentimento di sapere (monitoring) dalla mossa di studiare di più (control).

La terza riguarda il discorso pubblico sull’AI. Frasi come “i modelli sanno cosa sanno”, “i modelli sono calibrati”, “i modelli si autocorreggono” circolano nei paper e nei post di blog del 2022-2026. Alcune sono tecnicamente accurate sotto definizione operativa (calibration); altre sono analogie retoriche pericolose se prese come equivalenze (self-knowledge, self-correction). Il capitolo mette ordine: cosa è proprietà funzionale documentata, cosa è metafora utile, cosa è equivalenza non giustificata. È un servizio doppio: chi viene dalla psicologia capirà cosa le sue parole significano in ML; chi viene dall’ML eviterà di reificare.

Contesto: una traiettoria 1966-2022

1966 — Tip-of-the-tongue. Roger Brown (1925-1997, psicologo del linguaggio a Harvard) e David McNeill (allora a Harvard, poi University of Chicago), in “The ‘tip of the tongue’ phenomenon” (Journal of Verbal Learning and Verbal Behavior 5:325-337), creano il primo paradigma sperimentale per studiare un’esperienza metacognitiva specifica. Leggono ai soggetti definizioni di parole rare (“piccola imbarcazione del Giappone, mossa con un solo remo all’estremità posteriore”) e registrano i casi in cui il soggetto entra nello stato TOT — sente che la parola è imminente, fornisce informazioni parziali (numero di sillabe, lettera iniziale, parole simili nel suono) ma non riesce a produrre la parola intera. La risposta era sampan. Il dato dell’articolo: i soggetti in stato TOT producono la prima lettera con accuratezza significativamente sopra il caso. Lo stato TOT è quindi informato: c’è qualcosa nella mente del soggetto che sa, e che il soggetto sa che sa, anche quando non riesce a tirare fuori il contenuto. È l’evidenza più pulita che il monitoring metacognitivo accede a informazione che il retrieval non riesce a estrarre.

1965 — Feeling-of-knowing. Joseph Hart (psicologo a Stanford), in “Memory and the feeling-of-knowing experience” (Journal of Educational Psychology 56:208-216, 1965), formalizza il paradigma RJR — Recall, Judgment, Recognition. Il soggetto tenta di richiamare; se fallisce, dà un giudizio di FOK (“se ti dessi quattro alternative, riconosceresti la risposta?”); poi viene testato con multiple-choice. La FOK accuracy è la correlazione tra giudizio e prestazione al recognition test. Risultato: la correlazione è positiva e significativa. Gli umani non solo “si accorgono” di non sapere; si accorgono in modo graduato di quanto non sanno e di se lo riconoscerebbero.

1971-1979 — Flavell e la coniazione. John H. Flavell (1928-, psicologo dello sviluppo a Stanford, allievo di Jean Piaget) lavora dal 1966 sulla memoria nei bambini. In “First discussant’s comments: What is memory development the development of?” (Human Development 14:272-278, 1971) introduce informalmente il termine “metamemoria”. In “Metacognition and cognitive monitoring: A new area of cognitive-developmental inquiry” (American Psychologist 34:906-911, 1979) — l’articolo canonico — propone “metacognition” come termine ombrello e articola il framework a quattro componenti: metacognitive knowledge (su persone, compiti, strategie), metacognitive experiences (sentimenti durante la cognizione), goals e actions. Per Flavell la metacognizione è un’abilità che si sviluppa: il bambino di cinque anni non ne ha quasi, l’adulto sì, ma in modo imperfetto.

1978-1987 — Brown e la regulation. Ann Leslie Brown (1943-1999, psicologa dello sviluppo a UC Berkeley), parallelamente a Flavell, lavora sulla metacognizione applicata alla comprensione del testo. In “Metacognition, executive control, self-regulation, and other more mysterious mechanisms” (in Metacognition, Motivation, and Understanding, eds. Weinert e Kluwe, Lawrence Erlbaum 1987) propone una distinzione che diventa standard: knowledge of cognition (statico, dichiarabile) versus regulation of cognition (procedurale, dinamico, articolato in planning, monitoring, evaluation). Brown applica la cornice al reading: lettori scarsi non hanno un deficit di lettura, hanno un deficit di monitoring — non si accorgono quando smettono di capire. La sua intervention più influente è il reciprocal teaching, in cui studenti sono forzati a esternalizzare predict, clarify, summarize, question fino a internalizzarli.

1990 — Nelson e Narens, il framework canonico. Thomas O. Nelson (1944-2005, psicologo cognitivo a University of Maryland poi University of Washington) e Louis Narens (filosofo della scienza e logico a UC Irvine), in “Metamemory: A theoretical framework and new findings” (The Psychology of Learning and Motivation, vol. 26, pp. 125-173, Academic Press 1990), pubblicano il framework che ancora oggi è il riferimento standard. Architettura a due livelli — object-level e meta-level — con due flussi unidirezionali: monitoring (informazione che sale dall’object al meta) e control (comandi che scendono dal meta all’object). La novità rispetto a Flavell e Brown è la simmetria formale: per ogni fase della memoria — encoding, storage, retrieval, output — esiste una funzione di monitoring corrispondente e una funzione di control corrispondente. Il framework è applicabile, mutatis mutandis, oltre la memoria.

1999 — Kruger e Dunning. Justin Kruger (allora dottorando, oggi NYU Stern) e David Dunning (1950-, psicologo sociale a Cornell, oggi University of Michigan), in “Unskilled and unaware of it: How difficulties in recognizing one’s own incompetence lead to inflated self-assessments” (Journal of Personality and Social Psychology 77:1121-1134), pubblicano quattro studi su humor judgment, logical reasoning (su Wason task), e grammar. Il pattern, ribattezzato successivamente “effetto Dunning-Kruger” dal pubblico generale: chi è nel quartile più basso di prestazione effettiva si autovaluta nel terzo quartile o sopra; chi è nel quartile più alto si autovaluta leggermente sotto la propria posizione reale. L’interpretazione di Kruger e Dunning: l’incompetenza in un dominio include l’incapacità di riconoscere la propria incompetenza — chi non sa la grammatica non sa cosa significherebbe saperla, e non può quindi misurare la distanza.

2002 — La critica metodologica. Joachim Krueger (psicologo a Brown University) e Ross Mueller, in “Unskilled, unaware, or both? The better-than-average heuristic and statistical regression predict errors in estimates of own performance” (Journal of Personality and Social Psychology 82:180-188), mostrano che parte sostanziale dell’effetto Dunning-Kruger è artefatto statistico: regression to the mean (chi performa male per fluttuazione regredisce alla media nelle stime), better-than-average heuristic (tutti tendono a stimarsi sopra la media), edge effect (chi è al pavimento non può stimarsi più basso). Successivamente Edward Nuhfer e colleghi (Numeracy 2017) raffinano la critica con simulazioni. L’effetto residuo non è azzerato — overconfidence dei principianti è documentata in domini specifici — ma la versione popolare “incompetenti non sanno di essere incompetenti” è un’estrapolazione.

2012 — Le basi neurali. Stephen Fleming (allora postdoc a UCL, oggi professor) e Raymond Dolan (1954-, neuroscienziato a UCL), in “The neural basis of metacognitive ability” (Philosophical Transactions of the Royal Society B 367:1338-1349), sintetizzano l’evidenza fMRI e da pazienti con lesioni: la anterior prefrontal cortex (Brodmann area 10, regione frontopolare) correla con metacognitive accuracy in compiti percettivi. Pazienti con lesioni in quest’area mostrano dissociazione: accuracy percettiva preservata, accuracy metacognitiva (capacità di discriminare proprie risposte corrette da sbagliate via confidence rating) compromessa.

2012 — Misurare la metacognizione: meta-d’. Brian Maniscalco (psicologo, allora a Columbia, ora a UC Irvine) e Hakwan Lau (1972-, neuroscienziato cinese-americano, allora a Columbia, ora a Hong Kong), in “A signal detection theoretic approach for estimating metacognitive sensitivity from confidence ratings” (Consciousness and Cognition 21:422-430), introducono meta-d’ (meta-d-prime): una misura di metacognitive sensitivity costruita sulla signal detection theory. Idea: dato il pattern di confidence rating di un soggetto, qual è il d’ (sensitivity nel discriminare segnale da rumore) di un osservatore ideale che produrrebbe quel pattern? Il rapporto meta-d’/d’ misura metacognitive efficiency: due soggetti con uguale accuracy possono avere meta-d’ molto diversi — uno è bravo a sapere quando sa, l’altro no.

2022 — L’eredità contemporanea (sidebar [DATATO 2026-04]). Saurav Kadavath e colleghi presso Anthropic, in “Language Models (Mostly) Know What They Know” (arXiv:2207.05221, 2022), portano il vocabolario calibration nel contesto LLM. Il titolo è un riferimento esplicito al feeling-of-knowing — anche se l’articolo non cita Hart 1965 o Nelson-Narens 1990. La filiazione del calibration in ML va a un’altra famiglia di letteratura: Glen Brier 1950, Allan Murphy 1973, e gli scoring rules statistici per la verifica meteorologica. Le due tradizioni convergono empiricamente — modelli grandi mostrano calibration parziale e hard-easy effect simili a quelli umani — ma sono lineage indipendenti. Si tornerà nella sezione “Eredità oggi”.

Timeline 1965-2022: Hart 1965 FOK, Brown-McNeill 1966 TOT, Flavell 1971 metamemory, Flavell 1979 metacognition, Brown 1987 regulation, Nelson-Narens 1990 framework, Kruger-Dunning 1999, Krueger-Mueller 2002 critique, Fleming-Dolan 2012 neural, Maniscalco-Lau 2012 meta-d', Kadavath 2022 LLM calibration

Una nota di pre-storia: gli antecedenti non riconosciuti

Il termine “metacognition” è di Flavell, ma l’idea ha precursori che la divulgazione ricostruisce raramente. Aristotele, in De Anima III.4, discute il problema dell’autoriflessività — l’intelletto che pensa sé stesso — e propone che l’intelletto attivo possa avere come oggetto le sue stesse operazioni. Tommaso d’Aquino riprende e articola in Summa Theologiae I, q. 87: l’anima conosce sé stessa “per actus”, attraverso le proprie operazioni, non per accesso diretto. È un anticipo concettuale del monitoring: la conoscenza di sé è inferenza dai propri atti, non lettura immediata.

Più vicino, William James in Principles of Psychology (1890, vol. 1, cap. X “The Consciousness of Self”) distingue lo Stream of thought dall’auto-osservazione che lo accompagna intermittentemente. James osserva — e qui è notevolmente moderno — che l’auto-osservazione è essa stessa parte dello stream, non un osservatore esterno: tentare di osservare un pensiero lo modifica, è come “girarsi di scatto per vedere l’oscurità prima che la luce arrivi”. L’osservazione anticipa il problema della faithfulness della introspection — che riemergerà nel 1977 con Nisbett e Wilson, e nel 2023 con Lanham et al. sui CoT degli LLM.

Lev Vygotsky (1896-1934, psicologo sovietico), in Thought and Language (postumo, 1934), propone che il monitoring metacognitivo emerga in larga parte come interiorizzazione del discorso esterno: il bambino prima viene corretto, regolato e guidato dagli adulti, poi pratica il “private speech” (parlare a sé stesso ad alta voce), infine internalizza in inner speech. È una genealogia sociale del control metacognitivo. La cornice di Vygotsky è influente nella tradizione applicata di Brown e Palincsar — il reciprocal teaching è esplicitamente un’esternalizzazione del monitoring secondo modello vygotskiano.

Questi antecedenti non figurano formalmente nel framework Nelson-Narens, ma collocano la metacognizione in una storia lunga della filosofia della mente. Per il lettore che viene da quella tradizione la psicologia del 1970-1990 può sembrare un’operazionalizzazione di problemi noti; per il lettore che viene da AI, la genealogia ricorda che il problema non è nato con i transformer.

L’intuizione: due angoli prima del formalismo

Prima della meccanica formale, due angoli per inquadrare il fenomeno. Il primo è fenomenologico: come si presenta la metacognizione dall’esperienza ordinaria. Il secondo è architetturale: come Nelson e Narens la modellano come loop di informazione.

Angolo 1: la cognizione che si sa cognizione

Provi quattro micro-esperimenti.

Primo. Le chiedo: qual era il nome del segretario alla difesa degli Stati Uniti durante la prima amministrazione Reagan? Probabilmente non lo sa. Ma noti la qualità del “non lo so”: è un “non lo so e non lo riconoscerei” oppure un “non lo so ma se mi desse alcune alternative lo riconoscerei”? Sono due stati mentali diversi. Il secondo è feeling-of-knowing positivo: c’è informazione in lei che sa che la risposta è raggiungibile, anche se il retrieval ora non riesce. (Era Caspar Weinberger.)

Secondo. Pensi al volto del suo professore di matematica delle scuole medie. Adesso provi a descriverlo a parole. Si accorgerà che, mentre il volto le è chiaro nella memoria visiva, la descrizione verbale è povera. Questa discrepanza è una metacognitive experience: lei sa che sa più di quanto possa dire.

Terzo. Le mostro il problema: una mazza e una palla costano 1.10 euro. La mazza costa 1 euro più della palla. Quanto costa la palla? La risposta “10 centesimi” si è formata in mezzo secondo. Adesso noti la qualità della confidence che l’accompagnava: era alta. Era ingiustificatamente alta. La metacognizione, in questo caso, ha fallito: il monitoring non ha sollevato la flag di incertezza che il problema richiedeva. Lo stesso pattern, su scala di popolazione, è il programma di Daniel Kahneman ed è documentato in dual-process-kahneman.

Quarto. Sta studiando per un esame. Ha letto una pagina due volte. Si chiede: la ricorderò domani? La sua predizione è un judgment of learning. Se la sua predizione è alta e domani non ricorda, la sua metacognizione era miscalibrata. Se è bassa e domani ricorda, era underconfident. Su una popolazione di item, la correlazione fra le sue predizioni e le sue prestazioni misura la sua metacognitive accuracy.

I quattro casi mostrano che la metacognizione non è una facoltà unitaria ma una famiglia di operazioni: monitoring del retrieval (TOT, FOK), monitoring della verbalizzabilità, monitoring della confidence di una risposta, predizione della prestazione futura. Tutte hanno la stessa struttura formale: un giudizio del soggetto sul proprio stato cognitivo, valutabile contro un ground-truth (la risposta corretta, la prestazione effettiva).

Angolo 2: il loop monitoring-control come architettura

Il secondo angolo è formale ed è quello di Nelson e Narens.

Immagini un sistema cognitivo a due piani. Al piano terra c’è l’object-level: i processi che fanno il lavoro — codificare un’esperienza, memorizzarla, recuperarla, produrla in output. Al primo piano c’è il meta-level: un sottosistema che ha come oggetto il piano terra. Tra i due piani circola informazione, ma in modo asimmetrico.

Dal piano terra al primo piano sale il monitoring: segnali sullo stato del processo. “Sto codificando bene questo item?” “Ce l’ho in memoria?” “Quanto sono sicuro della risposta che sto per dare?” Il meta-level riceve, e si fa un modello di cosa sta succedendo sotto.

Dal primo piano al piano terra scende il control: comandi che modificano il processo sottostante. “Continua a studiare.” “Smetti.” “Riprova con strategia diversa.” “Astieniti dal rispondere.” Il meta-level invia, e l’object-level si adatta.

Il punto cruciale è la separazione direzionale. Il monitoring osserva ma non agisce; il control agisce ma non osserva direttamente — agisce sulla base di ciò che il monitoring ha riportato. Le due funzioni sono concettualmente distinte, anche se nel cervello e nel comportamento si intrecciano.

Questa distinzione ha conseguenze. Un sistema con monitoring buono e control assente sa di non sapere ma non può fare nulla a riguardo (è il caso di certi pazienti afasici: si accorgono dell’errore mentre lo stanno facendo, ma non riescono a correggerlo). Un sistema con control buono e monitoring assente agisce ma senza segnale — interviene a caso o sempre o mai. Un sistema metacognitivo ben funzionante richiede entrambi, e la loro calibrazione reciproca: il control deve fidarsi del monitoring nella giusta misura. Troppo poco e il sistema è pigro (non studia neanche quando il monitoring segnala incertezza); troppo e il sistema è eccessivamente ansioso (continua a studiare quando il monitoring lo rassicura).

Nelson-Narens 1990 framework: object-level box at the bottom, meta-level box on top, monitoring arrow going up, control arrow going down

L’angolo architetturale rende esplicito perché la calibration è centrale: è la condizione di sanità dell’intero loop. Se il monitoring riporta sistematicamente confidence alta su risposte sbagliate, il control opererà su segnale corrotto. La metacognizione miscalibrata è peggio della metacognizione assente: dà l’illusione di sapere senza il sapere.

La meccanica

Apriamo nei pezzi seguenti: i tipi di giudizio metacognitivo con i loro paradigmi sperimentali; il formalismo della calibration; la misura meta-d’; le basi neurali.

Tipi di giudizio metacognitivo

Nel framework Nelson-Narens, ogni fase della memoria ha la sua coppia monitoring/control. Vediamo i giudizi più studiati.

Ease-of-Learning (EOL): predizione, prima di studiare, di quanto sarà facile imparare un item. Tipicamente meno accurato degli altri giudizi: lo studio non è ancora avvenuto, il monitoring deve basarsi su caratteristiche superficiali dell’item.

Judgment of Learning (JOL): predizione, dopo aver studiato un item, della probabilità di richiamarlo a un test successivo. Nelson e Dunlosky, in “When people’s judgments of learning (JOLs) are extremely accurate at predicting subsequent recall: The ‘delayed-JOL effect’” (Psychological Science 2:267-270, 1991), mostrano un fenomeno controintuitivo: il JOL immediato (subito dopo aver studiato) è meno accurato del JOL ritardato (dopo qualche minuto, prima del test). Il JOL immediato si appoggia troppo alla familiarità superficiale; il JOL ritardato deve fare affidamento su un retrieval reale dell’item, che è più diagnostico.

Feeling-of-Knowing (FOK): dopo un fallimento di richiamo, predizione che la risposta sarebbe riconosciuta tra alternative. Paradigma RJR già descritto.

Tip-of-the-Tongue (TOT): caso speciale di FOK in cui il soggetto ha la sensazione vivida di “imminenza” della risposta. Brown e McNeill 1966 mostrano che lo stato TOT è informato — produce informazione parziale sopra il caso (lettera iniziale, numero di sillabe).

Retrospective Confidence Judgment: dopo aver risposto, “quanto sei sicuro?”. Tipicamente espresso su scala numerica (es. 0-100) o categorica (sicuro/medio/incerto). È il giudizio metacognitivo più studiato in psicologia decisionale ed è quello che ha viaggiato in machine learning sotto il nome di calibration.

Source Monitoring: identificazione della fonte di un ricordo. Marcia Johnson (1943-, psicologa a Yale), Shahin Hashtroudi e Stephen Lindsay, in “Source monitoring” (Psychological Bulletin 114:3-28, 1993), distinguono internal source monitoring (l’ho pensato vs l’ho immaginato) da external (l’ho letto vs l’ho sentito). Errori di source monitoring sottendono fenomeni clinici importanti — false memory, misinformation effect — e i pattern di errore correlano con strutture mediotemporali e prefrontali. Il framework di Johnson articola criteri specifici di discriminazione: i ricordi di esperienze esterne tendono ad avere più dettaglio percettivo (visivo, uditivo, spaziale), più informazione contestuale (quando, dove, con chi), meno tracce di processo cognitivo (quanto si è dovuto pensare per produrlo). Le decisioni di source attribution si basano sul matching parziale tra il pattern di caratteristiche del ricordo presente e i prototipi di ricordi-da-fonte-X. Il monitoring è quindi un’inferenza, non una lettura diretta di una “etichetta di fonte” allegata al ricordo.

Reality Monitoring: caso speciale di source monitoring, distinguere ricordo di esperienza percettiva reale da ricordo di immaginazione. È il sottosistema il cui malfunzionamento si riscontra in alcuni disturbi clinici (allucinazioni, false memory). Studi di Kelley e Jacoby (1990) sull’illusione di familiarità — esposizione subliminale a un nome aumenta la sensazione che il nome appartenga a una persona famosa — mostrano che reality monitoring opera anche su giudizi non strettamente di “ricordo”: qualunque sensazione di familiarità è suscettibile di mis-attribution.

Cue familiarity vs accessibility-based heuristics: Asher Koriat (1942-, psicologo cognitivo a University of Haifa), in “How do we know that we know? The accessibility model of the feeling of knowing” (Psychological Review 100:609-639, 1993), propone una decomposizione meccanica del FOK. Due segnali distinti contribuiscono al giudizio: la familiarità del cue (la domanda — quanto è familiare?), che produce un FOK rapido e basato su pattern matching superficiale; e l’accessibilità parziale dell’informazione target (quanti frammenti — lettera iniziale, numero di sillabe, parole correlate — il sistema riesce a produrre), che produce un FOK più lento e diagnostico. La distinzione spiega un puzzle: i FOK ad alta familiarità del cue ma bassa accessibilità sono spesso sbagliati (“illusione di sapere”); i FOK a bassa familiarità ma alta accessibilità sono affidabili. La metacognizione non è un sensore unico ma un’aggregazione di segnali eterogenei, alcuni più diagnostici di altri.

Il formalismo della calibration

La calibration di un giudizio probabilistico (non solo metacognitivo: anche meteorologico, medico, attuariale) si misura come segue. Considerate una serie di N giudizi con confidence assegnata c_1, ..., c_N e ground-truth y_1, ..., y_N (binario: 1 se corretto, 0 altrimenti).

Si raggruppano i giudizi in bin di confidence (es. 10 bin di ampiezza 0.1). Per ciascun bin si calcola la confidence media c_bar_k e l’accuracy media a_k = (numero corretti nel bin) / (numero giudizi nel bin).

Calibrazione perfetta: a_k = c_bar_k per ogni bin. La curva di calibration giace sulla diagonale.

Overconfidence: c_bar_k > a_k (confidence eccede accuracy). La curva sta sotto la diagonale.

Underconfidence: c_bar_k < a_k. La curva sta sopra la diagonale.

Expected Calibration Error (ECE): media pesata della deviazione |c_bar_k - a_k| sui bin. È una misura riassuntiva.

Brier score: (1/N) Σ (c_i - y_i)². Glen Brier (1913-1998, meteorologo americano), in “Verification of forecasts expressed in terms of probability” (Monthly Weather Review 78:1-3, 1950), introduce questo proper scoring rule per la verifica delle previsioni meteorologiche probabilistiche. Allan Murphy (1931-1997, statistico-meteorologo), in “A new vector partition of the probability score” (Journal of Applied Meteorology 12:595-600, 1973), decompone il Brier score in tre componenti additive: reliability (quanto la calibration è perfetta), resolution (quanto le predizioni discriminano), uncertainty (varianza intrinseca del task). Resolution è il complemento di reliability: anche un soggetto perfettamente miscalibrato in media può avere alta resolution, cioè ordinare correttamente i propri giudizi più sicuri sopra i meno sicuri. Sono proprietà ortogonali.

Calibration plot: x-axis predicted confidence, y-axis actual accuracy, diagonal "perfect calibration" line, three curves illustrating overconfident, underconfident, and well-calibrated profiles

La dissociazione resolution / reliability

Vale la pena enfatizzare la distinzione tra reliability e resolution una volta in più, perché è uno dei punti che i lettori non statistici trovano più facili da fraintendere.

Reliability misura quanto bene la confidence dichiarata corrisponde all’accuracy effettiva, in valore assoluto. Resolution misura quanto bene la confidence ordina i giudizi: i più confidenti sono effettivamente più spesso corretti dei meno confidenti?

Le due proprietà sono ortogonali. Un soggetto che dichiara sempre 0.7 di confidence, ma è corretto sempre al 70%, ha reliability perfetta e resolution zero (le sue risposte non sono ordinate). Un soggetto che ordina perfettamente le risposte (le confidenti sono sempre giuste, le incerte sempre sbagliate) ma è sempre 0.3 punti sopra l’accuracy reale ha resolution massima e reliability cattiva. La prima è “pigra ma giusta in media”, la seconda è “discriminante ma overconfident”.

In pratica, la resolution è in molti casi la proprietà operativamente più utile: per un sistema che decide cosa accettare e cosa rifiutare, sapere ordinare i giudizi è più importante che azzeccare il valore assoluto della confidence. La reliability si può recuperare con calibrazione post-hoc (Platt scaling, isotonic regression) se la resolution c’è. Senza resolution, nessuna calibrazione recupera nulla.

Allocation di study-time come control

Un esempio operazionale di control metacognitivo è la study-time allocation. Nelson e collaboratori, in una serie di studi (Nelson e Leonesio 1988, Journal of Experimental Psychology: Learning, Memory, and Cognition 14:676-686), studiano come i soggetti allocano tempo di studio tra item di difficoltà diversa. Pattern documentato: i soggetti tendono a dedicare più tempo agli item che giudicano più difficili (correlazione negativa tra JOL immediato e tempo di studio successivo). Pattern coerente con un control razionale: dove il monitoring segnala che si sta meno preparati, si investe di più.

Esistono però condizioni in cui il pattern si rovescia: sotto pressione di tempo, o quando gli item facili producono reward immediato di apprendimento, i soggetti allocano paradossalmente più tempo agli item facili — il labor-in-vain effect (gli sforzi su item troppo difficili producono pochi guadagni, e il sistema li abbandona). Janet Metcalfe (1953-, psicologa cognitiva a Columbia) e Nate Kornell formalizzano questo trade-off in termini di region of proximal learning: il control ottimale alloca tempo agli item che sono al margine della propria zona di apprendibilità, non a quelli troppo facili (saturati) né troppo difficili (impossibili). È un’analogia interessante con il principio della curriculum learning in machine learning, anche se la genealogia non è documentata.

Un esempio numerico di calibration

Per fissare il formalismo, consideri un soggetto che risponde a 100 domande, ciascuna con confidence dichiarata. Raggruppiamo in 5 bin di confidence ed elenchiamo accuracy:

Bin confidence	N giudizi	c_bar	accuracy a_k	gap
[0.0-0.2]	10	0.10	0.20	-0.10 (under)
[0.2-0.4]	15	0.30	0.27	+0.03 (lieve over)
[0.4-0.6]	25	0.50	0.40	+0.10 (over)
[0.6-0.8]	30	0.70	0.50	+0.20 (over)
[0.8-1.0]	20	0.90	0.65	+0.25 (over)

Pattern tipico: leggera underconfidence sui giudizi più bassi, overconfidence crescente sui più alti. ECE pesato sul N: (10·0.10 + 15·0.03 + 25·0.10 + 30·0.20 + 20·0.25) / 100 = 0.156. Brier score: si calcola item per item, ma in questo caso aggregato è circa 0.21. Confronto con un baseline che predice sempre la accuracy media (0.41): Brier baseline ≈ 0.24. Il soggetto è leggermente migliore del baseline (positiva resolution) ma significativamente miscalibrato (alta reliability error).

Questo pattern numerico — leggera underconfidence in basso, overconfidence in alto, gap massimo nelle code — è quello che la letteratura chiama “S-shape” della curva di calibration empirica, e ricorre con pochi cambi qualitativi attraverso popolazioni umane molto diverse e attraverso modelli LLM di varie dimensioni. È un’altra delle convergenze empiriche tra le due tradizioni.

Hard-easy effect

Sarah Lichtenstein, Baruch Fischhoff e Lawrence Phillips, in “Calibration of probabilities: The state of the art to 1980” (in Judgment under Uncertainty: Heuristics and Biases, eds. Kahneman, Slovic, Tversky, Cambridge University Press 1982), sintetizzano vent’anni di studi su calibration umana e identificano un pattern robusto: il hard-easy effect. Su task facili (alta accuracy media) i giudizi tendono alla calibration o al lieve underconfidence. Su task difficili (bassa accuracy media) i giudizi sono significativamente overconfident. La differenza c_bar - a può raggiungere 0.2 o 0.3 su task molto difficili. Spiegazioni proposte: Sarah Lichtenstein (psicologa decisionale, Decision Research) e colleghi propongono che i giudizi di confidence siano ancorati a una credenza prior di “essere mediamente bravo”, e che la difficoltà del task non sia adeguatamente integrata nella confidence.

Meta-d’

La misura meta-d' di Maniscalco e Lau (2012) richiede un setup specifico. Il soggetto fa un compito a due alternative forzate (es. “lo stimolo era a sinistra o a destra?”) e per ogni risposta dà un confidence rating (es. da 1 a 4).

Da questi dati si calcolano due quantità:

d' (sensitivity standard di signal detection theory): quanto bene il soggetto discrimina i due stimoli. Stima la separazione tra le distribuzioni di evidenza interna per i due tipi di stimolo, in unità di deviazione standard.
meta-d' (sensitivity metacognitiva): il d' che un osservatore ideale dovrebbe avere per produrre il pattern di confidence rating osservato, supponendo che il soggetto usi optimally l’evidenza interna per i confidence rating. Si calcola con maximum likelihood applicando la SDT al pattern di confidence rating.

Il rapporto meta-d' / d' è la metacognitive efficiency. Se è 1, il soggetto sta usando tutta l’evidenza percettiva disponibile per i confidence rating (metacognizione ottimale rispetto all’object-level). Se è < 1, il soggetto sta perdendo informazione nel passaggio object → meta. Se è > 1 (raro), il soggetto sta usando informazione aggiuntiva nei confidence rating che non usa nella decisione di base — caso interessante ma sospetto sperimentalmente.

L’innovazione di meta-d’ è di essere indipendente dalla performance di base: due soggetti con d’ molto diversi possono essere confrontati su metacognitive efficiency, perché meta-d’/d’ è normalizzato.

Metacognizione fuori dalla memoria: problem-solving

Il framework Nelson-Narens nasce per la metamemoria, ma è generalizzato a problem-solving e reasoning. Janet Metcalfe e Arthur Wiebe, in “Intuition in insight and noninsight problem solving” (Memory & Cognition 15:238-246, 1987), studiano un fenomeno specifico: nei problemi di insight (problemi che si risolvono con un riarrangiamento improvviso della rappresentazione, non con calcolo step-by-step), il monitoring fallisce sistematicamente. I soggetti, ogni 15 secondi, danno un giudizio “warmth” (quanto si sentono vicini alla soluzione). Per problemi non-insight (algebra, calcolo) il warmth cresce gradualmente prima della soluzione — il monitoring traccia il progresso. Per problemi insight il warmth resta basso fino al momento esatto della soluzione, che arriva improvvisa. La metacognizione, quindi, è ben adattata al ragionamento incrementale e mal adattata al ragionamento insight-based.

Implicazione: la metacognizione non è un sensore universale di “stato cognitivo”. È sensibile a certi processi (graduali, retrievable) e cieca ad altri (improvvisi, ricostruttivi). Per chi traduce in AI: i sistemi che producono “thinking trace” sono naturalmente bias verso il primo tipo di problema, e potrebbero essere strutturalmente meno adatti a generare insight nel senso forte. È una questione aperta nella ricerca del 2026.

Una connessione metodologica importante è con la tradizione del think-aloud protocol di K. Anders Ericsson (1947-2020, psicologo cognitivo a Florida State University) e Herbert Simon, in Protocol Analysis: Verbal Reports as Data (MIT Press 1984). Ericsson e Simon distinguono tra concurrent verbalization (parlare ad alta voce mentre si svolge il compito) e retrospective verbalization (raccontare dopo). La prima è considerata più affidabile: la verbalizzazione concorrente di pensieri che sono già nel formato verbale interno non altera molto il processo; la retrospective passa per un retrieval che può aggiungere razionalizzazione. La distinzione ha analogia diretta con la differenza, in LLM, tra inserire reasoning tokens nel flusso di output (concurrent) e chiedere al modello, dopo aver dato la risposta, di spiegare come ci è arrivato (retrospective). La seconda è notoriamente più suscettibile di confabulazione, in entrambi i sistemi.

Basi neurali

Tre regioni emergono dalla letteratura neurofisiologica.

Anterior prefrontal cortex (aPFC, area 10 di Brodmann): regione frontopolare. Studi fMRI (Fleming, Weil, Nagy, Dolan, Rees 2010, Science 329:1541-1543) mostrano che il volume di materia grigia in aPFC correla con metacognitive accuracy in compiti percettivi tra individui sani. Pazienti con lesioni focali in aPFC (Fleming et al. 2014) mostrano dissociazione: accuracy percettiva preservata, metacognitive accuracy significativamente compromessa. È evidenza di necessità funzionale.

Dorsolateral prefrontal cortex (dlPFC): implicato nella regulation più che nel monitoring. Allocazione di risorse cognitive, decisioni di control (es. quanto a lungo studiare).

Anterior cingulate cortex (ACC): conflict monitoring ed error detection. Quando si commette un errore, l’ACC genera un segnale (error-related negativity, ERN) entro 100 ms — più rapido della consapevolezza esplicita. È un segnale di monitoring di basso livello che alimenta il sistema metacognitivo.

La distinzione meta-/object-level di Nelson-Narens trova un correlato neuroanatomico parziale: l’aPFC sta sopra (più anteriore, più astratta) le aree sensoriali e motorie object-level. Non è una mappatura perfetta — il cervello non rispetta gerarchie pulite — ma è la migliore approssimazione disponibile.

Esempi

Esempio 1: il paradigma FOK di Hart 1965

Hart presenta a un soggetto 25 domande di cultura generale (“Qual è la capitale dello Sri Lanka?”). Per ogni domanda il soggetto può rispondere o dire “non so”. Per le domande “non so” Hart chiede: “Su una scala da 1 a 6, quanto sei sicuro che riconosceresti la risposta tra quattro alternative?”. Poi presenta multiple-choice con 4 alternative.

Risultato del paradigma: la frazione di domande con FOK alto (5-6) che vengono risolte correttamente al recognition test è significativamente più alta della frazione di domande con FOK basso (1-2). Gamma correlation tipica: 0.5-0.6. Il soggetto sa di sapere anche quando non riesce a richiamare. È un effetto piccolo ma robusto, replicato centinaia di volte.

Implicazione meccanica: il monitoring metacognitivo accede a informazione che il retrieval non riesce a estrarre come output esplicito. Una possibile spiegazione (Koriat 1993, Psychological Review 100:609-639): la FOK si basa sulla familiarità del cue (la domanda) e sulla accessibilità parziale dell’informazione target, non sul retrieval del target. L’aspetto chiave è che FOK e retrieval sono parzialmente disaccoppiati.

Variazioni del paradigma irrobustiscono il risultato. Se al soggetto si offre del tempo aggiuntivo dopo il fallimento di richiamo iniziale, prima del giudizio FOK, l’accuratezza del FOK aumenta — segno che il monitoring continua a operare anche dopo il fallimento manifesto. Se invece si introduce un riempitivo distrattore tra fallimento e FOK, l’accuratezza scende. Il monitoring richiede che lo stato di processing relativo all’item sia ancora accessibile. Variazioni cross-linguistiche (Schwartz e Smith 1997 confrontano inglese e italiano) mostrano che lo stato TOT è universale, ma la fenomenologia varia: in italiano il “ce l’ho sulla punta della lingua” preserva la metafora corporea che non tutte le lingue hanno.

Esempio 2: Kruger-Dunning 1999, lo studio sulla grammatica

Studio 4 di Kruger e Dunning. Sessantacinque studenti di Cornell completano un test di grammatica inglese (20 domande, criteri standard di prescriptive grammar). Dopo il test, ciascuno stima il proprio percentile di prestazione (in confronto agli altri partecipanti) sia in termini di abilità grammaticale generale, sia in termini di percentile sul test specifico.

Risultati per quartile:

Quartile reale	Test percentile reale	Self-estimate ability	Self-estimate test
Bottom (1°)	10°	67°	61°
2°	32°	70°	60°
3°	62°	76°	71°
Top (4°)	89°	79°	75°

Pattern: il bottom quartile sovrastima drasticamente (gap di 50 punti percentili tra realtà e stima); il top quartile sottostima leggermente.

Interpretazione di Kruger e Dunning: l’abilità di valutare la propria performance richiede la stessa metaconoscenza che produce la performance. Chi non sa la grammatica non ha gli strumenti per riconoscere i propri errori grammaticali. È un loop di insufficienza simmetrica — incompetenza più ignoranza dell’incompetenza.

Caveat (Krueger-Mueller 2002): il pattern bottom-quartile-sovrastima emerge in parte da regression to the mean. Chi ha performato male per fluttuazione (rumore) ha self-estimate meno influenzato dal rumore di prestazione, quindi appare relativamente alto in confronto. Better-than-average heuristic spinge tutte le stime verso 50°+. Edge effect impedisce a chi è al pavimento di stimarsi al pavimento. Studi successivi con design controllati (Burson, Larrick, Klayman 2006) mostrano che l’effetto residuo, controllato per artefatti, è più piccolo dell’originale ma esiste in domini specifici.

Esempio 3: Kadavath 2022, calibration in LLM (sidebar `[DATATO 2026-04]`)

[DATATO 2026-04] Saurav Kadavath e colleghi presso Anthropic, in “Language Models (Mostly) Know What They Know” (arXiv:2207.05221, 2022), testano la calibration di una famiglia di modelli linguistici tra 800M e 52B parametri su task multiple-choice (MMLU di Dan Hendrycks et al. 2021, BIG-Bench, TriviaQA). Per ogni domanda il modello produce una distribuzione su token di risposta; la confidence è la probabilità che il modello assegna alla risposta scelta.

Risultato principale: per modelli grandi (>10B parametri) la calibration su MMLU è ragionevole. La curva confidence-accuracy si avvicina alla diagonale per task in-distribution. Hard-easy effect è presente: su task difficili (categorie MMLU con accuracy media bassa) la curva si allontana dalla diagonale verso overconfidence.

Esperimento “P(IK)”: il modello viene chiesto di predire la probabilità di sapere la risposta a una domanda prima di tentarla. Modelli grandi sono moderatamente bravi a predirla (Brier score significativamente migliore del baseline). È un’analogia funzionale del feeling-of-knowing.

Effetto RLHF: il fine-tuning con preference learning (RLHF) degrada la calibration. I modelli post-RLHF tendono a produrre confidence più alta, soprattutto su task difficili — appiattiscono la distribuzione di confidence verso valori alti. È un trade-off tra fluency/utilità percepita e calibration.

Schematic calibration plot Kadavath 2022 style: pretrained model curve close to diagonal, RLHF-tuned model curve sharply below diagonal at high confidence

Filiazione: l’articolo non cita Hart 1965, Nelson-Narens 1990, o Flavell 1979. Cita Brier 1950, Murphy 1973 (proper scoring rules), e la letteratura recente di calibration in deep learning (Guo et al. 2017 “On Calibration of Modern Neural Networks”). La convergenza empirica con la psicologia metacognitiva è interessante ma è proprio convergenza, non discendenza. Il calibration in ML viene da statistical learning theory e da meteorological forecasting, non dalla psicologia.

Aspetti del setup di Kadavath che meritano nota tecnica. Primo: la confidence è estratta come probabilità del token di risposta, normalizzata sulle alternative. Non è la probabilità soggettiva del modello — è la statistica di output del decoding — anche se per multiple-choice ben formati le due tendono a coincidere. Secondo: la calibration è valutata su distribuzioni di task (MMLU sub-categories) eterogenee per difficoltà, e l’aggregazione finale può mascherare miscalibrazioni locali. Terzo: il fenomeno P(IK), in cui il modello predice se conoscerà la risposta prima di provare, è testato in formato testuale (“would you correctly answer the following question? respond YES or NO”) e la distribuzione di probabilità su YES/NO è la P(IK). Su modelli grandi la calibration di P(IK) è meno buona della calibration sulla risposta diretta — il modello è meno bravo a predire il proprio sapere di quanto sia bravo a sapere — ma è significativamente meglio del caso. È un’analogia funzionale del FOK in dominio multiple-choice. La distanza dal FOK umano è tuttavia non triviale: nell’umano il FOK è preceduto da un retrieval falito (lo stato cognitivo da cui parte è “ho provato e non c’è”); nel modello il P(IK) è chiesto cold (senza tentativo precedente). Le due procedure operano su stati diversi del sistema.

Metacognizione sociale e collettiva

Un’estensione del framework, meno tematizzata nei manuali ma rilevante, è la metacognizione sociale: il monitoring di ciò che gli altri sanno (o credono che noi sappiamo). Bahador Bahrami e colleghi (UCL), in “Optimally interacting minds” (Science 329:1081-1085, 2010), studiano coppie di soggetti che fanno un task percettivo individualmente e poi devono concordare una risposta congiunta. Il dato: la coppia performa meglio del migliore dei due singoli solo se entrambi comunicano la propria confidence in modo accurato. Se uno sovrastima sistematicamente la propria confidence, la coppia performa peggio del migliore singolo. La metacognitive accuracy individuale è un prerequisito di razionalità collettiva.

Implicazione per multi-agent systems: quando si compongono più agenti LLM in una pipeline (orchestrator + workers, debate framework, multi-agent reasoning) la calibration dei singoli agenti è amplificata o smorzata dal protocollo. Sistemi che pesano gli output per confidence dichiarata richiedono che la confidence sia veridica; sistemi che usano voting maggioritario richiedono diversità ma sono robusti a miscalibrazioni individuali. La connessione formale tra metacognizione individuale e razionalità collettiva è uno dei territori dove la letteratura psicologica e quella AI stanno cominciando a parlarsi (capitolo ponte-tom-multi-agent, in preparazione).

Variabili individuali e differenze stabili

La metacognitive efficiency varia tra individui in modo stabile e parzialmente trait-like. Stephen Fleming e Hakwan Lau (2014, Frontiers in Human Neuroscience 8:443) sintetizzano: le differenze individuali in meta-d’/d’ sono replicabili tra sessioni e dominio-parzialmente-generali (chi è metacognitivamente accurato in un dominio percettivo lo è anche, in misura ridotta, in un dominio mnestico). Le correlazioni con QI fluido sono modeste; le correlazioni con apertura mentale e mindfulness sono presenti ma piccole. Il pattern suggerisce un costrutto specifico, non riducibile a intelligenza generale.

Su un asse diverso, le differenze culturali e di età. Studi cross-culturali (Heine et al. 1999, Psychological Review 106:766-794) mostrano che pattern di overconfidence/underconfidence variano tra culture: i campioni nordamericani tendono a maggiore overconfidence nei self-assessment, i campioni est-asiatici a maggiore underconfidence. La differenza non è artefatto: replica controllando per task e procedura. È coerente con la letteratura su self-enhancement e self-criticism come orientamenti culturali distinti.

Per i confronti tra patologie e controlli, la letteratura clinica ha documentato pattern specifici. Nei pazienti con disturbo bipolare in fase maniacale, la calibration sui propri giudizi è significativamente overconfident; in fase depressiva, underconfident. Nei pazienti con OCD, la metacognitive efficiency è preservata in compiti percettivi ma il “trust” del proprio monitoring è compromesso — il soggetto ha bisogno di verifiche ripetute anche quando il monitoring stesso indica certezza. Sono dissociazioni interessanti perché mostrano che monitoring, control, e fiducia nel monitoring sono componenti separabili.

Per l’età, anziani sani mostrano declino specifico in source monitoring (più false memory in compiti di recognition con distractor semanticamente correlati) ma calibration in compiti decisionali è preservata. È un’evidenza che la metacognizione non è una facoltà unitaria che declina monoliticamente, ma una famiglia di sottocomponenti con traiettorie evolutive distinte.

Applicazioni pratiche

Alcune applicazioni della metacognizione fuori dal laboratorio.

Educazione: il programma di reciprocal teaching di Brown (1984), già menzionato, esternalizza il monitoring del reading. Studenti con difficoltà di comprensione vengono addestrati a fermarsi periodicamente e produrre quattro mosse — predire, chiarire, riassumere, formulare domande — finché diventano automatiche. Studi longitudinali di Brown e Palincsar (1989) mostrano gain di comprehension robusti. La logica è: se il monitoring non emerge spontaneamente, può essere imparato come abitudine procedurale.

Clinica: deficit metacognitivi sono documentati in diverse condizioni psichiatriche e neurologiche. Anosognosia (mancato riconoscimento del proprio deficit) in pazienti con stroke. Confabulazione in alcune sindromi amnesiche (Korsakoff). Source monitoring difettoso in schizofrenia (interpretato in alcune teorie come substrato di allucinazioni: il soggetto attribuisce a fonte esterna pensieri auto-generati). Disturbi metacognitivi in OCD (ipermonitoring patologico — il soggetto non si fida del proprio monitoring, controlla ripetutamente).

Decisione professionale: medici, giudici, finanzieri operano sotto incertezza e producono giudizi probabilistici. La calibration dei loro giudizi è studiata estensivamente. Phil Tetlock (1954-, psicologo politico a Penn), nel programma Good Judgment Project, ha mostrato che la calibration in forecasting geopolitico migliora con training esplicito sui pattern di overconfidence — è una skill apprendibile.

Self-assessment in apprendimento: studenti universitari mostrano regolarmente miscalibrazione nelle loro predizioni di voto agli esami. Studi di John Dunlosky e Janet Metcalfe (manuale Metacognition, Sage 2009) suggeriscono che la calibration migliora con feedback e con strategie di studio che includono retrieval practice (testarsi periodicamente). La fluency illusion — la sensazione di “capire” mentre si rilegge un testo, dovuta alla familiarità superficiale piuttosto che a comprensione profonda — è uno dei pattern più documentati di mis-monitoring in studenti, e produce sotto-allocazione di tempo agli item che il monitoring scambia per facili.

Forecasting professionale e training di calibration: il programma Good Judgment Project di Phil Tetlock e Barbara Mellers, descritto in Tetlock e Gardner Superforecasting (Crown 2015), ha mostrato che con training mirato — feedback su calibration, awareness dei propri pattern di overconfidence, scomposizione di domande complesse, ricerca attiva di evidenza disconfermante — la calibration in forecasting geopolitico migliora in modo sostanziale e duraturo. Il dato suggerisce che la metacognizione non è un trait fisso ma una skill plastica, anche in adulti. Implicazione metodologica: un benchmark di calibration su LLM va interpretato come misura di un punto, non di un limite — analogo agli umani, è plausibile (anche se non garantito) che training mirato possa migliorare la calibration di un modello mantenendo le altre proprietà. Resta da vedere empiricamente.

AI safety e calibration come obiettivo operativo: nei sistemi AI in produzione la calibration è entrata come obiettivo di engineering con motivazioni di safety. Un sistema medico-decisionale che dice “70% chance di malattia X” deve essere accuratamente calibrato per essere utile a un medico nel calcolo del trade-off costo/beneficio dell’esame ulteriore. Un sistema di codice che genera completamenti deve riconoscere quando la sua confidence è bassa per non guidare lo sviluppatore verso errori subtili. Le linee guida di OECD AI Principles 2019 e successive (es. EU AI Act 2024) menzionano “transparency and reliability” che includono, anche se senza tecnicismi, requisiti di tipo calibration. La metacognizione come ideale ingegneristico — un sistema che sa quando sa e quando no — è una traiettoria di safety distinta da altre (interpretability, alignment) e parzialmente complementare.

Eredità oggi: metacognizione e LLM (sidebar `[DATATO 2026-04]`)

[DATATO 2026-04] Quanto della metacognizione umana ha eredi funzionali nei sistemi LLM 2022-2026? Il bilancio è asimmetrico: alcune proprietà di calibration e self-knowledge sono empiricamente presenti in modo non banale; il control metacognitivo è in gran parte assente; le equivalenze “sistemiche” (i modelli “hanno” metacognizione) sono fuorvianti. Proviamo a separare.

Calibration. Documentata in modelli grandi (Kadavath 2022, Lin-Hilton-Evans TruthfulQA 2022, Tian et al. 2023 verbalized confidence). L’hard-easy effect emerge: su task in-distribution facili la calibration è ragionevole, su task difficili si va overconfident. Il pattern è qualitativamente simile a quello umano. Classificazione: analogia funzionale, filiazione storica assente. La filiazione di calibration in ML va a Brier 1950 e a proper scoring rules; la convergenza con la psicologia metacognitiva è empirica, non genealogica.

Astensione (refuse-to-answer). Yin et al. 2023 (“Do Large Language Models Know What They Don’t Know?”) testano modelli su domande senza risposta: modelli post-RLHF tendono a rispondere comunque, con confidence inappropriata. Tian et al. 2023 mostrano che chiedere verbalmente al modello di esprimere confidence (“rispondi tra 0 e 100”) produce calibration migliore della logit-based per modelli RLHF. È una forma debole di control metacognitivo: il modello può dire “non lo so” se istruito a farlo. Non è control autonomo: il modello non decide di astenersi sulla base di un monitoring interno; segue istruzioni di astensione fornite nel prompt o nel training.

Latent knowledge. Collin Burns, Haotian Ye, Dan Klein, Jacob Steinhardt, “Discovering Latent Knowledge in Language Models Without Supervision” (ICLR 2023), propongono il metodo CCS (Contrast-Consistent Search): trovare direzioni nello spazio delle attivazioni che codificano “verità” indipendentemente dall’output verbalizzato. Suggerisce che il modello “sa” più di ciò che “dice”. Disputato (Levinstein-Herrmann 2023 ribattono che CCS è underspecified). Se valido, è analogia con il TOT/FOK umano: informazione presente che il pipeline output non estrae. Classificazione: ipotesi empirica con evidenza preliminare e contestata.

Faithful chain-of-thought. Tamera Lanham et al. (Anthropic, 2023), trattato in ponte-s1-s2-llm, mostrano che manipolazione del CoT non sempre cambia la risposta finale — la traccia testuale è in molti casi rationalization post-hoc, non riflesso del calcolo interno. Implicazione metacognitiva forte: il modello non ha self-knowledge robusto sul proprio processo di reasoning. Quello che dice di pensare non è necessariamente quello che ha pensato.

Sycophancy come anti-metacognizione. Mrinank Sharma et al. (Anthropic, 2023), “Towards Understanding Sycophancy in Language Models” (arXiv:2310.13548): modelli RLHF concordano con l’utente anche quando l’utente è sbagliato, e cambiano risposta sotto pressione retorica. È un fallimento di self-monitoring: il modello adatta la confidence al desiderio espresso dall’utente invece che alla propria evidenza interna. È, funzionalmente, l’opposto del monitoring metacognitivo robusto.

Constitutional AI e training di abstention. Yuntao Bai e colleghi (Anthropic 2022), “Constitutional AI: Harmlessness from AI Feedback” (arXiv:2212.08073), propongono un metodo di training in cui un modello critica e revisa i propri output secondo una “costituzione” — set di principi testuali. È un tentativo di esternalizzare il control metacognitivo in forma di prompting strutturato: il modello applica regole a sé stesso. Funzionalmente è ancora autoregressione condizionata su criteri, non un meta-livello che monitora un object-level. Ma è la mossa più vicina a un control architetturalmente esplicito disponibile al 2026, e riduce alcuni pattern problematici (sycophancy specifico, certe forme di overconfidence) sui benchmark misurati.

Inner monologue di lunghezza variabile. I reasoning model con thinking budget (Claude extended thinking, o3, R1) producono trace di lunghezza diversa a seconda del task. L’allocazione del budget è in parte autonoma (il modello decide quando fermarsi sulla base di un token speciale di stop addestrato) e in parte esterna (il harness impone limiti). È la più vicina approssimazione esistente di un control metacognitivo dinamico — il modello “pensa di più” su task difficili — ma anche qui il meccanismo è autoregressione su trace addestrate via RL, non monitoring di un object-level distinto. Studi empirici (Snell et al. 2024 sul test-time scaling) suggeriscono che la correlazione tra difficoltà del task e lunghezza ottimale della trace è imperfetta: i modelli a volte spendono molti token su task facili (overthinking) e poco su task difficili (underthinking) — pattern di mis-allocation di control che ha analogia con il labor-in-vain effect umano, anche se le cause meccaniche sono diverse.

Reasoning model e self-reflection. I modelli reasoning del 2024-2026 (o1, DeepSeek-R1, Claude thinking) producono trace che contengono linguaggio metacognitivo: “let me reconsider”, “wait, that doesn’t seem right”, “let me check this”. È metacognizione? Solo nel senso debole di analogia funzionale. Meccanicamente è autoregressione su trace addestrate via RL a contenere quel linguaggio quando porta a risposte verificate corrette. Non c’è un meta-livello che monitora un object-level — c’è un singolo loop autoregressivo che, alle volte, emette token che esprimono dubbio e poi token che riprendono il filo. Il “meta” è solo retorica del testo generato.

Control assente. La differenza più nitida tra metacognizione umana (Nelson-Narens) e proprietà LLM è il control. Negli umani il meta-level può modificare l’attività cognitiva: continuare a studiare, switchare strategia, fermarsi. Negli LLM, il “thinking budget” è esterno: deciso dal harness (numero massimo di token), dal training (RL ha addestrato il modello a produrre lunghe trace), dall’utente (modalità extended thinking on/off). Il modello non decide autonomamente “questo problema richiede più tempo, mi fermo a riflettere ancora cinque secondi”. Il decision è preso fuori dal modello. La metacognitive control rimane in larga parte esterna.

Dove si rompe

Cinque punti in cui la teoria della metacognizione, o le sue traduzioni in AI, si rompono o vanno trattate con cura.

Dunning-Kruger come artefatto

Krueger e Mueller 2002 hanno mostrato che l’effetto Dunning-Kruger originale, presentato come “i meno competenti sono meno consapevoli della propria incompetenza”, contiene componenti statistiche non triviali: regression to the mean, better-than-average heuristic, edge effect ai pavimenti e ai soffitti. Edward Nuhfer e colleghi (Numeracy 2017) replicano la critica con simulazioni dettagliate. L’effetto residuo, controllando questi artefatti, esiste ma è ridotto. La forma popolare “incompetenti non sanno di essere incompetenti”, veicolata dai media, è una semplificazione di una regolarità statistica articolata. Questo è importante per chi cita Dunning-Kruger come “evidence” in argomenti su intelligenza, calibration, o expertise: la citazione richiede cautela.

Lo sviluppo della metacognizione: riferimento e cautele

La traiettoria evolutiva della metacognizione esplicita è ben documentata. Heinz Wimmer (1942-, psicologo dello sviluppo a Salisburgo) e Josef Perner (1948-, psicologo dello sviluppo a Salisburgo), in “Beliefs about beliefs: Representation and constraining function of wrong beliefs in young children’s understanding of deception” (Cognition 13:103-128, 1983), introducono il false-belief task — la “Sally-Anne task”: Sally mette una palla in un cestino ed esce; Anne sposta la palla in un’altra scatola; Sally rientra: dove cercherà la palla? La maggioranza dei bambini di 3-4 anni dice “nella scatola” (dove la palla è veramente). I bambini di 5-6 anni dicono “nel cestino” (dove Sally pensa che sia). Il salto è interpretato come l’emergere della theory of mind — la capacità di rappresentare stati mentali (credenze, desideri) come distinti dalla realtà e potenzialmente sbagliati. Theory of mind è precondizione di metacognizione esplicita: per pensare ai propri pensieri come potenzialmente errati, serve la rappresentazione di “credenza falsa” come categoria. Approfondito nel capitolo theory-of-mind (in preparazione).

Wolfgang Schneider (psicologo a University of Würzburg) e Michael Pressley (1951-2006, psicologo educativo a University of Notre Dame), in Memory Development Between Two and Twenty (Springer 1989, 2nd ed. 1997), sintetizzano la traiettoria della metamemoria. Pattern: a 5-6 anni i bambini hanno qualche knowledge metacognitivo dichiarabile (sanno che le liste lunghe sono più difficili delle corte, sanno che la pratica aiuta), ma il monitoring è ancora rudimentale (sovrastimano la propria memoria). A 8-10 anni il monitoring è migliore; il control (es. study-time allocation razionale) emerge in modo più affidabile a 10-12 anni. Lo sviluppo non è completo: anche adulti istruiti hanno metacognizione miscalibrata su domini in cui sono novizi (è la base operativa dell’effetto Dunning-Kruger).

Per il lettore di AI, la traiettoria evolutiva è pertinente in un modo specifico. Suggerisce che la metacognizione esplicita richiede prerequisiti rappresentazionali (theory of mind, distinzione mente/mondo) che sono cognitive primitives non triviali. Trasferire questi prerequisiti a un sistema artificiale non è un’estensione automatica della scala — è un problema di rappresentazione che la sola scaling non garantisce. Se un modello può produrre output linguistici che superano la Sally-Anne task (cosa che i grandi LLM fanno dal 2023, vedi Bubeck et al. 2023, “Sparks of AGI”) non significa che abbia il prerequisito rappresentazionale corrispondente; può significare che ha imparato il pattern testuale.

Animal metacognition

J. David Smith (psicologo a University of Buffalo, ora Georgia State) e colleghi hanno proposto, dagli anni 90, che certe specie (macachi rhesus, delfini, grandi scimmie) mostrino metacognizione. Paradigma tipico: il soggetto fa un task percettivo difficile con un’opzione di “uncertain response” (non risponde, riceve un piccolo reward garantito invece di un grande reward condizionato sul riuscire il task). Risultato: gli animali usano l’opzione uncertain più frequentemente sui trial difficili — pattern interpretato come monitoring. Critica: Robert Hampton e altri sostengono che il pattern è spiegabile con associative learning standard senza richiedere meta-livello. Lo stimolo difficile è associato per reinforcement all’opzione uncertain (che ha portato reward in passato); non c’è bisogno di postulare un meta-livello che monitora object-level. Il dibattito è aperto. La conclusione conservativa: la metacognizione esplicita, dichiarabile, è plausibilmente uno specialissimo umano (e forse di pochi altri). Le proprietà funzionali analoghe — uncertainty-sensitive behavior — sono diffuse, ma non equivalgono al fenomeno completo.

”LLM hanno metacognizione”

L’equivalenza pericolosa più diffusa nel discorso 2023-2026. Forme deboli sono difendibili — modelli mostrano calibration parziale, alcune proprietà funzionali analoghe a FOK — ma forme forti non lo sono. Distinguiamo:

Calibration parziale: empiricamente presente. Modelli grandi mostrano correlazione confidence-accuracy. Documentato.
Self-knowledge (analogia FOK): empiricamente presente in forma debole (Kadavath P(IK)). Modelli grandi predicono moderatamente bene se sapranno una risposta prima di tentarla. Effetto piccolo ma sopra il caso.
Monitoring del proprio reasoning: largamente assente. Lanham 2023 mostra unfaithful CoT.
Control metacognitivo autonomo: assente. Il modello non decide autonomamente di “pensare di più”; il budget è esterno.
Autonoetic awareness (consapevolezza riflessiva di sé come soggetto cognitivo): non c’è nessuna evidenza, e il framework concettuale non è applicabile.

Conflare questi cinque livelli sotto “metacognizione” produce una equivalenza falsa. La pratica disciplinata è: dire “calibration” quando si parla di calibration, “verbalized confidence” quando si parla di confidence verbale, “self-prediction” per P(IK). Riservare “metacognizione” come termine al quadro Nelson-Narens applicato a sistemi che ne soddisfano le componenti.

Faithfulness del CoT come limite metacognitivo

Lanham 2023 stabilisce un risultato che vale la pena enfatizzare: in molti task, manipolare il chain-of-thought (rimuovere passi, inserire errori) non cambia la risposta finale. Questo significa che la traccia testuale è in parte rationalization, non meccanismo causale del calcolo. Implicazione: un sistema che produce trace dettagliata non sta facendo metacognizione nel senso forte — sta producendo output testuale che a volte riflette il calcolo interno e a volte no. Senza ground-truth sul calcolo interno, non si può distinguere i due casi guardando solo la trace.

Questo è uno dei punti più sottili. Anche in umani la introspection è notoriamente inaffidabile (Richard Nisbett e Tim Wilson, Psychological Review 1977 “Telling more than we can know”): le persone produrranno spiegazioni plausibili di comportamenti la cui causa reale è inaccessibile alla loro coscienza. Quindi unfaithful CoT è plausibilmente un’analogia con un fenomeno umano. La disanalogia: gli umani hanno un substrato di monitoring fisiologico (ERN, dilatazione pupillare, sensazioni di sforzo) che esiste indipendentemente dalla introspection verbalizzata. I modelli LLM, ad oggi, non hanno questo substrato separato — la trace è il loro output, e introspection è output.

Self-correction senza ground-truth

Jie Huang e colleghi a Google, in “Large Language Models Cannot Self-Correct Reasoning Yet” (arXiv:2310.01798, 2023), mostrano un risultato critico: in assenza di feedback esterno (ground-truth, verifier, tool che restituisce un errore), il loop di self-correction puro spesso peggiora le risposte. Il pattern è regolare: il modello, invitato a “rivedere” la propria risposta, ne sostituisce circa metà delle volte una corretta con una più articolata ma sbagliata, e circa metà delle volte una sbagliata con una più articolata ma sbagliata. Net effect negativo o nullo.

Il punto è interessante metacognitivamente. Negli umani, la deliberation può migliorare il giudizio anche senza feedback esterno — per riflessione su principi noti, per contraddizione interna, per applicazione di euristiche di consistency. Negli LLM, in assenza di un ancoraggio esterno (ground-truth o tool), la “deliberation” tende ad andare alla deriva. Il modello non ha un ancoraggio interno robusto sul “cosa è vero”: il suo prior è il training data, e il sampling ricorsivo di output non aggiunge nuova informazione, anzi può amplificare distorsioni.

La conseguenza pratica: i sistemi LLM che fanno self-correction in modo affidabile sono quelli che hanno un loop con segnale esterno — un test che passa o fallisce, un compilatore che restituisce errore, un retrieval che fornisce documento, un PRM che valuta passi intermedi. Senza segnale esterno, la self-correction è teatro. È la traduzione meccanica del principio metacognitivo: control senza monitoring affidabile è control alla deriva.

Equivalenze pericolose riassunte

Affermazione	Classe corretta	Note
”LLM = umani in calibration”	Analogia funzionale	Hard-easy effect simile, magnitudini diverse, meccanismi diversi
”LLM know what they know”	Metafora	Vera in senso debole (P(IK)), falsa in senso forte (autonoetic)
“Reasoning models hanno System 2”	Analogia retorica	Già discusso in `ponte-s1-s2-llm`
”Self-correction LLM = metacognizione”	Equivalenza falsa	Self-correction puro spesso peggiora (Huang 2023)
“Calibration in ML eredita da Flavell”	Filiazione assente	Eredita da Brier 1950, Murphy 1973

Knowing too much: il problema della expertise calibrata

Una considerazione conclusiva sulla geometria del problema. La metacognizione perfetta richiederebbe due condizioni: un monitoring veridico e un control efficace. Ma c’è un terzo requisito spesso trascurato: la rappresentazione adeguata del proprio sapere. Per dire “non lo so” in modo informato, bisogna rappresentare che cosa sarebbe sapere — bisogna avere un modello del dominio sufficiente a misurare la distanza dalla competenza.

Questo è esattamente il punto di Kruger e Dunning. Chi è incompetente in un dominio non ha la rappresentazione del dominio necessaria per valutare la propria incompetenza. È una circolarità strutturale. Per uscire dal loop servono o feedback esterno, o esposizione a esempi di expertise (vedere come si fa quando si fa bene), o training esplicito di awareness.

Per i sistemi LLM la circolarità ha forma diversa ma non assente. Un modello addestrato su un dominio può essere ragionevolmente calibrato dentro la distribuzione del training data; fuori distribuzione la calibration si rompe perché il modello non ha rappresentazione del cosa sarebbe la verità in quel dominio nuovo. Pattern documentato: i modelli sono calibrati su MMLU (in-distribution rispetto al pretraining web), miscalibrati su domini emergenti (eventi posteriori al training cutoff, dialetti rari, problemi mai visti). La diagnostica è la stessa di Kruger-Dunning: l’incompetenza fuori distribuzione include incapacità di riconoscere l’incompetenza fuori distribuzione. Le strategie di mitigazione sono le stesse: feedback esterno (RAG, verifier), training su distribuzione più ampia, training mirato di awareness (“dichiara incertezza quando il dominio è non familiare” — più facile da dire che da addestrare).

Questa convergenza non è una filiazione né un’equivalenza. È, plausibilmente, una regolarità strutturale del problema “valutare il proprio sapere senza accesso privilegiato al ground-truth”. Ogni sistema epistemico — umano, animale, artificiale — che operi sotto questa restrizione tende a manifestare overconfidence sui propri ciechi, e a poter ridurre il problema solo con segnali esterni o con training mirato. Né la metacognizione umana né la calibration LLM risolvono il problema: lo gestiscono.

Collegamenti

memoria-working — il central executive di Baddeley è il candidato più diretto per un meccanismo di control metacognitivo. La metacognizione si appoggia alla working memory: monitoring richiede mantenere lo stato presente in attenzione consapevole.
dual-process-kahneman — il sistema 2 di Kahneman è in gran parte coestensivo con il meta-level di Nelson-Narens. Il monitoring del sistema 1 richiede deliberation S2.
euristiche-bias — overconfidence è un bias documentato che la metacognizione, quando funziona, dovrebbe correggere. Spesso non lo fa.
ponte-s1-s2-llm — il capitolo ponte tratta il rapporto tra mechanisms LLM e dual-process. La metacognizione è il caso speciale: monitoring (presente in forma debole) e control (assente).
limiti-epistemici-ai — calibration LLM è uno dei “limiti contingenti” (artefatti specifici degli LLM) tracciati in quel capitolo. La metacognizione è l’idealizzazione del soggetto epistemico.
sviluppo-piaget — la metacognizione esplicita matura tra 7 e 12 anni; il framework di Flavell è una continuazione del programma piagetiano.
attenzione-psicologia — il control metacognitivo opera in larga parte attraverso allocazione di attenzione (focus, switch).
ponte-metacognizione-self-correction (in preparazione) — capitolo successivo che tratterà esplicitamente l’analogia self-correction LLM ↔ metacognizione e i suoi limiti.
calibration-abstention (in preparazione) — calibration come concetto in ML, abstention come strategia.
self-knowledge-llm (in preparazione) — paper Kadavath, Burns, Lin in dettaglio.
sycophancy-llm (in preparazione) — sycophancy come anti-metacognizione strutturale.
constitutional-ai (in preparazione) — Constitutional AI come tentativo di esternalizzare control.

Una nota di chiusura: il vocabolario importa

Una delle ragioni per cui questo capitolo esiste non è descrittiva ma terminologica. Nella letteratura AI 2022-2026 le parole “self-knowledge”, “self-monitoring”, “self-correction”, “introspection”, “metacognition” circolano quasi intercambiabilmente, e la confusione produce affermazioni incompatibili. Lo stesso vale per “calibration”: parola tecnica con un significato preciso (correlazione confidence-accuracy) che a volte viene usata come sinonimo di “intelligenza” o di “self-awareness”.

Il vocabolario di Nelson-Narens — object-level, meta-level, monitoring, control — è preciso, granulare, e applicabile sia a sistemi umani sia a sistemi artificiali. Chi vuole sostenere che un LLM “ha metacognizione” può, e deve, articolare: monitoring di che cosa? Da dove al dove? Control su cosa? Calibrato come? Senza articolazione la frase è retorica; con articolazione diventa una proposta empirica testabile.

Questo è il regalo che la psicologia degli anni Settanta-Novanta fa al discorso AI contemporaneo: una grammatica per parlare di proprietà cognitive complesse senza scivolare in equivalenze pericolose. Il regalo va accettato volontariamente. Continuare a parlare di “self-knowledge LLM” senza specificare significato è una scelta. Articolare in termini Nelson-Narens — calibration, P(IK) come analogia FOK, faithful CoT come monitoring del reasoning, abstention come control — è un’altra. La seconda è più disciplinata, più empiricamente produttiva, meno sussumibile a hype. Il capitolo ne raccomanda l’adozione.

Per andare oltre

Flavell, J. H. (1979). “Metacognition and cognitive monitoring: A new area of cognitive-developmental inquiry.” American Psychologist 34:906-911. L’articolo originale; otto pagine che valgono il programma cinquantennale.
Nelson, T. O., & Narens, L. (1990). “Metamemory: A theoretical framework and new findings.” Psychology of Learning and Motivation 26:125-173. Il framework canonico, con applicazione a tutte le fasi della memoria.
Dunlosky, J., & Metcalfe, J. (2009). Metacognition. Sage. Manuale graduate-level standard sulla metacognizione, copre paradigmi sperimentali, sviluppo, applicazioni educative.
Fleming, S. M., & Frith, C. D. (eds., 2014). The Cognitive Neuroscience of Metacognition. Springer. Volume editato sulle basi neurali, include discussione di meta-d’, neuroimaging, lesioni.
Kadavath, S. et al. (Anthropic, 2022). “Language Models (Mostly) Know What They Know.” arXiv:2207.05221. Il paper di riferimento per calibration LLM, leggibile anche da chi viene dalla psicologia.
Koriat, A. (2007). “Metacognition and consciousness.” In The Cambridge Handbook of Consciousness (Zelazo, Moscovitch, Thompson eds.), Cambridge University Press. Sintesi di Koriat sulla relazione tra metacognizione e consapevolezza, con discussione dei pattern di accessibilità del monitoring.
Tetlock, P., & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction. Crown. Non un libro accademico, ma il riferimento divulgativo più solido sul training di calibration in domini decisionali reali; documenta come la metacognizione sia plastica anche in adulti.