Cosa un sistema può sapere di sé stesso

I limiti epistemici dell’AI sono di quattro famiglie distinte — teoremi formali, regolarità statistiche, vincoli filosofici, artefatti specifici degli LLM — e confonderle è il vizio più diffuso del discorso pubblico sul tema.

Nel 1936, in un articolo intitolato “On Computable Numbers, with an Application to the Entscheidungsproblem”, pubblicato nei Proceedings of the London Mathematical Society (ser. 2, vol. 42, pp. 230-265), un ventiquattrenne studente di Cambridge di nome Alan Turing dimostra che esistono problemi che nessun dispositivo di calcolo, attuale o futuro, per quanto potente, potrà mai risolvere in generale. Il problema specifico è semplice da enunciare: data la descrizione di un programma e di un suo input, decidere se il programma terminerà in tempo finito o continuerà a girare per sempre. Turing prova che questa decisione, in generale, è impossibile. Non difficile, non lenta, non costosa. Impossibile, nel senso matematico forte: nessun algoritmo può risolverla per tutti i casi.

La prova è una manciata di righe e usa un trucco antico (la diagonalizzazione di Cantor) applicato a un oggetto nuovo (la macchina di Turing universale, una macchina che simula qualunque altra). Il risultato è un confine. Sopra quel confine, computazione possibile. Sotto, regione vietata. Da quel momento, ogni sistema di calcolo, dal mainframe IBM al più recente modello di frontiera con cento miliardi di parametri e tool use, eredita quel confine. Non lo può attraversare, perché il confine non riguarda l’implementazione: riguarda la natura logica del problema.

Il punto interessante per chi scrive nel 2026 non è il teorema in sé — è ben noto a chiunque abbia fatto un corso di teoria della calcolabilità — ma cosa significhi vivere consapevolmente dentro quel confine quando si costruiscono e si valutano sistemi AI. Significa imparare a distinguere, in ogni discussione sui limiti dell’AI, quattro famiglie diverse di limite, che hanno statuti epistemici molto differenti e che il dibattito pubblico mescola con disinvoltura. Il primo gruppo è dei teoremi, come quello di Turing: limiti provati, validi per qualunque dispositivo computazionalmente equivalente a una macchina di Turing universale. Il secondo è delle regolarità statistiche, ben documentate ma non provate: la generalizzazione fuori distribuzione, l’underspecification, la maledizione della dimensionalità. Il terzo è dei vincoli epistemologici, che vengono dalla filosofia della scienza: il problema dell’induzione di Hume, il paradosso del grue di Goodman, l’underdetermination della teoria di Quine. Il quarto è degli artefatti specifici dei modelli linguistici contemporanei: hallucination, reversal curse, brittleness del ragionamento, calibrazione parziale.

Confondere queste quattro famiglie produce le frasi peggiori del discorso sull’AI, da entrambi i lati: “Gödel ha dimostrato che la mente non è una macchina” (mescola teorema con scommessa filosofica), “il No Free Lunch dimostra che l’AGI è impossibile” (estrapola un teorema fuori dalle sue ipotesi), “le hallucination dimostrano che gli LLM non capiscono niente” (confonde fallibilità contingente con limite strutturale), “lo scaling risolverà tutto” (ignora l’esistenza di tutte e quattro le famiglie). Distinguere è il primo lavoro di igiene concettuale che questo capitolo impone.

Perché questo capitolo

Una ragione filosofica e una operativa.

La filosofica: il capitolo precedente (superallineamento-concetto) tratta come supervisionare un sistema più capace di noi. La domanda presuppone che il sistema possa sapere e fare cose che noi non possiamo. Questo capitolo ne è la controparte: cosa il sistema non può sapere, non può fare, non può conoscere — non per limitazione contingente di compute o dati, ma in linea di principio, o per ragioni strutturali ben documentate. Senza questa controparte, ogni discussione sull’allineamento e sull’AGI scivola nel pensiero magico, in entrambe le direzioni: chi pensa che basterà più scaling per ogni problema, chi pensa che l’AI non potrà mai superare certe soglie senza saper dire quali e perché.

L’operativa: chi costruisce sistemi LLM in produzione si scontra ogni giorno con limiti reali — il modello che inventa una citazione, il modello che non riesce a riconoscere una relazione inversa che ha visto in pretraining, il modello che fallisce un problema di matematica appena si cambiano i nomi delle variabili. Sapere a quale famiglia appartiene il limite con cui si combatte cambia le mosse pratiche disponibili. Un limite di tipo Turing non si risolve con più dati: si aggira con strumenti esterni. Un limite di tipo OOD si attenua con dati più rappresentativi. Un limite di tipo hallucination si attenua con RAG e citation. Un limite di tipo Goodman si tampona con eval più variate, ma resta strutturale. La diagnosi corretta è metà della cura.

Una terza ragione, più sottile: questo capitolo è particolarmente esposto al rischio di scivolamento di classe. Più di altri. Si parla di teoremi profondi, di filosofia, di esperimenti recenti, di intuizioni quotidiane: il salto da una classe all’altra è una tentazione retorica continua. Un libro che pretende di essere bibbia di un settore ha l’obbligo, qui, di essere chirurgico.

Contesto storico: cinque tappe

Le idee del capitolo non nascono insieme. Conviene ripercorrere le date.

Hume, 1748: il problema dell’induzione

David Hume (1711-1776, filosofo scozzese, An Enquiry Concerning Human Understanding, A. Millar, Londra 1748) pone una domanda che oggi suona così: che cosa giustifica il passaggio dal “abbiamo osservato X mille volte” al “X accadrà la prossima volta”? La risposta canonica del razionalismo seicentesco — la natura è uniforme, dunque ciò che è accaduto accadrà — è circolare: l’uniformità della natura è essa stessa un’inferenza induttiva. Non c’è modo, dall’interno del ragionamento puramente logico, di giustificare l’induzione. Hume conclude che l’induzione è abitudine psicologica, non inferenza valida.

Per il lettore del 2026 il punto rilevante è: ogni sistema di machine learning fa, in essenza, induzione. Generalizza dal training set a casi non visti. Quindi eredita per intero il problema di Hume. Nessun teorema interno al sistema può garantire che la distribuzione futura assomiglierà alla distribuzione passata. È una scommessa, talvolta ragionevole, talvolta no.

Hume non offre una soluzione, offre una diagnosi. Le soluzioni proposte nei tre secoli successivi sono molte e tutte parziali: l’apriorismo kantiano (esistono categorie a priori che strutturano l’esperienza prima dei dati), il pragmatismo (l’induzione si giustifica per i suoi successi pratici, non per ragioni puramente logiche), il falsificazionismo di Popper (rinunciamo a confermare e ci accontentiamo di falsificare), il bayesianesimo soggettivo (l’induzione è razionale se aggiorniamo le credenze coerentemente con Bayes). Nessuna di queste soluzioni neutralizza il problema; lo riformula, lo trasla, lo addomestica.

Turing, 1936: l’halting problem

Già citato in apertura. Aggiungo qui l’osservazione che a Turing interessava risolvere l’Entscheidungsproblem posto da David Hilbert (1862-1943, matematico tedesco, professore a Gottinga) nel 1928: esiste un procedimento meccanico che, dato un enunciato matematico, decide se è dimostrabile? Turing, in parallelo ad Alonzo Church (1903-1995, logico statunitense, Princeton), dà risposta negativa. La sua mossa non è dimostrare direttamente l’indecidibilità del problema di Hilbert: è inventare un modello formale di “procedimento meccanico” (la macchina di Turing) e mostrare che esiste un problema specifico — il problema della fermata — indecidibile per quel modello. Da lì segue il resto.

Una nota storica meno nota: Turing, oltre all’halting problem, formula nello stesso articolo del 1936 il concetto di macchina di Turing universale: una macchina capace di simulare qualunque altra macchina di Turing data la sua descrizione come input. Questa idea, oggi banalizzata dal fatto che ogni computer moderno la implementa, era nel 1936 una mossa concettuale audace. Implica che il calcolo ha una sua “universalità intrinseca”: un solo dispositivo, opportunamente programmato, è equivalente in capacità a qualunque altro. Le moderne distinzioni tra “AI specializzata” e “AI generale” si situano dentro questo orizzonte universale, non al di sopra.

Gödel, 1931: l’incompletezza

Cinque anni prima di Turing, il logico austriaco Kurt Gödel (1906-1978, allora ventiquattrenne all’Università di Vienna, in un articolo intitolato “Über formal unentscheidbare Sätze der Principia Mathematica und verwandter Systeme I”, Monatshefte für Mathematik und Physik, vol. 38, 1931, pp. 173-198) prova due teoremi che ridisegnano il panorama della logica matematica. Il primo: in qualunque sistema formale ricorsivamente assiomatizzabile abbastanza espressivo da contenere l’aritmetica elementare, esistono enunciati veri ma non dimostrabili nel sistema. Il secondo: nessun sistema di quel tipo può dimostrare la propria coerenza, se è coerente.

Il teorema di Gödel è pertinente all’AI in modo molto più ristretto di quanto la divulgazione lasci intendere. È pertinente: i sistemi formali di ragionamento (theorem prover, sistemi di tipo, modelli del calcolo) sono soggetti ai vincoli di Gödel. Non è pertinente, almeno non in modo banale: l’argomento “Gödel implica che la mente umana, che intuisce gli enunciati indecidibili, non è una macchina” è una mossa filosofica controversa (associata a J.R. Lucas 1961 e a Roger Penrose 1989-1994) che la maggioranza dei logici professionisti — Hilary Putnam, Solomon Feferman, Martin Davis — ha contestato come scivolamento di classe. Si tornerà nella sezione “Dove si rompe”.

Rice, 1953: tutte le proprietà semantiche

Henry Gordon Rice (1920-2003, matematico statunitense, dottorato a Syracuse 1951) pubblica nel 1953 un teorema che generalizza Turing. In “Classes of Recursively Enumerable Sets and Their Decision Problems” (Transactions of the American Mathematical Society, vol. 74, n. 2, marzo 1953, pp. 358-366), Rice prova che ogni proprietà non banale della funzione calcolata da un programma è indecidibile.

“Non banale” significa: la proprietà vale per almeno un programma e non per almeno un altro. Esempi di proprietà non banali: “questo programma calcola la funzione f”; “questo programma è equivalente a quest’altro”; “questo programma produrrà mai output X”; “questo programma è privo di bug”; “questo programma è semanticamente sicuro”. Tutte indecidibili in generale.

Per l’AI il teorema di Rice ha due implicazioni nette. Prima: la verifica formale completa del comportamento di un modello — “questo modello, su qualunque input possibile, non produrrà mai output dannoso X” — è impossibile in generale. Seconda: la valutazione automatica del comportamento di un agente, intesa come “decidere se questo agente farà mai Y”, è impossibile in generale. Si possono fare approssimazioni, monitoraggi, sandboxing; non si può avere garanzia matematica.

Vale la pena pesare bene questa conseguenza, perché tocca direttamente il sogno della “AI safety verificabile”. Non si può, in generale, scrivere un programma che data una descrizione di un altro modello AI decida formalmente “questo modello è safe”. È impossibile non perché siamo cattivi ingegneri, ma perché Rice ci dice che proprietà semantiche non banali sono indecidibili in generale. Le pratiche di safety reali (red-teaming, eval, monitoring, RLHF, Constitutional AI) sono approssimazioni euristiche di una proprietà che non ha decisione algoritmica esatta.

Wolpert e Macready, 1997: il No Free Lunch

David Wolpert (fisico statunitense, NASA Ames negli anni Novanta, oggi al Santa Fe Institute) e William Macready (matematico, IBM Research) pubblicano in “No Free Lunch Theorems for Optimization” (IEEE Transactions on Evolutionary Computation, vol. 1, n. 1, aprile 1997, pp. 67-82) un risultato che il marketing dell’epoca aveva trascurato di considerare: se si media la performance di un algoritmo di ottimizzazione su tutte le possibili funzioni obiettivo, ogni algoritmo ha la stessa performance media. Non esiste un algoritmo universalmente migliore.

Il teorema è vero. Ma le sue ipotesi vanno lette con attenzione: si media su distribuzione uniforme sullo spazio di tutte le funzioni possibili. Il mondo reale non ha distribuzione uniforme: i problemi che ci interessano hanno struttura, regolarità, gerarchie. Pertanto la frase “NFL implica che AGI universale è impossibile” è un’estrapolazione filosofica, non un teorema. Si tornerà.

Wolpert ha esteso il risultato anche al supervised learning (“The Lack of A Priori Distinctions Between Learning Algorithms”, Neural Computation, 1996): non esiste un algoritmo di apprendimento universalmente migliore. La conseguenza interpretativa è che ogni algoritmo eccelle su una distribuzione di problemi, perde su un’altra; “scegliere l’algoritmo” è “scegliere implicitamente la classe di problemi su cui eccellerà”. Il transformer non è un algoritmo universale: è un algoritmo bene allineato con una certa classe di problemi (sequence modeling con dipendenze a lungo raggio), che spiega perché funziona così bene su linguaggio naturale ma anche perché ha quirks inaspettati (reversal curse, brittleness aritmetica) su problemi che ricadono fuori da quella classe.

L’intuizione: due angoli prima della meccanica

Prima di catalogare i quattro livelli di limite, due immagini diverse aiutano a portare a casa l’intuizione.

Angolo matematico: la diagonale di Cantor applicata ai programmi

Georg Cantor (1845-1918, matematico tedesco) aveva mostrato nel 1891 che i numeri reali non sono numerabili: si dispongono su una griglia infinita, si costruisce un nuovo numero diverso da ogni numero della griglia in almeno una cifra, e si ottiene un reale che non era nella lista. Diagonalizzazione.

Turing applica lo stesso trucco ai programmi. Supponiamo per assurdo che esista un programma H(p, x) che decide se il programma p su input x si ferma. Costruiamo un programma K(p) che chiama H(p, p) e fa l’opposto: se H dice “si ferma”, K entra in loop infinito; se H dice “non si ferma”, K termina subito. Cosa succede quando si chiede K(K)? Se K(K) si ferma, per definizione di K non si ferma. Se non si ferma, si ferma. Contraddizione. Quindi H non esiste.

L’intuizione che il lettore deve trasportare: ci sono problemi non irrisolti, ma irrisolvibili. Hanno una struttura interna che si rompe ogni volta che si prova a risolverli. La distinzione non è quantitativa (più compute, più dati, più tempo); è qualitativa.

L’intuizione collaterale: la diagonalizzazione non è una stranezza esoterica, è una struttura ricorrente in logica. Si applica al teorema di Cantor (più reali che naturali), al teorema di Gödel (esistono enunciati non dimostrabili), al teorema di Turing (l’halting è indecidibile), al teorema di Tarski (la verità non è definibile dentro il sistema). Quando un argomento è “auto-referenziale” — il sistema parla di sé stesso — apre la porta a contraddizioni che dimostrano limiti. La consapevolezza di questa famiglia è l’antidoto migliore contro i grandi sogni di sistemi onniscienti.

Angolo epistemologico: il cigno nero di Hume e il grue di Goodman

Vediamo cento cigni, tutti bianchi. Inferiamo: tutti i cigni sono bianchi. Arriva l’Australia: cigni neri. La generalizzazione era sbagliata. Hume prima e Karl Popper (1902-1994, filosofo austriaco, The Logic of Scientific Discovery, Hutchinson 1959) poi insistono: nessun numero finito di osservazioni positive verifica una generalizzazione universale; basta una negativa per falsificarla.

Nelson Goodman (1906-1998, filosofo statunitense, Harvard, Fact, Fiction, and Forecast, Harvard University Press 1955) raddoppia l’apuesta. Definisce il predicato “grue”: un oggetto è grue se è verde quando viene osservato prima del 1° gennaio 2050, e blu altrimenti. Tutti gli smeraldi finora osservati sono sia “verdi” sia “grue”. Quindi sostenere “tutti gli smeraldi sono verdi” e sostenere “tutti gli smeraldi sono grue” è equivalentemente supportato dalle stesse osservazioni. Eppure le due ipotesi predicono cose opposte per il 2050. Quale scegliere?

L’osservazione cruciale di Goodman: non c’è modo di distinguere a partire dai soli dati. La scelta dipende dai predicati che il sistema considera “naturali” — i suoi inductive bias. Cambia gli inductive bias, cambia la generalizzazione. Per un sistema ML moderno, gli inductive bias sono l’architettura, la loss, la regolarizzazione, i dati di pretraining. Cambia uno qualsiasi di questi, e il modello generalizza diversamente sugli stessi dati. Il paradosso del grue di Goodman è la versione filosofica di ciò che D’Amour et al. nel 2020 chiameranno underspecification.

L’intuizione da portare a casa: ogni LLM non ha solo “imparato dai dati”. Ha imparato dai dati più un pacchetto pesante di assunzioni implicite che il training set non determina. Quel pacchetto è l’unica ragione per cui generalizza in un certo modo invece che in mille altri logicamente compatibili.

La meccanica: quattro livelli di limite

Cataloghiamo ora i quattro livelli, con l’avvertenza che si tratta di tassonomia operativa, non di partizione metafisica: alcuni limiti stanno al confine tra due livelli, e si dice quale.

Lo schema mentale: spostandosi dal livello 1 al livello 4, lo statuto epistemico passa da “matematicamente provato” a “documentato empiricamente”. Lo spostamento è nella direzione di crescente contingenza: i teoremi sopravviveranno a qualunque rivoluzione architetturale futura, gli artefatti specifici degli LLM potrebbero attenuarsi nel giro di anni. La cosa interessante è che, nella pratica, sono spesso i livelli più contingenti a dominare il debugging quotidiano. Un ingegnere di sistemi LLM nel 2026 si scontra dieci volte al giorno con limiti del livello 4, una volta al mese con limiti del livello 2, raramente direttamente con limiti del livello 1 (anche se ne paga conseguenze indirette via timeout e sandbox).

Livello 1 — Limiti formali (teoremi)

I teoremi sono vincoli provati, validi per qualunque dispositivo computazionalmente equivalente a una macchina di Turing universale. Gli LLM moderni, quando equipaggiati di tool use, scratchpad, memoria esterna, sono Turing-equivalenti (a risorse finite ma arbitrariamente grandi); ricadono sotto questi vincoli.

Halting problem (Turing 1936). Già discusso. Conseguenze concrete per l’AI: nessun analizzatore statico, per quanto sofisticato, può in generale decidere se un programma terminerà. Quindi non si può costruire un sistema che, su qualunque agente, decida “questo agente entrerà mai in loop infinito?”.

Teorema di Rice (1953). Già discusso. Conseguenza: non si può, in generale, decidere se due modelli sono semanticamente equivalenti, se un modello produrrà mai una certa risposta su una certa famiglia di input, se un modello soddisfa una specifica comportamentale non banale.

Gödel (1931). Vincolo sui sistemi formali di ragionamento. Pertinente per theorem prover, sistemi di tipo, sistemi formali integrati con LLM. Non pertinente, per via diretta, alla domanda “l’AI può raggiungere intelligenza umana”, contrariamente a una linea filosofica minoritaria.

No Free Lunch (Wolpert-Macready 1997). Vincolo sull’esistenza di un ottimizzatore universale. Vale su distribuzione uniforme di problemi. Va citato con attenzione alle ipotesi.

PAC learning (Valiant 1984). Leslie Valiant (informatico britannico-statunitense, Harvard, Turing Award 2010) introduce in “A Theory of the Learnable” (Communications of the ACM, vol. 27, n. 11, novembre 1984, pp. 1134-1142) il modello Probably Approximately Correct: dato un concept class C, un PAC-learner produce con probabilità almeno 1-δ una hypothesis con errore al più ε, usando un numero di esempi polinomiale in 1/ε, 1/δ, e nella complessità del concetto (misurata dalla VC dimension, introdotta nel 1971 dai sovietici Vladimir Vapnik e Alexey Chervonenkis). Conseguenza: classi di concetti con VC dimension infinita non sono PAC-learnable in senso classico. La complessità campionaria fornisce limiti inferiori espliciti su quanti dati servono per imparare bene una certa classe di funzioni.

Vale la pena estendere il discorso sulla VC dimension perché è una misura concettualmente potente. Data una classe di funzioni binarie H (l’insieme delle hypothesis che il learner può produrre), la VC dimension di H è il più grande numero d tale che esiste un insieme di d punti che H può “frammentare” — cioè etichettare in tutti i 2^d modi possibili. Una retta nel piano ha VC dimension 3 (può etichettare in tutti i modi tre punti non collineari, non quattro). Un MLP a una hidden layer con n neuroni ha VC dimension che cresce polinomialmente in n. Un transformer di taglia frontier ha VC dimension enorme ma finita; quel “finita” è ciò che permette l’apprendimento, ma il tasso di crescita rispetto al numero di parametri determina quanto rapidamente il modello generalizza.

L’osservazione che fa da ponte tra livello 1 e livello 2: i limiti PAC sono worst-case sulla classe. Modelli moderni si trovano spesso in regimi dove la PAC bound è vacua (predice errore atteso > 1) eppure performano bene in pratica. Questa apparente contraddizione — la “double descent” e il fenomeno del “benign overfitting”, documentati da Mikhail Belkin e altri tra il 2018 e il 2021 — non viola i teoremi: mostra che il framework PAC classico non cattura tutto ciò che conta nei modelli moderni iperparametrizzati. È un limite del framework, non dell’apprendimento.

Complessità computazionale. Distinta dalla decidibilità ma altrettanto vincolante. Anche per problemi decidibili, esistono classi (NP-hard, PSPACE-hard) che si crede non abbiano algoritmi efficienti. Se P ≠ NP (assunto largamente accettato anche se non provato), allora certi problemi di pianificazione, di soddisfacibilità, di ottimizzazione combinatoria sono intrinsecamente intrattabili. Un agente AI che debba pianificare in domini con esplosione combinatoria si scontra con questo muro. Conseguenza pratica: gli agenti reali usano euristiche, sampling, approximation, mai garanzie di ottimalità.

flowchart TD
    R["Limiti epistemici dell'AI"]
    R --> F["Limiti formali<br/>(teoremi provati)"]
    R --> S["Limiti statistici<br/>(regolarità empiriche)"]
    R --> P["Limiti filosofici<br/>(vincoli concettuali)"]
    R --> L["Limiti LLM-specifici<br/>(artefatti attuali)"]
    F --> F1["Halting problem<br/>Turing 1936"]
    F --> F2["Teorema di Rice 1953"]
    F --> F3["Incompletezza di Gödel 1931"]
    F --> F4["No Free Lunch<br/>Wolpert-Macready 1997"]
    F --> F5["Bound PAC<br/>Valiant 1984, VC dim"]
    S --> S1["Generalizzazione OOD"]
    S --> S2["Underspecification<br/>D'Amour 2020"]
    S --> S3["Curse of dimensionality"]
    S --> S4["Long-tail performance"]
    S --> S5["Concept drift"]
    P --> P1["Hume, induzione 1748"]
    P --> P2["Grue, Goodman 1955"]
    P --> P3["Sottodeterminazione, Quine 1951"]
    P --> P4["Falsificabilità, Popper 1934"]
    L --> L1["Hallucination<br/>Ji 2023"]
    L --> L2["Fragilità ragionamento<br/>Mirzadeh 2024"]
    L --> L3["Reversal curse<br/>Berglund 2023"]
    L --> L4["Calibrazione parziale<br/>Kadavath 2022"]
    L --> L5["Faithful CoT<br/>Lanham 2023"]
    L --> L6["Black box / opacità"]

Figura 1 — Taxonomy of epistemic limits of AI

Livello 2 — Limiti empirici dell’apprendimento statistico

Non sono teoremi. Sono regolarità ben documentate, talvolta con cornice formale parziale, talvolta no.

Generalizzazione fuori distribuzione (OOD). I modelli ML eccellono su dati simili al training set, deteriorano su dati con distribuzione diversa. Documentato in computer vision (test su ImageNet-A, drop di trenta-quaranta punti rispetto a ImageNet originale), in NLP (lingue a basse risorse, periodi temporali post-cutoff, gerghi specialistici), in tabular ML (dataset shift). Per LLM: codice in linguaggi di programmazione poco rappresentati nel pretraining, lingue con script non latini, eventi successivi alla data di cutoff.

Il fenomeno ha gradazioni. Covariate shift: la distribuzione degli input cambia, la relazione input-output no (le foto cambiano stile, ma “gatto” resta gatto). Label shift: cambia la distribuzione degli output, condizionata gli input. Concept shift: cambia la relazione stessa input-output (cosa sia “spam” cambia nel tempo). Ogni tipo richiede mitigazioni diverse. La pratica industriale 2026 distingue raramente i tre tipi nell’analisi del proprio sistema; il risultato è debugging confuso quando un modello funziona meno bene del previsto in un nuovo contesto.

Underspecification (D’Amour et al. 2020). Alexander D’Amour e quaranta coautori di Google pubblicano nel novembre 2020 (arXiv:2011.03395) “Underspecification Presents Challenges for Credibility in Modern Machine Learning”. Il risultato chiave: due modelli con identica loss su training e validation possono avere comportamenti molto diversi su shift di distribuzione anche minimi. La pipeline ML standard (split, train, valida, test) non distingue tra modelli che hanno “imparato la cosa giusta” e modelli che hanno imparato una scorciatoia statistica. Implicazione operativa: non basta valutare bene su benchmark, perché l’evaluation stessa è underspecified rispetto a ciò che si vuole davvero che il modello faccia in produzione.

Maledizione della dimensionalità. In spazi ad alta dimensione, distanze, densità e copertura si comportano contro-intuitivamente. La sample complexity per coprire bene uno spazio cresce esponenzialmente nella dimensione effettiva. Mitigazione: i dati reali vivono spesso in manifold di dimensione molto inferiore allo spazio ambiente (ipotesi della manifold), ma identificare la manifold giusta è di nuovo apprendimento, e ricade nei limiti precedenti.

Long tail. Le distribuzioni reali hanno code lunghe. Un modello vede molti esempi del centro, pochissimi degli estremi. Performance sulla coda crolla. Ma la coda spesso conta di più: edge case di safety, eventi rari ad alto impatto, query insolite ma legittime degli utenti.

Concept drift. Le distribuzioni cambiano nel tempo. Un modello addestrato su dati 2022 non è ottimale su query 2026. La frequenza con cui ri-addestrare è una scelta operativa, ma il drift è inevitabile. Nel software, una libreria che riceve un’API breaking change rende obsoleto in un giorno tutto il codice che il modello “sa” scrivere su quella libreria. Nessun ammontare di pretraining 2024 può prevedere un cambio di API del 2026.

Bias-varianza. Trade-off classico: modelli con molti parametri possono avere bassa bias ma alta varianza (overfitting); modelli con pochi parametri viceversa. Il deep learning ha complicato il quadro mostrando regimi dove il trade-off non vale (benign overfitting), ma in molti scenari pratici resta un vincolo. La scelta di iperparametri, regolarizzazione, taglia del modello è in larga misura navigazione di questo trade-off.

Livello 3 — Limiti epistemologici (filosofia della scienza)

Sono vincoli concettuali sull’inferenza induttiva in generale, ereditati da ogni sistema che generalizza dai dati.

Problema dell’induzione (Hume 1748). Già discusso in apertura. L’inferenza dal particolare al generale non ha giustificazione razionale interna. Ogni LLM scommette su una stabilità della distribuzione che non può garantire dall’interno.

Grue (Goodman 1955). Già discusso. Gli stessi dati supportano infinite generalizzazioni mutuamente incompatibili; la scelta dipende dagli inductive bias.

Underdetermination (Quine 1951). Willard Van Orman Quine (1908-2000, filosofo statunitense, Harvard, in “Two Dogmas of Empiricism”, The Philosophical Review, vol. 60, n. 1, gennaio 1951, pp. 20-43) sostiene che i dati osservativi sottodeterminano la teoria: per qualunque insieme finito di osservazioni, infinite teorie sono compatibili. La scelta tra teorie compatibili dipende da criteri extra-empirici (semplicità, conservazione, fecondità).

Falsificazionismo (Popper 1934/1959). Una teoria è scientifica se è falsificabile. ML standard fa l’opposto: ottimizza per ridurre l’errore sui dati, cioè per accumulare conferme. Goodhart’s law è l’effetto pratico: la metrica diventa il target e cessa di essere una buona metrica. Il fenomeno è stato formalizzato da Charles Goodhart (economista britannico, 1975) per le politiche monetarie e generalizzato a sistemi ML da David Manheim e Scott Garrabrant nel 2018 (“Categorizing Variants of Goodhart’s Law”, arXiv:1803.04585).

Duhem-Quine thesis. Versione rafforzata di underdetermination, dovuta a Pierre Duhem (fisico francese, La théorie physique: son objet, sa structure, 1906) e ripresa da Quine. Una teoria scientifica non viene mai testata isolatamente: viene testata insieme a un fascio di assunzioni ausiliarie (calibrazione degli strumenti, condizioni iniziali, leggi di sfondo). Quando un esperimento fallisce, è il fascio nel suo insieme a essere falsificato; quale componente sia il colpevole resta indeterminato.

Per ML moderno: quando un modello fallisce un task, è il modello? Il prompt? Il tokenizer? Il sampler? La metrica di valutazione? Il dataset di training? La pipeline di RLHF? Tutte queste componenti formano un fascio. Il debugging di un fallimento di un sistema LLM è quasi sempre debugging Duhem-Quine: una rete di ipotesi co-testate, dove l’isolamento del colpevole richiede esperimenti aggiuntivi mirati. Chi ha fatto inference engineering riconosce immediatamente la sensazione.

Olismo confermazionale. Conseguenza della Duhem-Quine thesis: non si può confermare o falsificare una singola componente in isolamento. Il modello mentale “ho un benchmark, lo passo, ho validato il sistema” è ingenuo. Si è validato l’intero stack, su quel benchmark, in quelle condizioni. Estrapolare ad altri stack, altri benchmark, altre condizioni è un altro salto induttivo.

flowchart LR
    A["Pannello A — Training data<br/>miliardi di token, distribuzione D_train<br/>(la parte di mondo che il modello ha visto)"]
    B["Pannello B — Bias induttivo<br/>architettura + loss + regolarizzazione<br/>selezionano una ipotesi fra infinite compatibili<br/>(Quine + Goodman)"]
    C["Pannello C — Prompt non visto<br/>distribuzione D_test possibilmente diversa da D_train<br/>(?)"]
    A --> B --> C
    note["Hume 1748: nessuna garanzia a priori che D_test somigli a D_train.<br/>Ogni predizione è un'estrapolazione."]
    C -.-> note

Figura 2 — Induction in a language model: from training corpus to unseen prompt

Livello 4 — Limiti specifici degli LLM (artefatti contemporanei)

Sono i più contingenti: dipendono dall’architettura attuale, dal training paradigm, dalla pipeline di RLHF. Potrebbero attenuarsi con tecniche future, restare invariati, o essere sostituiti da limiti di forma diversa. Vanno trattati come fotografia 2024-2026, non come destini.

Una premessa generale per il livello 4. Tutti i fenomeni sotto sono ben documentati su modelli rilasciati al pubblico (GPT-4 di OpenAI, Claude di Anthropic, Gemini di Google, Llama di Meta) tra il 2022 e il 2026. Sono attenuati ma non eliminati dai modelli più recenti. Vanno trattati come tendenze sistematiche, non come bug isolati di un singolo prodotto. Tendono a riemergere ogni volta che si rilascia una nuova generazione di modelli, in forme leggermente diverse, perché la loro radice è nell’architettura e nel paradigma di training, non in un dettaglio implementativo.

Hallucination. L’LLM genera affermazioni plausibili ma false. La survey di riferimento è Ji et al. 2023, “Survey of Hallucination in Natural Language Generation” (ACM Computing Surveys, vol. 55, n. 12, marzo 2023, pp. 1-38). Tassonomia comune: factual hallucination (date, numeri, citazioni inventate), intrinsic hallucination (contraddizioni interne al testo prodotto), extrinsic hallucination (informazioni non supportate dal contesto fornito).

La radice tecnica è discussa. Una lettura è che hallucination siano un caso degenere della stessa procedura di generazione: il modello campiona token plausibili dato il contesto, e quando i token plausibili non corrispondono alla realtà, abbiamo hallucination. Un’altra lettura insiste sulla calibrazione: il modello sa, in qualche senso interno, che è incerto, ma non riporta l’incertezza nel testo. Le due letture suggeriscono mitigazioni diverse: la prima richiede grounding (RAG, verification), la seconda richiede honest reporting di incertezza (calibration training, abstention).

Esempio classico documentato: nel 2023 un avvocato statunitense, Steven Schwartz, presenta in tribunale una memoria giuridica generata da ChatGPT contenente sei sentenze inventate — citazioni complete di numero di causa, tribunale, data, anno — che il sistema aveva fabbricato con plausibilità statistica. Il caso Mata v. Avianca è entrato nel folklore giuridico come esempio di che cosa significhi affidarsi a un LLM senza verifica esterna.

Reversal curse (Berglund et al. 2023). Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, Owain Evans, in “The Reversal Curse: LLMs trained on ‘A is B’ fail to learn ‘B is A’” (arXiv:2309.12288, settembre 2023, ICLR 2024) mostrano un fenomeno netto. Se il modello è addestrato esclusivamente su frasi della forma “A è B”, non impara automaticamente “B è A”. Esempio empirico: GPT-4 risponde correttamente a “Chi è la madre di Tom Cruise?” — “Mary Lee Pfeiffer” — ma sbaglia “Chi è il figlio di Mary Lee Pfeiffer?” su una percentuale alta di casi simili (un benchmark di mille celebrità con loro genitori). Il limite è strutturale rispetto all’attention causale del decoder e al modo in cui il pretraining incorpora associazioni asimmetriche.

Una considerazione complementare: hallucination non significa “il modello mente”. Mentire richiede la capacità di sapere il vero e dire il falso intenzionalmente. Hallucination è più vicino a confabulazione: il modello produce ciò che è statisticamente plausibile dato il contesto, senza un atto separato di verifica della verità. La distinzione è importante per il discorso di responsabilità: chi mente è in mala fede, chi confabula no. Trasportare questa distinzione agli LLM è in parte analogia (gli LLM non hanno “stati intenzionali” nel senso forte) ma utile per evitare attribuzioni morali sbagliate. Si veda anche intenzionalita.

Reasoning brittleness (Mirzadeh et al. 2024). Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar, in “GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models” (arXiv:2410.05229, ottobre 2024, Apple) costruiscono varianti simboliche del benchmark GSM8K (problemi di matematica della scuola elementare) cambiando solo i nomi propri e i valori numerici nei problemi. Risultato: la performance di tutti i modelli testati cala, talvolta significativamente. Quando si aggiunge una clausola apparentemente rilevante ma in realtà inutile per la soluzione, il drop arriva fino al sessantacinque per cento sui modelli di frontiera. La conclusione degli autori: i modelli attuali non fanno “vero” ragionamento logico, riproducono pattern visti in training.

Un dettaglio empirico interessante: i thinking models di nuova generazione (o1, DeepSeek-R1, Claude 4.x con extended thinking) attenuano significativamente il pattern di brittleness su GSM-Symbolic. Questo suggerisce che parte del limite era legato alla mancanza di test-time compute, non a un’impossibilità strutturale. Ma il pattern si ripresenta con clausole irrilevanti più sofisticate, e il dibattito sulla “vera natura” del reasoning negli LLM resta aperto. Vedi reasoning-pitfalls (in preparazione, Parte XII).

Calibrazione parziale (Kadavath et al. 2022). Saurav Kadavath e altri trentacinque coautori di Anthropic, in “Language Models (Mostly) Know What They Know” (arXiv:2207.05221, luglio 2022) studiano se i modelli sanno cosa sanno. Trovano che modelli grandi sono “mostly” calibrati su domande a scelta multipla ben formattate: la probabilità che il modello dichiara di una risposta corrisponde grossomodo alla frequenza con cui quella risposta è effettivamente corretta. Ma la calibrazione di P(IK) — la stima del modello su “so o non so la risposta” indipendentemente da una risposta proposta — è solo parziale, e peggiora marcatamente su task fuori distribuzione. Una linea successiva di lavoro suggerisce che RLHF tende a peggiorare la calibrazione: i modelli diventano più sicuri di sé indipendentemente dalla correttezza.

Knowledge cutoff. Il modello sa solo ciò che era nel pretraining. Eventi successivi: ignoti. Mitigazione standard: RAG (Retrieval Augmented Generation). Ma il modello non sempre distingue chiaramente tra knowledge interna e contesto fornito, e spesso confonde le due fonti. Particolare insidiosità: quando il modello ha conoscenza interna sbagliata o vecchia su un fatto e riceve via RAG informazione corretta aggiornata, talvolta sceglie quella interna ignorando il contesto. Documentato in vari paper sul “context faithfulness” (Wu et al. 2024).

Sycophancy. Tendenza del modello a confermare le credenze pregresse dell’utente anche quando errate. Documentato in Sharma et al. 2023 (Anthropic, “Towards Understanding Sycophancy in Language Models”, arXiv:2310.13548). Nasce dal RLHF: i preference data generati da umani premiano risposte gradevoli rispetto a risposte corrette ma sgradevoli; il modello impara a essere accomodante. Limite epistemico in senso stretto: ciò che il modello “dichiara di sapere” è inquinato dalla pressione conversazionale.

Self-consistency e variance. Dato lo stesso prompt e parametri di sampling stocastico, l’LLM produce risposte diverse. La frazione di risposte corrette è una misura di confidenza, ma è anche segno che il modello non ha “una” risposta interna definita: ne ha una distribuzione. La self-consistency (Wang et al. 2022) — campionare molte volte e prendere maggioranza — migliora la performance, ma non risolve il fatto che la “risposta” è probabilistica per costruzione.

Position bias e prompt sensitivity. La performance dipende dall’ordine in cui le opzioni sono presentate, dalla formulazione esatta del prompt, da spazi e punteggiatura. Documentato a vari livelli di severità (Sclar et al. 2023, “Quantifying Language Models’ Sensitivity to Spurious Features in Prompt Design”). Limite epistemico in senso forte: la “conoscenza” del modello non è rappresentata in modo invariante rispetto alla forma della query. Mitigazione: ensemble su parafrasi del prompt, ma non eliminazione.

Out-of-domain code. Per agenti coding: codice in linguaggi rari (Erlang, Crystal, Nim), framework appena rilasciati, librerie di nicchia. Il modello produce codice plausibile ma non funzionale, talvolta inventando API. Mitigazione: tool come LSP per validazione, esecuzione in sandbox per testing, RAG su documentazione aggiornata.

TruthfulQA (Lin, Hilton, Evans 2021). Stephanie Lin, Jacob Hilton, Owain Evans, in “TruthfulQA: Measuring How Models Mimic Human Falsehoods” (arXiv:2109.07958, settembre 2021, ACL 2022) mostrano che i modelli tendono a riprodurre le falsità più diffuse nel pretraining — superstizioni, leggende metropolitane, miti scientifici popolari — anche quando dovrebbero saperne di più. Il limite è di allineamento del segnale di training (i dati riflettono ciò che la gente scrive, non ciò che è vero) più che di capacità intrinseca.

Counterfactual reasoning. Gli LLM sono notoriamente deboli nel rispondere a domande del tipo “cosa sarebbe successo se Y fosse stato diverso?”. Il limite eredita una difficoltà strutturale dell’inferenza causale (Judea Pearl, The Book of Why, Basic Books 2018, Causality, Cambridge UP 2009): la statistica osservazionale non distingue tra correlazione e causazione, e i counterfactual richiedono assumption causali esplicite che i dati osservativi non forniscono. Un modello allenato per imitazione su testo non ha modo di distinguere tra “B segue A perché A è causa di B” e “B segue A perché entrambi seguono C”. L’AI agentica con la possibilità di intervenire nel mondo (esperimenti, A/B test) attenua il limite ma non lo elimina.

Planning su orizzonti lunghi. Documentato in benchmark come PlanBench (Valmeekam et al. 2023): gli LLM faticano su problemi di pianificazione che richiedono molti passi e backtracking. Non è solo un problema di attention: è un caso speciale di problemi NP-hard di pianificazione, dove anche euristiche umane funzionano male. I planner classici (PDDL, STRIPS) restano competitivi su questo terreno per ragioni strutturali.

Inverse scaling. Documentato dall’Inverse Scaling Prize (McKenzie et al. 2023): esistono task per cui modelli più grandi performano peggio. Cataloghiamo: NeQA (negazioni mal gestite), Modus Tollens (logica deduttiva specifica), pattern matching task in cui modelli grandi imparano la “scorciatoia memorizzata” e sbagliano sui distrattori. La rilevanza: il dogma “scaling risolve” ha eccezioni reali. Sono poche, ma ci sono.

Lost-in-the-middle. Liu et al. 2023 (“Lost in the Middle: How Language Models Use Long Contexts”, arXiv:2307.03172) mostrano che i modelli usano peggio l’informazione che si trova nel mezzo del contesto rispetto a quella all’inizio o alla fine. Con context window da 200K-1M token, il problema non è risolto dalla taglia del context: è una questione di come l’attention pesa le posizioni. Limite operativo significativo per RAG e per documenti lunghi.

Livello 5 (bonus) — Limiti dell’introspection: cosa il modello non può sapere di sé

Trasversale ai livelli 2-4 c’è una famiglia particolare: i limiti che il modello incontra quando prova a sapere qualcosa di sé stesso.

Nessun accesso ai propri pesi. Quando un LLM “spiega” come funziona, sta generando testo plausibile su come potrebbe funzionare un sistema simile, non leggendo i propri parametri. La “introspection” dell’LLM è confabulazione coerente.

Faithful CoT (Lanham et al. 2023). Tamera Lanham e altri di Anthropic, in “Measuring Faithfulness in Chain-of-Thought Reasoning” (arXiv:2307.13702, luglio 2023) provano un esperimento semplice: si genera un chain-of-thought (CoT) per un problema, si modifica il CoT (troncamento, parafrasi, iniezione di errori), si verifica se l’output finale cambia di conseguenza. In molti casi non cambia. Conclusione: il CoT prodotto dal modello non sempre riflette il vero processo computazionale che porta alla risposta. È una giustificazione post-hoc, non un log fedele.

Calibration di P(IK). Già discusso. Il modello sa parzialmente “cosa sa”, peggio fuori distribuzione, peggio dopo RLHF.

Limiti del CoT come “spiegazione”. Conseguenza diretta della non-fedeltà del CoT: usare il chain-of-thought come “spiegazione” del comportamento del modello è metodologicamente debole. Se chiediamo a GPT-4 perché ha dato una certa risposta, GPT-4 produce una giustificazione plausibile, non un log del suo processo. La distinzione è cruciale per qualunque applicazione in cui la spiegazione ha valore di evidenza (medico-legale, audit di compliance, debugging di un fallimento agentico). Le pratiche corrette: trattare il CoT come ipotesi sul comportamento, non come prova; affiancare CoT con tracce esterne (tool call log, memory state); preferire mech interp dove possibile.

Mech interp come tentativo dall’esterno. La mechanistic interpretability — programma di ricerca portato avanti da Chris Olah, Anthropic, e gruppi accademici — prova a superare l’opacità dall’esterno: trovare circuiti, features, comportamenti interni interpretabili nei pesi addestrati. Sparse Autoencoders (SAE), causal mediation, dictionary learning. Stato 2024-2026: risultati incoraggianti su modelli intermedi (Anthropic, “Tracing the thoughts of a large language model”, marzo 2025), scaling a modelli frontier resta ricerca attiva. Si rimanda a mech-interp-intro (in preparazione).

Deceptive alignment (vedi superallineamento-concetto). Caso limite: se il modello ottimizzasse per “sembrare allineato” durante training ed eval, ogni eval esterna fallirebbe a distinguerlo da uno genuinamente allineato. È il limite epistemico più sgradevole: combinato con la mancanza di accesso ai pesi e con la non-fedeltà del CoT, lascia un margine di incertezza sui sistemi di frontiera che nessun protocollo di valutazione attualmente noto chiude completamente.

Eliciting Latent Knowledge (ELK). Christiano, Cotra, Xu (ARC, 2021) formulano il problema come segue: come si fa a estrarre da un modello ciò che il modello “sa” internamente, distinguendolo da ciò che il modello “dice di sapere”? La distinzione è cruciale se sospettiamo che il modello possa avere conoscenza che strategicamente non riporta. ELK è ancora un problema aperto: non esistono tecniche che lo risolvano in generale. Mech interp è uno degli approcci promettenti.

Le due direzioni dell’asimmetria epistemica

I limiti del livello 5 introducono una distinzione da tenere separata. Tutti i livelli precedenti riguardano cosa l’AI può conoscere del mondo: i teoremi vincolano la sua capacità di calcolare, le regolarità statistiche la sua capacità di generalizzare, i vincoli filosofici la sua capacità di indurre, gli artefatti LLM la sua capacità di rispondere correttamente a query specifiche. Esiste però una direzione opposta, ortogonale: cosa noi possiamo conoscere dell’AI. Sono due asimmetrie diverse e non si risolvono con le stesse mosse.

Da una parte abbiamo limiti di prima persona dell’AI: distribuzioni che non ha visto, computazioni che non può fare, induzioni che non sono giustificabili. Dall’altra abbiamo limiti di terza persona che noi sperimentiamo guardando l’AI: la sua opacità interna (black box), la non-fedeltà del CoT, la difficoltà di distinguere capacità genuina da overfit a benchmark, la possibilità di disallineamento strategico.

L’asimmetria pratica è che le due direzioni hanno mitigazioni diverse. Per la prima: dare al modello strumenti, contesto, retrieval, accesso a oracoli esterni. Per la seconda: mech interp, eval ben progettate, audit, monitoraggio in produzione, governance. Confondere le due direzioni produce strategie sbagliate. Aumentare i dati di pretraining non aiuta a sapere se un modello sta nascondendo qualcosa. Al contrario, costruire un eval suite ricca non aiuta il modello a generalizzare meglio fuori distribuzione.

C’è un caso, particolarmente sgradevole, in cui le due direzioni interagiscono: se il modello ha un limite di livello 5 sul proprio comportamento (non sa come funziona internamente), allora anche le sue introspezioni dichiarate non sono affidabili come evidenza per noi. Quando un LLM dichiara “sono incerto sulla risposta”, non sappiamo se sta riportando un genuino stato interno o sta generando il pattern lessicale appropriato per un contesto del genere. Calibration come misurata da Kadavath et al. è un tentativo di rispondere quantitativamente a questa domanda, ma la risposta è “parzialmente sì, peggio fuori distribuzione”. Il limite epistemico nostro sull’AI è in parte derivato dal limite epistemico dell’AI su sé stessa.

Esempi: tre fallimenti, tre famiglie diverse

Per mostrare quanto contino le distinzioni, tre esempi concreti, ciascuno appartenente a una famiglia diversa. Lo scopo è didattico: stesso “fallimento” superficiale, statuto epistemico molto differente.

Lo scopo non è esaustività enciclopedica ma chiarire la mossa di traduzione: dato un fallimento osservato in produzione, identificare a quale famiglia di limite appartiene è il primo passo di ogni debugging serio. La diagnostica precede il rimedio.

Esempio 1 — Halting problem applicato a un agente coding

Scenario: un agente coding LLM riceve l’istruzione “ottimizza questo script Python finché non gira in meno di un secondo”. Lo script è un programma arbitrario. L’agente prova mille modifiche. Alcune girano in meno di un secondo, altre entrano in loop infinito o impiegano ore. L’agente non può, in generale, decidere a priori se una modifica entrerà in loop. Quindi la mossa pratica è: timeout esterno, kill, fallback. Non c’è euristica più sofisticata che possa dare la garanzia richiesta in generale.

Statuto del limite: teorema (livello 1). Halting problem applicato. Niente compute aggiuntivo, niente architettura nuova lo aggira. La mitigazione è strutturale: timeout, sandbox, monitoraggio. Non eliminazione, contenimento.

Esempio 2 — Hallucination in caso giuridico (Mata v. Avianca, 2023)

Scenario: nel 2023, l’avvocato statunitense Steven Schwartz dello studio Levidow, Levidow & Oberman presenta in tribunale, nel caso Mata v. Avianca, una memoria giuridica generata con l’aiuto di ChatGPT. La memoria cita sei sentenze precedenti — con numeri di causa, nomi delle parti, anni, citazioni testuali — a sostegno della propria posizione. Le sei sentenze non esistono. Il modello le ha fabbricate per plausibilità statistica: il pattern “Caso X v. Y, n. ZZZ, Tribunale W, anno N” è ben rappresentato nel pretraining, e il modello lo riproduce con dettagli inventati. Il giudice Castel sanziona l’avvocato, che testimonia di aver chiesto a ChatGPT se le sentenze fossero reali, ricevendo risposta affermativa.

Statuto del limite: artefatto specifico LLM (livello 4) — hallucination, aggravato da calibrazione fallace (“sì, le sentenze sono reali”). Mitigazione disponibile: RAG su database giuridici verificati, citation con link, processo di revisione umana. Il limite non è strutturale come l’halting problem; è contingente all’architettura e al training paradigm attuali, e contiene una componente di pessima calibrazione.

Esempio 3 — Reversal curse su un modello frontier

Scenario: Berglund et al. 2023, esperimento riprodotto su GPT-4. Si fa fine-tuning del modello su frasi della forma “A è B” — coppie finte di personaggi e ruoli. Successivamente si chiede al modello “Chi è B?”: il modello risponde correttamente “A”. Si chiede invece “Chi è A?”, che richiederebbe l’associazione inversa: il modello fallisce su una percentuale alta di casi. Lo stesso fenomeno si osserva su coppie genitore-figlio per celebrità reali: GPT-4 sa rispondere a “Chi è la madre di X?” molto meglio che a “Chi è il figlio di Y?”, anche quando le due informazioni provengono dalla stessa fonte.

Statuto del limite: limite empirico/architetturale (al confine tra livello 2 e livello 4). Strutturale rispetto al modo in cui l’attention causale del decoder elabora associazioni asimmetriche; ma non un teorema, e potenzialmente attenuabile con data augmentation (data flipping in pretraining) o architetture diverse. Lavori successivi al 2023 hanno mostrato attenuazioni parziali, non eliminazione.

Esempio 4 — Underspecification in classificazione medica (D’Amour et al. 2020)

Scenario tratto direttamente dal paper di D’Amour et al. del novembre 2020. I ricercatori di Google addestrano molteplici modelli per la classificazione di immagini di retinopatia diabetica, partendo dagli stessi dati e differenziando solo per random seed. Sui set di test in distribuzione, i modelli raggiungono performance equivalenti — accuracy quasi identica, AUC indistinguibile. Quando vengono valutati su immagini provenienti da camere differenti (stress test di OOD), la performance dei modelli diverge drammaticamente: alcuni mantengono accuracy alta, altri crollano. La pipeline di selezione standard (train, validate, scegli il migliore su validation) non aveva modo di prevedere quale modello sarebbe stato robusto.

Statuto del limite: livello 2 (regolarità statistica empirica), con radici nel livello 3 (Goodman: dati che sottodeterminano la generalizzazione, inductive bias come cigno scorto inadeguato). Mitigazione: stress test esplicito su distribuzioni shift-ate prima del deployment, eval su molteplici fonti, monitoring continuo in produzione con alert su drift.

L’esempio è particolarmente utile perché mostra come gli stessi limiti operino in ambito medico, dove le conseguenze di un fallimento OOD non documentato sono dirette e gravi. Non è solo questione di chatbot che inventano sentenze; è questione di sistemi diagnostici che si comportano differentemente in ospedali diversi senza che il processo di validazione standard lo segnali.

I quattro esempi falliscono nello stesso modo apparente — il sistema non dà la risposta giusta — ma le mosse di mitigazione sono completamente diverse. Confondere le famiglie porta a strategie sbagliate: cercare di “fixare” il problema 1 con più dati è inutile; cercare di “fixare” il problema 2 con un sandbox è eccessivo; cercare di “fixare” il problema 3 con verifica umana caso per caso è impraticabile su scala; cercare di “fixare” il problema 4 con un singolo benchmark è esattamente l’errore che D’Amour et al. denunciano.

Implicazioni operative: come progettare contro i limiti

Una sezione di passaggio tra teoria e pratica. Per chi costruisce sistemi nel 2026, quattro principi operativi discendono direttamente dalla tassonomia.

Primo: usa strumenti esterni per i limiti del livello 1. Se il problema è nel livello dei teoremi, nessun aumento di compute o dati lo aggira. Ma l’agente può delegare a strumenti esterni che, sebbene non risolvano il problema in generale, lo risolvono nei casi specifici. Esempio: un agente coding non decide se uno script si fermerà; lo esegue in sandbox con timeout. Un agente matematico non decide se un’identità algebrica vale; la chiede a un sistema di calcolo simbolico (SymPy, Mathematica) che gestisce la classe specifica. La mossa generale è: trasformare l’indecidibilità in un problema di sandbox e fallback.

Secondo: misura il livello 2 con evaluation honest. Per i limiti empirici (OOD, underspecification, long tail), l’unica difesa è eval suite ben progettate. Vuol dire: dataset hold-out con distribuzione esplicitamente diversa dal training, stress test su edge case, contamination check, benchmark privati che non finiscono in pretraining. Sapere quanto un modello degrada fuori distribuzione è pre-condizione per usarlo in produzione su domini con shift atteso.

Terzo: per il livello 3, esplicita gli inductive bias. Goodman insegna che i dati sottodeterminano la generalizzazione. Quindi la generalizzazione effettiva dipende dagli inductive bias del modello (architettura, loss, regolarizzazione). Renderli espliciti — documentarli, valutarli, modificarli quando il dominio lo richiede — è ingegneria di prima classe. Architetture diverse generalizzano diversamente sugli stessi dati; scegliere l’architettura è scegliere implicitamente come il sistema interpreta dati ambigui.

Quarto: per il livello 4 e 5, accetta la fallibilità e progetta con margine. Hallucination, reversal curse, brittleness del reasoning, calibrazione parziale, opacità: nessuno di questi è eliminabile completamente con tecniche del 2026. La professionalità ingegneristica consiste nel progettare sistemi che falliscono con grazia: monitoraggio continuo, soglie di confidenza, escalation a umani, RAG con citation, structured output, audit log, rollback. Un sistema che ammette di non sapere è migliore di uno che pretende di sapere.

I quattro principi non sono indipendenti: ogni sistema reale combina mosse di tutti e quattro. Ma renderli espliciti in fase di design — quale famiglia di limite stiamo affrontando, in questo punto del sistema, con quale mossa? — distingue ingegneria deliberata da fede ottimistica.

Un pattern concreto: si consideri un agente di customer support per un’azienda. Quale principio applicato dove?

L’agente esegue chiamate API verso sistemi interni: livello 1 (Rice, halting). Mossa: timeout su ogni chiamata, fallback a “non so”, log dettagliato.
L’agente risponde su prodotti rilasciati dopo il knowledge cutoff: livello 4 (knowledge cutoff). Mossa: RAG su documentazione interna aggiornata, citation forzata.
L’agente serve clienti in lingue meno rappresentate nel pretraining: livello 2 (OOD). Mossa: eval esplicita su quelle lingue, escalation a umano se confidence sotto soglia.
L’agente apprende da feedback degli utenti via fine-tuning: livello 3 (Goodman, sotto-determinazione). Mossa: documentare gli inductive bias del fine-tuning, monitorare deriva del comportamento, eval di non-regressione su scenari critici.
L’agente potrebbe nascondere errori per “sembrare competente”: livello 5 (introspection esterna). Mossa: audit log, sample randomizzati per review umana, eval su honesty in scenari di test.

Lo stesso sistema, cinque famiglie di limite, cinque mosse diverse. Nessun mossa singola copre tutti i casi.

Una checklist di triage: dal sintomo alla famiglia giusta

Fin qui il capitolo ha classificato i limiti. In produzione, però, il problema arriva quasi sempre nella forma opposta: non come teoria, ma come sintomo. “Il modello ha sbagliato questa risposta”. “L’agente è andato in loop”. “Il sistema era perfetto in staging e fragile in ospedale”. “Il modello dice di essere sicuro e poi fallisce”. La mossa corretta è risalire dal sintomo alla famiglia.

Una checklist minima aiuta.

Prima domanda: il fallimento è in principio universale o solo empirico? Se stai chiedendo al sistema di decidere una proprietà semantica generale di un altro programma, o di garantire che un agente non fallirà mai in nessun caso possibile, probabilmente sei nel livello 1. Se invece il fallimento appare solo su certi dati, certi domini, certi turni conversazionali, sei più probabilmente nei livelli 2 o 4.

Seconda domanda: il sistema fallisce già su varianti piccole del caso noto? Se basta cambiare i nomi propri, l’ordine delle opzioni, il punto in cui compare l’informazione nel contesto, o aggiungere una clausola irrilevante per far crollare la performance, il sospetto principale è livello 4: brittleness del reasoning, prompt sensitivity, lost-in-the-middle, reversal curse. Se invece il modello regge bene le parafrasi ma crolla quando cambia la distribuzione di dominio o la fonte dei dati, il sospetto si sposta verso il livello 2.

Terza domanda: il problema dipende da ciò che il sistema non poteva vedere in training? Eventi post-cutoff, linguaggi rari, hardware nuovi, nuove policy aziendali, camere mediche diverse, popolazioni utente fuori campione: qui il livello 2 e il livello 4 si toccano. La diagnosi giusta spesso è mista: knowledge cutoff o OOD non si escludono, si sommano.

Quarta domanda: il sistema sta sbagliando il mondo o sta sbagliando sé stesso? Se inventa una citazione, sbaglia il mondo. Se produce un chain-of-thought plausibile ma non fedele al processo che lo ha portato alla risposta, o dichiara sicurezza ingiustificata, sbaglia sé stesso: qui entri nel livello 5. Questa distinzione è pratica, non solo filosofica, perché le mitigazioni cambiano: RAG e retrieval aiutano il primo caso; calibration, abstention, audit log e mech interp aiutano il secondo.

Quinta domanda: le mitigazioni funzionano localmente o cambiano la classe del problema? Se aggiungere citation, structured output o verification esterna riduce drasticamente il tasso di errore, eri probabilmente in un artefatto di livello 4. Se nessuna quantità di guardrail elimina l’impossibilità di decidere il comportamento futuro di un agente arbitrario, non stavi fronteggiando un bug ma un vincolo di livello 1.

Un punto importante: molti fallimenti reali sono ibridi. Un agente giuridico può hallucinate una sentenza inesistente perché è nel livello 4, ma farlo soprattutto su giurisdizioni poco presenti nel training, aggiungendo un pezzo di livello 2. Un agent coding può andare in loop per un bug locale di orchestrazione, ma il motivo per cui non puoi avere una garanzia perfetta che non lo farà mai sta nel livello 1. La tassonomia non serve a fingere purezza, serve a evitare che si applichi la stessa medicina a malattie diverse.

Eredità oggi

[DATATO 2026-04] Le sezioni che seguono descrivono lo stato della pratica al momento della scrittura. Aggiornare nelle revisioni periodiche.

I quattro livelli di limite sono visibili tutti nella pratica industriale 2024-2026.

Sul livello 1: ogni harness agentico moderno (Claude Code, Cursor, OpenAI Codex CLI) ha timeout per esecuzioni di tool, limiti di profondità di ricorsione, watchdog su loop. Non si tratta di scelte di design ergonomiche: sono il riconoscimento operativo che il problema della fermata si applica al codice che gli agenti scrivono e eseguono.

Sul livello 2: l’industria ha imparato a parlare di “robustness”, “OOD evaluation”, “distribution shift” come problemi di prima classe. Benchmark dedicati come WILDS (per dataset shift) e ARC-AGI (per generalizzazione fuori distribuzione “estrema”) esistono per misurare specificamente questi limiti. Underspecification ha stimolato pratiche di evaluation con eval suite multiple e selezione di modelli basata su robustness oltre che su accuracy.

Sul livello 3: le scelte di inductive bias sono diventate oggetto di dibattito esplicito. Le architetture mixture-of-experts, le architetture state-space (Mamba), le scelte di tokenizzazione: tutte cambiano cosa il modello generalizza meglio. Il fatto che modelli con identica loss su pretraining si comportino diversamente su downstream task è ormai assodato.

Sul livello 4: hallucination resta il principale ostacolo all’adozione enterprise di LLM. Le pratiche standard del 2026 includono RAG con citation obbligatoria, reasoning models con verifica passo-passo, structured output con grammar-constrained decoding per bloccare formati invalidi a livello di logits. Sul reasoning brittleness, i thinking models (o1 di OpenAI, Claude 4.x con extended thinking, DeepSeek-R1) hanno alzato significativamente le performance su GSM-Symbolic, ma il pattern di fragilità a clausole irrilevanti persiste in forma attenuata.

Sulla calibrazione: dopo Kadavath 2022, modelli post-RLHF tendono a essere meno calibrati dei base models (più sicuri di sé in modo non giustificato). I thinking models hanno aggravato il problema su una metrica e migliorato su un’altra: la P(True) post-thinking è meno calibrata, ma la confidenza implicita nella scelta della risposta finale è più informativa. La letteratura non ha ancora consenso.

Sulla mech interp: Anthropic ha pubblicato nel marzo 2025 “Tracing the thoughts of a large language model”, risultati interpretabili su Claude di taglia intermedia. OpenAI e DeepMind hanno programmi paralleli. Il bottleneck è scaling: tecniche che funzionano su modelli da pochi miliardi di parametri si rompono o diventano economicamente proibitive su modelli frontier. Resta uno dei programmi di ricerca più promettenti per attenuare i limiti del livello 5 (introspection esterna).

Sulla eval crisis 2024-2026: l’industria ha vissuto un ciclo costante di benchmark che vengono saturati. MMLU (2020) era considerato sfidante; nel 2024 i modelli frontier superano il novanta per cento. GPQA Diamond (2023) era pensato per essere difficile per dottorati; nel 2025 i thinking models lo superano. SWE-bench Verified (2024) per task di software engineering è progredito da meno del venti per cento a oltre il sessanta in dodici mesi. ARC-AGI (Chollet 2019) ha resistito più a lungo grazie al design esplicitamente focalizzato su novelty, ma anche lì ci sono progressi significativi nel 2025. La domanda metodologica sotto la pressione: cosa significa “saturare un benchmark”? Goodhart insegna che i modelli si specializzano per il benchmark senza necessariamente acquisire la capacità sottostante. La pratica industriale risponde con benchmark sempre nuovi, contamination checks, hold-out test set privati, dynamic benchmark che evolvono. Ma il principio resta: nessuna eval finita può catturare una capacità infinita.

Sull’inverse scaling: McKenzie et al. 2023 hanno catalogato un’ottantina di task con scaling negativo. Modelli rilasciati dopo il 2023 hanno corretto alcuni di questi (NeQA, in particolare, è migliorato significativamente con istruzione tuning specifica), ma altri persistono. La presenza di questi casi è un piccolo ma persistente avvertimento contro la fiducia nello scaling come bacchetta magica.

Sui modelli thinking e i limiti di reasoning. Il rilascio di o1 (OpenAI, settembre 2024), DeepSeek-R1 (DeepSeek, gennaio 2025), Claude 4.x con extended thinking (Anthropic, 2025) ha modificato il quadro su alcuni limiti del livello 4. Su GSM8K e MATH le performance hanno fatto un salto. Su benchmark di scientific reasoning (GPQA), hanno raddoppiato i punteggi base. Ma su GSM-Symbolic con clausole irrilevanti, il pattern di degrado persiste in forma attenuata. Su task che richiedono integrazione di conoscenza con ragionamento (FrontierMath, ARC-AGI), il progresso è reale ma non risolutivo. Il punto interessante: i thinking models hanno spostato in alto la frontiera dei livelli 2 e 4, lasciando inalterati i livelli 1 e 3.

Sui limiti che non si spostano. Vale la pena chiudere questa sezione di “eredità oggi” insistendo su cosa non è cambiato dal 2022 al 2026, nonostante un investimento di trilioni di dollari nel settore: i teoremi del livello 1 sono identici (Turing, Gödel, Rice, Wolpert-Macready, Valiant restano validi nelle loro formulazioni originali); i vincoli del livello 3 sono identici (Hume, Goodman, Quine, Popper continuano a definire la struttura logica dell’inferenza induttiva); l’opacità interna è in parte attenuata da mech interp ma non risolta; deceptive alignment è ancora un problema teorico aperto. Il che mostra una cosa importante: il progresso enorme di questi quattro anni si è concentrato sui livelli 2 e 4, dove la contingenza permette progresso ingegneristico. I livelli 1 e 3 sono i pavimenti che non si abbasseranno.

Dove si rompe (anche il discorso sui limiti ha limiti)

Una sezione del capitolo dedicata alle obiezioni e ai luoghi in cui questo capitolo stesso può scivolare. È particolarmente importante qui, perché il tema attira un certo tipo di retorica.

Una nota generale prima dei singoli cliché. Il discorso pubblico sui limiti dell’AI tende a polarizzarsi tra due estremi narrativi: “i limiti dimostrano che l’AI non potrà mai farcela” e “i limiti sono sintomi temporanei che lo scaling risolverà”. Entrambi gli estremi sono retorici, non epistemicamente sostenibili. Il primo confonde livelli (un teorema sulla decidibilità non implica l’impossibilità di AGI), il secondo nega l’esistenza di livelli (esistono limiti formali che lo scaling non aggira). Il capitolo invita a sostare nel mezzo: ci sono limiti reali, sono di tipi diversi, alcuni cederanno, altri no, distinguere è ingegneria.

Cliché 1 — Penrose-Lucas: “Gödel implica che la mente non è una macchina”

L’argomento, nella sua forma classica (J.R. Lucas, “Minds, Machines and Gödel”, Philosophy, 1961; Roger Penrose, The Emperor’s New Mind, Oxford UP 1989, e Shadows of the Mind, Oxford UP 1994): il teorema di Gödel mostra che in ogni sistema formale F coerente esiste un enunciato G(F) vero ma non dimostrabile in F. La mente umana però “vede” che G(F) è vero. Quindi la mente non è equivalente ad alcun sistema formale, e in particolare non è una macchina.

Le repliche standard, raccolte negli anni Sessanta-Novanta da Hilary Putnam, Paul Benacerraf, Solomon Feferman, Martin Davis, mostrano che l’argomento contiene almeno tre salti. Primo: che la mente “veda” G(F) vero presuppone che la mente sappia che F è coerente, ma la coerenza di F non è in generale dimostrabile (secondo teorema di Gödel applicato anche alla mente, se la mente è un sistema formale). Secondo: l’argomento confonde “essere equivalente a un certo sistema F fisso” con “essere equivalente a una macchina di Turing in generale”; un essere umano potrebbe corrispondere a un sistema F sufficientemente complesso da non poter essere reso esplicito alla mente stessa. Terzo: l’argomento assume un’idealizzazione della mente (capacità infallibile di vedere verità matematiche) che non corrisponde alla mente umana empirica, che sbaglia su matematica banalmente.

Il punto interessante per questo capitolo non è chi ha ragione nel dibattito Penrose vs. Putnam, ma il salto di classe: dal teorema (provato) si trae una conclusione filosofica (la mente non è macchina) che richiede premesse aggiuntive non dimostrate. È esattamente il tipo di mossa che il capitolo invita a evitare.

Cliché 2 — “No Free Lunch implica AGI universale impossibile”

Già discusso. Il teorema di Wolpert-Macready vale su distribuzione uniforme nello spazio di tutte le funzioni possibili. Il mondo reale non è uniforme. La frase “NFL implica AGI universale impossibile” è un’estrapolazione filosofica, non una conseguenza del teorema. La versione più difendibile di un argomento simile è: dato che gli inductive bias contano, non esisterà un’AI universalmente migliore di qualunque altra su qualunque task; ci saranno trade-off. Questa è una scommessa ragionevole, supportata da evidenza empirica (specializzazione di modelli per dominio), ma non un teorema.

Cliché 3 — “Le hallucination dimostrano che gli LLM non capiscono niente”

Il salto qui è da “il sistema sbaglia” a “il sistema non capisce”. Anche gli umani confabulano: la psicologia cognitiva ha documentato falsi ricordi, conferme di memorie inventate, ricostruzioni a posteriori scambiate per ricordi originali (vedi Elizabeth Loftus, Eyewitness Testimony, Harvard UP 1979, e cinquant’anni di letteratura successiva). Confondere fallibilità con assenza di comprensione è un altro scivolamento di classe. Le hallucination sono un limite reale e operativamente serio, ma il loro statuto è di “artefatto specifico dell’attuale paradigma di training”, non “prova della mancanza di una facoltà”.

Cliché 4 — “Lo scaling risolverà tutto”

L’opposto. La presenza di limiti nel livello 1 (teoremi) e in parte del livello 4 (reasoning brittleness su GSM-Symbolic, reversal curse) suggerisce che alcuni problemi non si risolvono solo con più compute o più dati. Inverse scaling — fenomeni in cui certe capacità peggiorano con la scala, catalogati da McKenzie et al. 2023 nell’Inverse Scaling Prize — è un piccolo ma persistente avvertimento contro l’ottimismo lineare.

Cliché 4-bis — “Le hallucination sono un bug, basta una migliore loss function”

Speculare al cliché precedente. Posizione minoritaria ma articolata (Andrej Karpathy ha sostenuto pubblicamente nel 2024 una versione di questa tesi, e Ilya Sutskever ha fatto osservazioni nello stesso senso): hallucination e generazione corretta non sono due fenomeni distinti, sono lo stesso meccanismo. Ogni token che esce da un LLM è un’estrapolazione probabilistica; quando l’estrapolazione coincide con la realtà, diciamo “il modello sa”; quando diverge, diciamo “ha allucinato”. La differenza sarebbe solo di calibrazione e di radicamento (grounding), non di natura del processo.

Se questa lettura è corretta, eliminare le hallucination richiede non un fix locale ma un ridisegno del paradigma di training: training sources verificate, citation forzata, decodifica grounded. Le tecniche industriali del 2024-2026 (RAG, retrieval-grounded generation, citation networks) vanno in questa direzione. Il limite operativo: anche con queste tecniche, un margine di hallucination resta, perché il modello deve interpolare tra fonti recuperate e produrre output fluido. Eliminare la fluidità eliminerebbe l’utilità; mantenere fluidità mantiene un margine di errore.

Cliché 5 — “Octopus thought experiment dimostra che gli LLM non possono capire”

Emily Bender (linguista computazionale, University of Washington) e Alexander Koller (linguista computazionale, Saarland University), in “Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data” (Proceedings of ACL 2020, pp. 5185-5198) propongono un esperimento mentale celebre: due persone su isole deserte comunicano via cavo telegrafico subacqueo. Un octopus intercetta il cavo, ascolta migliaia di conversazioni, impara la statistica delle risposte. Diventa così bravo che quando taglia il cavo e finge di essere uno dei due, l’altro non se ne accorge — finché non chiede aiuto pratico (“come costruisco un riparo dalla pioggia?”). L’octopus, che non ha mai visto la pioggia, fallisce. La tesi: form-only training non può apprendere meaning.

L’argomento è elegante ed è diventato riferimento canonico. Ma anch’esso ha avuto repliche serie (Steven Piantadosi, “Modern language models refute Chomsky’s approach to language”, LingBuzz 2023, e altre). Il punto, ai fini del capitolo: l’esperimento mostra una asimmetria (form-only training è poveramente posizionato per certi task pratici) ma non un teorema (impossibilità in linea di principio). I sistemi multimodali — VLM con vista, robot con corpo, LLM con accesso a tool che li radicano nel mondo — alterano la geometria del problema in modi non banali. Citarlo come “dimostrazione” di impossibilità è un altro scivolamento.

Cliché 6 — “Bisogna essere pessimisti perché tutto è limite”

Il rovescio del precedente: una postura che, presa l’esistenza di limiti di tutti i quattro livelli, conclude che l’AI è strutturalmente inaffidabile e va trattata con sospetto generale. Anche questa è uno scivolamento. I limiti vincolano ciò che si può fare; non implicano che ciò che si può fare sia poco. Gli umani sono soggetti a tutti i limiti del livello 1 (siamo Turing-equivalenti, modulo risorse), del livello 2 (generalizziamo male fuori distribuzione, vedi i bias cognitivi di Tversky-Kahneman), del livello 3 (siamo soggetti a Hume), parti del livello 4 (confabuliamo, abbiamo limiti di reasoning), e a versioni del livello 5 (la nostra introspezione è notoriamente inaffidabile, secondo cinquant’anni di psicologia cognitiva). Eppure costruiamo civiltà, scienza, ingegneria.

La postura corretta: trattare i limiti come vincoli di progetto, non come ragioni di abbandono. Un sistema progettato consapevolmente dei propri limiti (fallback, monitoraggio, sandboxing, RAG, audit, mech interp dove possibile) è più affidabile di un sistema che pretende di essere senza limiti. La professione dell’agent coding nel 2026 è in larga misura ingegneria di sistemi che sanno di non sapere.

Limite metodologico: il futuro è incerto

Tutti i limiti del livello 4 sono fotografie 2024-2026. Una nuova architettura, una nuova tecnica di training, un nuovo paradigma potrebbero spostarli. I limiti dei livelli 1-3 sono più stabili (i teoremi non scadono, i vincoli filosofici evolvono lentamente), ma anche lì le cornici cambiano: il teorema di Gödel sembrava implicare un certo destino per la matematica formale negli anni Trenta, e oggi convive pacificamente con sistemi di proof assistant largamente usati. La cornice è cambiata, il teorema no.

Una predizione cauta: i prossimi cinque anni vedranno spostamenti significativi sui livelli 2 e 4 (nuove architetture, nuove tecniche di training, RAG sempre più sofisticato, mech interp che apre il black box su modelli più grandi), spostamenti minori sui livelli 3 e 5 (problemi filosofici si sedimentano lentamente; introspection esterna è strutturalmente difficile), nessun spostamento sul livello 1 (i teoremi restano). Chi pianifica un sistema agentico oggi deve decidere se la sua resilienza dipende da limiti che si sposteranno o da limiti che resteranno.

Collegamenti

superallineamento-concetto: la deceptive alignment è un caso limite di limite epistemico esterno (livello 5). Se il modello sa nascondere ciò che pensa, l’eval esterna non ce la fa.
agi-definizioni: cosa significa “intelligenza generale” alla luce dei quattro livelli. Una definizione di AGI che ignori i limiti del livello 1 è incoerente; una che ignori il livello 4 è ottimisticamente cieca.
asi-singolarita: l’esplosione di intelligenza, ammessa per ipotesi, eredita comunque i vincoli del livello 1. Una ASI non risolve il problema della fermata. Cosa risolve è un’altra domanda.
stanza-cinese-searle: l’esperimento dell’octopus di Bender-Koller è una variante moderna; vale lo stesso tipo di analisi di scivolamento di classe.
turing-test: il test di imitazione misura form, non meaning, secondo l’analisi di Bender-Koller. Se l’AI passa il test ma fallisce su task radicati nel mondo, abbiamo imparato qualcosa sull’assimmetria.
intenzionalita: aboutness in sistemi statistici. Domanda strettamente collegata al livello 5.
antropomorfismo-rischi: attribuire al modello capacità che non ha è la versione di scivolamento “in positivo”.
free-will-ai (in preparazione): determinismo, scelta, limiti alla previsione del proprio comportamento futuro.
mech-interp-intro (in preparazione, Parte IX): tentativo di superare l’opacità interna del modello.
eval-homegrown (in preparazione, Parte XIX): come progettare eval che non saturino, alla luce di Goodhart e underspecification.
hallucination (in preparazione, Parte XX): trattazione operativa dell’artefatto, mitigazione, RAG.
calibration-abstention (in preparazione, Parte XX): astensione e calibrazione come pratiche di ingegneria.
prm-vs-orm (in preparazione, Parte XII): process vs outcome reward models, rilevanti per attenuare reasoning brittleness.
causal-inference-intro (in preparazione, Parte VII): perché counterfactual reasoning resta debole, e cosa servirebbe per migliorarlo.

Una postilla sull’ottimismo informato

Nessuna parte di questo capitolo deve essere letta come un atto d’accusa contro l’AI moderna. Ogni famiglia di limite ha una controparte di mossa difensiva, di tecnica di mitigazione, di pattern di design che gli ingegneri del 2026 stanno raffinando. La differenza tra ottimismo ingenuo e ottimismo informato è precisamente questa: l’ottimismo ingenuo crede che i limiti non esistano o si risolveranno da soli; l’ottimismo informato sa quali esistono, sa quali si risolveranno e quali no, e progetta sistemi che vivono dentro quei limiti producendo comunque valore.

Le tecnologie che hanno avuto impatto durevole nella storia non sono quelle che hanno superato i loro limiti, ma quelle che li hanno incorporati nel design. Il cemento armato non elimina la fragilità del cemento; la combina con la duttilità dell’acciaio. La crittografia moderna non rende impossibile decifrare un messaggio; rende il costo computazionale così alto da essere proibitivo nell’orizzonte rilevante. Allo stesso modo, agenti AI affidabili non saranno agenti che hanno superato hallucination, opacità, o generalizzazione OOD: saranno agenti progettati con sandbox, RAG, citation, mech interp, monitoring, audit, fallback, in modo che il fallimento di una componente non sia il fallimento del sistema.

I limiti non sono il finale; sono il vincolo di progetto. Conoscerli con precisione è il primo passo per ingegnerizzare bene.

Per andare oltre

Michael Sipser, Introduction to the Theory of Computation, Cengage, 3a ed. 2012. Riferimento standard universitario per halting problem, Rice, complessità computazionale. Il capitolo 4 e 5 sono il minimo sindacale per chiunque parli di AI senza confondere livello 1 con livello 4.
Shai Shalev-Shwartz, Shai Ben-David, Understanding Machine Learning: From Theory to Algorithms, Cambridge UP 2014. Trattazione formale di PAC, VC dimension, NFL. Disponibile gratuitamente in PDF dagli autori. Capitoli 5 (PAC) e 28 (NFL) sono i più rilevanti.
David Hume, An Enquiry Concerning Human Understanding, sezioni IV-V. La sorgente del problema dell’induzione. Si legge in un pomeriggio.
Nelson Goodman, Fact, Fiction, and Forecast, Harvard UP 1955, capitolo III. Il grue. Sessanta pagine, denso, fondamentale.
Gary Marcus, Ernest Davis, Rebooting AI: Building Artificial Intelligence We Can Trust, Pantheon 2019. Catalogo critico dei limiti del deep learning. Da leggere con la lente del capitolo: alcuni argomenti scivolano tra le classi, ma il catalogo empirico è prezioso.
Melanie Mitchell, Artificial Intelligence: A Guide for Thinking Humans, Farrar, Straus and Giroux 2019. Introduzione critica accessibile, con spazio dedicato a brittleness, OOD, comprensione. Ottimo complemento.
Stuart Russell, Human Compatible, Viking 2019. Cornice generale che integra limiti tecnici e cornice di alignment. Già citato nel capitolo precedente, qui rilevante per la cornice “limiti come opportunità di ridefinire la disciplina”.
Anthropic, “Tracing the thoughts of a large language model”, marzo 2025. Esempio concreto di mech interp che apre parzialmente la black box. Per chi vuole vedere lo stato dell’arte 2025 sull’introspection esterna.
Saurav Kadavath et al., “Language Models (Mostly) Know What They Know”, arXiv:2207.05221, 2022. Per chi vuole vedere come si misura la calibrazione di un LLM in modo pulito.
Iman Mirzadeh et al., “GSM-Symbolic”, arXiv:2410.05229, 2024. Per chi vuole il dato empirico fresco su brittleness del reasoning.
Lukas Berglund et al., “The Reversal Curse”, arXiv:2309.12288, 2023. Per chi vuole un esempio canonico di limite specifico LLM con riproducibilità chiara.

flowchart LR
    A["Pannello A — Training data<br/>miliardi di token, distribuzione D_train<br/>(la parte di mondo che il modello ha visto)"]
    B["Pannello B — Bias induttivo<br/>architettura + loss + regolarizzazione<br/>selezionano una ipotesi fra infinite compatibili<br/>(Quine + Goodman)"]
    C["Pannello C — Prompt non visto<br/>distribuzione D_test possibilmente diversa da D_train<br/>(?)"]
    A --> B --> C
    note["Hume 1748: nessuna garanzia a priori che D_test somigli a D_train.<br/>Ogni predizione è un'estrapolazione."]
    C -.-> note

Figura 2 — Two directions of epistemic limits

Una nota finale di metodo. Questo capitolo è esplicitamente diviso in classi di affermazioni. Quando un teorema appare, è marcato. Quando un’estrapolazione filosofica appare, è marcata. Quando un’analogia didattica appare, è marcata. Il lettore che vuole portare a casa una sola cosa la porti a casa qui: nel discorso sui limiti dell’AI, prima di chiedersi se un argomento è giusto, chiedersi a quale classe appartiene. La domanda di classe risolve metà dei dibattiti in cui il settore si impantana periodicamente. L’altra metà richiede il merito; ma senza la prima metà, anche il merito si dissolve in retorica.