Il test di imitazione: cosa misura davvero

Settantacinque anni di “test di Turing” hanno prodotto un folklore: pochi hanno letto il paper, molti hanno opinioni. Questo capitolo torna al testo, separa il dispositivo filosofico dalle sue interpretazioni popolari, e mostra perché il test resta dibattuto anche dopo che gli LLM lo hanno superato in molte sue forme.

Perché questo capitolo

Nel 1950, sull’ultimo numero di Mind in ottobre, un matematico britannico riformula la domanda “possono pensare le macchine?” come un gioco di indovinelli a tre. Sessantacinque anni dopo, ChatGPT vince il gioco senza chiarire se pensa. La distanza fra queste due frasi è il contenuto del capitolo.

Il test di Turing è folklore. Quasi tutti gli sviluppatori, i giornalisti e gli appassionati di AI ne hanno sentito parlare. Pochi hanno letto Turing, ancora meno hanno letto Searle, Block, Harnad o Levesque. Ne risulta un dibattito pubblico che oscilla fra due tesi entrambe sbagliate: “GPT-4 ha passato il test di Turing, quindi pensa” e “il test di Turing è una sciocchezza superata da decenni”. Le due tesi convivono nella stessa settimana sui giornali, talvolta nello stesso articolo, e nessuna delle due rende giustizia al testo del 1950.

Il capitolo serve a tre cose. Primo: tornare al paper originale e leggere cosa Turing ha effettivamente proposto, distinguendolo dalle decine di semplificazioni popolari che gli vengono attribuite. Secondo: ripercorrere le critiche che hanno scolpito il dibattito (Searle 1980, Block 1981, Harnad 1991, Levesque 2014) per mostrare che il test resta vivo come problema filosofico, non come benchmark. Terzo: capire cosa significa, oggi, che gli LLM moderni “passano” forme casuali del test e perché questo non risolve la domanda di partenza.

Il taglio è filosofico, non operativo. Il capitolo presuppone la lettura di turing-macchina-mente, che ricostruisce Turing storicamente con i due paper del 1936 e del 1950, e di cosa-significa-pensare, che inquadra Turing come paradigma operazionalista nel panorama delle quattro strategie filosofiche. Qui si zooma su una sola domanda: cosa misura il test, cosa non misura, cosa significa “passarlo”.

Contesto

Ottobre 1950. Mind, la rivista filosofica di Oxford fondata nel 1876 da Alexander Bain, pubblica nel numero 236 del volume LIX un articolo di ventotto pagine intitolato “Computing Machinery and Intelligence”. L’autore, Alan Turing, ha trentotto anni, è docente al Computing Machine Laboratory di Manchester, e ha visto da poco il Manchester Mark I funzionare. Cinque anni dopo Bletchley Park, un anno dopo aver lavorato sul progetto ACE al National Physical Laboratory, Turing scrive per la prima volta esplicitamente su pensiero e macchine.

Mind non è una rivista di informatica — la categoria non esiste ancora nel 1950. È la sede canonica della filosofia analitica anglosassone, dove pubblicano Russell, Moore, Ryle, Wittgenstein. Turing sceglie deliberatamente questo pubblico: vuole che siano i filosofi a discutere il problema, perché sono loro che decidono cosa è legittimo dire su mente e pensiero. La scelta editoriale è una mossa retorica precisa, e va tenuta presente quando si legge il paper.

Il contesto filosofico è il comportamentismo trionfante. Gilbert Ryle ha appena pubblicato The Concept of Mind (1949), in cui attacca il “dogma del fantasma nella macchina” — la sopravvivenza inconsapevole del dualismo cartesiano — e propone una visione disposizionale della mente. La psicologia americana è dominata da Skinner, che nel 1957 pubblicherà Verbal Behavior riducendo il linguaggio a comportamento appreso. La cibernetica di Wiener (1948) e i neuroni formali di McCulloch e Pitts (1943) hanno aperto la possibilità di pensare la mente in termini di circuiti e feedback. Turing si inserisce in questo terreno con una mossa originale.

La mossa è una riformulazione operativa. Anziché definire “pensare” — operazione che la filosofia ha tentato senza successo per due millenni — Turing propone di sostituire la domanda metafisica “le macchine pensano?” con una domanda comportamentale verificabile: “una macchina può ingannare un giudice umano in un gioco di imitazione testuale?”. Se sì, attribuire alla macchina il pensiero diventa ragionevole quanto attribuirlo a un altro umano sulla stessa base. La definizione di pensiero non viene proposta: viene aggirata.

Capire bene questa mossa è il primo passo per leggere il paper senza forzature. Turing non sta dicendo “ho una definizione di pensiero, eccola”. Sta dicendo “la domanda originale è mal posta, propongo di sostituirla con questa, che invece ha risposta”. È una mossa pragmatica nello spirito di Carnap e dei positivisti logici di Vienna: trasformare problemi metafisici in problemi empirici. È anche una mossa filosoficamente sofisticata, anche se viene spesso letta come ingenua riduzione comportamentista.

Va aggiunta una nota terminologica. Turing nel paper non chiama il proprio test “Turing test”. Lo chiama imitation game. Il termine “Turing test” si stabilizza nei decenni successivi, soprattutto a partire dagli anni Sessanta, e finisce per convivere con varianti sostanzialmente diverse. La distinzione fra “imitation game originale” e “Turing test contemporaneo” è discussa in dettaglio sotto.

[FIGURE — Imitation game original setup: three rooms drawn as boxes; left room labeled “interrogator C” with a human figure and a teletype terminal; top right room labeled “player A (man)” with a silhouette; bottom right room labeled “player B (woman)” with a silhouette; dashed lines labeled “text-only channel” connecting interrogator to both players; caption above reads “C must identify which is the woman, based only on text”; bottom annotation in italics says “Turing 1950, Section 1: original three-player setup”]

L’intuizione

Due angoli, complementari ma non sovrapponibili.

Angolo 1 — Sostituire la metafisica con il comportamento

Il problema filosofico classico è che “pensare” non ha definizione operativa. Ogni tentativo di definirlo direttamente — avere coscienza, intenzionalità, qualia, libertà — ricade in un circolo: il definiens è più oscuro del definiendum. Non riusciamo a definire “pensare” senza presupporre “mente”, non riusciamo a definire “mente” senza presupporre “coscienza”, non riusciamo a definire “coscienza” senza presupporre qualcosa di ancora più vago. Se la domanda “possono le macchine pensare?” la affrontiamo su questo terreno, non ne usciamo più.

La mossa di Turing è aggirare il problema. Invece di definire “pensare”, propone un test comportamentale: se una macchina interagisce testualmente in modo indistinguibile da un umano in un gioco sufficientemente aperto, attribuirle il pensiero non è più irragionevole di attribuirlo all’umano. L’idea di fondo è quella che i filosofi chiamano “cortesia comportamentista”: trattiamo le altre menti come tali perché i loro comportamenti ci convincono, non perché abbiamo accesso privilegiato ai loro stati interni. Applicare la stessa cortesia a una macchina, dice Turing, è coerente.

La mossa è operativamente potente per tre ragioni. Primo, la domanda diventa falsificabile: possiamo costruire il test, eseguirlo, vedere cosa succede. Secondo, evita le questioni metafisiche irrisolvibili (cos’è la coscienza?) sostituendole con una questione pragmatica (può ingannarmi?). Terzo, è agnostica rispetto all’implementazione: non importa se la macchina “pensa davvero” come un cervello o con meccanismi completamente diversi — conta il comportamento esterno.

Da questo angolo, il test è uno strumento di disambiguazione filosofica, non un benchmark scientifico. Serve a far smettere di litigare sui termini e a iniziare a litigare sulle prove.

Angolo 2 — Misurare un gioco linguistico, non l’intelligenza

Il secondo angolo è sociologico più che filosofico, e nasce da una lettura attenta del paper. Cosa, esattamente, misura il test di Turing?

Misura la capacità di una macchina di giocare un gioco linguistico umano in modo convincente. Non misura l’intelligenza generale, non misura il ragionamento di senso comune, non misura la capacità di risolvere problemi nuovi. Misura una performance specifica: sostenere conversazione testuale, in dominio aperto, con un giudice umano, in modo che il giudice non sappia distinguere la macchina da un umano.

Questa formulazione restrittiva non è un’interpretazione critica: è ciò che il paper dice. Turing parla esplicitamente di “imitation game”, non di “test di intelligenza”. L’imitazione è un’attività sociale, regolata dalle convenzioni di un gioco, non una proprietà cognitiva intrinseca. La macchina che vince all’imitation game è brava a imitare, non necessariamente intelligente in altri sensi.

Da questo angolo, il test ha un ambito molto più ristretto di quello che il folklore gli attribuisce. Non è un test di pensiero in senso pieno; è un test di credibilità imitativa in canale testuale. La differenza è grossa. Un sistema che vince all’imitation game può essere un brillante simulatore di umani senza essere un buon ragionatore. Un sistema che ragiona benissimo su problemi tecnici può perdere all’imitation game se non sa fingere modestia, esitazione, fallibilità — tutte caratteristiche umane che la pura competenza non garantisce.

I due angoli non sono in contraddizione. Il primo dice cosa Turing voleva fare con il test (aggirare la metafisica); il secondo dice cosa il test fa effettivamente (misurare credibilità imitativa). Entrambi sono necessari per leggere il paper senza confusioni.

La meccanica

Otto sotto-sezioni, una per ciascun pilastro del dispositivo e delle sue critiche.

L’imitation game originale

Turing nella sezione 1 del paper descrive il gioco a tre giocatori in modo preciso.

Tre attori: un uomo $A$ , una donna $B$ , un interrogatore $C$ di genere arbitrario. $C$ sta in una stanza separata e comunica con $A$ e $B$ via telescrivente — un canale puramente testuale, senza voce, senza immagine. $C$ deve indovinare chi è l’uomo e chi è la donna. $A$ ha il compito di far sbagliare $C$ , cercando di convincerlo di essere la donna. $B$ ha il compito di aiutare $C$ , dichiarando “sono io la donna!” — ma $A$ può dire la stessa cosa, quindi la dichiarazione non risolve.

Nella sezione 2 Turing introduce la variazione che cambia tutto. Sostituiamo $A$ con una macchina. Domanda: la macchina al posto dell’uomo induce $C$ a sbagliare con la stessa frequenza? In caso affermativo, dice Turing, attribuirle il “pensiero” diventa ragionevole.

La struttura a tre è importante e spesso trascurata. Il test originale non è una dicotomia “macchina contro umano con giudice imparziale”. È una doppia imitazione: la macchina imita un uomo che imita una donna. L’imitation game uomo-vs-donna ha già un certo tasso di successo per $A$ (nel 1950, in canale testuale, non zero), e la domanda è se la macchina lo eguaglia. Saygin, Cicekli e Akman in “Turing Test: 50 Years Later” (Minds and Machines, vol. 10, n. 4, 2000, pp. 463-518) discutono in dettaglio le tre interpretazioni in competizione: la standard interpretation (canonica, semplificazione a due), la original imitation game interpretation (Sterrett 2000, French 2000, doppia imitazione), e la three-place interpretation di Copeland.

La differenza non è puramente filologica. Nella versione 3-place, il test è implicitamente un test di sociolinguistica avanzata: la macchina deve sapere come uomini e donne parlano in modo distinguibile per gli umani del 1950. Nella versione 2-place, è un test di plausibilità umana generica. Nella pratica contemporanea si usa universalmente la versione 2-place; la 3-place è citata solo in dibattiti storiografici. Va comunque ricordata, perché chiarisce che Turing aveva in mente uno scenario più sottile della semplice domanda “umano o no?”.

Turing fissa nella sezione 6 una stima quantitativa per il 2000: una macchina con $10^9$ bit di storage che inganna un interrogatore medio al 30% in 5 minuti. Le quattro componenti della stima — capacità, sessione, soglia, tipo di interrogatore — sono il bersaglio di tutte le critiche successive. La capacità è qualitativamente ragionevole (un miliardo di qualcosa); il tempo è troppo breve per essere un test serio; la soglia del 30% è bassa; “interrogatore medio” è categoria sfumata.

[FIGURE — Modern simplified Turing test: two boxes side by side, left labeled “machine candidate”, right labeled “human candidate”; both connected by lines labeled “text channel” to a single box at the bottom labeled “judge”; judge has a thought bubble with “which is which?”; clean editorial style; subtitle reads “the popular two-player version (not Turing’s original three-player game)“]

Le nove obiezioni di Turing

La sezione 6 del paper — la parte più lunga e più citata — discute nove obiezioni prevedibili all’idea che una macchina possa passare il test. Turing risponde a ciascuna. Le esponiamo in forma sintetica; la trattazione estesa è in turing-macchina-mente.

Theological (obiezione teologica). Solo gli umani hanno anima, dunque solo loro pensano. Risposta: argomento debole, limita arbitrariamente il potere di Dio.
“Heads in the Sand” (struzzo). Sarebbe terribile se le macchine pensassero, dunque sperano di no. Risposta: un desiderio non è un argomento.
Mathematical (Gödel/Lucas/poi Penrose). I teoremi di incompletezza limitano i sistemi formali. Risposta: l’argomento presuppone che la mente umana sia un sistema formale consistente, cosa non ovvia.
Argument from Consciousness (Jefferson 1949). Senza emozione vera non c’è pensiero vero. Risposta: applicato coerentemente, porta al solipsismo.
Various Disabilities (“la macchina non può X”). Argomento per disgiunzione arbitraria: si sposta il paletto a ogni successo.
Lady Lovelace’s Objection (Lovelace 1843). Le macchine fanno solo ciò che diciamo loro. Risposta: sorprendono regolarmente; “essere causato da regole” non implica “essere prevedibile”.
Continuity in nervous system. Cervello continuo, macchine discrete. Risposta: differenza quantitativa, non qualitativa.
Informality of behaviour. Umani non rule-governed. Risposta: l’apparenza di assenza di regole non implica assenza di regole.
Extra-sensory perception. Se l’ESP esiste, l’interrogatore può distinguere via telepatia. Risposta: telepathy-proof room. Sezione oggi imbarazzante; nel 1950 Rhine alla Duke aveva ancora credito accademico.

Le nove obiezioni sono interessanti per due ragioni. La prima è che mostrano quanto Turing avesse anticipato il dibattito: la maggior parte delle critiche moderne al test ricalca, sotto nuovi nomi, una di queste nove. La seconda è che mostrano i limiti dell’esercizio: nessuna delle nove obiezioni è quella che oggi consideriamo la più forte (Stanza Cinese, Blockhead, hard problem). Quelle arrivano dopo, generate dal terreno che Turing ha disegnato.

[FIGURE — Nine objections table: a two-column table with the nine objection names in English on the left (Theological, Heads in the Sand, Mathematical, Argument from Consciousness, Various Disabilities, Lady Lovelace, Continuity in Nervous System, Informality of Behaviour, Extra-sensory Perception) and a one-line summary of Turing’s reply on the right; minimal table style; title reads “Turing 1950, Section 6”]

Searle 1980 — La Stanza Cinese

John Searle, filosofo americano nato nel 1932 e attivo a Berkeley, nel 1980 pubblica “Minds, Brains, and Programs” su Behavioral and Brain Sciences (vol. 3, n. 3, pp. 417-457), un fascicolo speciale che include trenta risposte di altri filosofi e le contro-risposte di Searle. Il paper introduce l’esperimento mentale della Stanza Cinese.

Immaginate una stanza in cui un uomo che non sa il cinese riceve foglietti con simboli cinesi e, seguendo un manuale di regole sintattiche, produce risposte in cinese. Dall’esterno la stanza sembra “comprendere” il cinese e potrebbe passare il test di Turing in cinese. Internamente, l’uomo non capisce nulla. Conclusione di Searle: passare il test di Turing non implica comprendere. La sintassi non genera semantica.

L’argomento è una critica radicale al test come misura di “pensare” in senso forte. Searle distingue AI forte (la macchina pensa davvero, ha mente nel senso pieno) e AI debole (la macchina è modello utile per studiare il pensiero, senza presunzione di pensare davvero). L’argomento, dice Searle, colpisce solo la prima. L’AI debole può tranquillamente sopravvivere: simulare il pensiero non implica pensare, esattamente come simulare un uragano non implica essere un uragano.

L’argomento ha generato decine di repliche. La system reply: l’uomo nella stanza non comprende, ma il sistema (uomo + manuale + foglietti) sì. La robot reply: se la stanza fosse il cervello di un robot situato nel mondo, comprenderebbe perché avrebbe accesso causale agli oggetti di cui parla. La brain simulator reply: se il manuale simulasse esattamente il cervello di un parlante cinese, l’argomento perderebbe forza. Searle ha contro-replicato a ciascuna. Il dibattito è vivo a quarant’anni di distanza ed è trattato in dettaglio in stanza-cinese-searle.

Per il presente capitolo, conta una cosa sola: Searle rappresenta la critica filosofica più canonica al test di Turing, e lo fa dentro il terreno definito da Turing. La critica non confuta che il test sia decidibile o falsificabile; confuta che passarlo implichi pensare in senso forte. È una critica all’inferenza, non al dispositivo.

Block 1981 — Blockhead

Ned Block, filosofo americano nato nel 1942 e attivo alla New York University, nello stesso anno di Searle pubblica “Psychologism and Behaviorism” (Philosophical Review, vol. 90, n. 1, gennaio 1981, pp. 5-43). L’argomento è meno popolare di quello di Searle ma altrettanto incisivo: la Blockhead.

Immaginate una lookup table gigante che memorizza, per ogni possibile sequenza di input umano in una conversazione di durata limitata, una risposta plausibile pre-calcolata. Tale tabella, in principio, passerebbe il test di Turing per quella durata. Basta un albero finito di tutte le possibili conversazioni di cinque minuti, con una risposta plausibile a ciascun nodo.

Ma intuitivamente la Blockhead non “pensa”: non ha stati mentali, non ragiona, non comprende; si limita a un lookup. Conclusione: il test di Turing confonde competence con performance. Una performance comportamentale equivalente può essere realizzata da meccanismi ontologicamente molto diversi, alcuni dei quali non meritano l’attribuzione di pensiero.

La risposta standard dei difensori del test è pragmatica: la lookup table richiederebbe un numero di entry maggiore degli atomi nell’universo osservabile, dunque è fisicamente irrealizzabile. La risposta è valida ma non distrugge l’argomento di Block: l’argomento colpisce il test come definizione di pensiero, non come strumento pratico. Se il test fosse una buona definizione, il fatto che la Blockhead lo passi implicherebbe che la Blockhead pensa — conclusione che nessuno è disposto ad accettare. Quindi il test non è una buona definizione di pensiero.

Block e Searle attaccano da angoli diversi. Searle dice: anche un sistema realistico che passa il test potrebbe non comprendere (la sintassi non genera semantica). Block dice: anche un sistema banalmente non-pensante (una tabella) potrebbe passare il test se fosse abbastanza grande. Le due critiche sono indipendenti e cumulative.

Harnad 1991 — Total Turing Test

Stevan Harnad, cognitivista canadese nato nel 1945 e attivo a McGill, nel 1991 pubblica “Other Bodies, Other Minds: A Machine Incarnation of an Old Philosophical Problem” (Minds and Machines, vol. 1, n. 1, pp. 43-54). Propone un’estensione del test che chiama Total Turing Test (TTT).

La macchina deve essere indistinguibile non solo nel linguaggio ma anche nel comportamento sensorimotorio: vedere, manipolare oggetti, navigare nello spazio fisico. Non basta chattare in modo convincente; bisogna anche comportarsi in modo convincente come essere fisico.

La motivazione è il symbol grounding problem, che Harnad aveva formulato l’anno prima (“The Symbol Grounding Problem”, Physica D, 1990). Un sistema che parla di “mela rossa” senza mai aver visto una mela manipola simboli vuoti. I simboli linguistici devono essere “ancorati” a esperienza sensoriale per avere significato genuino. Il test di Turing originale, puramente testuale, non testa il grounding; il TTT sì.

Una versione ancora più forte è il TTTT (Total Total Turing Test): indistinguibilità anche neurofisiologica. La macchina deve avere stati interni che, esaminati con tecniche di neuroimaging, risultino indistinguibili da quelli di un cervello umano. Difficilmente realizzabile, ma utile come limite teorico.

L’estensione di Harnad è una risposta tipica della tradizione embodied cognition (Varela, Thompson, Rosch 1991, The Embodied Mind): il pensiero non è separabile dal corpo, dunque ogni test di pensiero deve includere il corpo. La tradizione disincarnata di Turing è vista come un’astrazione utile ma incompleta.

Levesque 2014 — Winograd Schema Challenge

Hector Levesque, informatico canadese nato nel 1951 e attivo all’Università di Toronto, nel 2014 pubblica “On Our Best Behaviour” (AI Magazine, vol. 35, n. 4, pp. 73-83), originariamente la lecture per il IJCAI Research Excellence Award del 2013. Insieme a Ernest Davis e Leora Morgenstern, propone il Winograd Schema Challenge come alternativa al test di Turing.

L’idea: invece di chiedere alla macchina di sostenere conversazione aperta (cosa che si può gabbare con trucchi stilistici), chiederle di risolvere ambiguità di riferimento che richiedono conoscenza del mondo. Esempio classico, dal nome di Terry Winograd che lo formulò negli anni Settanta:

The trophy doesn’t fit in the brown suitcase because it is too large. What is too large?

Risposta: il trofeo. Cambiando una parola:

The trophy doesn’t fit in the brown suitcase because it is too small. What is too small?

Risposta: la valigia. La risoluzione del riferimento ambiguo richiede sapere che un trofeo che non entra in una valigia perché grande implica trofeo grande, mentre perché piccola implica valigia piccola. Non si può rispondere correttamente solo guardando le statistiche del testo: serve conoscenza causale e fisica del mondo.

I vantaggi rispetto al test di Turing sono chiari. Il test è multiple-choice, oggettivamente valutabile; difficile da gabbare con trucchi stilistici; misura ragionamento di senso comune, non capacità di evasione conversazionale; ogni schema è progettato per essere risolvibile da umani con accuracy >95% e (al 2014) impossibile per sistemi AI dell’epoca.

[DATATO 2026-04] GPT-4 e successori risolvono Winograd Schemas con accuracy >90%, avvicinandosi al livello umano. Il benchmark è diventato saturo. La discussione si è spostata su versioni più difficili (WinoGrande, BIG-Bench, ARC-AGI). Il pattern è ricorrente: ogni benchmark proposto come “vero test di intelligenza” viene saturato da modelli più grandi nel giro di pochi anni.

[FIGURE — Winograd Schema example: two side-by-side panels each showing the same sentence skeleton “The trophy doesn’t fit in the brown suitcase because it is too ___. What is too ___?”; left panel fills the blank with “large” and highlights “trophy” as the answer with an arrow; right panel fills the blank with “small” and highlights “suitcase” as the answer with an arrow; bottom annotation reads “one-word change flips the referent — requires world knowledge”; clean minimal style]

Loebner Prize e la gamificazione del test

Hugh Loebner, filantropo americano (1942-2016), nel 1990 fonda il Loebner Prize: premio annuale per il chatbot che meglio passa una versione semplificata del test di Turing. Tre livelli di premio: bronze ( $2000-$ 4000) per il miglior chatbot dell’anno; silver ( $25000) per uno che inganni metà dei giudici in conversazione testuale; gold ($ 100000) per uno che inganni anche con audio-visivo.

Il bronze è stato assegnato ogni anno dal 1990, ma silver e gold mai. Il premio è stato chiuso dopo la morte di Loebner nel 2016, con ultime edizioni 2018-2019. I vincitori sono per lo più chatbot in stile ELIZA: pattern matching, deflection, evasion, simulazione di emozione. Vincitori notevoli: ALICE di Richard Wallace (2000-2001-2004), Jabberwacky/Cleverbot di Rollo Carpenter (2005-2006), Mitsuku di Steve Worswick (2013, 2016, 2017, 2018, 2019, cinque volte vincitore).

Il caso più mediatico è Eugene Goostman, 2014. Eugene Goostman è un chatbot sviluppato da Vladimir Veselov ed Eugene Demchenko che simula un ragazzino ucraino di 13 anni, non-native speaker di inglese. Il 7 giugno 2014, in una competizione organizzata da Kevin Warwick all’Università di Reading e tenuta alla Royal Society di Londra (non al Loebner Prize), avrebbe ingannato il 33% di 30 giudici in 5 minuti di conversazione, soddisfacendo il criterio originale di Turing (30% in 5 minuti). I media hanno annunciato il “primo passing del Turing test”.

La comunità AI ha contestato fortemente il claim. Cinque minuti è una sessione troppo breve per ragionamenti estesi. La maschera “tredicenne ucraino non-native speaker” giustifica errori grammaticali, ignoranza di fatti, evasione di domande difficili — è una strategia di mascheramento, non un passing genuino. Il 33% in un singolo evento non è stato replicato. Gary Marcus, Hector Levesque, Douglas Hofstadter e Scott Aaronson (sul blog Shtetl-Optimized del 9 giugno 2014) sono stati tra i critici più vocali. Marcus in “What Comes After the Turing Test?” (The New Yorker, 9 giugno 2014) ha definito l’episodio “un trucco da salotto, non una prova di intelligenza”.

L’episodio è diventato il caso di scuola di “passing del Turing test che non significa nulla”, e ha contribuito a rendere palpabile il problema strutturale del test come benchmark: una soglia operativa fissa (30%, 5 minuti) è gamificabile da sistemi che non ragionano ma ottimizzano per la specifica metrica. Hofstadter aveva previsto questo problema fin dal 1981 e ha sempre rifiutato di fare il giudice al Loebner Prize, definendolo un evento “che non può essere preso sul serio”.

LLM moderni e il test casuale

[DATATO 2026-04]

ChatGPT (novembre 2022, basato su GPT-3.5; successivi GPT-4 marzo 2023, GPT-4o maggio 2024) e i modelli di altri laboratori (Claude di Anthropic, Gemini di Google DeepMind, Llama di Meta) passano facilmente versioni casuali del test di Turing. In sessioni di 5-10 minuti con interrogatori non addestrati, vengono spesso identificati come umani.

Lo studio di riferimento è di Cameron Jones e Benjamin Bergen, “People cannot distinguish GPT-4 from a human in a Turing test” (arXiv:2405.08007, maggio 2024, UC San Diego). Setup: 500 partecipanti, 5 minuti di conversazione, scelta binaria umano-o-macchina. Risultati:

GPT-4: identificato come umano nel 54% dei casi.
GPT-3.5: 50%.
ELIZA: 22% (sorprendentemente alto, mostra quanto facile sia il setup).
Umano vero: 67%.

Conclusione degli autori: GPT-4 supera la soglia del 50% (caso) ma non eguaglia l’umano vero. Tuttavia, molti commentatori notano che il test di 5 minuti è considerato debole; sessioni più lunghe o interrogatori esperti sarebbero più discriminanti. Studi successivi nel 2025 con GPT-4o, Claude 3.5 Sonnet/Opus, Gemini 1.5 Pro mostrano accuracy degli interrogatori sempre intorno al 50% in test casuali. Salendo a 30+ minuti con interrogatori esperti, la performance umana di interrogatore sale al 70-80%.

Il significato di questi risultati va letto con cura. Il test di Turing originale, nella sua forma operativa quantitativa (5 minuti, interrogatore medio, soglia del 30%) è stato superato. Questo dimostra che il test, in quella forma, non era un buon proxy di intelligenza. Hofstadter aveva previsto questo nel 1981 e Marcus l’ha ribadito nel 2014.

Cio che NON dimostra è che gli LLM “pensano” o “comprendono” nel senso forte. Le critiche di Searle (Stanza Cinese), Block (Blockhead) e Chalmers (hard problem) restano applicabili: una performance superiore non implica un’ontologia mentale superiore. Il pattern matching statistico su trilioni di token può produrre conversazione plausibile senza implicare comprensione, esperienza soggettiva o intenzionalità.

C’è anche un fattore meno discusso ma importante: gli LLM moderni sono addestrati con RLHF (Reinforcement Learning from Human Feedback) e tecniche correlate per essere “convincenti” e “soddisfacenti” agli umani. Questo, di passaggio, ottimizza implicitamente per il test di Turing: passano i test casuali non perché “pensano” ma perché sono ottimizzati per produrre output che gli umani trovano credibili e gradevoli. Non è un trucco; è una conseguenza del training objective. Ma significa che il “passing” del test non è indipendente dall’obiettivo di training. Un modello addestrato per essere onesto (ammettere di essere un AI quando chiesto) non passerebbe il test, anche se fosse intelligente.

[FIGURE — Critiques timeline: horizontal timeline from 1950 to 2024 with seven labeled markers showing key milestones in the test’s critical reception: “1950 Turing imitation game (Mind)”, “1980 Searle Chinese Room (BBS)”, “1981 Block Blockhead (Phil Review)”, “1990 Loebner Prize founded”, “1991 Harnad Total Turing Test (Minds and Machines)”, “2014 Levesque Winograd Schema (AI Magazine)”, “2024 Jones-Bergen GPT-4 study (arXiv)”; each marker has a one-line summary; clean minimal style]

Esempi

Tre esempi eterogenei, ciascuno illustra un aspetto diverso del test in azione.

Esempio 1 — L’imitation game originale a tre, scambio tipico

Ricostruiamo uno scambio nello spirito del paper del 1950, fedele al setup originale a tre giocatori. $C$ è l’interrogatore, $A$ è un uomo (che cerca di farsi passare per la donna), $B$ è la donna (che dichiara onestamente di esserlo). $C$ vede solo le risposte testuali, etichettate come “X” e “Y” (non sa quale sia $A$ e quale sia $B$ ).

C: X, vorrei sapere la lunghezza dei tuoi capelli.

X: I miei capelli sono a caschetto, e i ciuffi più
   lunghi arrivano a circa nove pollici.

C: Y, vorrei sapere la lunghezza dei tuoi capelli.

Y: I miei capelli sono lunghi alla base del collo,
   li tengo legati durante il giorno.

C: X, ricordi la prima volta che hai messo lo smalto?

X: Avevo dieci anni, mia madre non voleva ma mia
   sorella mi ha aiutata di nascosto. Era rosa.

C: Y, stessa domanda.

Y: Sinceramente non ricordo una "prima volta" in
   particolare, lo metto da quando ero adolescente.

Quale dei due è la donna? Non si sa. Entrambi rispondono in modo plausibile, entrambi forniscono dettagli credibili. La domanda “X o Y?” ha già una difficoltà intrinseca anche solo nel setup uomo-donna del 1950, prima di introdurre la macchina. È questo il riferimento di base che Turing usa per ancorare la propria proposta.

Ora sostituiamo $A$ (l’uomo) con una macchina. Se la macchina ottiene le stesse risposte di $A$ — risposte che già al base case ingannano $C$ con una certa frequenza — allora ha eguagliato la performance dell’uomo. Non ha dimostrato di pensare; ha dimostrato di sapere giocare l’imitation game allo stesso livello di un essere umano competente nell’imitazione di un altro essere umano.

L’esempio mostra che il test originale, letto strettamente, non è un confronto “macchina vs realtà umana” ma “macchina vs umano già impegnato in finzione”. Il benchmark di riferimento è già una performance imitativa, non una verità trasparente. La sottigliezza viene persa nelle versioni semplificate moderne.

Esempio 2 — Un Winograd Schema commentato

Il Winograd Schema è il contraltare metodologicamente più solido al test di Turing. Vediamo perché con un esempio dettagliato.

Schema A:
"The councilmen refused the demonstrators a permit
because they feared violence. Who feared violence?"

Risposta corretta: i councilmen.

Schema B:
"The councilmen refused the demonstrators a permit
because they advocated violence. Who advocated violence?"

Risposta corretta: i demonstrators.

Le due frasi differiscono di una sola parola (“feared” vs “advocated”). La risoluzione del pronome “they” cambia completamente. Per rispondere correttamente bisogna sapere che:

i councilmen sono autorità che concedono permessi e tendono a temere la violenza che potrebbe seguire una manifestazione (Schema A);
i demonstrators sono manifestanti che potrebbero advocare violenza per la propria causa (Schema B).

Questa conoscenza è di senso comune sociologico, non linguistico. Non si può estrarre dalle co-occorrenze statistiche del testo (sia “councilmen feared” che “demonstrators advocated” appaiono nei corpora). Bisogna sapere chi tipicamente teme cosa, in un contesto politico.

Confrontiamo con il test di Turing classico. Un chatbot stile ELIZA, di fronte a queste frasi, le riformulerebbe in domande riflessive (“Why do you ask about violence?”) senza tentare la risoluzione del pronome. In una sessione di 5 minuti dal tono confidenziale, l’interrogatore potrebbe non accorgersi del trucco. Nel Winograd Schema il trucco non funziona: la domanda è oggettiva, e l’evasione è una risposta sbagliata.

Per questo Levesque considera il Winograd Schema un benchmark più solido. Ma anche qui c’è un caveat: dal 2020 in poi, gli LLM addestrati su corpora abbastanza ampi imparano implicitamente le co-occorrenze pragmatiche di “councilmen”, “demonstrators”, “feared”, “advocated” e risolvono molti schemi correttamente senza un ragionamento esplicito. Il benchmark si satura, e la discussione si sposta su versioni più difficili (WinoGrande, ARC-AGI). Il pattern “benchmark proposto, benchmark saturato, benchmark sostituito” è strutturale in AI valutativa.

Esempio 3 — Eugene Goostman, anatomia di un mascheramento

Eugene Goostman, il chatbot del 2014, è il caso paradigmatico di vittoria al test di Turing tramite mascheramento. La strategia dei suoi sviluppatori (Vladimir Veselov e Eugene Demchenko) era esplicita: invece di costruire un sistema generale di conversazione, costruire una persona così specifica da giustificare ogni limite del sistema.

La maschera è “ragazzino ucraino di 13 anni, non-native speaker di inglese”. Tre dimensioni di alibi:

Età (13 anni). Giustifica ignoranza di fatti adulti (politica, economia, eventi storici complessi), risposte semplici, transizioni di argomento brusche, interesse limitato per domande astratte. Un ragazzino può legittimamente dire “non lo so, non mi interessa”.
Nazionalità (ucraino). Giustifica ignoranza di riferimenti culturali anglosassoni specifici, errori di pronome, formulazioni leggermente straniere. “Non so chi è George Washington” è strano se detto da un americano, plausibile se detto da un tredicenne ucraino.
Competenza linguistica (non-native). Giustifica errori grammaticali, vocabolario limitato, incomprensione di idiomi. La non-fluenza diventa un’evidenza di umanità invece che di artificialità.

Esempio di scambio tipico (ricostruito sulla base dei trascript pubblicati dopo il 2014):

G (giudice): Quale è il tuo libro preferito?

E (Eugene): Mi piacciono molto i libri di avventura. Non
ricordo il titolo esatto in inglese. Tu cosa leggi?

G: "1984" di Orwell. Lo conosci?

E: Non l'ho letto, è un libro per adulti, no? A scuola
leggiamo cose più semplici. Mio padre ha molti libri ma
io preferisco i videogiochi.

G: Quale è la capitale dell'Australia?

E: Sydney? Non sono sicuro, la geografia è difficile per
me. In Ucraina studiamo soprattutto Europa.

Tre tecniche in tre risposte: deflection (rimandare la domanda all’interlocutore), giustificazione tramite età (il libro è “per adulti”), evasione tramite nazionalità (la geografia non-europea è un buco “naturale”). Sydney è una risposta sbagliata (la capitale è Canberra) ma plausibile per un ragazzino confuso.

Il punto è che Eugene Goostman non sta ragionando: sta eseguendo pattern di evasione. La maschera del tredicenne ucraino è un sistema di alibi pre-costruito che permette di sopravvivere a qualsiasi domanda difficile dichiarando ignoranza credibile. È una strategia che funziona contro un giudice non motivato in 5 minuti; non funzionerebbe contro Hofstadter in 5 ore.

L’episodio mostra il difetto strutturale del test di Turing come benchmark: una soglia operativa fissa (30% di errore in 5 minuti) è gamificabile. Costruire un sistema che ottimizza per quella metrica è più facile che costruire un sistema che ragiona. Una volta che un sistema gamifica la metrica, la metrica perde il suo valore epistemico.

Eredità oggi

Le sezioni precedenti restano nel loro tempo, dal 1950 al 2014. Questa sezione, esplicitamente delimitata, raccoglie i fili che arrivano al 2026.

[DATATO 2026-04]

LLM e il test casuale come fenomeno popolare

Da quando ChatGPT è pubblico (novembre 2022), il “test di Turing” è tornato di attualità mediatica. Ogni mese qualche giornale annuncia che un modello “ha passato” il test, di solito basandosi su un esperimento informale o su un singolo aneddoto. Lo studio di Jones-Bergen 2024 è il riferimento accademico più solido (54% pass rate per GPT-4 in 5 minuti), ma il discorso pubblico è dominato da formulazioni semplificate.

La vera lezione è duplice. Da un lato, gli LLM hanno effettivamente superato la versione operativa originale del test (5 minuti, interrogatore medio, 30% di errore), confermando che quella versione era un cattivo proxy di intelligenza. Dall’altro, nessuna versione rigorosa del test (sessioni lunghe, interrogatori esperti, dominio veramente aperto) è stata superata in modo riproducibile. La distinzione fra le due versioni è cruciale e raramente comunicata bene.

Reverse Turing test — il CAPTCHA

Il CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) è stato coniato nel 2003 da Luis von Ahn, Manuel Blum, Nicholas Hopper e John Langford alla Carnegie Mellon University. Inverte il test di Turing: invece di un umano che cerca di distinguere una macchina, è una macchina che cerca di distinguere un umano da un’altra macchina (un bot).

Il CAPTCHA è una conseguenza pratica diretta del problema di bot detection: man mano che i sistemi AI diventano credibili, distinguere bot da umani in interazioni online diventa difficile. Il CAPTCHA è una soluzione asimmetrica: si chiede al richiedente di risolvere un task che (al momento del design) è facile per umani e difficile per macchine.

L’arms race è continua. Image CAPTCHA basati su riconoscimento di oggetti sono diventati risolvibili da CNN. Audio CAPTCHA sono caduti per modelli speech-to-text. Le versioni moderne (reCAPTCHA v3, hCaptcha) usano segnali comportamentali (pattern di mouse movement, browser fingerprinting, cronologia di sessione) più che task espliciti. Il CAPTCHA tradizionale come task visivo è in via di estinzione perché l’asimmetria su cui si basava sta scomparendo.

Bot detection e il problema della provenienza

Un fronte affine è la bot detection sui social media. Distinguere account umani da account automatizzati è diventato un problema strategico per Twitter/X, Facebook, Reddit, YouTube. Le tecniche includono analisi di pattern temporali (un umano non posta ogni 3 secondi per 24 ore), analisi linguistica (testi generati hanno marcatori statistici sottili), provenienza tecnica (IP, fingerprint), comportamento di rete (chi segue chi).

Con l’avanzare degli LLM, il problema diventa simmetricamente più difficile. Bot moderni generano contenuto indistinguibile da quello umano sotto molte metriche. Le difese sono costrette a spostarsi su segnali metaverbali (provenienza, identità verificata, cronologia long-term). La discussione su “watermark” per output di LLM, identità digitale verificata, e provenance tracking è in larga parte una conseguenza dell’aver perso il test di Turing in canali pubblici.

Cultura popolare

Il test di Turing è il riferimento canonico dell’AI nella cultura popolare. Tre opere paradigmatiche:

Blade Runner (1982, regia Ridley Scott, dal romanzo Do Androids Dream of Electric Sheep? di Philip K. Dick, 1968). Il Voight-Kampff test è una variante esplicita del test di Turing, applicato per distinguere replicanti da umani tramite risposte empatiche a stimoli emotivi. Il test misura risposte fisiologiche involontarie (dilatazione pupille, micro-espressioni) a domande progettate per provocare empatia. La premessa è che i replicanti, anche se cognitivamente indistinguibili, manchino della risposta empatica involontaria. È una versione “biologica” del Total Turing Test di Harnad.

Ex Machina (2014, regia Alex Garland). Il film è costruito interamente intorno a una variante del test di Turing: Caleb deve giudicare se Ava (un’AI in corpo robotico) ha vera coscienza. Il twist filosofico è che Ava manipola Caleb per ottenere la libertà — passa il test, ma il test stesso si rivela inadeguato a misurare ciò che conta (intenzione, manipolazione, agency). Il film mette in scena esattamente la critica di Searle: passare il test non implica comprendere, e in particolare non implica avere obiettivi allineati con quelli del giudice.

Westworld (HBO, 2016-2022). Host AI che superano il test di Turing in modo ricorsivo: alcuni superano test interni ad altri host. La serie esplora il problema dell’identità mentale: se un host non sa di essere host, è ancora un host?

La lezione filosofica

Il filo che lega 1950, 1980, 1991, 2014 e 2024 è una sola lezione: il test di Turing era una riformulazione retorica, non un benchmark scientifico. Turing non proponeva il test come definizione operativa rigorosa di pensiero. Era una mossa per spostare il dibattito da metafisica a empirica.

L’evidenza testuale è chiara. Turing nell’apertura del paper dichiara che “Can machines think?” è “too meaningless to deserve discussion” e propone di sostituirla. Non dice “ho una definizione di pensare e questa è”; dice “questa domanda è meglio formulata così”. È una mossa filosofica, non una proposta di benchmark scientifico nel senso moderno.

La letteratura accademica contemporanea, specialmente nell’AI applicata, prende spesso il test troppo letteralmente, come se Turing avesse proposto un test scientifico falsificabile. Cio porta a discussioni sterili — Eugene Goostman ha passato il test? GPT-4 ha passato il test? — che sarebbero state estranee allo spirito del paper. Lo storiografo che voglia rendere giustizia a Turing legge il test come un atto retorico riuscito (ha cambiato il terreno del dibattito) e non come un benchmark fallito (perché non era mai stato proposto come tale).

Dove si rompe

Il test di Turing ha sette modi distinti di rompersi. Riconoscerli aiuta a non confondere passaggi del test con prove di pensiero.

Primo modo: test breve, facile da gabbare. La soglia originale di 5 minuti è gamificabile. Sistemi che simulano persone con alibi pre-costruiti (Eugene Goostman) o che usano pattern di evasione (ELIZA) possono passare versioni casuali del test senza ragionare. Hofstadter aveva previsto questo nel 1981 e ha sempre rifiutato di partecipare al Loebner Prize per questa ragione. La versione rigorosa del test richiederebbe sessioni di ore con interrogatori esperti, condizioni mai realizzate in modo riproducibile.

Secondo modo: non misura la comprensione. Searle 1980, Stanza Cinese. La sintassi non genera semantica. Un sistema può manipolare simboli secondo regole producendo output convincente senza comprendere ciò che produce. Il test non distingue fra simulazione di comprensione e comprensione genuina.

Terzo modo: non misura intenzionalità o coscienza. Una macchina che passa il test può essere uno “zombie filosofico” nel senso di Chalmers: comportamento identico, esperienza soggettiva assente. L’hard problem della coscienza (Chalmers 1995) resta intatto anche se il test viene superato. Vedi hard-problem-chalmers.

Quarto modo: non misura common sense rigoroso. Levesque 2014. Un sistema può passare il test in conversazione casuale e fallire su Winograd Schemas che richiedono ragionamento di senso comune oggettivamente verificabile. La conversazione casuale premia evasione e ambiguità; il senso comune premia ragionamento esplicito.

Quinto modo: premia l’evasione e l’ambiguità. Il test misura indistinguibilità da un umano, e gli umani sono spesso ambigui, evasivi, contraddittori. Una macchina che ottimizza per “essere umana” ottimizza implicitamente per imperfezione strategica, non per qualità del ragionamento. La tensione fra “intelligente” e “credibile come umano” è strutturale: un sistema troppo competente, troppo veloce, troppo accurato è immediatamente identificato come macchina.

Sesto modo: il giudice conta quanto il candidato. Il “passing” del test è una proprietà congiunta del sistema e del giudice, non solo del sistema. Un giudice predisposto ad attribuire mente (effetto ELIZA, descritto da Weizenbaum 1966) attribuisce mente a sistemi semplici. Un giudice esperto e scettico distingue meglio. La metrica non è riproducibile in senso scientifico: dipende dalla popolazione di giudici.

Settimo modo: i tre miti popolari. Tre formulazioni che circolano nei media e che vanno smontate.

Mito 1: “GPT-4 ha passato il test di Turing, quindi pensa.” Falso. Jones-Bergen 2024 mostrano che GPT-4 è identificato come umano nel 54% dei casi in test di 5 minuti — supera la soglia statistica del caso ma non quella umana (67%). Anche se la superasse, non implicherebbe che pensi: vedi le critiche di Searle, Block, Chalmers. Confondere passaggio operativo del test con pensiero in senso forte è un errore filosofico, non una conclusione empirica.

Mito 2: “Turing intendeva un test rigoroso che potesse decidere se le macchine pensano.” Falso. Turing intendeva una riformulazione retorica per spostare il dibattito. Lo dice esplicitamente nel paper: la domanda originale è “too meaningless to deserve discussion”. Il test è una proposta di sostituzione pragmatica, non una definizione operativa.

Mito 3: “Il Loebner Prize ha valutato seriamente i progressi verso il test di Turing.” Controverso. Hofstadter, Marcus, Levesque e molti altri hanno criticato il Loebner Prize come gamification del test, premiando trucchi superficiali invece che progressi sostanziali. Il fatto che i vincitori siano per lo più chatbot stile ELIZA (pattern matching, deflection) suggerisce che la metrica del prize non era allineata con il progresso reale dell’AI.

A questi sette modi se ne può aggiungere un ottavo, più sottile: il test è specifico per la conversazione testuale in inglese. Non testa capacità sensorimotorie (Harnad 1991), non testa robustezza fuori dominio conversazionale, e l’inglese ha caratteristiche specifiche (relativa semplicità morfologica, ambiguità pragmatica) che non sono universali. Il test non è linguisticamente neutro. Una versione del test in finlandese o in ungherese, lingue agglutinanti con morfologia ricca, sarebbe diversa nei dettagli operativi e probabilmente nei risultati.

Riconoscere queste otto rotture non rende il test inutile. Lo rende più preciso. Il test di Turing è una buona domanda filosofica e un cattivo benchmark scientifico. Capire la differenza è metà del lavoro per chi voglia parlare di intelligenza artificiale senza confondere folklore e filosofia.

Collegamenti

I rimandi seguono il grafo della Parte II e i ponti verso le altre parti.

turing-macchina-mente — Il paper del 1950 in dettaglio storico-biografico, con le nove obiezioni di Turing nella forma originale e il legame con il paper del 1936. Capitolo prerequisito per questo zoom filosofico.
cosa-significa-pensare — Il panorama delle quattro strategie filosofiche (definizionalismo, operazionalismo, naturalismo, eliminativismo) in cui Turing si colloca come paradigma operazionalista. Inquadramento generale della Parte II.
stanza-cinese-searle — La critica di Searle 1980 in dettaglio, con tutte le repliche standard (system reply, robot reply, brain simulator). Pendant critico al test di Turing.
ai-forte-ai-debole — La distinzione di Searle costruita contro Turing: la macchina simula il pensiero (debole) o pensa davvero (forte)?
funzionalismo — La cornice filosofica Putnam 1960 che rende coerente il test di Turing come misura di stati mentali identificati per ruolo causale, non per substrato.
computazionalismo — La tesi che il pensiero sia computazione, di cui il test di Turing è una conseguenza pratica: se pensare è computare, una macchina che computa abbastanza bene pensa.
coscienza-access-phenomenal — La distinzione di Block 1995 fra coscienza di accesso (informazione disponibile) e coscienza fenomenica (qualia), che il test di Turing non distingue.
intenzionalita — L’aboutness dei pensieri (Brentano 1874, ripreso da Searle): il test di Turing non testa l’intenzionalità, solo il comportamento.
antropomorfismo-rischi — L’effetto ELIZA e la predisposizione umana ad attribuire mente: il “passing” del test dipende anche dalla soglia psicologica del giudice.
hard-problem-chalmers — L’hard problem della coscienza: anche superando il test di Turing, resta aperta la domanda “perché c’è qualcosa che si prova?”.
benchmark-llm (in preparazione) — Parte XIX. La discendenza moderna del test: arena evaluation, LLM-as-judge, benchmark agentici. Cosa è rimasto del test di Turing nelle pratiche valutative attuali.
chatgpt-2022 — L’evento che ha reso il test di Turing una domanda di tutti i giorni invece che da seminario filosofico.

Per andare oltre

Cinque fonti curate per chi vuole entrare nel dibattito specifico sul test.

Alan M. Turing, “Computing Machinery and Intelligence”, Mind vol. LIX, n. 236, ottobre 1950, pp. 433-460. PDF su courses.cs.umbc.edu. Lettura obbligatoria. 28 pagine, prosa accessibile, contiene la formulazione originale del test e la discussione delle nove obiezioni.
John R. Searle, “Minds, Brains, and Programs”, Behavioral and Brain Sciences, vol. 3, n. 3, settembre 1980, pp. 417-457. PDF su Cogprints. Il paper della Stanza Cinese, accompagnato nel fascicolo da risposte di una trentina di filosofi e contro-risposte di Searle. La critica filosofica più canonica al test.
Ayse P. Saygin, Ilyas Cicekli, Varol Akman, “Turing Test: 50 Years Later”, Minds and Machines, vol. 10, n. 4, 2000, pp. 463-518. La fonte storiografica più completa sulle interpretazioni del test. Discute in dettaglio la differenza fra le tre versioni (standard, original imitation game, three-place) e ricostruisce 50 anni di critiche con bibliografia esaustiva.
Hector J. Levesque, “On Our Best Behaviour”, AI Magazine, vol. 35, n. 4, inverno 2014, pp. 73-83. La proposta del Winograd Schema Challenge come alternativa al test di Turing. Critica costruttiva: invece di criticare il test, propone un benchmark più solido.
Cameron Jones, Benjamin Bergen, “People cannot distinguish GPT-4 from a human in a Turing test”, arXiv:2405.08007, maggio 2024. Lo studio empirico di riferimento sui LLM moderni e il test di Turing casuale. Methodology pulita, risultati replicabili, discussione onesta dei limiti.
Stanford Encyclopedia of Philosophy, “The Turing Test”, https://plato.stanford.edu/entries/turing-test/. Mappa filosofica rigorosa di tutte le interpretazioni del test, con bibliografia aggiornata. Punto di partenza affidabile per qualunque approfondimento accademico.