Cosa vuol dire davvero AGI

Un termine di ventotto anni senza una definizione condivisa, e perché la sua vaghezza non è un incidente.

Il termine “artificial general intelligence” compare per la prima volta in un paper del 1997 dedicato non all’AI, ma alla sicurezza internazionale in epoca di nanotecnologie. L’autore, un fisico statunitense, lo conia per necessità terminologica: gli serve distinguere l’AI di cui sta parlando dai sistemi esperti che dominano la disciplina di allora. Il paper circola poco. Il termine resta dormiente per quasi dieci anni. Quando rinasce, alla metà dei duemila, già porta con sé l’ambiguità che lo accompagnerà per tutta la sua storia: significa qualcosa di preciso o è una etichetta che ognuno riempie come gli pare.

Oggi AGI è la parola che muove decine di miliardi di dollari di investimento, definisce mission statement aziendali, finisce in clausole contrattuali, viene citata in lettere aperte firmate da premi Nobel. Ed è una parola di cui dieci ricercatori esperti, messi in una stanza, scriverebbero dieci definizioni diverse. Almeno tre direbbero che andrebbe abbandonata.

Questo capitolo tratta la genealogia, le definizioni in circolazione, i punti in cui si rompono, e il modo in cui leggere un claim del tipo “abbiamo raggiunto / siamo vicini / abbiamo superato l’AGI” senza farsi ingannare dal vocabolario.

Perché questo capitolo

C’è una ragione filosofica e una pragmatica.

Per la filosofia della mente, AGI è il punto in cui le ambiguità lasciate aperte da capitoli vicini diventano ineludibili. Senza una definizione operativa di “intelligenza generale” non si può parlare seriamente di superintelligenza, non si può discutere di allineamento, non si può valutare se un sistema “comprende” o si limita a manipolare forma. Le distinzioni di Searle (vedi ai-forte-ai-debole), il funzionalismo, il computazionalismo: tutto converge qui. AGI è il termine in cui il programma cognitivista classico si misura con la sua plausibilità empirica.

Per il pragmatico, AGI è la parola che viene usata per giustificare decisioni reali: chi finanziare, cosa regolamentare, che timeline assumere. Non capire le definizioni in circolazione significa lasciare che siano altri a decidere quale conta.

Una terza ragione, meno ovvia, vale per chi legge: la storia del termine è una piccola lezione di sociologia della scienza. Mostra come una parola tecnica nasca per esigenza locale, dorma per anni, si imponga grazie a un editore disposto a stamparla, finisca cooptata da attori industriali con interessi propri. La trasparenza su questo processo è parte della risposta alla domanda “cosa vuol dire AGI”.

Contesto

Per quasi cinquant’anni la disciplina si chiama semplicemente “artificial intelligence” e l’aggettivo “general” non serve. Alan Turing nel 1950, nel saggio “Computing Machinery and Intelligence” (vedi turing-test), parla di “thinking machines” e propone il test di imitazione: una formulazione che non distingue tra intelligenza ristretta e generale perché la distinzione, in quella fase, non si è ancora resa necessaria. La proposta del Dartmouth Workshop del 1956, redatta da John McCarthy (informatico statunitense, 1927-2011, che conia in quell’occasione l’espressione “artificial intelligence”), Marvin Minsky, Nathaniel Rochester e Claude Shannon, parla di “every aspect of learning or any other feature of intelligence”. Generale è l’orizzonte, non un sottoinsieme.

Herbert Simon (premio Nobel per l’economia nel 1978, fra i fondatori della disciplina) scrive nel 1965, in “The Shape of Automation for Men and Management”: “machines will be capable, within twenty years, of doing any work a man can do”. La frase oggi viene citata come archetipo di sbilanciamento previsionale. Vent’anni dopo arriva il primo AI winter.

Negli anni settanta e ottanta la disciplina si frammenta. Vision, NLP, planning, robotica, sistemi esperti, ML statistico: ognuno è un campo a sé, con conferenze, riviste, comunità separate. Il sogno generale non è abbandonato ma cessa di essere il vocabolario di lavoro. Si parla di “AI” intendendo per default “AI applicata a un dominio specifico”. Il prefisso “general” non serve perché nessuno sta più costruendo cose generali.

È in questo vuoto terminologico che Mark Gubrud, alla fine degli anni novanta, sente il bisogno di una parola nuova.

La coniazione (1997) e il decennio dormiente

Mark Avrum Gubrud (fisico statunitense, all’epoca dottorando in fisica delle nanostrutture all’Università del Maryland) presenta nel 1997 alla Fifth Foresight Conference on Molecular Nanotechnology, a Palo Alto, un paper intitolato “Nanotechnology and International Security”. L’argomento principale è l’impatto militare e strategico della nanotecnologia molecolare. Per discutere certe scenari di automazione completa, Gubrud ha bisogno di parlare di un’AI che non è il sistema esperto del momento. Conia “artificial general intelligence” come marker terminologico. La definizione che fornisce, in nota, è la prima documentata: “AI systems that rival or surpass the human brain in complexity and speed, that can acquire, manipulate and reason with general knowledge, and that are usable in essentially any phase of industrial or military operations where a human intelligence would otherwise be needed.”

Il paper circola poco. Gubrud non lavora in un dipartimento di AI mainstream. Per circa un decennio il termine resta dormiente. È un caso interessante di sociologia della scienza: la priorità storica non garantisce l’adozione del vocabolario.

L’adozione (2002-2008)

A inizio anni duemila Ben Goertzel (informatico statunitense, fondatore di varie aziende AI fra cui Webmind e successivamente OpenCog) e Shane Legg (allora dottorando alla IDSIA di Lugano sotto la supervisione di Marcus Hutter, oggi Chief AGI Scientist a Google DeepMind) cercano un’etichetta per distinguere il tipo di ricerca a cui sono interessati — sistemi cognitivi general-purpose — dal flusso mainstream del machine learning, allora dominato da Support Vector Machines, kernel methods, modelli grafici. Goertzel attribuisce il termine a Legg in conversazioni private del 2002. Negli anni successivi, su sollecitazione di Gubrud che si fa avanti via email, Legg riconosce esplicitamente la priorità di Gubrud.

Il punto di svolta editoriale è il libro “Artificial General Intelligence” curato da Goertzel e Cassio Pennachin per Springer (Cognitive Technologies series), pubblicato nel 2007. Raccoglie contributi su architetture cognitive, sistemi neurosimbolici, agenti general-purpose. Da quel momento il termine entra nella circolazione della comunità di ricerca. Nel 2006 si tiene a Bethesda il primo workshop dedicato esplicitamente all’AGI; nel 2008 parte la conferenza annuale AGI a Memphis.

[Classe di affermazione: filiazione documentata da paper, archivi email pubblicati, atti delle conferenze.]

Il mainstream (2015-presente)

Tra il 2015 e il 2020 il termine entra nel vocabolario industriale. OpenAI viene fondata nel dicembre 2015 con la missione esplicita di “build safe AGI”. DeepMind, fondata nel 2010 e acquisita da Google nel 2014, ha come slogan “solve intelligence, then use it to solve everything else”, una formulazione che evita la parola AGI ma fa lavoro analogo. Anthropic (fondata 2021) costruisce intorno alla nozione di “transformative AI”, una variante che evita deliberatamente AGI ma indica un fenomeno sovrapposto.

Dal 2022 (lancio pubblico di ChatGPT) il termine sfonda nel discorso generalista e diventa quasi inevitabile in qualsiasi conversazione su AI di alto profilo, dai talk show alle audizioni parlamentari.

L’intuizione, da due angoli

Angolo 1: una parola che nasce da un’esigenza ingegneristica

Mark Gubrud nel 1997 sta scrivendo un paper di policy sulle implicazioni militari della nanotecnologia molecolare. Argomenta che, fra venti o trenta anni, sistemi di produzione completamente automatizzati cambieranno l’equilibrio strategico globale. Per parlare di automatizzazione completa gli serve un tipo di AI specifico: non i sistemi esperti che conosce (MYCIN per diagnosi mediche, XCON per configurare computer), che operano in un dominio circoscritto, ma sistemi capaci di sostituire un operatore umano “in essentially any phase of industrial or military operations where a human intelligence would otherwise be needed”. L’aggettivo “general” non è filosofico, è funzionale: serve a marcare la differenza tra il sistema esperto e il sistema in grado di fare quello che fa una persona qualunque, in qualunque ruolo dell’organizzazione.

Tenere a mente questa origine aiuta a leggere il termine. AGI non nasce per descrivere un fenomeno cognitivo, nasce per descrivere un certo tipo di sostituzione del lavoro. Quando OpenAI nel 2018 scrive “highly autonomous systems that outperform humans at most economically valuable work”, non sta inventando una definizione strana: sta tornando a quella di Gubrud, in linguaggio aziendale.

Angolo 2: la generalità come dimensione, non come soglia

Un secondo modo di intuire AGI è geometrico. Immagina due assi cartesiani. Sull’asse verticale, la performance: quanto bene il sistema fa una cosa data. Sull’asse orizzontale, la generalità: quante cose diverse il sistema può fare. Sistemi tradizionali abitano specifiche regioni di questo piano. Una calcolatrice tascabile è in alto a sinistra: performance massima sull’aritmetica, generalità nulla. Un essere umano adulto è approssimativamente nel centro: competenza media su moltissimi compiti.

In questa mappa, AGI non è un punto: è una regione. Più precisamente, è la zona in cui la generalità raggiunge un certo livello (paragonabile o superiore a quella umana) con una performance almeno comparabile a quella umana. La zona in alto a destra estremo, con generalità massima e performance superumana, prende un nome diverso: artificial superintelligence (ASI).

Questa rappresentazione, formalizzata da DeepMind nel 2023, ha un vantaggio: rende visibile il fatto che molti sistemi che chiamiamo “AGI candidates” non lo sono per un asse. AlphaFold, che ha rivoluzionato la biologia strutturale, è in alto a sinistra: superumano nel folding, narrow per costruzione. Un large language model di frontiera è in centro a destra: ampia generalità, performance molto variabile da dominio a dominio.

La meccanica: cinque famiglie di definizioni

Esistono almeno cinque famiglie di definizioni AGI in circolazione. Non sono compatibili tra loro. Distinguerle è la prima cosa da fare quando si discute il termine.

Famiglia 1: la definizione “human-equivalent” (Gubrud, Goertzel)

Forma canonica: AGI è un sistema che eguaglia o supera un essere umano adulto nella maggior parte dei compiti cognitivi.

È la definizione più vicina al senso comune. La sua antenata diretta è quella di Gubrud (1997), parafrasabile come: sistema AI che rivaleggia o supera il cervello umano in complessità e velocità, capace di acquisire, manipolare e ragionare con conoscenza generale, utilizzabile in qualunque ruolo dove servirebbe un intelletto umano.

[Classe di affermazione: definizione operativa.]

Vantaggi: comprensibile, copre l’intuizione “macchina che fa quello che facciamo noi”. Svantaggi: è vaga su tre punti chiave. “Maggior parte” quanto? “Compiti cognitivi” quali? “Essere umano medio” di che cultura, età, addestramento?

Famiglia 2: la definizione economica (OpenAI Charter)

Forma canonica: AGI = “highly autonomous systems that outperform humans at most economically valuable work” (OpenAI Charter, aprile 2018).

Spostamento concettuale rispetto alla Famiglia 1: invece di “compiti cognitivi” dice “lavoro economicamente valuto”. Misurabile in linea di principio: la frazione del prodotto interno lordo che potrebbe essere automatizzata da un sistema dato.

Vantaggi: agnostica sul meccanismo (non serve sapere cosa accade dentro il sistema), potenzialmente operazionalizzabile via metriche di mercato. Svantaggi: schiaccia l’intelligenza sulla produttività. Esclude o sottovaluta capacità che non hanno prezzo di mercato definito (creatività artistica non commerciale, cura, intelligenza sociale ed emotiva). Inoltre il paniere dei lavori cambia nel tempo: un sistema “AGI” rispetto al mercato del lavoro 2018 potrebbe non esserlo rispetto al mercato 2030, o viceversa.

[Classe di affermazione: definizione operativa con assunzione economica forte.]

Famiglia 3: la definizione formale (Legg & Hutter)

Shane Legg e Marcus Hutter, in “Universal Intelligence: A Definition of Machine Intelligence” (Minds and Machines, 2007), propongono una formalizzazione matematica. L’intelligenza di un agente $\pi$ è la somma pesata del valore atteso che l’agente ottiene in tutti gli ambienti possibili:

$\Upsilon(\pi) = \sum_{\mu \in E} 2^{-K(\mu)} V^\pi_\mu$

Significato dei simboli, uno alla volta. $\pi$ è la policy dell’agente, cioè la sua strategia di azione. $E$ è l’insieme di tutti gli ambienti computabili (cioè descrivibili da una macchina di Turing). $\mu$ è un ambiente specifico in $E$ . $V^\pi_\mu$ è il valore atteso (la reward cumulata, scontata o no a seconda della formulazione) che la policy $\pi$ ottiene nell’ambiente $\mu$ . $K(\mu)$ è la complessità di Kolmogorov dell’ambiente, cioè la lunghezza, in bit, del programma più corto che lo descrive. Il fattore $2^{-K(\mu)}$ pesa più gli ambienti semplici (la “prior universale” di Solomonoff).

In parole povere: un agente è tanto più intelligente quanto meglio se la cava in tutti i mondi possibili, dando più peso ai mondi semplici. La definizione cattura l’idea che l’intelligenza generale richiede di essere bravi non in un compito ma su un’intera distribuzione di compiti.

[Classe di affermazione: definizione formale; non un teorema ma una proposta operativa formalizzata.]

Il massimo teorico di questa misura è l’agente AIXI, anch’esso definito da Hutter (2000): un agente bayesiano che mantiene una distribuzione su tutte le ipotesi computabili e agisce ottimizzando la reward attesa. AIXI non è computabile (richiede di simulare ambienti arbitrariamente complessi), ma serve da limite superiore concettuale.

Vantaggi: matematicamente chiara, indipendente dall’antropocentrismo. Svantaggi: non calcolabile, assume una reward function data, la nozione di “ambiente computabile” non cattura coscienza, agency, comprensione. Per molti filosofi è una definizione di “buono come agente” più che di “intelligente come noi”.

Famiglia 4: la definizione skill-acquisition (Chollet)

François Chollet (ingegnere software francese, autore della libreria Keras, all’epoca a Google) nel 2019 pubblica “On the Measure of Intelligence” e propone un cambio di prospettiva: l’intelligenza non è quello che il sistema sa fare, ma quanto rapidamente impara cose nuove a parità di prerequisiti.

In forma compatta:

$IQ_S(\theta, P, T) \propto \frac{\text{generalization difficulty}}{\text{priors} + \text{experience}}$

Significato dei simboli. $S$ è lo scope, l’insieme dei task che si vogliono valutare. $\theta$ è una soglia di skill richiesta. $P$ sono i priors disponibili al sistema (le conoscenze innate o pre-installate). $T$ è l’esperienza ammessa per ogni nuovo compito (quanti esempi, quanto training).

In parole povere: un sistema è intelligente se acquisisce nuove skill richiedendo poco prior knowledge e poca esperienza, su compiti la cui generalizzazione è difficile. Un sistema che sa già fare tutto perché è stato addestrato su tutto non è intelligente per Chollet, è un database. Un sistema che impara qualcosa di nuovo da pochissimi esempi, partendo da priors minimali, è intelligente.

[Classe di affermazione: definizione operativa, accompagnata da un benchmark concreto.]

Chollet introduce nello stesso paper l’Abstraction and Reasoning Corpus (ARC-AGI): una collezione di task visivi (griglie colorate) progettati per essere risolvibili con priors umani innati (geometria, oggetti, intenzionalità) e per non essere addestrabili nel modo classico (pochi esempi per task, task tutti diversi). ARC è rimasto per anni il benchmark più resistente alla saturazione: i large language model fino al 2024 facevano sotto il 10%, contro un’umanità media oltre l’80%.

Famiglia 5: la definizione a matrice (Morris et al., DeepMind)

Nel novembre 2023 Meredith Ringel Morris e altri ricercatori di Google DeepMind, fra cui Shane Legg (lo stesso del paper del 2007: filiazione esplicita), pubblicano “Levels of AGI for Operationalizing Progress on the Path to AGI”. Invece di proporre una singola definizione, propongono una griglia.

I sei livelli di performance:

Level 0 — No AI: nessuna capacità AI nel compito.
Level 1 — Emerging: pari o leggermente meglio di un umano non addestrato.
Level 2 — Competent: almeno il 50° percentile di adulti competenti.
Level 3 — Expert: almeno il 90° percentile di adulti competenti.
Level 4 — Virtuoso: almeno il 99° percentile.
Level 5 — Superhuman: meglio del 100% degli umani.

Le due dimensioni di generalità:

Narrow: il sistema opera in un dominio specifico ben definito.
General: il sistema opera su un insieme ampio di compiti cognitivi, paragonabile a quello che un umano adulto affronta nella vita ordinaria e professionale.

Esempi proposti dagli autori, snapshot al 2023: ChatGPT, Bard, Llama-2 = “Emerging General”. Siri e Alexa = “Competent Narrow”. Grammarly = “Expert Narrow”. Deep Blue, AlphaGo = “Virtuoso Narrow”. AlphaFold, Stockfish = “Superhuman Narrow”. L’angolo “Superhuman General” coincide con quella che storicamente si chiama ASI.

Gli autori distillano sei principi che una buona ontologia AGI deve soddisfare: focus su capacità non meccanismi, separazione di generalità e performance, capacità cognitive (non fisiche), distinzione fra capability potenziale e deployment effettivo, ecological validity (i benchmark devono riflettere compiti reali), gradualità (livelli, non binario).

[Classe di affermazione: framework operativo, esplicitamente posizionato come superamento delle definizioni precedenti.]

Confronto sintetico delle cinque famiglie

Per fissare le idee, le cinque famiglie a confronto su quattro dimensioni: cosa misurano, come si operazionalizzano, in che senso sono “general”, quale critica principale ricevono.

Human-equivalent (Gubrud, Goertzel): misura sostituibilità umana; operazionalizzata tramite confronto qualitativo; “general” = “wide-but-finite”; critica = vaghezza dei termini.
Economic (OpenAI Charter): misura output economico; operazionalizzata via metriche di mercato; “general” = lavoro economicamente valuto; critica = riduce intelligenza a produttività.
Formal (Legg & Hutter): misura performance media su tutti gli ambienti computabili; operazionalizzata teoricamente, non empiricamente; “general” = universale; critica = non calcolabile, dipende da reward.
Skill-acquisition (Chollet): misura efficienza di apprendimento; operazionalizzata via ARC e benchmark simili; “general” = transferibile; critica = dipende da quali priors si concedono.
Matrix (Morris et al.): non una misura ma una griglia descrittiva; operazionalizzata caso per caso; “general” = wide-but-finite con livelli di copertura; critica = il confine “general” resta convenzionale.

Le cinque famiglie non sono nemiche. Si possono leggere come prospettive complementari sullo stesso oggetto sfocato. Il problema nasce quando un interlocutore usa una famiglia e ne assume tacitamente un’altra: per esempio, parla in termini DeepMind (“siamo a Emerging General”) ma trae conseguenze in termini OpenAI Charter (“quindi sostituiremo metà dei lavori”). Le due affermazioni sono compatibili solo se si fa un ponte argomentato, non se si scivola da una all’altra.

Esempi concreti

Esempio 1: AlphaFold non è AGI ma è superumano

AlphaFold, sviluppato da DeepMind e reso pubblicamente disponibile nel 2021, predice la struttura tridimensionale delle proteine a partire dalla loro sequenza di amminoacidi. La sua accuratezza, misurata sul benchmark CASP, supera ampiamente quella di tutti i metodi precedenti e in molti casi quella dei metodi sperimentali (cristallografia a raggi X, microscopia crio-elettronica) per costo e velocità.

Nel framework Morris et al., AlphaFold è “Superhuman Narrow”: livello massimo di performance, generalità nulla. È superumano in un senso forte (nessun umano si avvicina) e narrow in un senso forte (sa fare solo quello). Non è AGI per nessuna definizione: non gli si può chiedere di scrivere una mail, di pianificare un viaggio, di seguire una conversazione. Non gli si può nemmeno chiedere di predire la struttura di una proteina nuova in modo “creativo” oltre il dominio addestrato.

L’esempio è utile perché smonta una conflazione comune: “questo sistema è impressionante quindi è AGI”. Le due cose sono ortogonali. Un sistema può essere impressionante in modo ortogonale all’AGI.

Esempio 2: GPT-4 sotto la lente Legg-Hutter

Un large language model come GPT-4 risponde a prompt in molti domini, ottiene punteggi alti su benchmark come MMLU (vedi benchmark-llm, in preparazione), GPQA, HumanEval. Questo significa che ha alta intelligenza nel senso di Legg-Hutter?

Per rispondere bisognerebbe valutare $V^\pi_\mu$ su un campione rappresentativo di ambienti $\mu$ pesati con $2^{-K(\mu)}$ . In pratica nessuno lo fa, perché: gli ambienti computabili sono infiniti, $K(\mu)$ non è calcolabile, GPT-4 non interagisce con ambienti generici ma con sequenze di token. Il ponte tra “performance su benchmark di domanda-risposta” e “valore atteso in ambienti computabili” è teorico, non empirico.

Conseguenza: chi cita Legg-Hutter come prova che gli LLM siano AGI sta facendo un’estrapolazione, non una misura. La definizione formale è utile come framework concettuale, non come termometro.

Esempio 3: ARC e i priors innati

Il benchmark ARC di Chollet è composto da task visivi che mostrano alcuni esempi di trasformazione di griglie colorate (input -> output) e chiedono di applicare la stessa trasformazione a un nuovo input. Esempio canonico: tre immagini in cui ogni quadrato rosso isolato viene racchiuso da una cornice blu; il sistema deve produrre la stessa trasformazione su una quarta immagine mai vista. Per un essere umano è banale (il task ricostruisce un’idea visiva semplice). Per un sistema senza priors innati è difficile, perché ogni task introduce concetti che vanno generalizzati da pochissimi esempi.

ARC è progettato esplicitamente per dipendere da quattro tipi di priors che Chollet considera innati negli umani: oggettità (il mondo si compone di oggetti distinti), numerica di base (contare fino a piccoli numeri), geometria elementare (simmetrie, rotazioni), intenzionalità (gli stati hanno cause e fini). Questi priors sono fissati come baseline.

L’aspetto pedagogico: la definizione skill-acquisition di Chollet diventa misurabile proprio perché ARC fissa cosa è “concesso al sistema” (priors umani) e cosa “deve essere imparato” (la trasformazione specifica). Senza fissare i priors, parlare di “skill-acquisition efficiency” è circolare. Questo è anche il punto debole: chi decide quali priors sono “umani”? Chollet ha fatto una scelta argomentata, ma è una scelta.

Esempio 4: la cella che si sposta

Uno stesso sistema può essere classificato in celle diverse del framework DeepMind a seconda di come si valuta la performance. Considera Claude 3.5 Sonnet (Anthropic, 2024) o un modello equivalente del 2024-2026.

Su un benchmark come MMLU il modello raggiunge prestazioni “Expert” (sopra il 90° percentile umano sulle domande del benchmark). Su un benchmark di matematica olimpionica come AIME, le prestazioni storicamente erano “Emerging” (sotto media) e con i reasoning model sono salite a “Competent” o “Expert”. Su un compito di “scrivere un romanzo originale di qualità professionale” le prestazioni restano controverse, probabilmente “Emerging”. Su “guidare un’auto in città” le prestazioni sono nulle perché il modello non ha sensori.

Il punto pedagogico: la cella in cui sta un sistema non è univoca. Dipende dal benchmark scelto, dal task, dal dominio. Affermare “il modello X è in livello Y” senza specificare il task è ambiguo. Il framework Morris et al. lo riconosce esplicitamente: livelli e generalità vanno valutati per insieme di task.

Il problema del “general”: tre interpretazioni

Tutte le definizioni inciampano sulla parola “general”. Ne circolano almeno tre interpretazioni, e i dibattiti pubblici raramente dichiarano quale stanno usando.

Interpretazione “universale”: il sistema può affrontare qualunque problema esprimibile. È la lettura forte di Legg-Hutter: tutti gli ambienti computabili. Se presa alla lettera, è un’asticella che nessun sistema fisico può raggiungere, perché qualunque sistema è limitato in risorse e non può simulare ambienti di complessità arbitraria.

Interpretazione “wide-but-finite”: il sistema copre l’insieme dei compiti che gli umani affrontano nella vita ordinaria e professionale. È la lettura del Charter OpenAI (“most economically valuable work”) e implicitamente del framework DeepMind. È più trattabile ma è soggetta alla critica: chi decide quali sono i compiti rilevanti? Un sistema “AGI” rispetto al lavoro impiegatizio occidentale del 2026 potrebbe non esserlo rispetto al lavoro contadino indiano o al lavoro creativo non commerciale.

Interpretazione “transferibile”: il sistema sa adattarsi a compiti nuovi senza essere stato specificamente addestrato su di essi. È la lettura di Chollet, vicina alla “fluid intelligence” della psicometria classica (Cattell, anni cinquanta). Privilegia la capacità di transfer su quella di copertura.

Le tre interpretazioni identificano oggetti diversi. Un sistema “wide-but-finite” può non essere “transferibile” se è stato addestrato esplicitamente su tutto. Un sistema “transferibile” può non essere “universale” se transferisce bene solo su una classe limitata. Un sistema “universale” in senso teorico può essere irrealizzabile in pratica.

Misurazione: il labirinto dei benchmark

Un capitolo sull’AGI non può eludere il problema empirico. Se la definizione è ambigua, la misurazione è sempre approssimativa. Ma ci sono lezioni storiche.

La saturazione, una costante

Ogni benchmark che è stato proposto come “general” è stato saturato in pochi anni. MMLU (Hendrycks et al. 2020), 57 task accademici multi-choice, era considerato un test di “general knowledge”. Nel 2020 GPT-3 fa 43.9%; nel 2024 i frontier model superano l’88%; nel 2026 il benchmark è considerato saturo, poco discriminante. MMLU-Pro (2024), versione più difficile con più opzioni e più ragionamento, è già a sua volta vicino al 90% per i top model nel 2026.

GPQA (Rein et al. 2023, “Google-proof Q&A”), domande PhD-level dove non basta cercare su Google: il subset GPQA-Diamond era a 65% per esperti umani con tempo illimitato; nel 2026 i modelli reasoning sono oltre il 90%.

ARC-AGI (Chollet 2019) è l’unico benchmark sopravvissuto a lungo. Per anni i modelli hanno fatto sotto il 10%. Nel dicembre 2024 il modello o3 di OpenAI raggiunge 87.5% su ARC-AGI-1, ma con un costo computazionale per task molto alto, una variabile che il benchmark originale non controllava. Chollet pubblica nel 2025 ARC-AGI-2, deliberatamente più difficile.

Goodhart e i benchmark

La legge di Goodhart, nella formulazione di Marilyn Strathern: “when a measure becomes a target, it ceases to be a good measure”. Ogni benchmark che diventa target dell’industria viene ottimizzato in modi che non sempre corrispondono alla qualità sottostante. Tre meccanismi documentati:

Data contamination: le domande del benchmark, intenzionalmente o meno, finiscono nei training data. Il modello “passa” il benchmark senza saperlo risolvere da capo.
Spec gaming: il modello impara pattern superficiali che funzionano sul benchmark ma non transferiscono. Cambiando un piccolo dettaglio della formulazione, le performance crollano.
Wishful mnemonics (Mitchell 2021): un benchmark chiamato “Question Answering” suggerisce che chi lo passa “answers questions” in senso forte; in realtà passa quel benchmark.

Generalità e performance, due assi distinti

Una conseguenza pratica del framework DeepMind: confondere generalità e performance produce confusione. Affermazioni come “GPT-4 è meglio degli umani” sono vere solo in tasselli del piano (dove GPT-4 ha alta performance) e false nella media. Un essere umano adulto è “Competent General”; GPT-4 è “Emerging General” che diventa “Expert” o “Virtuoso” su sotto-domini specifici e crolla a “Emerging” o “No AI” su altri.

La scommessa architetturale

C’è una domanda che attraversa quasi tutte le discussioni AGI senza essere quasi mai posta esplicitamente: AGI è una proprietà dell’architettura o una proprietà del comportamento?

La risposta cambia tutto. Se AGI è una proprietà comportamentale (un sistema è AGI se esibisce certi comportamenti), allora qualunque architettura che produce quei comportamenti è AGI per definizione. Questa è la lettura funzionalista (vedi funzionalismo) ed è la lettura implicita di Legg-Hutter, OpenAI Charter, Morris et al. Conseguenza: gli LLM, se esibiscono comportamenti generali in un range sufficiente, sono candidati legittimi all’AGI.

Se AGI è una proprietà architetturale (un sistema è AGI solo se ha certi meccanismi interni), allora il comportamento esterno non basta. Serve verificare che i meccanismi interni soddisfino certi requisiti: world model esplicito, capacità di ragionamento causale, grounding sensorimotorio. Questa è la lettura sostenuta da Yann LeCun (che propone Joint Embedding Predictive Architectures come alternativa agli LLM autoregressivi), in parte da Yoshua Bengio (che ha lavorato a sistemi consapevoli della causalità), da architetture cognitive classiche tipo SOAR e ACT-R.

Il framework Morris et al. prende esplicitamente posizione sul lato funzionalista: principio numero uno, “focus on capabilities, not processes”. Questo non è un fatto, è una scelta metodologica argomentata. Non chiude la disputa. La possibile differenza pratica: nello scenario funzionalista basta scalare gli attuali sistemi e aggiungere capacità mancanti (memoria a lungo termine, reasoning, multimodalità) per arrivare ad AGI. Nello scenario architetturale serve un cambio di paradigma. Le timeline implicite sono drammaticamente diverse.

[Classe di affermazione: distinzione filosofica con conseguenze empiriche, non risolta dai dati attuali.]

Eredità oggi

[DATATO 2026-04] Il dibattito 2023-2026 si è concentrato su tre eventi:

Marzo 2023: Bubeck et al. (Microsoft Research) pubblicano “Sparks of Artificial General Intelligence: Early experiments with GPT-4”, sostenendo che GPT-4 “could reasonably be viewed as an early (yet still incomplete) version of an AGI system”. Gary Marcus risponde che il claim non sopravviverebbe a una peer review seria. Yann LeCun afferma più volte che gli LLM autoregressivi non possono raggiungere l’AGI per ragioni architetturali. Geoffrey Hinton lascia Google per parlare liberamente dei rischi.

Novembre 2023: il paper “Levels of AGI” di Morris et al. sposta il dibattito dal binario al graduato.

2024-2026: l’arrivo di reasoning model (o1, o3, DeepSeek-R1, Claude 3.5/3.7 Sonnet con extended thinking) sposta i numeri sui benchmark. Il claim implicito industriale: scalando il test-time compute si guadagna performance generalizzabile. La risposta dei critici: si guadagnano benchmark, non necessariamente performance fuori distribuzione.

Per chi costruisce sistemi software, questa eredità ha un valore pratico. Quando un product manager, un investitore, un legislatore usa la parola AGI, vale la pena chiedere quale definizione sta intendendo. Tre check rapidi:

Se la definizione è economica (Charter OpenAI), il claim “siamo vicini” è in realtà “una grande frazione del lavoro economicamente valutato è automatizzabile”. Verificabile in linea di principio con dati di mercato.
Se la definizione è capacity-based (Morris et al.), il claim “siamo a Emerging General” non è una promessa di sostituzione del lavoro, è una descrizione di una cella nella matrice.
Se la definizione è skill-acquisition (Chollet), il claim AGI richiede prestazioni alte su benchmark deliberatamente progettati per resistere a memorizzazione e contaminazione (ARC e successori).

Per chi lavora a contatto col codice, la domanda concreta è ortogonale: il sistema è abbastanza capace, in questo dominio specifico, da essere utile per il caso d’uso? La domanda AGI si può lasciare ai panel.

Dove si rompe

Il termine AGI ha quattro punti di rottura ricorrenti.

Rottura 1: vagueness costitutiva (Mitchell, Bender)

Melanie Mitchell, in “Why AI is Harder Than We Think” (2021), individua quattro fallacie ricorrenti nelle previsioni AGI ottimistiche. La più rilevante per il nostro discorso è la prima: “narrow vs general progress”. L’idea che il progresso narrow sia “primo passo” verso il general assume che esista una scala continua e che i sistemi narrow siano “sotto” sulla stessa scala. Mitchell argomenta che non è così: alcuni avanzamenti narrow (recognition, traduzione) hanno richiesto innovazioni che non transferiscono a generality.

Le altre tre fallacie: “easy things are hard” (paradosso di Hans Moravec, formulato in “Mind Children” del 1988: i compiti facili per gli umani sono i più difficili per le macchine, e viceversa); “wishful mnemonics” (i nomi dei benchmark sopravvalutano cosa misurano); “disembodied intelligence” (l’assunto che l’intelligenza si possa separare dal corpo è cartesiano, non un fatto).

Emily Bender (linguista computazionale, Università di Washington) e Alexander Koller, in “Climbing towards NLU” (ACL 2020), propongono il thought experiment dell’octopus: un polpo intercetta i messaggi di due naufraghi su isole vicine, impara pattern linguistici, riesce a impersonare uno dei due — finché non arriva una situazione (un orso che attacca, il bisogno di costruire una catapulta) in cui le parole rimandano a oggetti che il polpo non ha mai visto. Il polpo ha imparato la forma, non il significato. Per Bender e Koller un sistema addestrato solo su testo è strutturalmente in questa posizione.

[Classe di affermazione: critica filosofica del programma cognitivista standard, non disprovamento empirico.]

Rottura 2: il moving target (AI effect)

Pamela McCorduck (storica dell’AI) ha documentato negli anni un fenomeno ricorrente: ogni volta che un compito viene risolto, smette di essere considerato AI. McCarthy stesso commentava: “as soon as it works, no one calls it AI anymore”. Calcolo simbolico, scacchi, OCR, traduzione automatica, riconoscimento immagini: tutti compiti che, una volta risolti, sono diventati “non AI” o “automazione”.

L’effetto si estende all’AGI. Ogni capacità raggiunta sposta il bersaglio. Nel 2010 chi avesse predetto un sistema in grado di superare l’esame di abilitazione legale (bar exam) lo avrebbe descritto come AGI; nel 2023 GPT-4 lo passa e nessuno ha annunciato AGI. Conseguenza preoccupante: AGI rischia di essere strutturalmente non raggiungibile per definizione. Qualunque sistema arrivi là, smetterà di essere considerato veramente generale, perché abbiamo già visto cosa fa.

Rottura 3: antropomorfismo nascosto

Quasi tutte le definizioni AGI usano l’umano come benchmark, esplicitamente (“at least 50° percentile of skilled adults”) o implicitamente (“any work a man can do”). Questo nasconde un assunto: l’intelligenza umana è il punto di riferimento naturale.

L’intelligenza biologica è un set di soluzioni evolute per ambienti specifici (savana, comunità di 150 individui, scarsità calorica). Pretendere che le macchine convergano lì è arbitrario. Un sistema potrebbe essere intelligente in modi non umani: superare gli umani su capacità che nessun umano ha (predire la struttura di una proteina), restare sotto gli umani su capacità che ogni bambino ha (prevedere se un bicchiere cadrà). Il framework “AGI” assume che le capacità si possano sommare in un asse unidimensionale, e che quell’asse abbia gli umani come riferimento.

Tentativo di risposta (Legg-Hutter): definire l’intelligenza universalmente, non in riferimento agli umani. Critica alla risposta: l’antropomorfismo è inevitabile perché siamo gli unici intelligenti che conosciamo, e cercare definizioni “neutre” è autoinganno.

Rottura 4: il problema dell’embodiment

Una variante della critica di Mitchell sulla “disembodied intelligence” merita uno spazio proprio. La tesi: le capacità che chiamiamo “intelligenza generale” negli umani non sono separabili dal fatto che gli umani hanno un corpo, vivono nel tempo, mangiano, dormono, hanno limiti di attenzione e memoria. Quando ARC misura “fluid intelligence” via griglie colorate, sta misurando un’astrazione di una capacità che, negli umani, è radicata in un’esperienza embodied del mondo (oggetti che si toccano, che cadono, che si rompono).

Un sistema disembodied (un LLM puro, anche multimodale) può approssimare i risultati di compiti embodied ma non li produce per la stessa via. Per alcuni filosofi della mente questa è una differenza che fa differenza: l’intelligenza che emerge da un corpo che ha bisogno di sopravvivere è strutturalmente diversa da quella che emerge da una funzione di loss. Per altri (di nuovo, lettura funzionalista) la via non conta, contano i risultati. Anche qui, il dibattito non è risolto.

Vedi cognizione-embodied (in preparazione) per la trattazione filosofica e cognitiva del tema.

Rottura 5: cosa AGI non garantisce

Tre cose che AGI non garantisce, anche se nel discorso comune vengono spesso assunte.

Coscienza. Una capacità cognitiva generale non implica esperienza fenomenica. Un sistema può risolvere ARC, scrivere romanzi, dimostrare teoremi, e non avere qualia. La connessione tra capacità e coscienza è il “hard problem” di David Chalmers, non risolto. Vedi hard-problem-chalmers.

Comprensione. Le definizioni operative (OpenAI, DeepMind) misurano output, non comprensione. Un sistema che produce output indistinguibili da quelli di un esperto può farlo “without understanding” nel senso di Searle. Vedi stanza-cinese-searle.

Agency. Capacità cognitive generali non implicano scopi propri. Il framework DeepMind separa esplicitamente capability da autonomy proprio per questo motivo. Un sistema “Superhuman General” potrebbe restare un tool senza obiettivi propri se non gli vengono dati. (Se questo sia stabile sotto pressione di ottimizzazione è un problema separato, trattato in superallineamento-concetto, in preparazione.)

Una guida di lettura per i claim AGI

Quando appare un titolo, un comunicato stampa, un report che parla di AGI, vale la pena chiedersi:

Quale definizione viene usata? Se non è esplicitata, la prima cosa è inferirla dal contesto. Un’azienda che vende capacity ha incentivo a usare la famiglia capacity-based con soglia bassa (Emerging). Un governo che regolamenta ha incentivo a usare la famiglia economica (impatti misurabili). Un ricercatore di filosofia della mente userà più spesso una famiglia formale o una critica del termine.
Quale evidenza viene fornita? Performance su un benchmark? Quale, e con quali condizioni (test-time compute, prompt strategy, contamination check)? Demo qualitative? Survey di esperti? Le evidenze hanno qualità molto diverse.
Cosa NON viene detto? Se una fonte parla di “performance” senza menzionare “generality”, o viceversa, manca un asse. Se parla di “AGI” senza dire se intende capability o deployment, manca una distinzione. Se parla di “AGI raggiunta” senza disambiguare con coscienza/comprensione/agency, sta probabilmente confondendo intenzionalmente.
Chi parla, e quale incentivo ha? Non ad-hominem: contesto. Una dichiarazione AGI da CEO di un’azienda che sta raccogliendo capitale ha un incentivo strutturale che una dichiarazione da ricercatore accademico in pensione non ha. Non significa che sia falsa. Significa che va letta con quella lente.

Queste quattro domande non risolvono il dibattito. Ma evitano la trappola principale: prendere ogni claim AGI come informazione equivalente, indipendente dalla definizione che lo sostiene.

Tre confusioni da evitare

In coda al capitolo, una mini-tassonomia degli errori più frequenti nelle conversazioni AGI. Sono confusioni che il framework appena costruito permette di evitare.

Confusione 1: confondere “raggiunto AGI” con “raggiunto un certo benchmark”. Saturare MMLU non è raggiungere AGI in nessuna delle cinque famiglie. È, al massimo, evidenza di expert-level performance su un sotto-aspetto. Per dire qualcosa di sensato sull’AGI servirebbero misure sulla generality (variazione di task) e sulla skill-acquisition (compiti nuovi). Saturare un singolo benchmark è informazione utile ma circoscritta.

Confusione 2: confondere capability potenziale e deployment. Un modello di laboratorio che, in condizioni ottimali, esibisce certe capabilities è una cosa; un sistema deployato in produzione, con vincoli di costo, latenza, sicurezza, è un’altra. Il framework Morris et al. distingue esplicitamente i due assi (capability vs autonomy). Confondere “il modello potrebbe fare X” con “il modello fa X in produzione” produce sia overhype sia paura mal calibrata.

Confusione 3: confondere AGI con coscienza, comprensione, agency. Le tre cose sono separate. Un sistema può avere capacità generali sempre più avanzate senza necessariamente acquisire esperienza fenomenica, comprensione semantica nel senso pieno, o scopi propri. Le definizioni che il capitolo ha esaminato (anche le più formali) tacciono su queste dimensioni. Vedi la rottura 4 sopra e la sezione “Cosa AGI non garantisce”.

Posizioni al 2026

[DATATO 2026-04] Mappa qualitativa del dibattito, non esaustiva.

Posizione “siamo già AGI o quasi”: parte di OpenAI (Sam Altman in interviste 2024-2025), Bubeck e altri Microsoft Research, alcuni esponenti di Anthropic in privato. La definizione di riferimento è economica (Charter OpenAI) o capacity-based con soglia bassa.

Posizione “Emerging AGI nel framework DeepMind”: la lettura più diffusa nei lab industriali. Riconosce capacità general ma performance variabile, da unskilled a expert a seconda del dominio.

Posizione “non è AGI, manca robustezza/comprensione/grounding”: Mitchell, Bender, LeCun (con sfumature: LeCun pensa che AGI sia possibile ma con architetture diverse dagli LLM), Marcus.

Posizione “AGI è un termine da abbandonare”: sta crescendo. Argomento: il termine è troppo vago per essere utile, e le decisioni che dovrebbe guidare (regolamentazione, investimento, allineamento) andrebbero appoggiate a metriche più concrete (capability evaluations, dangerous capabilities, AI R&D acceleration). La survey METR del febbraio 2025 raccoglie ed espone questo malessere.

Collegamenti

ai-forte-ai-debole: la distinzione classica di Searle (1980) è il prerequisito filosofico al dibattito AGI. Strong AI ~ AGI con comprensione; Weak AI ~ AGI come simulazione utile.
turing-test: il primo tentativo operativo di “definire” l’intelligenza generale via comportamento.
stanza-cinese-searle: esempio paradigmatico di critica alle definizioni AGI funzionali (l’output non basta).
funzionalismo e computazionalismo: la maggior parte delle definizioni AGI assume un funzionalismo computazionale; criticarle è criticare anche AGI.
antropomorfismo-rischi: l’AI effect e l’antropomorfismo nelle definizioni AGI sono lo stesso fenomeno visto da angoli diversi.
asi-singolarita (in preparazione): ASI è la cella “Superhuman General” del framework DeepMind; il rapporto AGI-ASI è il cuore degli scenari di singolarità.
superallineamento-concetto (in preparazione): l’allineamento di sistemi AGI/ASI è il problema applicato corrispondente.
mondo-post-2026 (in preparazione) e cosa-verra (in preparazione): lo stato del dibattito al momento della scrittura, e le proiezioni informate.
qualia (in preparazione), coscienza-access-phenomenal (in preparazione), hard-problem-chalmers (in preparazione): AGI non implica coscienza; questi capitoli mostrano perché.
emergent-abilities (in preparazione, Parte XI): il dibattito sulle abilità emergenti è figlio diretto del dibattito sui benchmark e la saturazione.
scaling-laws (in preparazione, Parte XI): l’idea che “scalare basti per AGI” è una scommessa empirica, non un teorema.

Una nota su “intelligenza” prima dell’AI

Un capitolo sull’AGI non può ignorare che la parola “intelligenza” ha una storia lunga prima della disciplina. Anche solo limitandosi alla psicometria del Novecento, le tradizioni in conflitto sono almeno tre.

La tradizione del g-factor, che parte da Charles Spearman (psicologo britannico, “General Intelligence Objectively Determined and Measured”, 1904), assume che esista un fattore comune di intelligenza generale, misurabile via batterie di test e correlato a capacità diverse. È la base teorica del concetto di IQ. La tradizione delle intelligenze multiple, identificata in particolare con Howard Gardner (“Frames of Mind”, 1983), nega l’esistenza di un singolo fattore e propone otto o nove tipi di intelligenza relativamente indipendenti (linguistica, logico-matematica, spaziale, musicale, corporea, intrapersonale, interpersonale, naturalistica). La tradizione fluida vs cristallizzata, di Raymond Cattell (anni cinquanta-sessanta), distingue intelligenza fluida (capacità di risolvere problemi nuovi senza basarsi su conoscenze pregresse) e cristallizzata (conoscenze e abilità accumulate).

Le definizioni AGI ereditano in modi diversi da queste tradizioni. La definizione human-equivalent assume implicitamente un g-factor: c’è un’intelligenza generale che il sistema deve avere. La definizione skill-acquisition di Chollet è esplicitamente vicina alla nozione cattelliana di intelligenza fluida. La definizione a matrice di Morris et al. ha un sapore gardneriano: separa assi e ammette che un sistema possa essere alto su uno e basso su un altro.

Il punto: il dibattito AGI riproduce, in versione più tecnica, dispute psicometriche vecchie di un secolo. Capire quali tradizioni sono in gioco aiuta a non reinventare ruote arrugginite. Vedi intelligenza-g-factor (in preparazione) e intelligenze-multiple (in preparazione).

L’asticella che si muove: tre esempi storici

Il fenomeno dell’AI effect non è solo un’osservazione astratta: è documentato in casi specifici nella storia recente. Tre esempi servono a ricordare quanto i bersagli si siano spostati.

Scacchi. Per decenni, “una macchina che batte il campione mondiale di scacchi” è stato il caso scuola di intelligenza meccanica. Quando Deep Blue batte Garry Kasparov nel 1997, succede esattamente quello che aveva previsto McCarthy: viene riclassificato come “brute force”, “search più potenza di calcolo”, “non vera intelligenza”. Lo stesso è accaduto con la traduzione automatica, il riconoscimento vocale, il riconoscimento di immagini. Ogni capacità, una volta raggiunta, viene declassata.

Bar exam. Nel 2010 chiunque avesse predetto un sistema software in grado di superare l’esame di abilitazione legale negli Stati Uniti lo avrebbe descritto come AGI. Quando GPT-4 passa il bar exam nel 2023 (con un punteggio nel 90° percentile umano), l’evento è tecnico ma quasi nessuno annuncia AGI. Spiegazioni possibili: il modello “ricorda” senza “comprendere”; il bar exam è meno generale di quanto si pensasse; la generalizzazione fuori dal training set è dubbia. Tutte plausibili. Ma è notevole che il bersaglio si sia spostato.

Programmazione competitiva. Nel 2022 il sistema AlphaCode di DeepMind raggiunge livello “median competitor” in concorsi Codeforces. Nel 2024 i reasoning model raggiungono prestazioni equivalenti al top decimo o top centesimo. La capacità “scrivere codice originale per problemi nuovi” era considerata un proxy ragionevole per AGI. Dopo, è stata declassata a “ottimo benchmark” senza implicazioni AGI.

[Classe di affermazione: cronologia documentata di spostamenti del bersaglio.]

Questo non significa che AGI non esista o che gli scettici siano in malafede. Significa che la disciplina ha un meccanismo strutturale per cui il termine resta sempre poco oltre lo stato dell’arte. Capire questo meccanismo non risolve il problema, ma evita di stupirsi quando si ripresenta.

[DATATO 2026-04] Per chi lavora come sviluppatore o architetto di sistemi software, la tentazione è di dismettere il dibattito AGI come filosofia da fine settimana. È in parte legittimo: la qualità del codice prodotto da un sistema non dipende dal fatto che il sistema sia “AGI” in qualche definizione. Ma alcune decisioni pratiche dipendono indirettamente dalla risposta che si dà alla domanda AGI.

Se si crede a una scaling story forte (definizione capacity-based, con ipotesi che bastino dati e compute), conviene investire in pipeline che usano i modelli al massimo, sapendo che miglioreranno presto. Se si crede a una scaling story debole (definizione architetturale, con ipotesi che servano paradigmi nuovi), conviene investire in tooling che funziona oggi ma non scommette su capacità future. Sono scelte di portfolio, non di filosofia.

Lo stesso vale per la scelta di costruire wrapper sottili (assumendo che i modelli evolvano e i wrapper diventeranno obsoleti) o per investire in orchestrazione complessa (assumendo che i modelli abbiano limiti strutturali da compensare). Entrambe le posizioni sono ragionevoli; entrambe assumono un’opinione implicita su AGI.

Non c’è obbligo di esplicitare la propria opinione. C’è valore nel sapere che esiste.

Per andare oltre

Mark Gubrud, “Nanotechnology and International Security” (1997). Per leggere il testo originale dove il termine appare per la prima volta. Importante per capire che AGI nasce in un contesto di policy, non di filosofia della mente.
Shane Legg, Marcus Hutter, “Universal Intelligence: A Definition of Machine Intelligence” (Minds and Machines, 2007; arXiv:0712.3329). Per la formalizzazione matematica e per i 70+ definizioni informali raccolte nell’appendice.
François Chollet, “On the Measure of Intelligence” (arXiv:1911.01547, 2019). Lettura obbligata. Il paper introduce ARC e propone il framing skill-acquisition. Tecnico ma leggibile.
Meredith Ringel Morris et al., “Levels of AGI for Operationalizing Progress on the Path to AGI” (arXiv:2311.02462, 2023). Il framework matrice. La sezione sui sei principi è utile anche fuori dal dibattito AGI.
Melanie Mitchell, “Why AI is Harder Than We Think” (arXiv:2104.12871, 2021) e il libro “Artificial Intelligence: A Guide for Thinking Humans” (Farrar Straus & Giroux, 2019). La voce critica più chiara del dibattito contemporaneo.
METR, “AGI: Definitions and Potential Impacts” (febbraio 2025; metr.org/agi.pdf). Survey sistematica delle definizioni in circolazione, utile come reference.
Sébastien Bubeck et al., “Sparks of Artificial General Intelligence: Early experiments with GPT-4” (arXiv:2303.12712, marzo 2023). Da leggere insieme alla risposta critica di Gary Marcus su Substack (“The Sparks of AGI? Or the End of Science?”, aprile 2023). Le due letture, una accanto all’altra, sono il modo migliore per capire dove sta il disaccordo metodologico.
Emily M. Bender, Alexander Koller, “Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data” (ACL 2020). Per il thought experiment dell’octopus e per la critica al claim che “scaling = comprensione”. Importante anche per chi non si occupa di NLP, perché formalizza un’intuizione che ricorre in molte critiche AGI.
Pamela McCorduck, “Machines Who Think” (A K Peters, seconda edizione 2004). Storia della disciplina AI scritta da chi ha conosciuto i protagonisti. È la fonte canonica per molte aneddotiche storiche citate in questo capitolo, fra cui la documentazione dell’AI effect.