Storia dell'AI in dieci minuti

Settant’anni in dieci minuti: dalle macchine computazionali di Turing agli agenti che modificano codice. Una mappa veloce per collocare ogni capitolo della wiki nel suo tempo.

Perché questo capitolo

La Parte I della wiki va in profondità: un capitolo per ogni svolta, con nomi, paper, dinamiche. Qui serve l’opposto: il filo intero in un unico passaggio, con le date principali, così che quando più avanti incontrerai un capitolo su RLHF, transformer o MCP tu sappia già dove si colloca nel grande disegno.

Le storie rendono comprensibile il presente. Molte scelte architetturali che oggi sembrano ovvie — l’attention, i modelli decoder-only, RLHF come standard, la tool use — sono risposte a problemi specifici emersi in un momento specifico. Conoscerli nella giusta sequenza trasforma la tecnologia da magia a conseguenza.

Questa sintesi ha un bias dichiarato: segue l’asse che ha prodotto gli LLM. L’AI è un campo più vasto (robotica, visione classica, planning, knowledge graph, neuro-simbolico) che la wiki tocca altrove. Qui si racconta il filo principale che porta agli agenti di oggi.

Quattro ere, bordi porosi

La storia dell’AI si può suddividere in quattro ere, con confini che si sovrappongono:

Simbolica (1956-1990 circa): AI come manipolazione di simboli, logica, regole esplicite. Due picchi di entusiasmo seguiti da due inverni.
Statistica (1990-2012 circa): inferenza probabilistica, machine learning classico, reti neurali in background.
Deep learning (2012-2022 circa): reti neurali profonde dominano prima la visione, poi il linguaggio.
LLM e agenti (2022-oggi): ChatGPT come momento pubblico, poi scaling, instruction tuning, tool use, modelli di ragionamento.

Queste etichette sono convenzioni. Yann LeCun lavorava su CNN negli anni ‘90. I sistemi esperti erano ancora usati negli anni 2000. Le transizioni non sono mai nette.

Pre-storia: prima del campo (fino al 1956)

L’idea di una macchina che ragiona è più antica del termine “artificial intelligence”.

Gottfried Wilhelm Leibniz, alla fine del Seicento, sogna un calculus ratiocinator: una logica simbolica per calcolare le conclusioni a partire dalle premesse. Tre secoli dopo, questa idea germina nell’AI simbolica.

Charles Babbage progetta nell’Ottocento la Analytical Engine, una macchina programmabile. Ada Lovelace, sua collaboratrice, scrive quello che molti considerano il primo programma per una macchina universale e specula sulle sue possibili applicazioni al di la del calcolo.

Alan Turing definisce nel 1936 il modello di computazione universale (la macchina di Turing) e nel 1950 pubblica “Computing Machinery and Intelligence”, dove propone il “test di imitazione” oggi noto come test di Turing. La domanda che apre l’articolo — “Can machines think?” — fonda il programma filosofico dell’AI.

Claude Shannon nel 1948 fonda la teoria dell’informazione. John von Neumann nel 1945 descrive l’architettura che prende il suo nome. Norbert Wiener nel 1948 pubblica “Cybernetics”. Tutte componenti dell’infrastruttura concettuale che renderà possibile Dartmouth 1956.

1956: Dartmouth, il nome

Nell’estate del 1956, John McCarthy, Marvin Minsky, Claude Shannon e Nathaniel Rochester organizzano un workshop al Dartmouth College. La proposta di finanziamento, del 1955, contiene una frase che diventerà un manifesto: “every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it”.

Il termine “artificial intelligence” viene coniato per l’occasione. Il campo ha un nome.

Era simbolica: ottimismo, inverni, sistemi esperti (1956-1990)

Anni ‘60: tutto sembra a portata

Newell e Simon scrivono il Logic Theorist (1956) e il General Problem Solver (1957): programmi che dimostrano teoremi di logica proposizionale. Rosenblatt propone il perceptron (1958), una prima rete neurale apprendente. Si lavora sui “microworlds”: SHRDLU di Winograd (1970) manipola blocchi in un mondo simulato rispondendo in inglese.

L’ottimismo dei primi anni è enorme. Herbert Simon nel 1965 dichiara che “machines will be capable, within twenty years, of doing any work a man can do”. La realtà’ si rivelerà’ più dura.

Primo inverno (~1974-1980)

Nel 1969 Minsky e Papert pubblicano “Perceptrons”, mostrando che il perceptron a strato singolo non può rappresentare funzioni come XOR. Il libro scoraggia l’investimento nelle reti neurali per un decennio. Il rapporto Lighthill nel 1973 critica severamente lo stato dell’AI britannica. ALPAC (1966) aveva già frenato la traduzione automatica negli USA. I fondi si prosciugano.

Anni ‘80: sistemi esperti

Una seconda onda arriva con i sistemi esperti: MYCIN (diagnosi mediche), XCON (configurazione di computer DEC), Cyc (tentativo di codificare il senso comune). Il Giappone lancia il Fifth Generation Project nel 1981 con ambizioni enormi. Il business dei sistemi esperti cresce: Lisp Machines, Symbolics, Intellicorp.

Secondo inverno (~1987-1993)

Il mercato dei sistemi esperti crolla tra 1987 e 1993. I sistemi si rivelano fragili, costosi da manutenere, incapaci di generalizzare oltre il dominio. Il Fifth Generation Project chiude senza raggiungere gli obiettivi. Di nuovo, investimenti si prosciugano.

Era statistica (1990-2012)

Il campo si sposta dalla logica alle probabilita. Judea Pearl sviluppa le reti bayesiane. I modelli nascosti di Markov (HMM) dominano il riconoscimento vocale. Le support vector machine (Vapnik, anni ‘90) diventano lo standard di classificazione. Random forest (Breiman, 2001), gradient boosting, AdaBoost emergono come tecniche robuste.

Le reti neurali sopravvivono in modalità carbonara. Geoffrey Hinton, Yann LeCun, Yoshua Bengio continuano a pubblicare. LeCun costruisce convnet per leggere assegni bancari. Ma il mainstream è altrove.

Nel 2006 Hinton et al. rilanciano le reti profonde con tecniche di pre-training non-supervisionato. Il termine “deep learning” prende piede. Le cose iniziano a muoversi.

2012: il deep learning prende il campo

AlexNet (Krizhevsky, Sutskever, Hinton) vince la competizione ImageNet con un errore top-5 del 15.3%, contro il 26% del miglior sistema precedente. La differenza non è incrementale, è una voragine. La combinazione che funziona: dati abbondanti (ImageNet aveva 1.2 milioni di immagini etichettate), GPU come acceleratore (CUDA aveva qualche anno), architettura convoluzionale profonda, dropout come regolarizzazione.

In tre anni, tutti i vincitori di ImageNet sono reti neurali. Il deep learning prende il centro.

La cascata 2013-2016

2013: word2vec di Mikolov et al. mostra che parole rappresentate come vettori densi catturano semantica. king - man + woman ≈ queen.
2014: seq2seq di Sutskever et al. usa due RNN (encoder + decoder) per la traduzione automatica. L’attention di Bahdanau et al. risolve il bottleneck del vettore-stato fisso: il decoder guarda ogni parola della sorgente con pesi diversi a ogni step.
2015: ResNet di He et al. introduce connessioni residuali, rendendo addestrabili reti di 100+ strati. BatchNorm (Ioffe, Szegedy) stabilizza il training. Adam (Kingma, Ba, 2014) diventa l’optimizer standard.

2017: il transformer

Vaswani et al. pubblicano “Attention Is All You Need”. L’architettura rimuove ricorrenza e convoluzione, lasciando solo self-attention e feed-forward. Originalmente proposta per la traduzione, si rivela un’architettura generale.

Nel 2018 arrivano BERT (Google) e GPT-1 (OpenAI), due facce del pre-training: BERT bidirezionale buono per task di comprensione, GPT decoder-only buono per generazione. Nel 2019 GPT-2 mostra capacità inaspettate di generare testo coerente; OpenAI lo rilascia a scaglioni per “ragioni di sicurezza”, anticipando un tema che diventerà centrale.

2020: scaling e few-shot

OpenAI pubblica “Language Models are Few-Shot Learners”: GPT-3 ha 175 miliardi di parametri e mostra che, con abbastanza scala, un modello diventa capace di apprendere task nuovi solo dall’istruzione nel prompt, senza fine-tuning. Lo stesso anno, Kaplan et al. pubblicano le prime scaling laws per modelli di linguaggio: la loss scala prevedibilmente con parametri, dati, compute.

Nel 2022 DeepMind con Chinchilla corregge il quadro: i modelli precedenti erano “compute-optimal” male bilanciati; per un budget dato serve più dati e meno parametri di quanto si credesse.

Novembre 2022: ChatGPT

OpenAI rilascia ChatGPT il 30 novembre 2022. L’interfaccia conversazionale, il prodotto rifinito, l’accesso gratuito producono adozione virale: cento milioni di utenti in due mesi. La cultura mainstream scopre gli LLM. “Language model” entra nel vocabolario comune.

Sotto il cofano: GPT-3.5 più instruction tuning e RLHF (reinforcement learning from human feedback) come tecniche di allineamento al desiderio umano.

2023: corsa e apertura

GPT-4 esce nel marzo 2023, multimodale e significativamente più capace. Claude 1 e poi Claude 2 (Anthropic) entrano nel mercato. Gemini (Google DeepMind) arriva a dicembre.

Llama 1 (febbraio 2023) e Llama 2 (luglio 2023) di Meta aprono i pesi di modelli competitivi. Mistral 7B (settembre 2023) dimostra che modelli piccoli ben addestrati superano modelli grandi mal addestrati. L’ecosistema open si organizza: HuggingFace al centro, vLLM per servirli, una fioritura di fine-tune.

Instruction tuning diventa standard. RLHF come metodo di allineamento. DPO (2023) propone un’alternativa senza RL.

2024: l’era degli agenti

Il tool use matura. Function calling diventa API standard sui modelli commerciali. Claude 3 (marzo 2024), GPT-4o (maggio 2024) migliorano capacità multimodali e qualità del tool use.

Novembre 2024: Anthropic pubblica MCP (Model Context Protocol), uno standard aperto per connettere modelli a tool esterni. L’ecosistema agenti si organizza attorno a un protocollo comune.

Claude Code entra in beta. Cursor e Cline maturano come IDE agentici. Il concetto di “harness” — il runtime attorno al modello — emerge come disciplina distinta dall’LLM in se.

Anthropic introduce anche computer use: l’agente controlla direttamente un desktop tramite screenshot e azioni.

Settembre 2024-2026: l’era del ragionamento

OpenAI rilascia o1-preview nel settembre 2024 e o1 a dicembre. Un paradigma nuovo: il modello “pensa” prima di rispondere, generando traces di ragionamento interno prima dell’output visibile. Le performance su matematica, coding, scienze crescono in modo significativo.

Gennaio 2025: DeepSeek pubblica R1 con pesi aperti, democratizzando l’approccio thinking. Le tecniche di RL su reasoning traces diventano di dominio comune.

Nel 2025 seguono o3 (OpenAI), modelli thinking di Anthropic, Gemini 2.0 con reasoning. Il “test-time compute scaling” diventa una dimensione strategica quanto lo scaling dei parametri: spendere più token in output per pensare meglio.

Ad inizio 2026 il panorama vede una separazione crescente tra modelli fast (per task veloci, bassa latenza) e modelli thinking (per problemi difficili, alta latenza ma alta qualità). L’orchestrazione tra i due tipi diventa un problema di design importante.

Cosa ha causato ogni transizione

Ogni passaggio tra ere ha avuto un motore tecnico e uno culturale.

Dal simbolico allo statistico (fine anni ‘80): il motore tecnico è il fallimento dei sistemi esperti su domini aperti — troppo fragili, troppo costosi da manutenere. Il motore culturale è la disillusione dopo due inverni: le promesse non mantenute hanno eroso fiducia e finanziamenti. I metodi probabilistici, più modesti nei claim, producevano risultati più affidabili su task ristretti.

Dallo statistico al deep learning (2012): il motore tecnico è la convergenza di tre ingredienti maturati indipendentemente — dataset grandi (ImageNet 2009), GPU programmabili (CUDA 2007), algoritmi che scalavano con la profondità (dropout 2012, ReLU, inizializzazioni migliori). Il motore culturale è il successo pubblico di AlexNet che ha reso difficile ignorare il campo.

Dal deep learning agli LLM (2017-2020): il motore tecnico è il transformer come architettura general-purpose scalabile e il principio di pre-training su grandi corpus testuali non etichettati. Il motore culturale è la crescita di lab ben finanziati (OpenAI, DeepMind, poi Anthropic) capaci di assorbire costi di training crescenti.

Dagli LLM agli agenti (2022-2024): il motore tecnico è la combinazione di function calling robusto, instruction tuning maturo, RLHF e contesti più lunghi. Il motore culturale è ChatGPT che ha creato un pubblico che si aspetta un assistente, non un’API.

Dagli agenti al ragionamento (2024-2026): il motore tecnico è la scoperta che il compute speso al test-time in token di ragionamento produce guadagni di qualità comparabili o superiori allo scaling dei parametri. Il motore culturale è la competizione su benchmark difficili (matematica, coding, scienze) dove i modelli “fast” avevano plateauato.

Tre svolte fondamentali

Riassumendo, tre punti di snodo hanno definito l’AI moderna:

2012 — scala pratica: dati abbondanti + GPU + architetture profonde rendono il deep learning superiore agli approcci classici su visione, poi su linguaggio.
2017 — architettura generale: il transformer elimina la ricorrenza e si rivela scalabile a milioni e poi miliardi di parametri, dominando visione, linguaggio, audio, codice.
2022-2024 — utilità pratica: LLM + instruction tuning + RLHF + tool use + reasoning = agenti capaci di task reali, non solo di demo.

Chi vuole capire l’AI di oggi deve attraversare questi tre punti mentalmente ogni volta che incontra un nuovo concetto. Perché RLHF? Perché dopo GPT-3 era chiaro che più scala non bastava: serviva allineamento al desiderio umano. Perché MCP? Perché dopo la maturazione del tool use serviva un protocollo standard per non avere N² integrazioni.

Cosa non sta in questa sintesi

La storia dell’AI è più vasta del filo che ha prodotto gli LLM. Alcune cose che questa sintesi tralascia o tratta solo di sfuggita:

AI simbolica moderna: il neuro-simbolico, i knowledge graph, la rappresentazione della conoscenza restano campi attivi. Sono trattati nella Parte VII.
Reinforcement learning puro: AlphaGo (2016), AlphaZero (2017), MuZero (2019), la gara sui videogame Atari e StarCraft. Parte V e Parte XI toccano questi sviluppi.
Visione computazionale classica: SIFT, HOG, feature engineering — ciò che c’era prima di AlexNet. Appare nella Parte VIII.
Hardware: GPU, TPU, chip dedicati (Cerebras, Groq), architetture di training distribuito. Parte XI.
Ricerca europea, cinese, russa al di fuori dei momenti che hanno attraversato il mainstream anglofono.
Robotica: il campo ha una sua storia parallela che converge con gli LLM solo recentemente (robotic foundation models, Figure, 1X).

Laboratori e persone che hanno tenuto il filo

Una storia ridotta come questa cancella molti nomi. Vale la pena citare almeno i lab che hanno tenuto il filo attraverso più ere.

Università e laboratori pubblici: MIT AI Lab (McCarthy, Minsky e generazioni successive), Stanford AI Lab, CMU (Newell, Simon, poi robotica e ML), University of Toronto (Hinton e gruppo). Questi luoghi hanno tenuto viva la ricerca attraverso gli inverni.

Lab industriali pre-LLM: IBM Research (sistemi esperti, Deep Blue nel 1997, Watson nel 2011), Bell Labs in vari periodi, Microsoft Research.

Lab deep learning e LLM: Google Brain dal 2011, DeepMind dal 2010 (acquistato da Google nel 2014), OpenAI dal 2015, Facebook AI Research (FAIR) dal 2013, Anthropic dal 2021, Meta AI, Mistral, DeepSeek, xAI. Ciascuno con una scuola di pensiero leggibile nei suoi paper.

Tre persone appaiono in momenti diversi con continuita: Geoffrey Hinton (percettroni multi-layer, deep belief networks, AlexNet, capsule networks, poi critica pubblica dell’AI), Yann LeCun (CNN anni ‘90, FAIR, critica pubblica degli LLM come architettura), Yoshua Bengio (LSTM migliorate, attention, poi advocacy su AI safety). Gli “ImageNet three” sono un caso raro di continuita scientifica attraverso tre ere.

Limiti di questa narrazione

Tre bias dichiarati.

Euro-americano-centrico: le svolte citate sono quasi tutte pubblicate in venue occidentali o cinesi tradotte in inglese. La ricerca in altri contesti linguistici è meno visibile qui.

ML-centrica: “AI” è ridotta al filo che porta al ML statistico e poi al deep learning. AI come disciplina formale include logica, planning, rappresentazione della conoscenza, razionalità a vincoli limitati: Parte II e Parte VII della wiki si occupano di quelle tradizioni.

Il presente confonde: scrivere di eventi del 2024-2026 da dentro il 2026 rende difficile distinguere ciò che conta da ciò che sembra contare oggi ma non domani. Le sezioni più recenti sono quelle più destinate a essere corrette.

Dove andare per la versione lunga

La Parte I apre ciascuno dei momenti qui citati con un capitolo dedicato. Alcuni punti di entrata consigliati:

Per la filosofia della mente che sta dietro alla domanda “can machines think?”: Parte II, in particolare gli slug turing-test e stanza-cinese-searle (in preparazione).
Per il meccanismo dell’attention: Parte IX, slug attention-intuizione (in preparazione).
Per le scaling laws: Parte XI, slug scaling-laws (in preparazione).
Per capire ChatGPT in profondità: Parte XI + Parte XV + Parte XII (RLHF, prompt engineering, reasoning).
Per MCP: Parte XVI, slug mcp-introduzione (in preparazione).

Collegamenti

intro-wiki — perché esiste la wiki e come usarla.
percorsi-lettura — reading path per chi vuole approfondire un’era specifica.
mappa-concettuale — connessioni trasversali tra le ere e i temi non storici della wiki.
../outline.md — tutti i capitoli della Parte I, uno per ciascuna svolta.
Parte II (filosofia) — fornisce il contesto concettuale di molte domande di questa storia.
Parte III (scienze cognitive) — i ponte-* collegano la storia dell’AI alla storia della psicologia sperimentale e della filosofia della mente.