Ragionamento 2024-2026: o1, o3, DeepSeek-R1 e i modelli "thinking"

Cinquecento ottantanove miliardi di dollari di capitalizzazione di mercato evaporati in una seduta. Lunedì 27 gennaio 2025, Wall Street apre con NVIDIA in caduta libera: a fine giornata il titolo perde il 17%, il più grande crollo in valore assoluto della storia di un singolo titolo americano. Il movente arriva dal weekend del Capodanno cinese: due giorni prima, un laboratorio AI cinese poco noto fuori dalla cerchia degli addetti — DeepSeek, spin-off di un hedge fund quantitativo di Hangzhou — ha rilasciato un modello open weights chiamato R1 che, su benchmark di matematica e codice di livello olimpionico, raggiunge prestazioni vicine al modello di punta di OpenAI, o1, costato presumibilmente cento volte di più. Quattro mesi prima, il 12 settembre 2024, OpenAI aveva annunciato o1-preview, primo modello commerciale che spende decine di migliaia di token in un ragionamento interno nascosto prima di rispondere, ottenendo salti di prestazione su prove formali fino a ieri considerate fuori portata: dall’American Invitational Mathematics Examination al 13% (GPT-4o) all’83% (o1), da Codeforces in 11-esimo percentile al 89-esimo. Fra il settembre 2024 e l’aprile 2025, ogni laboratorio frontiero del pianeta — OpenAI, DeepSeek, Anthropic, Google DeepMind, xAI, Alibaba — rilascia il proprio modello “thinking”. Una nuova modalità di inferenza si stabilisce come standard: oltre al token-by-token autoregressivo veloce, una catena di ragionamento estesa che spende compute al test-time per produrre risposte migliori. Questo capitolo racconta diciotto mesi in cui la frontiera dell’AI cambia asse di scaling.

Perché questo capitolo

Capire il paradigma “thinking” è centrale per leggere ogni LLM rilasciato dopo il settembre 2024. Cambia il modo in cui si misura la performance di un modello (non più solo accuracy ma accuracy condizionata sul compute speso a inference), il pricing delle API (i token di reasoning hidden costano e moltiplicano il volume effettivo di output), il modo in cui si progetta un sistema agentico (quando spendere reasoning per un passo critico vs quando rispondere veloce), e in ultima istanza il modo in cui si pensa al progresso del campo. Per anni il refrain era “scale is all you need”: più parametri, più dati, più compute di pretraining. Dal 2024 questo refrain non basta più: c’è un secondo asse, ortogonale, che produce gain altrettanto significativi spendendo compute non in addestramento ma in inferenza.

Il capitolo conta anche per ragioni di storia industriale. Il rilascio di DeepSeek-R1 a gennaio 2025 segna il primo momento in cui un laboratorio cinese open source raggiunge la frontiera del reasoning a una frazione del costo dichiarato dei competitor americani. La reazione del mercato finanziario è simbolica al di là dei numeri: per la prima volta dal 2022 viene messa in discussione l’idea che il progresso dei LLM sia esclusiva di pochi laboratori molto capitalizzati che possono permettersi cluster di centomila GPU. La risposta empirica a “quanto costa fare reasoning” diventa argomento aperto, con conseguenze geopolitiche, regolatorie e di policy industriale che si dispiegano nei mesi successivi.

Capire questi diciotto mesi significa anche distinguere il sostanziale dal narrativo. Cosa funziona davvero in un modello thinking? Quali benchmark sono caduti e quali no? Cosa è effettivamente nuovo rispetto al chain-of-thought studiato dal 2022, e cosa è solo rebranding? Quali miti vanno smontati — il mito che R1 abbia “ucciso OpenAI”, il mito che thinking models siano la strada per AGI, il mito che test-time compute sia gratis? Le risposte stanno nei dettagli tecnici e nelle cifre, non nella copertura giornalistica.

Contesto

Per leggere il salto del settembre 2024 serve ricostruire la filiera tecnica che lo precede. Il paradigma thinking non nasce dal nulla: è il punto di arrivo di una linea di lavoro pluriennale sul prompting strutturato, sul reward modeling step-level e sul self-improvement.

Il primo passo è il chain-of-thought prompting. Nel gennaio 2022 Jason Wei (informatico americano, allora a Google Brain, oggi a OpenAI) e collaboratori pubblicano “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (NeurIPS 2022, arXiv:2201.11903). L’osservazione è semplice e potente. Su problemi di aritmetica, commonsense reasoning e symbolic reasoning, fornire al modello pochi esempi few-shot in cui la risposta è preceduta da un ragionamento passo-passo migliora drammaticamente l’accuratezza. Su PaLM 540B, il benchmark GSM8K (Grade School Math, problemi di matematica scolastica) passa dal 17.9% con prompting standard al 56.9% con CoT. Il modello, costretto a “scrivere” il proprio ragionamento, produce risposte molto più spesso corrette. La variante zero-shot di Takeshi Kojima e collaboratori (NeurIPS 2022) mostra che basta aggiungere la frase “Let’s think step by step” senza esempi per ottenere parte del gain.

L’intuizione del CoT lascia aperta una domanda profonda che rimane viva ancora oggi: perché scrivere il ragionamento aiuta? Una lettura tecnica: i token intermedi servono come scratchpad esterno, scaricando computazione che altrimenti dovrebbe stare nella forward pass del Transformer. Un’altra lettura: i token CoT condizionano la distribuzione di output verso regioni di output più accurate, agendo come una sorta di prior auto-generato. Le due letture sono compatibili e probabilmente entrambe vere in misura diversa. La discussione si approfondisce in cot-meccanica (Parte XII).

Nel marzo 2022 Xuezhi Wang e collaboratori (Google) pubblicano “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (ICLR 2023, arXiv:2203.11171). L’idea è triviale e funziona: invece di generare un solo CoT con greedy decoding, si campionano N traces diverse con temperatura > 0 e si vota a maggioranza la risposta finale. Su GSM8K con PaLM 540B, si passa da 56.9% (greedy CoT) a 74.4% con 40 sample. Il costo è lineare in N, ma il gain è netto. Per la prima volta diventa esplicito che spendere più compute al test-time produce risposte migliori, anche se nel 2022 nessuno usa ancora la formulazione “test-time compute scaling”.

Nel maggio 2023 Shunyu Yao (allora dottorando a Princeton, oggi ricercatore OpenAI) e collaboratori generalizzano il pattern con “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (NeurIPS 2023, arXiv:2305.10601). Invece di una catena lineare, si esplora un albero: a ogni passo si generano N branch alternativi, un evaluator (un altro LLM giudice) valuta quali continuare, si applica una ricerca BFS o DFS sull’albero. Su Game of 24 (raggiungere 24 con 4 numeri e 4 operazioni), GPT-4 con CoT risolve il 4% dei problemi, con ToT il 74%. Il salto è enorme, ma anche il costo: ordini di grandezza più LLM call per problema. ToT è un esperimento concettuale più che un metodo di produzione, ma fissa l’idea che il reasoning può essere strutturato come ricerca esplicita.

Lo stesso 2023 OpenAI pubblica un contributo che si rivelerà più strutturalmente importante. Hunter Lightman, Vineet Kosaraju, Yuri Burda, Jan Leike, John Schulman, Ilya Sutskever (informatico russo-canadese, 1986-, allora Chief Scientist OpenAI), Karl Cobbe e altri pubblicano “Let’s Verify Step by Step” (arXiv:2305.20050). Il paper introduce nel vocabolario mainstream la distinzione fra Outcome Reward Model (ORM, premia solo l’output finale) e Process Reward Model (PRM, premia ogni passo intermedio del ragionamento). Per addestrare il PRM, gli autori raccolgono PRM800K, un dataset di 800.000 step-level annotations human-labeled su soluzioni a problemi del benchmark MATH (problemi di olimpiadi matematiche scolastiche). Il PRM addestrato, usato per re-rankare N candidate solutions generate da GPT-4, porta MATH dal 50.4% (senza verifier) al 78.2%. Il PRM con feedback umano funziona meglio del PRM addestrato con feedback automatico, segnale che la qualità delle annotazioni step-by-step conta molto. Il paper non ancora addestra un modello a generare reasoning ottimale via RL: usa il PRM solo come selettore. Ma il framework concettuale — premia i passi, non solo il risultato — diventa il sostrato del paradigm shift di un anno dopo.

In parallelo, Eric Zelikman e collaboratori (Stanford) lavorano su STaR: “STaR: Bootstrapping Reasoning With Reasoning” (NeurIPS 2022, arXiv:2203.14465). Il loop è iterativo: il modello genera CoT su un problema, si verifica se l’output finale è corretto, si raccolgono i CoT corretti come training set, si fine-tuna il modello su quel set, si itera. La capacità di reasoning del modello migliora ad ogni round. L’estensione Quiet-STaR (2024) insegna al modello a generare “thoughts” interne fra i token visibili, addestrato per migliorare la prediction del prossimo token. Le idee di STaR/Quiet-STaR — usare il modello come maestro di sé stesso sui propri reasoning trace, addestrare reasoning come obiettivo esplicito — sono lo scheletro concettuale di o1 e R1.

L’altro antefatto è di natura industriale. Nel novembre 2023 OpenAI attraversa la nota crisi di governance: Sam Altman viene licenziato dal board e reinstallato dopo cinque giorni di ammutinamento dei dipendenti. Durante quei giorni Reuters pubblica un articolo (22 novembre 2023, “OpenAI researchers warned board of AI breakthrough ahead of CEO ouster”) che riferisce, da fonti anonime, di un progetto interno chiamato “Q*” (Q-star) che avrebbe dimostrato capacità di reasoning matematico inedite. OpenAI non conferma né smentisce. Speculazione di settore: combinazione di RL, search MCTS-like e reward model orientato a math problems. Nel 2024 il codename interno cambia in “Strawberry” (riferimento al meme “How many R’s in strawberry?”, che i LLM standard sbagliano sistematicamente). Quando il prodotto viene rilasciato il 12 settembre 2024, prende il nome ufficiale “o1” — la “o” sta per “OpenAI” e azzera il legacy GPT, segnalando volutamente una nuova famiglia.

Decoder dei nomi che ricorrono nel capitolo. Liang Wenfeng (manager finanziario cinese, 1985-, fondatore dell’hedge fund quantitativo High-Flyer Capital Management e di DeepSeek, già introdotto nel cap open-weights-2023-2024) è la figura centrale dell’episodio R1. Francois Chollet (informatico francese, autore di Keras, ex Google, fondatore della ARC Prize Foundation nel 2024) è l’autore del benchmark ARC-AGI che diventa il termometro della fine del 2024. Demis Hassabis (informatico inglese, 1976-, CEO Google DeepMind, Premio Nobel per la Chimica 2024 con John Jumper per AlphaFold) guida i modelli Gemini. Dario Amodei (CEO Anthropic, già introdotto nel cap era-agenti-2024) firma la roadmap Claude verso extended thinking. Noam Brown (informatico americano, ex Meta — autore di Pluribus, AI di poker no-limit Texas hold’em, e Cicero, AI di Diplomacy — ora ricercatore principale OpenAI) è uno degli advocate pubblici del test-time compute scaling. Mark Chen (Chief Research Officer OpenAI dal 2024) è la voce pubblica del progetto o1/o3.

Reasoning models timeline 2022-2026. Horizontal axis January 2022 to April 2026. Color-coded lanes: research papers (blue), OpenAI (green), Anthropic (purple), Google DeepMind (red), DeepSeek (dark blue), open community (gold), benchmarks (gray). Markers: Jan 2022 CoT Wei et al., May 2022 Kojima zero-shot CoT, May 2023 Tree of Thoughts Yao et al., May 2023 Lightman PRM Let’s Verify, Mar 2022 STaR Zelikman, Mar 2024 Quiet-STaR, Nov 22 2023 Reuters Q-star leak, Aug 2024 Snell test-time scaling DeepMind, Nov 2024 Qwen QwQ-32B preview, Sep 12 2024 OpenAI o1-preview, Dec 5 2024 o1 full and o1 pro, Dec 19 2024 Gemini 2.0 Flash Thinking, Dec 20 2024 OpenAI o3 announcement, Jan 20 2025 DeepSeek-R1 release, Jan 27 2025 NVIDIA crash, Jan 31 2025 o3-mini release, Feb 17 2025 xAI Grok 3 Think, Feb 24 2025 Claude 3.7 Extended Thinking, Apr 2025 o3 full and o4-mini. Editorial style, English labels.

L’intuizione

Per leggere questi diciotto mesi vale la pena tenere insieme due angoli intuitivi distinti. Il primo è cognitivo, da maneggiare con disciplina. Il secondo è algoritmico-economico.

Angolo cognitivo: l’analogia (non la filiazione) con dual-process theory

Nel 2011 lo psicologo israeliano-americano Daniel Kahneman (1934-2024, Premio Nobel per l’Economia 2002 con Vernon Smith per il lavoro pionieristico sulla psicologia delle decisioni economiche) pubblica “Thinking, Fast and Slow” (Farrar, Straus and Giroux). Il libro popolarizza la dual-process theory cognitiva (introdotta in psicologia molto prima da Wason, Evans, Stanovich): la mente umana opera in due modalità distinte. Il Sistema 1 è veloce, automatico, intuitivo, parallelo, faticoso da controllare; gestisce il riconoscimento di volti, le risposte a domande facili, le associazioni rapide. Il Sistema 2 è lento, deliberato, sequenziale, costoso in attenzione e fatica; gestisce il calcolo mentale di 17 × 24, la pianificazione di una rotta complessa, l’analisi di un argomento sottile.

C’è un parallelo intuitivo che si presta naturalmente al paradigma thinking. Un LLM autoregressivo standard — GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Flash in modalità non-thinking — risponde in modo “fast”: riceve il prompt, genera token uno alla volta in pochi secondi, restituisce una risposta. Un reasoning model — o1, R1, Claude 3.7 con extended thinking, Gemini Thinking — risponde in modo “slow”: riceve il prompt, genera migliaia di token di reasoning interno per decine di secondi, e solo dopo emette la risposta vera e propria. Il primo modo costa poco e va bene per query semplici; il secondo costa molto ma produce risposte migliori su problemi difficili.

Marcatura di classe: questa è una analogia cognitiva, non una filiazione tecnica. Nessuno ha implementato esplicitamente il modello dual-process di Kahneman dentro o1. Il parallelo è utile per chi è familiare con la psicologia cognitiva e vuole una mappa mentale del paradigma. Non è utile per spiegare cosa succede dentro la rete neurale, e i ricercatori del campo (Noam Brown, Hunter Lightman, gli autori del paper R1) usano l’analogia con cautela quando ne usano. Il dual-process di Kahneman è una teoria psicologica con propri limiti scientifici (cfr. critica di Keith Stanovich in “Rationality and the Reflective Mind”, 2011, e il dibattito sui bias cognitivi); applicarla ai LLM rischia di importare problematiche concettuali estranee. La trattazione approfondita di questo ponte sta in dual-process-kahneman e ponte-s1-s2-llm (Parte III).

Angolo algoritmico-economico: un secondo asse di scaling

Il secondo angolo è strettamente tecnico. Fino al 2024 lo scaling dei LLM era principalmente uniasse: più parametri, più dati di pretraining, più compute di training. Le scaling laws di Kaplan et al. (2020) e poi di Hoffmann et al. (Chinchilla, 2022) formalizzavano il trade-off, dicendo che a un dato budget di compute totale conviene una certa combinazione ottimale di parametri e token visti. Il refrain industriale era “scale is all you need”.

Nel 2024 emerge un secondo asse. A parità di modello, spendere più compute al momento dell’inferenza — generando più reasoning tokens, campionando più candidate, applicando search/best-of-N, usando un verifier per re-rankare — produce risposte migliori. Il paper di riferimento è di Charlie Snell (Berkeley, ora Google DeepMind), Jaehoon Lee, Kelvin Xu, Aviral Kumar: “Scaling LLM Test-Time Compute Optimally Can Be More Effective Than Scaling Model Parameters” (arXiv:2408.03314, agosto 2024, un mese prima di o1). Il paper formalizza l’intuizione e la sostiene con esperimenti: per una classe di problemi, un modello piccolo (PaLM 2-S, 8B parametri stimati) con molto test-time compute batte un modello 14 volte più grande con poco test-time compute, a parità di FLOPs totali spesi. Per problemi molto difficili il vantaggio del modello grande resta, ma il punto è dimostrato: c’è un trade-off ottimizzabile.

L’asse test-time è ortogonale all’asse parametri. Il diagramma mentale più utile è bidimensionale: x = parametri/training compute, y = inference compute per query, z = performance. La frontiera di Pareto si sposta verso l’alto sia salendo in x sia salendo in y. Pre-2024 si scalava solo in x; dal 2024 in poi si scala in entrambi.

L’implicazione economica è netta. Per un laboratorio che vuole massimizzare la performance per unità di compute totale (training + inference su tutto il deployment), conviene investire in entrambi gli assi. Per un consumatore di API, il trade-off diventa esplicito: pago più token (di reasoning hidden o visibile) per query difficile, risparmio per query facile. Per il design di sistemi agentici (cfr. cap era-agenti-2024), si introduce una decisione architetturale nuova: quando vale la pena spendere reasoning su un passo del loop, e quando rispondere veloce.

La meccanica

CoT prompting: il predecessore (2022)

Per fissare la meccanica del paradigma thinking, vale la pena ripartire dall’antecedente più diretto. Il chain-of-thought prompting di Wei et al. funziona così, in pratica. Senza CoT, il prompt è:

Q: Roger has 5 tennis balls. He buys 2 more cans of tennis
balls. Each can has 3 tennis balls. How many tennis balls
does he have now?
A:

Il modello produce direttamente la risposta numerica, spesso sbagliata su problemi multi-step. Con CoT few-shot, il prompt è preceduto da uno o più esempi che mostrano il ragionamento esplicito:

Q: Roger has 5 tennis balls. He buys 2 more cans of tennis
balls. Each can has 3 tennis balls. How many tennis balls
does he have now?
A: Roger started with 5 balls. 2 cans of 3 tennis balls each
is 6 tennis balls. 5 + 6 = 11. The answer is 11.

Q: <new problem>
A:

Il modello, condizionato sull’esempio, produce a sua volta una sequenza “soluzione-ragionata + risposta” e l’accuratezza sale. La variante zero-shot di Kojima (2022) elimina anche l’esempio: basta accodare al problema la frase “Let’s think step by step.” e il modello, opportunamente addestrato, segue il pattern.

CoT prompting ha tre proprietà essenziali per leggere il salto a o1. Primo, il reasoning è generato dal modello stesso e visibile nel testo. Secondo, costa di più in tokens generati (latency e prezzo proporzionali). Terzo, non richiede modificare il modello: è una pura tecnica di prompt. Le prime due restano nel paradigma thinking; la terza cambia.

Process Reward Models: premia i passi, non solo il risultato (2023)

Il salto da CoT a o1 passa per il PRM. L’osservazione di “Let’s Verify Step by Step” (Lightman et al. 2023) è la seguente. Quando un modello genera una soluzione lunga a un problema matematico, può sbagliare in vari modi. Può sbagliare il primo passo e propagare l’errore. Può fare tutto giusto e sbagliare la somma finale. Può prendere una via valida ma inefficiente, una via errata che produce per coincidenza la risposta giusta, una via mista corretta-poi-sbagliata-poi-corretta-per-fortuna. Un Outcome Reward Model (ORM) addestrato a predire “risposta finale corretta vs sbagliata” non distingue questi casi: tratta ugualmente una soluzione corretta-step-by-step e una corretta-per-coincidenza.

Un Process Reward Model (PRM) addestrato a predire “questo passo è corretto” su ogni passo intermedio invece distingue. La pratica è laboriosa: si raccolgono soluzioni a problemi MATH, si fanno annotare passo per passo da matematici umani (PRM800K = 800.000 annotation step-level), si addestra un classificatore a predire “step corretto” condizionato su problema + passi precedenti. Il PRM addestrato si usa in due modi. Il primo, esplorato nel paper, è re-ranking: si generano N candidate da un modello generatore, si calcola il punteggio PRM medio (o minimo) di ogni candidate, si seleziona il migliore. Su MATH, GPT-4 con re-ranking PRM-based passa da 50.4% (senza verifier) a 78.2%.

Il secondo modo, suggerito dal paper ma realizzato pienamente solo con o1 e R1, è usare il PRM (o segnali process-level rule-based) come reward in un loop di reinforcement learning. Si addestra il modello generatore a produrre catene di reasoning che massimizzano il reward step-level. È il salto di paradigma.

o1: long internal CoT + RL on reasoning traces (settembre 2024)

Il 12 settembre 2024 OpenAI annuncia o1-preview e o1-mini con il blog post “Learning to Reason with LLMs” e una system card pubblicata in pari data. La descrizione architetturale è deliberatamente vaga (per protezione di IP), ma i tratti pubblici sono i seguenti:

Il modello è basato sull’architettura Transformer standard, presumibilmente la stessa famiglia di GPT-4. Nessuna nuova architettura.
Il post-training è specializzato. OpenAI dichiara di aver applicato large-scale reinforcement learning con un curriculum di problemi a verifica oggettiva (math, coding, science). Il reward è per gran parte rule-based (test passes, equation matches), per il resto basato su modelli di reward addestrati ad hoc. La metodologia esatta non è dettagliata, ma la formula generica è: PPO-like RL con reward step-level + outcome-level, per molti milioni o miliardi di token di training.
A inferenza, il modello genera “reasoning tokens” che restano nascosti all’utente. L’API restituisce il count dei reasoning tokens spesi e li conteggia come output tokens nel pricing. La generazione di reasoning può durare da pochi secondi a oltre un minuto per query complesse, con typical 5.000-50.000 tokens di reasoning hidden per problema difficile.
L’utente vede solo la risposta finale, eventualmente preceduta da un riassunto sintetico del reasoning. La scelta di nascondere il reasoning è motivata da OpenAI in due modi: protezione di IP (la trace contiene “intelligence” addestrata, evita che competitor distillino) e considerazioni di alignment (se il modello sapesse che il reasoning è pubblico, potrebbe imparare a “ragionare per pubblico” e perdere onestà nel reasoning interno).

Performance dichiarate (system card e blog ufficiali, OpenAI 12 settembre 2024):

AIME 2024 (American Invitational Mathematics Examination, 30 problemi, secondo round dell’olimpiade matematica USA): GPT-4o 13.4%, o1-preview 56.7%, o1 79.2%. La cifra di o1 supera la threshold per qualificarsi all’USA Mathematical Olympiad, qualcosa che pre-2024 nessun LLM si avvicinava a fare.
Codeforces (competitive programming): GPT-4o ELO 808 (11-esimo percentile fra programmatori umani che usano la piattaforma), o1 ELO 1807 (89-esimo percentile, livello Expert).
GPQA Diamond (Graduate-level Physics, Biology, Chemistry questions, 198 questions, livello PhD): GPT-4o 50.6%, o1 75.7%. Per riferimento, PhD del dominio raggiungono ~70% (in dominio) e ~34% (out of domain). o1 supera i PhD su questo benchmark.
MATH (problemi di olimpiade matematica scolastica): GPT-4o 76.6%, o1 94.8%.

I salti sono di ordine di grandezza diverso da qualunque release di GPT-class precedente. Su AIME il salto è di 6x. Su Codeforces è ~80 punti percentile in un singolo aggiornamento. Su GPQA Diamond è il primo modello che supera la baseline di esperti umani.

Pricing API al rilascio: o1-preview $15 per 1M input tokens,$ 60 per 1M output tokens (vs GPT-4o $2.50 /$ 10). I reasoning tokens hidden sono fatturati come output. Il rapporto effettivo costo/query rispetto a GPT-4o è 10-50x in media. Rate limit stretti (30 messages/week per o1-preview su ChatGPT Plus al rilascio, poi alzati), riflesso del costo di compute per query.

Dicembre 2024: o1 full, o1 pro, Gemini 2.0 Flash Thinking, o3 announcement

Il 5 dicembre 2024 OpenAI lancia “12 Days of OpenAI”, una serie di 12 annunci consecutivi. Il giorno 1 è il rilascio di o1 full (non più preview). I miglioramenti su o1-preview sono incrementali ma misurabili: AIME 2024 da 79.2% a 83.3%, GPQA Diamond da 73.3% a 78%. In parallelo viene introdotto il tier ChatGPT Pro a $200/mese, che include “o1 pro mode” — variante di o1 che spende ulteriore reasoning compute per query e ottiene gain ulteriori. La quantità esatta di compute speso per query non è pubblica; il punto sostanziale è che pro mode compra più test-time compute, non un modello concettualmente diverso.

Il 19 dicembre 2024 Google DeepMind anticipa Anthropic e rilascia Gemini 2.0 Flash Thinking Experimental, primo modello reasoning di Google, gratuito su AI Studio. La differenza filosofica con OpenAI è esplicita: il reasoning è visibile all’utente. Google argomenta che la trasparenza serve interpretability e debug. Il modello è “experimental” e meno performante di o1, ma democratizza l’accesso al paradigma thinking.

Il 20 dicembre 2024, day 12 del “12 Days of OpenAI”, arriva l’annuncio più eclatante: o3 e o3-mini. o3 non viene rilasciato pubblicamente (accesso limitato a ricercatori safety per qualche mese), ma vengono pubblicati i risultati sui benchmark più duri:

ARC-AGI Pub (semi-private eval del benchmark Abstraction and Reasoning Corpus di Francois Chollet): o3 in modalità “high-compute” raggiunge 87.5%, contro la baseline umana ~85% (sample human task solvers) e GPT-4 ~5%. È il primo modello che supera la baseline umana su ARC-AGI, un benchmark progettato esplicitamente come “AGI test” che resisteva a tutti i modelli pre-2024.
FrontierMath (benchmark Epoch AI di matematica research-level, problemi che richiedono PhD in matematica): o3 raggiunge 25.2%. Pre-o3, il miglior modello al mondo si attestava sotto il 2%.

Il costo di o3 high-compute su ARC-AGI è il punto controverso. Chollet stima nella sua analisi pubblica (ARC Prize Foundation, dicembre 2024) che ogni task in modalità high-compute costi nell’ordine delle migliaia di dollari, sulla base del rapporto di compute con la modalità low-compute a $20/task. Su 400 task del benchmark, il run completo high-compute arriva quindi nell’ordine del milione di dollari.

DeepSeek-R1: open weights, cold-start RL, “aha moment” (gennaio 2025)

Il 20 gennaio 2025 DeepSeek-AI rilascia DeepSeek-R1 e DeepSeek-R1-Zero su HuggingFace, sotto licenza MIT. Il paper “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning” (arXiv:2501.12948) esce lo stesso giorno. La trasparenza del paper è inusuale per la frontiera reasoning: dettagli di metodo, esempi di reasoning trace, ablation study. L’effetto sulla comunità open è immediato.

Il modello R1-Zero è la variante che fa più rumore. Si parte da DeepSeek-V3 base (671B parametri totali, 37B attivi MoE, costato $5.576M nel run finale di pretraining secondo dichiarazione DeepSeek di dicembre 2024 — cifra contestata per ragioni discusse più avanti). Si applica direttamente reinforcement learning con un reward rule-based (correctness verificabile su math/code) usando un algoritmo chiamato Group Relative Policy Optimization (GRPO), variante PPO introdotta da DeepSeek nel paper DeepSeekMath (febbraio 2024) che riduce memory footprint eliminando il critic network. Niente supervised fine-tuning iniziale specifico per reasoning. Il modello impara reasoning emergente, inclusa una fase che il paper chiama esplicitamente “aha moment”.

Il paper riporta un esempio reale di trace di R1-Zero durante training, in cui il modello, mentre risolve un problema matematico, scrive letteralmente: “Wait, wait. Wait. That’s an aha moment I can flag here. Let’s reevaluate this step-by-step to identify if the correct sum can be…”. Non è insegnato esplicitamente a riflettere o auto-correggere. Il pattern emerge come strategia high-reward dal RL: riconoscere errori e ripensare aumenta la probabilità di output corretto, e il modello converge verso questa strategia spontaneamente.

R1 base è la variante con pipeline più raffinata. Cold-start SFT su pochi esempi di high-quality reasoning (per ridurre la “messiness” linguistica di R1-Zero, che mescola lingue e ha output difficile da leggere), poi RL sul reasoning, poi rejection sampling + SFT (raccoglie reasoning correct e lo insegna), poi seconda fase di RL. Output più pulito, performance leggermente superiore.

Performance riportate da DeepSeek (R1, gennaio 2025):

AIME 2024 79.8%
MATH-500 97.3%
Codeforces ELO 2029 (96.3-esimo percentile)
GPQA Diamond 71.5%
LiveCodeBench 65.9%

I numeri sono in linea con o1 (le cifre OpenAI riportate nel system card di o1: AIME 79.2%, MATH 96.4%, Codeforces 1807, GPQA 75.7%). Il gap residuo è sotto i 5 punti percentuali su quasi ogni benchmark, in alcuni R1 supera o1, in altri o1 supera R1. La conclusione che la stampa di settore trae è netta: la capacità di reasoning è replicabile open weights con compute moderato.

DeepSeek rilascia anche la R1-Distill series. Si usa R1 come teacher per generare reasoning trace su un grande dataset di problemi, poi si fine-tuna modelli più piccoli (Qwen-7B, Qwen-14B, Qwen-32B, Llama-8B, Llama-70B) su quelle trace. I modelli distillati ereditano gran parte del reasoning. R1-Distill-Qwen-32B raggiunge AIME 72.6% (vs Qwen 32B base ~17%). Per la prima volta diventa possibile far girare un reasoning model decente su hardware consumer, con quantizzazione GGUF e tool come llama.cpp o Ollama (cfr. cap open-weights-2023-2024).

Il pricing API di DeepSeek per R1 al rilascio: $0.55 per 1M input tokens,$ 2.19 per 1M output tokens. Confronto con o1 ( $15 /$ 60): R1 è 27x più economico in input, 27x più economico in output. Il differenziale di prezzo, sommato a parità di performance e disponibilità open, fa la dinamica del 27 gennaio.

Il “DeepSeek moment” e le sue letture (27 gennaio 2025)

Il rilascio di R1 cade nel weekend del Capodanno cinese (28 gennaio 2025). Il mercato finanziario USA apre lunedì 27 gennaio. Nel corso della giornata NVIDIA chiude a -17%, perdendo $589 miliardi di market cap, il più grande crollo di valore in valore assoluto della storia di Wall Street fino a quella data. Gli altri titoli AI-related (Broadcom -17%, TSMC ADR -13%, Oracle -14%, Microsoft -2%, Meta in controtendenza +2%) seguono o si ribellano in misura variabile.

La narrativa di mercato è chiara: se reasoning capability si replica con compute moderato e tecniche aperte, il moat di OpenAI e la domanda futura di GPU si riducono. La paura è “compute deflation”: gli ordini di GPU H100/H200 prenotati per il 2025-2026 dai big lab potrebbero ridimensionarsi. Marcatura di classe: questa è una narrativa di mercato, non un fatto consolidato. Le analisi successive (SemiAnalysis 31 gennaio 2025, Lex Fridman podcast con Dylan Patel febbraio 2025) ridimensionano la cifra DeepSeek di $5.576M, sostenendo che si tratta del costo del solo run finale di pretraining di V3, escluso R&D, infrastruttura cluster, salari, iterazioni precedenti. La cifra aggregata stimata per costruire DeepSeek come laboratorio sarebbe nell’ordine del miliardo di dollari, comparable agli altri lab. Il moat non è morto: è solo diventato evidente che la frontiera è più contendibile di quanto OpenAI lasciasse intendere.

Liang Wenfeng, in interviste cinesi successive a gennaio 2025, ridimensiona il momento: “non era nostra intenzione fare un evento di mercato; volevamo dimostrare che la frontier research può avvenire in Cina con compute moderato e talent locale”. La filosofia DeepSeek dichiarata — “talent + compute + ricerca, no marketing, no VC” — emerge come modello alternativo a quello americano OpenAI/Anthropic.

La risposta del settore: febbraio - aprile 2025

Il 24 febbraio 2025 Anthropic rilascia Claude 3.7 Sonnet con extended thinking mode (blog ufficiale “Claude 3.7 Sonnet and Claude Code”). Quando attivo, Claude genera una “extended thinking” visibile (a differenza di o1 che la nasconde) con reasoning interno fino a un budget di token configurabile via parametro API (thinking_budget). La performance su SWE-bench Verified salta da ~49% (Claude 3.5 Sonnet, fine 2024) a ~63% con extended thinking. Il rilascio è simultaneo con la GA di Claude Code (cfr. cap era-agenti-2024), CLI agentic Anthropic. Il combinato reasoning + agentic harness produce un nuovo salto su benchmark coding.

La differenza filosofica con OpenAI sull’opacità del reasoning si conferma. Anthropic argomenta in blog di research (e in paper successivi sull’interpretability) che la trasparenza serve safety e debug: se l’utente vede il ragionamento, può individuare errori e bias. OpenAI argomenta che la visibilità inquina il reasoning (il modello impara a “ragionare per pubblico” ed è meno onesto) e protegge l’IP. La discussione rimane aperta.

Il 17 febbraio 2025 xAI rilascia Grok 3 con due modalità reasoning: “Think” e “Big Brain Mode” (entrambe varianti di test-time compute scaling, la seconda più aggressiva). Performance dichiarate da xAI in linea con o1 su AIME e GPQA. Il rilascio, accompagnato da marketing aggressivo di Elon Musk, conferma che ogni laboratorio frontiero a metà 2025 ha un reasoning model.

Il 31 gennaio 2025 OpenAI rilascia o3-mini al pubblico con tre tier di reasoning effort (low, medium, high). Pricing: $1.10 / 4.40 per 1M tokens — significativamente più economico di o1, riflesso del fatto che il modello base è più piccolo. Performance leggermente sotto o1 full ma comparabile in molti benchmark, e con cost/query molto più basso. Diventa il default per gli use case reasoning di costo-sensibili.

In aprile 2025 OpenAI rilascia o3 full e o4-mini, ulteriori incrementi. La cadenza di release accelera: ogni 2-3 mesi un nuovo reasoning model, di OpenAI, Anthropic, Google, DeepSeek, xAI o della comunità open (QwQ-Max di Alibaba, Sky-T1 di NovaSky, OpenThinker di OpenThoughts).

La meccanica essenziale: ricostruzione di sintesi

Mettendo insieme i pezzi pubblici, la meccanica di base di un reasoning model si può sintetizzare in cinque passaggi.

Primo, partire da un base model competente. Serve un LLM con buona base di knowledge generale, capability CoT decente, long-context capability adeguata (idealmente >100k token). Per o1, partenza da un modello GPT-4-class. Per R1, partenza da DeepSeek-V3 (671B MoE).

Secondo, definire un reward verificabile. Per math e code, il reward è rule-based: il problema ha una risposta unica verificabile (test passes, equation matches, output esatto), il modello prende +1 se la risposta è corretta, 0 o negativo altrimenti. Niente bisogno di reward model neurale costoso. Per task soggettivi (writing, design, advice), serve un PRM o LLM-as-judge, area più delicata e meno solida.

Terzo, applicare RL sui reasoning trace. Tipicamente PPO (Proximal Policy Optimization, lo standard RLHF) o GRPO (la variante introdotta da DeepSeek). Il modello è incoraggiato a generare lunghe catene di reasoning che producono risposte corrette; il gradient policy aggiorna i pesi per favorire le strategie di reasoning più redditizie.

Quarto, lasciare emergere strategie. Con sufficiente RL, il modello scopre da solo pattern come “Wait, let me reconsider…”, “Actually, I made an error in step 3, let me redo it…”, “Let me verify by computing the inverse…”. Non sono insegnati esplicitamente, emergono come strategie high-reward. Il paper R1 documenta empiricamente questa emergenza.

Quinto, opzionalmente aggiungere search a inference. o1 pro mode, o3 high-compute mode, e altri modelli usano qualche forma di sampling multiplo + verifier per scegliere il best output fra N candidate. I dettagli esatti sono closed (OpenAI non chiarisce).

A questo si aggiunge la distillation: il reasoning model grande fa da teacher, genera reasoning trace su un dataset di problemi, modelli più piccoli vengono fine-tunati su quelle trace e ereditano parte del reasoning. R1-Distill series è l’esempio canonico.

Esempi

Esempio 1: CoT prompting visibile su un problema matematico

Per fissare la differenza fra modello standard e modello CoT, ecco un confronto su un problema GSM8K-style. Prompt:

Q: Sara has 12 apples. She gives 1/3 to her brother and
buys 5 more. Then she eats 2. How many apples does she
have at the end?

Risposta tipica di un LLM 2022 senza CoT: “11” (sbagliata, calcolo trascurato).

Risposta con CoT zero-shot (“Let’s think step by step.”):

Sara starts with 12 apples.
She gives 1/3 to her brother. 1/3 of 12 = 4 apples.
After giving away, she has 12 - 4 = 8 apples.
She buys 5 more, so 8 + 5 = 13 apples.
She eats 2, so 13 - 2 = 11 apples.
The answer is 11.

In questo caso particolare la risposta finale coincide con quella senza CoT, ma il caso è scelto male: per problemi più complessi (5+ passi, frazioni, percentuali, conversioni), la differenza diventa decisiva. Il punto da notare è che il reasoning è interamente visibile, generato dal modello stesso, e occupa spazio in output (tokens generati e fatturati).

Esempio 2: o1 reasoning hidden, vista dell’utente

Con o1, lo stesso problema produce per l’utente questo output:

Sara has 11 apples at the end.

Più, opzionalmente, un riassunto del reasoning generato dall’API in forma sintetica. Ma la trace completa di reasoning è hidden. La risposta API include i campi:

{
  "model": "o1-2024-12-17",
  "choices": [{
    "message": {
      "content": "Sara has 11 apples at the end."
    }
  }],
  "usage": {
    "prompt_tokens": 45,
    "completion_tokens": 25,
    "completion_tokens_details": {
      "reasoning_tokens": 4823
    },
    "total_tokens": 4893
  }
}

I 4823 reasoning_tokens sono fatturati al prezzo output ( $60/1M per o1 al rilascio). Il problema banale costa$ 0.30 di output, contro $0.0015 per la stessa query a GPT-4o. Per problemi facili, o1 è 200x più costoso e non produce risposta migliore. Per problemi difficili (AIME, GPQA, ARC-AGI), o1 produce risposte che GPT-4o semplicemente non sa generare.

Esempio 3: R1-Zero “aha moment” trace reale

Il paper R1 (DeepSeek-AI 2025) include alcuni esempi di reasoning trace di R1-Zero durante training. Riassunto fedele di un esempio (problema di radicali quadratici, soluzione che richiede manipolazione algebrica):

To solve this, I'll start by isolating the radical term.
Let x = sqrt(a - sqrt(a + x))
Squaring both sides: x^2 = a - sqrt(a + x)
Rearranging: sqrt(a + x) = a - x^2
Squaring again: a + x = (a - x^2)^2
Expanding: a + x = a^2 - 2*a*x^2 + x^4

Wait, wait. Wait. That's an aha moment I can flag here.
Let's reevaluate this step-by-step to identify if the
correct sum can be...

Going back to: x^2 = a - sqrt(a + x)
For this to have a solution, x^2 <= a, so x <= sqrt(a).
Also sqrt(a + x) >= 0, so x^2 <= a.
Let me try a = 6: then x^2 <= 6, x <= sqrt(6) ~ 2.449.
Test x = 2: x^2 = 4. sqrt(6 + 2) = sqrt(8) ~ 2.828.
4 - 2.828 = 1.172, but we need x^2 = 4. Wrong.
...

Il pattern “Wait, wait” + auto-correzione + retry è ricorrente nelle trace. Non è prompting esplicito, non è few-shot example, è strategia che il modello ha imparato come high-reward durante RL su problemi math con reward rule-based. È il segnale più chiaro che il “thinking” non è solo CoT esteso: è un comportamento di self-monitoring emergente.

Esempio 4: confronto IMO 2024 e implicazioni qualitative

Il problema 1 dell’IMO (International Mathematical Olympiad) 2024 è stato usato come benchmark informale per modelli reasoning. Senza scendere nel testo (è un problema di teoria dei numeri non banale), il fatto stilizzato è il seguente:

GPT-4 (marzo 2023): non risolve.
GPT-4o (maggio 2024): non risolve.
Claude 3.5 Sonnet (giugno 2024): risolve parzialmente, errore nel passaggio finale.
o1-preview (settembre 2024): risolve correttamente.
DeepSeek-R1 (gennaio 2025): risolve correttamente.

Per riferimento, l’IMO è prova di matematica per studenti delle scuole superiori; chi raggiunge bronzo (~20-esimo percentile dei concorrenti) è considerato eccezionale. Il fatto che modelli AI risolvano problemi IMO non è “AGI raggiunta” — i problemi sono in dominio molto ben definito, con soluzioni unique verificabili — ma chiude un gap percepito che fino al 2023 sembrava lontano anni.

A luglio 2024, prima di o1, Google DeepMind aveva annunciato AlphaProof e AlphaGeometry 2, sistemi specializzati per IMO che avevano risolto 4 problemi su 6 dell’IMO 2024 (livello argento). Questi sistemi sono pero specializzati (LLM + Lean theorem prover + search), non LLM end-to-end. Il punto storico di o1 e R1 è che modelli LLM general-purpose, senza pipeline custom, raggiungono performance comparable o superiore su problemi del genere usando solo reasoning interno.

Eredità oggi

Sezione separata dal corpo storico per disciplina di registro. Cosa resta strutturale al momento di scrittura (aprile 2026) di quanto raccontato.

Filiazione documentata

La catena storica si può tracciare con precisione, paper alla mano:

CoT (Wei et al. 2022) ->
Self-Consistency (Wang et al. 2023) + ToT (Yao et al. 2023) ->
PRM "Let's Verify Step by Step" (Lightman et al. 2023) ->
STaR / Quiet-STaR (Zelikman et al. 2022/2024) ->
o1-preview (OpenAI, settembre 2024) ->
DeepSeek-R1 (DeepSeek, gennaio 2025) ->
Claude 3.7 Extended Thinking + Gemini 2.0 Thinking + Grok 3 +
QwQ + R1-Distill series + o3 (febbraio-aprile 2025).

Marcatura di classe: questa è una filiazione metodologica documentata. Ogni passo cita esplicitamente il precedente. Non è un’analogia letta a posteriori, è una sequenza di paper e blog ufficiali in cui ogni nuovo lavoro si appoggia sul precedente. Il fatto che GRPO (la variante PPO di DeepSeek) sia introdotta nel paper DeepSeekMath di febbraio 2024 e poi usata in R1 di gennaio 2025 è documentato dai paper stessi.

Pricing diversificato e nuova categoria di token

Le API dei principali laboratori distinguono ora tra “input tokens”, “output tokens” e — per i thinking models — “reasoning tokens”. Anthropic introduce il parametro thinking_budget per controllare quanto compute spendere. OpenAI distingue reasoning_effort (low/medium/high) per o3-mini. Il pricing di un’applicazione AI deve ora tenere conto di questa terza categoria, che spesso domina il costo totale per query reasoning-intensive.

[DATATO 2026-04] Pricing snapshot al momento di scrittura: o3 ~ $10/$ 40 per 1M tokens (input/output, reasoning incluso in output), o3-mini ~ $1.10/$ 4.40, o1 (legacy) ~ $15/$ 60, Claude 3.7 Sonnet con thinking ~ $3/$ 15 + thinking budget configurabile, DeepSeek-R1 API ~ $0.55/$ 2.19, Gemini 2.5 Pro thinking ~ $1.25/$ 10. Volumi reasoning per query difficile: 5.000-50.000 tokens hidden tipici, fino a >100.000 per problemi competitivi. Cifre cambiano frequentemente: questo snapshot è obsoleto entro pochi mesi dal momento di lettura.

Agentic + thinking: combinazione e salto SWE-bench

La combinazione di reasoning models con agent harness (cfr. cap era-agenti-2024) produce salti su benchmark coding. SWE-bench Verified passa da ~49% (Claude 3.5 Sonnet, fine 2024, agentic standard) a ~63% (Claude 3.7 Sonnet con extended thinking, febbraio 2025) a ~72% (o3 e modelli Claude 4-class con harness raffinato, fine 2025). Il pattern combinato — agent loop con thinking tokens su passi critici, fast inference su passi routine — diventa standard de facto per i sistemi agent coding di seconda generazione.

Open ecosystem reasoning consolidato

Alla data di scrittura esistono almeno una decina di reasoning models open weights utilizzabili in produzione: DeepSeek-R1 e R1-Distill series, Qwen QwQ-32B e QwQ-Max, vari fine-tune Llama (Reasoner, Reflection-70B), Sky-T1, OpenThinker, modelli Mistral con reasoning. Il gap con i frontier closed (o3, Claude 4 con thinking, Gemini 2.5 Pro) è di 6-12 mesi. Possibile eseguire reasoning model decente su hardware consumer con quantizzazione GGUF (R1-Distill 7B su MacBook M-series, Qwen QwQ-32B 4-bit su workstation con 24GB VRAM). La democratizzazione del reasoning replica quella che era avvenuta per i base model open weights nel 2023-2024.

Limiti che persistono

Il paradigma thinking ha eredità chiare ma anche limiti che restano aperti al momento di scrittura:

Costo: o3 high-compute resta proibitivo per applicazioni high-throughput.
Latenza: query reasoning impiegano da decine di secondi a minuti. Non utilizzabili per UX interattive di chat.
Reasoning fragility: piccole perturbazioni del prompt cambiano risposte (cfr. GSM-Symbolic, Mirzadeh et al. 2024).
Hallucination dentro reasoning: il modello può ragionare confidente verso risposta sbagliata, e il reasoning visibile o no può essere spuriamente coerente.
Domain coverage: math, code, science Q&A funzionano bene. Task open-ended (writing, advice, design strategici) beneficiano meno chiaramente dal thinking.
Faithful reasoning: ricerca Anthropic e altri (2025-2026) mostra che le trace possono divergere dal “vero” computation interno. La trasparenza visibile è meno informativa di quanto sembri.

[DATATO 2026-04] Stato saturazione benchmark: ARC-AGI Pub è stato superato da o3, ARC-AGI 2 in preparazione. FrontierMath (Epoch AI) sta saturando rapidamente, ~50% per i modelli di punta. Humanity’s Last Exam (rilasciato gennaio 2025 come benchmark “ultimo”) subisce già significativo progresso entro fine anno. La velocità con cui i benchmark cadono pone problema metodologico: come misurare progresso quando ogni test diventa obsoleto in 12 mesi?

Dove si rompe

Sezione ampia. Il paradigma thinking ha fascinazione narrativa forte e produce hype proporzionato. Vale la pena raccogliere limiti reali e miti da smontare.

Limiti reali

Costo per query. o3 in modalità high-compute su un task ARC-AGI è stimato nell’ordine delle migliaia di dollari (Chollet ARC Prize, dicembre 2024). Anche modelli più economici come o3-mini high-effort hanno cost/query 10-50x rispetto a GPT-4o per query reasoning-intensive. Per applicazioni con milioni di query/giorno, il bill mensile è incompatibile con la maggior parte dei business model.

Latenza. Una query a o1 o R1 su problema difficile impiega da 10 secondi a 2-3 minuti. Inaccettabile per UX di chat live, voice agent, gaming. La modalità thinking è per workload batch, agent autonomi che lavorano “in background”, coding asincrono. Non sostituisce il fast LLM per uso interattivo.

Reasoning fragility. Mirzadeh et al. (Apple, ottobre 2024) introducono GSM-Symbolic, una variante di GSM8K in cui i nomi e i numeri dei problemi sono cambiati senza modificare la struttura logica. Su questa variante, i LLM (incluso o1-preview iniziale) perdono 0.3-9.2 punti percentuali rispetto al GSM8K originale, segnale che le performance high non riflettono pieno reasoning ma includono pattern matching su superfici familiari. Il problema è meno acuto sui reasoning models maturi, ma non scompare.

Hallucination amplificata dentro CoT. Un modello che produce 10.000 token di reasoning su un problema può sviluppare narrative interne confidenti ma sbagliate. La trace lunga e sicura può mascherare errore nel passaggio iniziale che si propaga. Per problemi senza ground truth verificabile, l’utente non ha modo di accorgersi.

Cost scaling non lineare. Il guadagno marginal di compute speso al test-time è decrescente. Raddoppiare il reasoning budget non raddoppia la performance: si ottengono frazioni di punto percentuale. Per application produzione, identificare il “knee” della curva (il punto oltre il quale spendere più compute non vale) è critico ma poco automatizzato.

Faithful reasoning aperto. Lavori Anthropic, METR, Apollo Research (2024-2026) mostrano che il reasoning visibile (Claude 3.7, R1, Gemini Thinking) può divergere dal vero computation interno del modello. Il modello può “scrivere” un reasoning plausibile ma usare in realtà euristiche differenti per la decisione finale. Interpretability via CoT è quindi limitata.

Domain coverage non uniforme. Math e code dominano i benchmark proprio perché hanno reward verificabile. Per task soggettivi (creative writing, advisory, design, etica) il thinking può migliorare poco o danneggiare. R1 paper documenta che pure-RL su math degrada performance su writing creativo (R1-Zero produce output troppo formali, monolingua mista).

Miti da smontare

Mito: “thinking models risolvono AGI”. ARC-AGI è stato pensato come “AGI test” ma misura solo una capability (visual abstraction reasoning). Ci sono molte altre capability che AGI dovrebbe avere (long-horizon planning, embodied agency, novel domain generalization, social cognition) che i reasoning models attuali non hanno. Il termine “AGI” stesso è disputed (cfr. agi-definizioni Parte II). Il superamento di ARC-AGI è milestone importante ma non chiude la questione AGI.

Mito: “DeepSeek-R1 ha killato OpenAI”. La narrativa di mercato del 27 gennaio 2025 è stata corretta nelle settimane successive. R1 ha ridotto il moat OpenAI sui benchmark pubblici, ma OpenAI mantiene leadership su frontier (o3, modelli successivi 2025-2026). La cifra training $5.6M di DeepSeek è “final training run” di V3, non costo aggregato di laboratorio. SemiAnalysis e altri analisti stimano costo aggregato R&D + cluster + iterazioni nell’ordine del miliardo, comparable agli altri lab. Il moat è sceso, non è scomparso.

Mito: “test-time compute è free”. Economicamente è costoso. Per applicazioni high-throughput (search, recommender, content moderation a scala), il cost reasoning per ogni query è proibitivo. Il paradigma thinking è per applicazioni alto-valore-per-query (coding agentic, scientific discovery, complex decision support). Non sostituisce il fast LLM per la maggior parte dei workload.

Mito: “reasoning traces sono fedeli al ragionamento del modello”. Vedi sopra: ricerca 2025-2026 mostra fragilità della “faithful CoT” ipotesi. Il modello può scrivere reasoning convincente che non riflette il computation interno. Interpretability via CoT è strumento utile ma non definitivo.

Mito: “Sistema 1 vs Sistema 2 cognitivo è la stessa cosa di fast vs thinking LLM”. Analogia utile per comunicare l’idea ad audience generaliste. Tecnicamente i due processi sono molto diversi: il sistema cognitivo umano è realizzato da circuiti neurali distinti (anche se la separazione anatomica è disputed in neuroscienze recenti), il “thinking” LLM è la stessa rete neurale che genera più tokens. Confondere le due cose porta a previsioni sbagliate (es. “se thinking LLM = Sistema 2, allora hanno coscienza/agency/intentions” — non segue).

Mito: “o1 è una nuova architettura”. No, è Transformer base con post-training RL specializzato. La novità sta nel training paradigm e nell’inference protocol (long internal CoT, hidden tokens), non nell’architettura. Questo è importante perché significa che il paradigma thinking è applicabile in linea di principio a qualunque LLM esistente con adeguato post-training.

Mito: “i reasoning model open hanno saturato il gap con closed”. R1 ha colmato gran parte del gap a gennaio 2025, ma la frontiera closed si è mossa nel frattempo (o3, o4-mini, Claude 4, Gemini 2.5). Il gap si è mantenuto a 6-12 mesi durante il 2025-2026, con open che rincorre. Non è ovvio che il gap si chiuda permanentemente.

Mito: “thinking è solo CoT esteso”. Parzialmente vero, parzialmente sbagliato. Vero che la trace di reasoning è una sequenza di token visibili (o nascosti) come CoT. Sbagliato che sia “solo” CoT: il modello è stato post-trained con RL specifico, ha sviluppato strategie di self-monitoring emergenti, può applicare search/sampling at inference. Il differenziale è metodologico, non solo quantitativo.

Collegamenti

chatgpt-2022 — il momento pubblico in cui i LLM diventano consumer product. CoT prompting era già praticato ma viene messo a sistema nei mesi successivi.
scaling-era-2023 — la corsa allo scaling parametri/dati che il paradigma thinking integra (non sostituisce) con un secondo asse.
instruction-rlhf-era — RLHF come metodologia base; il RL on reasoning traces di o1/R1 ne è specializzazione orientata a obiettivi verificabili.
open-weights-2023-2024 — l’ecosistema open che fa da background per DeepSeek, Liang Wenfeng, R1 release. Il “DeepSeek moment” nasce nello spazio aperto da Llama, Mistral, Qwen.
era-agenti-2024 — capitolo immediatamente precedente, gli agenti del 2024 si combinano con il thinking del 2025 per produrre la generazione agent+thinking del 2025-2026.
mondo-post-2026 — capitolo successivo Parte I, stato dell’arte al momento di scrittura, che integra il paradigma thinking come ormai standard.
cosa-verra — capitolo finale Parte I, speculazioni su direzioni future. Test-time compute scaling resterà l’asse dominante di scaling per i prossimi anni? Saturazione di benchmark formali?
cot-intro (Parte XII) — chain-of-thought come tecnica generale.
cot-meccanica (Parte XII) — perché CoT funziona, ipotesi tecniche e mech interp.
test-time-scaling (Parte XII) — formalizzazione test-time compute scaling.
reasoning-rl (Parte XII) — RL applicato a reasoning traces, dettagli metodologici.
prm-vs-orm (Parte XII) — Process Reward Models vs Outcome Reward Models, il distinguo di “Let’s Verify Step by Step”.
search-reasoning (Parte XII) — search-based reasoning (MCTS su token, beam search varianti).
reasoning-pitfalls (Parte XII) — quando CoT/thinking peggiora le performance.
reasoning-vs-retrieval (Parte XII) — quando ragionare e quando recuperare.
dual-process-kahneman (Parte III) — Sistema 1 e Sistema 2 nella psicologia cognitiva, fonte dell’ANALOGIA usata in questo capitolo.
ponte-s1-s2-llm (Parte III) — il ponte esplicito fra dual-process theory e il paradigma fast/thinking LLM, con disciplina sull’uso dell’analogia.
bounded-rationality-simon (Parte III) — razionalità limitata di Herbert Simon.
ponte-bounded-rationality-ttc (Parte III) — bounded rationality come framing per test-time compute scaling.

Per andare oltre

OpenAI, “Learning to Reason with LLMs”, blog ufficiale, 12 settembre 2024, https://openai.com/index/learning-to-reason-with-llms/. Annuncio originale di o1, lettura primaria per fissare cosa OpenAI dichiara e cosa lascia non detto.
DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”, arXiv:2501.12948, gennaio 2025, https://arxiv.org/abs/2501.12948. Paper completo R1, l’unico “manuale” pubblico semi-completo sul training di un reasoning model frontier. Lettura obbligata.
Wei J. et al., “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”, arXiv:2201.11903, NeurIPS 2022. Il paper fondante che inizia tutto. Lettura sintetica per fissare l’origine del filone.
Lightman H. et al., “Let’s Verify Step by Step”, arXiv:2305.20050, 2023. PRM vs ORM, dataset PRM800K, antecedente metodologico di o1.
Snell C. et al., “Scaling LLM Test-Time Compute Optimally Can Be More Effective Than Scaling Model Parameters”, arXiv:2408.03314, agosto 2024. Il framework concettuale per leggere il secondo asse di scaling.
SemiAnalysis (Patel D., Nishball D.), “DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts”, 31 gennaio 2025, https://semianalysis.com/2025/01/31/deepseek-debates/. Analisi che ridimensiona la cifra DeepSeek $5.6M e contestualizza il “moment” del 27 gennaio.
Kahneman D., “Thinking, Fast and Slow”, Farrar, Straus and Giroux, 2011. Riferimento per la dual-process theory cognitiva. ATTENZIONE: usato come ANALOGIA per il paradigma fast/thinking LLM, non come filiazione tecnica. La dual-process theory è una teoria psicologica con propri limiti scientifici, da non importare meccanicamente.