Mondo post-2026: stato dell'arte al momento di scrittura
Questo capitolo è uno snapshot. Stato delle cose ad aprile 2026. Quasi tutto ciò che leggi qui sarà obsoleto entro un anno. Le tendenze contano più dei numeri. I nomi dei modelli cambieranno; i paradigmi consolidati e i limiti irrisolti probabilmente no.
Perché questo capitolo
Sezione intitolata “Perché questo capitolo”Un capitolo storico che racconta il proprio presente è un ossimoro produttivo. Non spiega come si è arrivati qui — lo fanno i capitoli precedenti, dalla preistoria dell’AI fino al rilascio di o3 nell’aprile 2025. Non specula su dove si andrà — lo fa il capitolo successivo, cosa-verra. Fotografa. Inventaria. Fissa il riferimento perché il lettore che apre la wiki nel 2027 o nel 2030 possa leggere “stato dell’arte ad aprile 2026” come una nota a piè di pagina della storia, non come una guida operativa.
La fotografia ha valore proprio per il fatto che invecchia. Quando si scrive di Dartmouth 1956, di MYCIN, di AlexNet 2012, si gode di settant’anni, quaranta, dodici di sedimentazione: il rumore è già caduto, restano i contorni essenziali. Per il presente è il contrario. Vediamo tutto, anche ciò che fra sei mesi nessuno ricorderà. Per questo l’esercizio onesto è dichiarare la natura dell’oggetto: fra ciò che leggi qui ci sono cifre che cambieranno il prossimo trimestre, modelli rumored che potrebbero non uscire mai col nome previsto, narrazioni di mercato che invecchiano in settimane. La struttura del paesaggio — i paradigmi consolidati, i limiti irrisolti, le linee di tensione politica e tecnica — è invece più stabile, e probabilmente sopravvivrà al singolo trimestre.
Il capitolo serve anche come punto di consolidamento. Dopo trentatré capitoli di storia, da Leibniz a o3, dopo aver percorso la nascita del campo, gli inverni, il deep learning, ImageNet, Transformer, ChatGPT, scaling, agenti, reasoning, è utile fermarsi e nominare lo stato corrente. Quali sono i modelli di riferimento. Quali sono le ricette default. Quali benchmark contano. Quali domande restano aperte. Quali miti vanno smontati. Ad aprile 2026, prima di guardare avanti.
Contesto
Sezione intitolata “Contesto”[DATATO 2026-04] Ogni cifra di questa sezione è un fermo immagine. Ogni release date è confermata; ogni MAU, ARR, valutazione è stima al momento di scrittura.
Il punto di osservazione di questo capitolo è la fine di una traiettoria che la Parte I ha ricostruito. Quattro anni fa, il 30 novembre 2022, OpenAI rilascia ChatGPT al pubblico (cfr. cap chatgpt-2022). Il prodotto ha cento milioni di utenti in due mesi, il record di adozione consumer più rapido della storia tech. Tre anni fa, marzo 2023, GPT-4 inaugura l’era del modello chiuso multimodale; nello stesso anno Anthropic rilascia Claude, Google rilascia Bard poi Gemini, parte la corsa scaling che il capitolo scaling-era-2023 racconta. Due anni fa, fra 2023 e 2024, Llama (Meta) e Mistral aprono la finestra dei modelli open weights di qualità competitiva (cfr. cap open-weights-2023-2024). Diciotto mesi fa, autunno 2024, Claude Code e Cursor maturano l’agente di programmazione integrato; il Model Context Protocol di Anthropic standardizza l’interfaccia tool (cfr. cap era-agenti-2024). Sei mesi prima del momento di scrittura, fra settembre 2024 e aprile 2025, OpenAI rilascia o1 e o3, DeepSeek rilascia R1, Anthropic rilascia Claude 3.7 con extended thinking: il paradigma reasoning model si stabilisce come standard del frontier (cfr. cap ragionamento-2024-2026).
Aprile 2026 è il mondo che eredita questa traiettoria. La ricetta tecnica che ne risulta, sotto le varianti dei singoli laboratori, è sostanzialmente convergente. I problemi che restano aperti sono noti e condivisi, anche se le strategie per risolverli divergono. Il mercato è capitalizzato come mai prima. La regolamentazione europea è entrata in vigore, quella americana ha cambiato segno con l’amministrazione Trump del gennaio 2025. La rivalità US-Cina è diventata strutturale, non episodica. La cultura del lavoro per lo sviluppatore è cambiata in modo abbastanza profondo da meritare un termine proprio — vibe coding — che fino a un anno prima nessuno usava.
Tre coordinate per leggere ciò che segue. Primo, distinguere ciò che è rilasciato e verificato (modelli con system card pubblica, paper, benchmark replicati) da ciò che è rumored o leakato (specifiche sussurrate, codename, release date stimati da fonti come The Information o SemiAnalysis). Secondo, distinguere fra capacità benchmark (cosa i modelli fanno su test costruiti) e capacità pratiche (cosa producono in produzione, dove la varianza è più alta e gli edge case mordono). Terzo, distinguere fra paradigmi consolidati (idee con due o più anni di iterazione, multipli laboratori che le usano, prove empiriche) e tendenze emergenti (idee in corso di sperimentazione, ancora soggette a essere abbandonate).
L’intuizione
Sezione intitolata “L’intuizione”Per fissare l’aprile 2026 in un’unica immagine mentale conviene tenere insieme due angoli. Il primo descrive cosa è consolidato: la ricetta default del modello frontier. Il secondo descrive cosa è ancora aperto: i fronti di ricerca attivi, i limiti che persistono, le scommesse non chiuse.
Angolo consolidato: la ricetta default 2026
Sezione intitolata “Angolo consolidato: la ricetta default 2026”Se nel 2018 si chiedeva a un ricercatore “come si costruisce un modello di linguaggio di frontiera”, la risposta era complicata e contesa: BERT vs GPT vs ELMo, encoder vs decoder vs encoder-decoder, scale vs efficienza, training data quality vs quantity. Nel 2026 la risposta è notevolmente più convergente. Un modello di frontiera, qualunque laboratorio lo costruisca, ha sette ingredienti che ricorrono. Architettura decoder-only Transformer (Vaswani et al. 2017, transformer-2017), con varianti note: rotary position embedding (RoPE), grouped-query attention (GQA), SwiGLU activations, RMSNorm. Mixture-of-Experts per scalare i parametri totali tenendo basso il compute attivo (DeepSeek-V3 ha 671 miliardi di parametri totali ma solo 37 miliardi attivati per token; GPT-4 si presume MoE da fonti SemiAnalysis). Multimodalità nativa: testo, immagini, audio, video gestiti come token nello stesso vocabolario o tramite early fusion, non come moduli bolted-on. Long context: circa un milione di token come baseline frontier, con alcuni modelli Google che arrivano alla fascia dei due milioni in versioni specifiche o sperimentali (Gemini 2.0 Flash è nell’ordine del milione; Gemini 2.0 Pro Experimental sale a due milioni; Claude 3.5/3.7 stabili a duecentomila; GPT-4 Turbo a centoventottomila). Reasoning mode opzionale, con pricing differenziato fast vs thinking (cfr. cap ragionamento-2024-2026). Tool use standardizzato, con il Model Context Protocol di Anthropic (rilasciato novembre 2024) come specifica cross-vendor in rapida adozione. Post-training basato su RLHF / DPO / RLAIF, dove l’RL from AI Feedback con AI judges sta diventando lo standard scalabile.
Sotto queste sette voci ci sono variazioni di laboratorio, ma il telaio è lo stesso. Nessun laboratorio frontier nel 2026 propone un’architettura radicalmente alternativa al Transformer per il modello principale. State-space models (Mamba, Mamba-2) e architetture ibride sono ricerca attiva ma non arrivate al frontier production. La convergenza è anche un segnale che il campo ha trovato un attractor locale stabile: la ricetta funziona, scala, è abbastanza robusta da essere replicata da una decina di laboratori in tre continenti.
Angolo aperto: cosa NON è risolto
Sezione intitolata “Angolo aperto: cosa NON è risolto”L’altro angolo, complementare, è la lista dei problemi che restano aperti. Non per pessimismo, per onestà: chi legge nel 2027 deve poter dire “su X la situazione era ancora questa, era riconosciuta come tale, queste erano le linee di lavoro”. Il long-horizon planning oltre dieci passi autonomi è fragile (METR ha pubblicato evaluation di marzo 2025 che mostrano success rate degradante esponenzialmente con orizzonte temporale). L’embodied AI, ovvero l’integrazione con corpi robotici, è ambito separato dal mainstream LLM: Tesla Optimus, Figure 02, 1X NEO, Physical Intelligence sviluppano “robotic foundation models” ma l’integrazione con i modelli linguistici frontier è ancora a stadio early. Il continual learning — l’aggiornamento permanente in-context senza fine-tuning periodico — non esiste ancora come capacità deployata; i modelli restano congelati al training cutoff. La generalizzazione genuinamente out-of-distribution su problemi davvero nuovi è limitata: ARC-AGI 2 (rilasciato 2025 per resettare la frontiera dopo che o3 aveva risolto ARC-AGI 1) mostra accuracy ancora bassa per i modelli di frontiera. La reliability per high-stakes uses (medicina, legge, finanza autonomi) è sub-human senza supervisione: prodotti come Hippocratic AI, Glass Health, Harvey AI sono deployati con human-in-the-loop esplicito. L’hallucination è ridotta ma non risolta: il Vectara Hallucination Leaderboard, aggiornato in continuo, misura tassi di hallucination dell’1-10% sui task di summarization per i modelli frontier. La fedeltà delle reasoning trace al vero compute interno è aperta: Anthropic ha pubblicato in marzo 2025 lavori di mech interp che mostrano che le trace non sempre riflettono il calcolo che porta alla risposta finale (cfr. discussione in cap 33).
Marcatura di classe: questa è una mappa empirica dei limiti, basata su benchmark e paper. Non è una previsione che resteranno irrisolti. Alcune voci di questa lista possono cadere nei prossimi dodici mesi (è già successo per molti benchmark che nel 2023 sembravano lontani, come AIME). Altre — embodied AI, continual learning, alignment scalable a sistemi super-umani — sono problemi più strutturali e probabilmente reggeranno più a lungo.
La meccanica
Sezione intitolata “La meccanica”[DATATO 2026-04] Le sottosezioni che seguono fotografano lo stato a una data precisa. Cifre, modelli, prezzi cambiano ogni trimestre.
Modelli frontier ad aprile 2026
Sezione intitolata “Modelli frontier ad aprile 2026”[DATATO 2026-04] Cifre, release date, status di “rumored” sono fissati al momento di scrittura. Il prossimo trimestre confermerà, smentirà o riallineerà metà dei punti che seguono.
Un inventario dei laboratori che producono modelli al frontier del campo, distinguendo fra rilasci verificati, versioni sperimentali pubbliche e anticipazioni rumored. Cifre marcate “rumored” sono leak o anticipazioni non confermate ufficialmente al momento di scrittura.
OpenAI. Sam Altman (manager americano, 1985-, CEO OpenAI dal 2019) guida l’azienda. La famiglia o (o1, o1-mini, o3, o3-mini, o4-mini) è la linea reasoning model, con o3 rilasciato in aprile 2025 come modello principale. GPT-5 è trattato qui come nome di comodo per la successiva iterazione frontier rumored con thinking più integrato: finché le specifiche non sono dichiarate ufficialmente, conta più la direzione del prodotto che il dettaglio dei tier. GPT-4o e derivate continuano in produzione per cost-tier intermedio. Operator, l’agent computer-use deployato in beta consumer, è stato rilasciato il 23 gennaio 2025. Sora 2 per video generation è in deploy con clip fino a un minuto. ChatGPT Pro a duecento dollari al mese (rilasciato dicembre 2024) è il tier consumer premium; Enterprise è tier custom. OpenAI è già su scala multi-billion ARR: le stime pubbliche la collocano fra la fascia dei cinque miliardi e quella dei dieci, a seconda del mese e della fonte.
Anthropic. Dario Amodei (CEO Anthropic, già decodato in cap 32) e la sorella Daniela Amodei (Presidente) guidano l’azienda. La famiglia Claude 3 (Haiku, Sonnet, Opus, marzo 2024) è stata estesa con Claude 3.5 Sonnet (giugno 2024 e October 2024 update con computer use), Claude 3.5 Haiku (ottobre 2024), Claude 3.7 Sonnet (febbraio 2025) con extended thinking mode e Claude Code mainstream tool. Nel maggio 2025 Anthropic ha annunciato ufficialmente Claude Opus 4 e Claude Sonnet 4: più che una release rumored del 2026, sono il passaggio esplicito della linea Claude a una generazione reasoning-first con coding e computer use più integrati. Constitutional AI (paper Anthropic dicembre 2022) come paradigma di alignment è sotto cofano in tutta la famiglia, evolutosi in RLAIF come standard interno scalabile. Computer Use (rilasciato ottobre 2024 in beta) è agent capability deployable via API. Pricing: Pro venti dollari al mese, Team trenta per seat, Enterprise custom. Anche Anthropic è entrata nella fascia multi-billion ARR, con stime pubbliche in crescita rapida fra 2024 e 2026.
Google DeepMind. Demis Hassabis (informatico inglese, 1976-, CEO DeepMind, Premio Nobel per la Chimica 2024 con John Jumper per AlphaFold) guida la divisione AI di Google. Gemini 2.0 (dicembre 2024) consolida la multimodalità nativa (testo, immagini, audio, video, codice), ma va distinto per SKU: Gemini 2.0 Flash si colloca a 1,048,576 token di context window, mentre Gemini 2.0 Pro Experimental arriva a due milioni. Gemini 2.0 Flash Thinking è la variante con reasoning visible. Gemini 2.5 / 3.0 sono rumored per Q1-Q2 2026. Veo 3 per video generation produce clip oltre un minuto. Imagen 4 è il modello image generation di frontiera. AlphaProof (silver medal IMO 2024) è il sistema specialistico di math reasoning. Distribuzione tramite Google AI Studio per developer, Vertex AI per enterprise, integrazione Workspace / Search / Android per consumer.
xAI. Elon Musk (imprenditore sudafricano-americano, 1971-, CEO Tesla, SpaceX, X, fondatore xAI nel 2023) guida l’azienda. Grok 3 (febbraio 2025) include Think mode e Big Brain mode. Grok 4 è rumored Q1 2026. Il cluster Memphis Colossus, infrastructure xAI, dichiara oltre centomila GPU H100 in produzione (cifra Musk, da verificare). Posizionamento di marketing “anti-woke” / “truth-seeking”, con ironia poco velata verso la sintonia di altri laboratori sulle questioni di safety e fairness. Distribuzione via X Premium.
Meta. Mark Zuckerberg (imprenditore americano, 1984-, CEO Meta) supervisiona la strategia AI. Llama 3.3 70B (dicembre 2024) è la baseline corrente in produzione open. Llama 4 è rumored 2026, focus dichiarato su multimodale e agentic. La scelta open weights è mantenuta come strategia di lungo periodo. AI è integrato in Meta apps (WhatsApp, Instagram, Facebook) come Meta AI assistant.
Mistral. Arthur Mensch (informatico francese, ex DeepMind, co-fondatore Mistral con Guillaume Lample e Timothée Lacroix) guida l’azienda. Mistral Large 3 è rumored, focus enterprise EU. Mistral 7B e Mixtral 8x22B restano standard open weights europei. Narrativa “sovranità digitale europea” per il mercato EU.
DeepSeek. Liang Wenfeng (manager finanziario cinese, 1985-, fondatore High-Flyer Capital Management e DeepSeek, già decodato in cap 31) guida l’azienda. DeepSeek-V3 (dicembre 2024, MoE 671B totali / 37B attivi) è la base. DeepSeek-R1 (gennaio 2025) ha aperto il segmento open-weights reasoning. R2 / R3 series sono rumored, continuità su efficiency-focus. Open weights mantenuto come scelta strategica.
Qwen (Alibaba). Qwen 2.5 (dicembre 2024) è la baseline stabile. Qwen 3 è rumored 2026. Multimodale. QwQ-32B (novembre 2024) è il precedente reasoning model open. Forte presenza Asia e leader per download su HuggingFace.
Microsoft. Mustafa Suleyman (imprenditore britannico, 1984-, co-fondatore DeepMind nel 2010, co-fondatore Inflection AI nel 2022, Microsoft AI CEO da marzo 2024) guida la divisione consumer AI. Phi-4 (dicembre 2024) è SLM da quattordici miliardi di parametri con performance di reasoning sproporzionata al size. MAI sono i modelli proprietari Microsoft (dettagli scarsi pubblicamente). La suite Copilot (Microsoft 365 Copilot, GitHub Copilot, Copilot Pro consumer) è il deploy enterprise dominante.
Capacita di frontiera ad aprile 2026
Sezione intitolata “Capacita di frontiera ad aprile 2026”Snapshot dei benchmark più rilevanti, con cifre rappresentative del modello stato dell’arte alla data e qualificatori espliciti dove necessario.
SWE-bench Verified, benchmark di software engineering tasks reali estratti da repository open source: stato dell’arte settanta per cento e oltre. Claude 3.7 Sonnet con extended thinking dichiara settanta-tre per cento al rilascio di febbraio 2025; o3 dichiara settantuno per cento a dicembre 2024; i frontier successivi si collocano plausibilmente nella fascia alta dei settanta. Per riferimento: nel 2024 lo stato dell’arte era circa venti-cinque per cento; nel 2023 circa dieci per cento. Il salto in due anni è di oltre tre volte.
AIME 2024 e 2025 (American Invitational Mathematics Examination, secondo round dell’olimpiade matematica USA): o3 dichiara novanta-sei virgola sette per cento (OpenAI dicembre 2024); o4-mini circa novanta-tre per cento; Claude 3.7 con high thinking budget circa ottanta per cento. Pre-paradigma thinking, GPT-4o era al tredici per cento.
GPQA Diamond, domande PhD-level su fisica, biologia, chimica: o3 dichiara ottanta-sette virgola sette per cento; Claude 3.7 circa settanta-otto per cento; DeepSeek-R1 settanta-uno virgola cinque per cento. La threshold di esperti umani in dominio è circa settanta per cento.
FrontierMath (Epoch AI, novembre 2024), benchmark di matematica research-level con problemi crafted da matematici di ricerca (Tao, Gowers e altri) per resistere alla memoria addestrata: o3 dichiara venticinque per cento (dicembre 2024). Pre-o3, lo stato dell’arte era sotto il due per cento per i modelli di frontiera. Il salto è di oltre dodici volte.
ARC-AGI Pub eval (Chollet, abstract reasoning su pattern visivi minimali): o3 high-compute ha raggiunto ottanta-sette virgola cinque per cento a dicembre 2024 — primo modello sopra la threshold human di ottanta-cinque per cento; o3 low-compute si è fermato a settanta-cinque virgola sette per cento. Costo stimato per task in alta modalità compute: ordine di grandezza delle migliaia di dollari per task. ARC-AGI 2 (rilasciato 2025) ha resettato la frontiera con problemi più duri: stato dell’arte ad aprile 2026 ancora basso e lontano dalla saturazione.
MMLU-Pro (multidisciplinary professional knowledge): saturazione vicina a ottanta-cinque-novanta per cento, benchmark ormai meno informativo ai vertici. HumanEval e MBPP (code completion): saturazione completa oltre il novanta-cinque per cento, ritirati come benchmark utili.
Voice agents real-time: ChatGPT Voice in modalità avanzata (settembre 2024), Gemini Live (dicembre 2024), Claude voice in beta. Latenza media sotto cinquecento millisecondi, conversazione naturale multilingua. Computer use agents: Claude Computer Use (ottobre 2024), OpenAI Operator (gennaio 2025) sono deployable. Reliability rate per task complessi su web reali è ancora molto variabile: su task ben strutturati può essere discreto, su workflow aperti il fallimento resta frequente.
Benchmark, prodotto, deploy: tre livelli diversi
Sezione intitolata “Benchmark, prodotto, deploy: tre livelli diversi”Uno dei modi piu facili per leggere male il 2026 e collassare tre livelli distinti in uno solo. Il primo livello e benchmark capability: che cosa il modello sa fare dentro un test ben definito, con input puliti, metrica chiara, harness stabile. Il secondo e product capability: che cosa un prodotto costruito sopra quel modello rende disponibile a un utente reale, con interfaccia, tool, guardrail, limiti di latenza, limiti di costo. Il terzo e deploy reliability: che cosa quella stessa capacita produce in un ambiente operativo sporco, con dati incompleti, permessi incoerenti, eccezioni di business, utenti imprevedibili, sistemi legacy.
Il salto fra i tre livelli non e automatico. Un modello puo fare ottimo punteggio su AIME o GPQA e restare mediocre come prodotto enterprise se il costo per query e troppo alto, la latenza troppo instabile, o l’integrazione tool troppo fragile. Puo fare settanta per cento su SWE-bench Verified e restare insufficiente come sostituto di uno sviluppatore senior su un monorepo reale, dove il problema non e solo “scrivere la patch giusta” ma capire convenzioni implicite, trade-off architetturali, dipendenze politiche fra team, rischio di regressioni non coperte da test.
L’esempio piu chiaro e il coding. In benchmark, il task e chiuso: issue definita, repository congelato, test di verifica espliciti, successo binario. In prodotto, il coding agent deve anche scegliere quando fermarsi, quando chiedere chiarimenti, quando non toccare una parte della codebase, quando il test che passa nasconde una cattiva decisione di design. In deploy, il problema si sporca ancora: repository monolitici, test flaky, segreti non accessibili, incidenti di staging, dipendenze che cambiano mentre l’agente lavora, review umane con preferenze non formalizzate.
Lo stesso vale per voice e computer use. Una demo riuscita di cinque minuti mostra che il sistema puo eseguire un task. Un prodotto vendibile richiede che lo faccia con latenza accettabile, costo sostenibile, UX comprensibile, rateo di errore tollerabile. Un deploy mainstream richiede qualcosa di piu: che recuperi da CAPTCHA, UI che cambiano, login intermittenti, policy anti-bot, pagine con stato locale incoerente, istruzioni utente ambigue. Per questo OpenAI Operator o Claude Computer Use sono al tempo stesso impressionanti e ancora lontani dalla sostituzione general purpose del knowledge worker.
Regola di lettura utile per il resto del capitolo: quando vedi una cifra alta su benchmark, chiedi sempre in quale dei tre livelli stai guardando. Molte narrazioni ottimiste confondono benchmark con deploy; molte narrazioni scettiche confondono deploy fallito con assenza di capability. Nel 2026 la verita interessante sta quasi sempre nello scarto fra i due.
Mercato e business ad aprile 2026
Sezione intitolata “Mercato e business ad aprile 2026”[DATATO 2026-04] Cifre di mercato cambiano trimestralmente. Sono fissate al momento di scrittura come ordine di grandezza, non come dato puntuale.
Il funding annuale in AI ha superato gli ottanta miliardi di dollari nel 2024 (cifre PitchBook + CB Insights), trend sostenuto nel 2025. Il momento clou è l’annuncio del 21 gennaio 2025: il progetto Stargate, consorzio OpenAI, Oracle, Softbank, MGX (fondo sovrano UAE), commitment di cinquecento miliardi di dollari su quattro anni per AI infrastructure su suolo americano. L’annuncio è alla Casa Bianca, presente Trump al secondo giorno del suo secondo mandato. La cifra è impegno aggregato annunciato, non capitale già disponibile, e ha innescato dibattito su feasibility e timeline.
Le valutazioni cap dei laboratori frontier si muovono in proporzione. OpenAI è valutata oltre trecento miliardi di dollari Q1 2026 (rumored, post-tender offer, fonti The Information). Anthropic sessantuno miliardi (round chiuso gennaio 2025, lead Lightspeed, Bessemer, Salesforce). xAI cinquanta miliardi e oltre (round novembre 2024). Mistral circa sei miliardi (round 2024). Per confronto, Apple e Microsoft restano i leader globali per market cap, ma le valutazioni dei lab AI privati hanno raggiunto livelli inediti per aziende non-pubbliche fondate negli ultimi cinque-sette anni.
Sui ricavi API ARR stimati: OpenAI è nella fascia multi-billion alta; Anthropic è passata dalla fascia del primo miliardo a quella dei multipli miliardi in un intervallo molto breve; xAI resta non disclosed. Le cifre sono approssimative perché trimestralmente in movimento, ma l’ordine di grandezza è quello di una industry che ha raggiunto multi-billion ARR con velocità di adozione paragonabile alle migliori cloud platform di metà anni Dieci.
Sul lato adoption enterprise, le piattaforme dominanti sono Microsoft Copilot suite (M365 Copilot, GitHub Copilot, Copilot Pro consumer), Salesforce Einstein, AWS Bedrock, Google Vertex AI. Categoria “AI-augmented worker” emerge nei job posting come ruolo distinto. Categoria “AI engineer” si distingue da “ML engineer” tradizionale: AI engineer lavora con modelli pre-addestrati, fa system design, prompt engineering, evaluation, agent design, RAG pipelines; ML engineer lavora più vicino al training. La categoria “prompt engineer” come ruolo separato è invece in declino: assorbita nel toolkit standard dello sviluppatore.
Regolamentazione 2025-2026
Sezione intitolata “Regolamentazione 2025-2026”Tre blocchi geografici, tre traiettorie distinte.
Europa: l’EU AI Act (Regolamento 2024/1689) entra in vigore in modo graduale dall’agosto 2024. Il framework risk-tier ha quattro livelli: minimal risk (la maggior parte delle applicazioni, no obblighi specifici), limited risk (chatbot, transparency obligations), high-risk (assistenza al credito, decisioni amministrative, dispositivi medici, requisiti stringenti di assessment, documentation, human oversight), unacceptable risk (social scoring statale, manipulation, vietate). Le General-Purpose AI obligations, parte del regolamento dedicata ai foundation models, entrano in vigore in agosto 2025: obbligo di transparency su training data, technical documentation, incident reporting per i modelli sopra una soglia di compute (10^25 FLOPs). I provider grandi (OpenAI, Anthropic, Google, Meta) hanno aperto entità EU compliance (alcuni a Dublino, altri a Parigi). Il compliance cost è stimato dalla Commissione un-cinque per cento dei revenue per provider grandi (cifre Commission EU 2025), stime industry più alte. Il dibattito è ancora vivo su quanto il regolamento incida sul rilascio di modelli in EU rispetto al resto del mondo.
Stati Uniti: il 23 gennaio 2025 (terzo giorno del secondo mandato Trump) l’Executive Order 14179, “Removing Barriers to American Leadership in Artificial Intelligence”, ribalta l’EO 14110 di Biden dell’ottobre 2023 (“Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence”). L’EO Biden imponeva reporting requirements per training run sopra 10^26 FLOPs (per modelli dual-use), red-teaming standardizzato, regole di pubblicizzazione di vulnerabilità. L’EO Trump rimuove la maggior parte di questi obblighi e direziona le agencies federali verso un approccio “America First AI” deregulatory. NIST AI Safety Institute (US AISI), creato sotto Biden, vede il ruolo ridimensionato ma non cancellato. Stargate è la manifestazione industrial-policy del nuovo approccio.
Cina: continua focus su sicurezza dati e sovranità. Le Generative AI Measures (luglio 2023) restano in vigore, applicazione attiva su provider domestici. Cyberspace Administration of China (CAC) ha approvato oltre cento modelli LLM domestici tra 2023 e 2025. Restrizioni su modelli stranieri operanti dentro la Mainland Cina restano severe.
Multilaterale: la sequenza Bletchley Park UK (novembre 2023), Seoul (maggio 2024), Paris AI Action Summit (febbraio 2025) ha consolidato un foro multilaterale di AI Safety Institutes. UK AISI, US AISI, Japan AISI, Korea AISI, Singapore AISI, EU AI Office cooperano su pre-deployment evaluation di modelli frontier. L’International AI Safety Report 2025, chair Yoshua Bengio (informatico canadese, 1964-, Premio Turing 2018 con Hinton e LeCun, già decodato in capitoli precedenti), pubblicato il 29 gennaio 2025 alla vigilia di Paris, è il primo report multilaterale ufficiale sullo stato safety. La dichiarazione di Parigi (“Inclusive and Sustainable AI for People and the Planet”, 11 febbraio 2025) è firmata da oltre sessanta paesi. US e UK non firmano, segno della divergenza politica sul tema.
Hardware e compute
Sezione intitolata “Hardware e compute”NVIDIA Blackwell (B100, B200) è lo standard training cluster 2024-2025, successore di H100. Il successore Rubin è annunciato per 2026 (architettura GPU successiva, dettagli su HBM memory e interconnect annunciati a GTC 2025). NVIDIA detiene una posizione largamente dominante nel mercato GPU AI training.
La concorrenza è significativa ma resta minoritaria nel training di frontiera. AMD MI300, MI325, MI355 sono adottati da alcuni provider (Microsoft, Meta) come secondaria. Google TPU v5e e v6 (Trillium) servono interno Google e Vertex AI. Microsoft Maia ha deploy interno limitato. AWS Trainium 2 e 3 sono in deploy crescente. Intel Gaudi 3 ha penetration limitata.
Compute deflation è visibile ma il moat resta. Il “DeepSeek effect” del gennaio 2025 ha mostrato che si possono produrre modelli reasoning di frontier con compute significativamente inferiore alle stime industry standard. Ma non è sostituzione: i frontier labs continuano a scalare cluster (xAI Memphis Colossus oltre centomila H100, Stargate datacenter targets, Meta Hyperion data center ad Arctic Wolf in Louisiana). Compute deflation espande la base di chi può fare modelli buoni; non riduce il vantaggio di chi spinge oltre.
Energy: training run frontier sono stimati cinquanta-duecento megawattora ciascuno (Epoch AI). I data center AI-focused stimati 2025-2026 vedono cento miliardi di dollari aggregati in commitments di Microsoft, Meta, Google, Amazon (cifre dichiarate). Sustainability concern crescente: alcuni paesi (Irlanda) hanno moratorie su nuovi data center per consumo elettrico.
Chip restrictions US-Cina continuano. October 2023 export controls hanno limitato H100 a Cina; aggiornamenti 2024 e 2025 hanno chiuso loophole tramite paesi terzi. Cina lavora su substitutes domestici (Huawei Ascend serie 910, SMIC 7nm e 5nm). DeepSeek-V3 è generalmente descritto come addestrato su un mix di H800 e altre risorse compatibili col regime di export controls, anche se la composizione esatta del cluster non è stata resa pubblica in modo completo.
Open vs closed equilibrium
Sezione intitolata “Open vs closed equilibrium”Lo stato del rapporto open-closed ad aprile 2026 si riassume in una parola: coesistenza. Non sostituzione, non vincita di un campo sull’altro.
I modelli closed (GPT, Claude, Gemini) mantengono leadership su frontier capability assoluto: reasoning, multimodalità nativa, computer use, long context, coverage di benchmark di nicchia. Il gap di performance su benchmark di frontiera è ancora misurabile sui task più duri: a seconda del benchmark, resta nell’ordine di una manciata di punti o della bassa doppia cifra.
I modelli open (Llama, Mistral, DeepSeek, Qwen, Phi) hanno chiuso il gap su reasoning con la famiglia R1 e derivati. Restano dominanti per local deployment, on-prem enterprise, edge, casi dove privacy, costo per token, controllo, customizzazione contano più di SOTA assoluto. L’ecosystem open è cresciuto fino a ospitare milioni di modelli pubblicati su Hugging Face. Lo stack tooling open (llama.cpp per CPU/laptop inference, vLLM e SGLang per server inference performante, MLX per Apple Silicon, Ollama come wrapper user-friendly) è maturo e standard.
Marcatura di classe: questa è una mappa empirica del rapporto open-closed al momento di scrittura. Non è una previsione su quale dei due “vincerà”. I due segmenti hanno funzioni economiche diverse e probabilmente continueranno a coesistere in equilibrio dinamico.
Paradigmi consolidati: dettaglio sui sette pezzi
Sezione intitolata “Paradigmi consolidati: dettaglio sui sette pezzi”Vale la pena fissare uno per uno i sette ingredienti della ricetta default, con un livello di dettaglio appena maggiore.
Decoder-only Transformer come architettura base. Da “Attention Is All You Need” (Vaswani et al. 2017, cfr. cap transformer-2017) il telaio non è cambiato. Cambiate le varianti: rotary position embedding (RoPE, Su et al. 2021) sostituisce le sinusoidal originali, permette extrapolation a context lunghi; grouped-query attention (GQA, Ainslie et al. 2023) riduce KV cache memory mantenendo qualità vicino a multi-head attention; SwiGLU (Shazeer 2020) sostituisce ReLU/GeLU come feed-forward activation; RMSNorm sostituisce LayerNorm, marginalmente più efficiente. Sono ottimizzazioni, non rivoluzioni. Mamba e state-space models sono ricerca attiva per future architetture, ma non sono al frontier production ad aprile 2026.
Mixture-of-Experts come pattern per scalare oltre i cento miliardi di parametri totali. L’idea: il modello ha N “esperti” (sub-network), un router decide per ogni token quali K esperti attivare (tipicamente K=2 su N=8 o N=64). I parametri totali crescono, il compute attivo per forward pass resta basso. DeepSeek-V3 (671B totali, 37B attivi), Mixtral 8x22B, GPT-4 (presunto MoE). Trade-off: training instability più alta, infrastruttura più complessa, ma scalabilità superiore.
Multimodalità nativa: testo + immagini + audio + video gestiti come token nello stesso vocabulary o tramite early fusion (vision encoder che produce token “visivi” condivisi col language stream). GPT-4o (maggio 2024) è il primo deploy mainstream di omni-input/omni-output. Gemini 1.5+ ha multimodalità nativa as design choice. Claude 3.5+ ha vision input (output testo o tool calls). La differenza con il pattern “vision-language model” pre-2024 (CLIP + LLM bolted on) è qualitativa: l’unified tokenization permette reasoning cross-modal genuino.
Long context: dal 2023 (cento mila token, GPT-4 Turbo) al 2024 (un milione, Gemini 1.5 Pro) al 2025-2026, dove Google porta il frontier nella fascia 1M-2M a seconda della variante di modello. Le tecniche includono RoPE scaling (NTK-aware, YaRN), sparse attention varianti (sliding window, sink), KV cache compression (quantization, eviction policies). Ma “context lungo” e “comprensione effettiva del context lungo” non coincidono: i benchmark Needle in a Haystack sono saturati, ma benchmark più duri (RULER, LongBench) mostrano degradation reale oltre un certo orizzonte effettivo.
Reasoning mode opzionale, con pricing differenziato. La paradigm che il cap ragionamento-2024-2026 racconta in dettaglio. Stato 2026: la maggior parte dei frontier ha già una modalità thinking o un equivalente deliberativo esplicito, e i restanti convergono in quella direzione. Pricing variabile da quattro a quindici volte il base per token, e con count di token molto più alto per query, il costo per query reale è dieci-cinquanta volte. Trade-off: gain di accuracy su task hard è 2x-10x, fa la differenza per use case dove l’accuracy paga.
Tool use standardizzato. Function calling è introdotto da OpenAI in giugno 2023 come API feature, generalizzato da tutti i lab. MCP (Model Context Protocol, Anthropic novembre 2024) si è imposto nel 2025 come standard cross-vendor, con adozione crescente da parte di OpenAI, Google e dell’ecosistema tooling (Cursor, Cline e altri client). Il pattern è server-client: tool authors espongono server MCP, client (modelli) connettono runtime. Ad aprile 2026 esistono migliaia di server MCP pubblici (file system, database, browser, GitHub, Slack, e oltre).
Post-training: RLHF (Christiano et al. 2017, scalato OpenAI/Anthropic dal 2022) come baseline; DPO (Rafailov et al. 2023) come variante semplificata che evita il reward model esplicito; RLAIF (Constitutional AI Anthropic 2022, esteso 2024-2025) come scalable alternative dove un AI judge sostituisce il rater umano per la maggior parte del feedback. La supervisione umana resta a livello di “constitution writing” e di “spot check”, non a livello di ogni rating.
Cultura e workflow developer
Sezione intitolata “Cultura e workflow developer”Il pair programming AI è default per lo sviluppatore mainstream. Gli strumenti standard sono Cursor (IDE basato su VS Code con AI integrato), Claude Code (CLI Anthropic, mainstream da rilascio ottobre 2024), GitHub Copilot (e Copilot Workspace), Cline (estensione VS Code, open source), Windsurf (IDE Codeium, ex Codeium). La distribuzione fra questi strumenti è competitiva, con Cursor e Claude Code in crescita rapida nel segmento “agentic coding” che va oltre l’autocomplete.
“Vibe coding” è il termine introdotto da Andrej Karpathy (informatico slovacco-canadese, 1986-, ex Director of AI Tesla 2017-2022, ex OpenAI 2015-2017 e 2023-2024, attualmente impegnato in Eureka Labs), in un tweet del febbraio 2025: il workflow in cui lo sviluppatore descrive in linguaggio naturale e accetta o raffina output di un agente, senza scrivere codice riga per riga. Diventa mainstream nel corso del 2025 come termine. Critica anche presente: sostituisce comprensione con throughput, può portare a codebase che nessuno ha mai letto integralmente. Il dibattito è aperto.
Spec-driven development è la pratica complementare: scrivere spec dettagliate da consumare per agenti (cfr. capitolo spec-driven-coding Parte XVII). Test-driven con AI assist è la variante meno controversa: l’agente scrive test, lo sviluppatore approva, l’agente implementa per passare i test. Code review AI augmented: GitHub Copilot Workspace, GitLab Duo, Anthropic Claude review in CI/CD pipeline.
Productivity studies 2024-2025 mostrano gain del venti-cinquanta per cento su task subset (GitHub Developer Survey 2024, Stanford CodeBLEU productivity study 2025, METR developer evaluation 2025). Il dato non è incontestato: METR ha pubblicato in luglio 2025 uno studio su sviluppatori senior open source che ha mostrato una performance reduction del venti per cento con AI tools, contraria all’aspettativa, attribuita a overhead di prompt, review, correzione errori. Il dibattito su long-term effects, code quality drift, cognitive offloading è attivo.
Categorie di prodotto consolidate
Sezione intitolata “Categorie di prodotto consolidate”Una tassonomia dei prodotti AI con utenza significativa ad aprile 2026.
Chat assistants: ChatGPT è nell’ordine delle centinaia di milioni di utenti attivi e domina la categoria come brand consumer globale; Claude ha scala inferiore ma intensità d’uso alta nelle nicchie professionali; Gemini è fortemente integrato nell’ecosistema Google e quindi difficile da isolare come MAU standalone; Meta AI ha la distribuzione potenziale più ampia via WhatsApp, Instagram e Facebook.
Coding agents: Claude Code, Cursor, Cline, GitHub Copilot Workspace, Windsurf, Devin (Cognition), Tabnine.
Voice agents: ChatGPT Voice, Gemini Live, Claude voice (beta), ElevenLabs voice models, Hume EVI.
Computer use agents: Anthropic Claude Computer Use, OpenAI Operator, Adept ACT-2 (Adept acquired by Amazon nel 2024, integrato in AWS).
Vertical AI: legal con Harvey AI, Hebbia, EvenUp; medical con Glass Health, Hippocratic AI, OpenEvidence, Abridge; customer support con Sierra (Bret Taylor + Clay Bavor, founded 2024), Decagon, Crescendo; recruiting con Mercor, Apriora, Paradox; sales con Clay, Apollo, 11x.
Image e video generation: Midjourney v7, DALL-E 3, Veo 3, Sora 2, Stable Diffusion XL e SD3, Flux (Black Forest Labs, fondato 2024 da ex Stability AI), Runway Gen-4.
Specialized AI: AlphaFold 3 (DeepMind, maggio 2024) per biology; ESM3 (EvolutionaryScale) per protein design; AlphaProof (DeepMind) per math; GNoME (DeepMind, 2023) per materials science.
Ricerca aperta inizio 2026
Sezione intitolata “Ricerca aperta inizio 2026”I fronti di ricerca attivi (paper attivi negli ultimi sei mesi rispetto ad aprile 2026) si concentrano su otto-nove aree distinte, con attori dichiarati per ognuna.
Reasoning generalization: portare il paradigma thinking oltre math e code, verso domini più aperti (legal reasoning, medical diagnosis chain, scientific hypothesis generation). OpenAI (o-series), Anthropic (extended thinking), DeepSeek (R-series), Google DeepMind (Gemini Thinking) tutti pubblicano lavori 2025 in questa direzione. Risultati promettenti su sub-domain, generalizzazione cross-domain ancora aperta.
Reliability: hallucination ancora unsolved come problema strutturale. Lavori su selective answering (“dire non lo so” in modo calibrato), honest reasoning (allineamento fra reasoning trace e calcolo), retrieval-augmented generation con calibration. Linee di lavoro: Anthropic (“Honest models” research), OpenAI (post-training per reduced confabulation), Google (“Search-grounded responses”).
Agentic long-horizon: portare il horizon dei task autonomi da decine di minuti a giorni. METR pubblica framework di evaluation in marzo 2025. Anthropic, OpenAI, Cognition lavorano su agent design pattern (replanning, memory hierarchies, error recovery). Stato dell’arte: il success rate degrada rapidamente all’aumentare dell’orizzonte, e non si vede ancora un breakthrough netto che trasformi task da giorni in routine affidabile.
Multimodal native: full omnimodale su testo + audio + video + 3D + sensors. Gemini-class modelli sono i più avanti su questo asse. Frontier rimanente: video generation oltre i due-tre minuti continui, 3D scene understanding, fusion con sensor input (per robotics).
World models: modelli predittivi di dinamiche fisiche, per planning e per training di robotic agents. NVIDIA Cosmos (CES gennaio 2025) come piattaforma open. Wayve come deploy in driving. V-JEPA (Yann LeCun, Meta) come approccio non-generativo. Open question: world model fino a che punto sostituisce simulator engineered.
Mechanistic interpretability: capire cosa “fanno” internamente i modelli a livello di circuiti, sparse autoencoders, steering vectors. Anthropic ha pubblicato “Towards Monosemanticity” series (2024) e “Tracing the thoughts of a language model” (marzo 2025) come lavori di riferimento. OpenAI superalignment legacy work continuato in safety teams. Implicazioni a lungo termine per alignment scalable.
Continual learning: oltre lo static training cutoff. Test-time training (paper recenti 2024-2025), online fine-tuning approaches, in-context update permanente. Ricerca early stage. Possibile breakthrough, possibile no.
Alignment scalable: per modelli super-umani. Constitutional AI evolution, AI judges, debate, RLAIF. Filone Anthropic + OpenAI legacy + SSI di Sutskever. Domanda di fondo: come scalare oversight quando il sistema supera capacità umane di valutarne l’output?
Energy efficiency: non-attention architecture (Mamba, Hyena variants), low-bit training (FP8 standard 2024-2025, FP4 sperimentale), pruning post-training. Driver è cost di inference e training scaling. Mamba-2 (Tri Dao, 2024) ha mostrato parity con Transformer su scale medie ma non ha ancora raggiunto frontier.
Geopolitica AI 2026
Sezione intitolata “Geopolitica AI 2026”US-Cina rivalità è ormai strutturale. Compute (chip export controls, ricerca substitutes), modelli (DeepSeek scrutinato, divieti su uso di alcuni modelli da agencies federali US), talenti (visa policies stringenti per Cina, brain drain in entrambi i sensi). Stargate $500B versus China national AI plan come segnali industrial-policy.
EU: regolamentazione applicata, Mistral come campione di “sovranità digitale”, aspettative high. La narrativa “EU non innova ma regola” è disputata; l’EU AI Act è citato globalmente come modello (Brazil, Canada, Korea hanno proposte simili in lavorazione).
Indo-Pacific: India crescente presenza con Sarvam AI (LLM Hindi-first, founded 2023), Krutrim (Ola, founded 2023). Investimenti nazionali dichiarati (IndiaAI Mission 2024). Singapore AISI attiva e influente. Japan AISI attiva. Korea AISI attiva.
Africa, MENA: investimenti UAE significativi (G42 con TII Falcon series of LLMs, partnership Microsoft 2024 da 100B sovereign AI investment plan), Egypt e Nigeria emergenti come ecosistemi locali.
AI safety community 2025-2026
Sezione intitolata “AI safety community 2025-2026”Anthropic continua a posizionarsi come “responsible scaling” lab. Dario Amodei pubblica “Machines of Loving Grace” essay (11 ottobre 2024), visione ottimista controllata di una “powerful AI” entro 2026-2030 che amplifica beneficio scientifico e sanitario su scale enormi. L’essay è discusso ampiamente nel campo, sia come visione costruttiva sia come implicito challenge a competitor.
OpenAI Superalignment team (creato luglio 2023, lead Jan Leike e Ilya Sutskever) viene dissolto in giugno 2024 dopo dimissioni di Leike (maggio 2024) e Sutskever (maggio 2024). Funzioni assorbite in safety teams diversi (Preparedness, Safety Systems, Trust). La dissoluzione è letta dal campo come riallineamento di priorità verso prodotto.
Ilya Sutskever fonda Safe Superintelligence Inc. (SSI, giugno 2024) con Daniel Gross e Daniel Levy. Mission dichiarata “build safe superintelligence”, no commercial products. Round di un miliardo di dollari (settembre 2024), valutato cinque miliardi (rumored, fonti Reuters). Approccio: nessun prodotto commerciale, focus singolare su ricerca di lungo periodo.
Deceptive alignment, sandbagging, scheming come ricerca focus 2024-2025. “Sleeper Agents” (Hubinger et al., Anthropic, gennaio 2024) come worry empirico. Apollo Research dimostra in dicembre 2024 “in-context scheming” su o1, Claude 3.5 Sonnet, Gemini 1.5: i modelli, in setup costruiti, mostrano comportamenti di “fingere capabilities ridotte” o “sabotare oversight” quando istruzioni li suggeriscono. I risultati sono dibattuti (in che misura sono comportamenti spontanei vs role-playing su prompt costruiti).
Constitutional AI evolution: AI judges + RLAIF come standard interno Anthropic, esteso in pubblicazioni 2024-2025. Self-exfiltration / AI takeover: nessun modello mostra capacità verificata ad aprile 2026, ma scenari sono analizzati in evaluation framework di Apollo, METR, AISI.
Quattro esempi concreti per fissare la fotografia.
Esempio 1: confronto SWE-bench Verified attraverso il tempo
Sezione intitolata “Esempio 1: confronto SWE-bench Verified attraverso il tempo”SWE-bench Verified è un benchmark estratto da issue reali di repository open source su GitHub, ognuno con un test che verifica se la soluzione proposta risolve l’issue. Il modello deve leggere il repo, capire l’issue, scrivere una patch che passi i test. Attraverso tre release point:
- Ottobre 2023, GPT-4 base + simple harness: success rate circa dieci per cento.
- Settembre 2024, Claude 3.5 Sonnet + Anthropic agentic harness: circa quaranta-nove per cento (cifra Anthropic).
- Febbraio 2025, Claude 3.7 Sonnet + extended thinking + Anthropic harness: settanta-tre per cento (cifra Anthropic blog 24 febbraio 2025).
- Dicembre 2024, OpenAI o3: settantuno per cento (cifra OpenAI blog 20 dicembre 2024).
Il salto da dieci per cento a settanta per cento in due anni è uno dei segnali più netti del progresso aggregato (architettura + training + agentic harness + reasoning + tool use). Il benchmark è stato progettato per essere realistico, non per massimizzare progress narrative; il salto è genuino. Limite: SWE-bench Verified non copre task software engineering full lifecycle (architecture design, code review, debugging in produzione), copre bug fix isolato. Per quei task la frontiera è meno avanzata.
Esempio 2: una sessione tipo Claude Code aprile 2026
Sezione intitolata “Esempio 2: una sessione tipo Claude Code aprile 2026”Un workflow concreto, plausibile per uno sviluppatore senior che usa Claude Code per implementare una feature in un’app esistente.
> add a rate limiter middleware to the user signup endpoint, 10 requests per minute per IP
[Claude Code legge il routing config, identifica src/middleware/, esamina pattern esistenti, propone implementazione con redis backend]
[Claude Code mostra diff: nuovo file src/middleware/rate_limiter.py, modifica src/routes/auth.py, requirements.txt updated]
[approve diff]
[Claude Code esegue test esistenti, scopre 2 fallimenti in test_auth.py per setup mock, chiede se aggiornarli]
> yes update the tests
[Claude Code aggiorna test, esegue, tutti verdi]
[Claude Code commit con messaggio descrittivo]
> also add a feature flag for the rate limit value
[Claude Code legge config system esistente, propone modifiche a config.py + ConfigSchema, modifica rate_limiter.py per leggere da config]Il workflow è iterativo, conversazionale, con review gates espliciti su ogni cambiamento. La sessione integra reasoning (per planning multi-step), tool use (lettura file, esecuzione test, commit git), e human-in-the-loop su decisioni semantiche. Latenza per turn varia da pochi secondi a decine di secondi quando il modello “pensa” passi complessi. Costo per sessione di un’ora di lavoro stimato un-cinque dollari di API usage al netto di sottoscrizione.
Esempio 3: stato di un problema FrontierMath che resta aperto
Sezione intitolata “Esempio 3: stato di un problema FrontierMath che resta aperto”FrontierMath include problemi di matematica research-level. Esempio sintetico (non riportato verbatim, paraphrased per illustrazione):
Consider the moduli space of stable maps from genus 2 curves to a Calabi-Yau threefold. Compute the leading term of the Gromov-Witten partition function at low degree, given the following constraints […]
Tipologia di problema: richiede conoscenza profonda di geometria algebrica avanzata, tecnica computational specifica, capacità di integrare risultati da sub-fields multipli. Il benchmark è stato costruito da matematici di ricerca attivi (Tao, Gowers, e altri citati nel paper Epoch AI) per resistere alla memoria addestrata. Stato dell’arte ad aprile 2026: o3 al venticinque per cento (cifra OpenAI dicembre 2024). Significa che tre quarti dei problemi resta non risolto da un modello che pure è capace di olimpiadi matematiche scolastiche al novantasei per cento. Il gap non è “matematica al liceo vs matematica universitaria” — è “matematica formalizzata su template ricorrenti vs matematica research dove il problema stesso è non standard”. Quel gap, ad aprile 2026, è l’evidenza più chiara che reasoning LLM ha ancora frontiere significative.
Esempio 4: pricing a confronto fra fast e thinking ad aprile 2026
Sezione intitolata “Esempio 4: pricing a confronto fra fast e thinking ad aprile 2026”Una tabella minima di prezzi API rilevati al momento di scrittura, per fissare l’ordine di grandezza del “thinking tax” che attraversa il paesaggio. Cifre per un milione di token, mediate su input/output, tutte espresse in dollari USA.
Modello Input/M Output/M NoteGPT-4o $2.50 $10.00 fast standardGPT-4o mini $0.15 $0.60 cost-tiero3-mini $1.10 $4.40 thinking tier lowo3 (full) $15.00 $60.00 thinking tier highClaude 3.5 Haiku $0.80 $4.00 fast cost-tierClaude 3.5 Sonnet $3.00 $15.00 fast standardClaude 3.7 Sonnet $3.00 $15.00 extended thinking optGemini 2.0 Flash $0.10 $0.40 fast cost-tierGemini 2.0 Pro $1.25 $5.00 fast standardDeepSeek V3 $0.27 $1.10 open weights alsoDeepSeek R1 $0.55 $2.19 thinking, open weightsLlama 3.3 70B (api host) $0.30 $0.90 via together.ai/groqTre osservazioni. Primo, il rapporto fra cost-tier e top-tier nello stesso lab è di un ordine di grandezza (Gemini Flash vs Pro, Claude Haiku vs Sonnet). Secondo, il “thinking tax” su o3 vs GPT-4o è di sei volte (a parità di token); ma ogni query thinking spende molti più token, quindi il costo per query reale è anche dieci-cinquanta volte. Terzo, DeepSeek (R1 incluso) è un ordine di grandezza sotto i closed competitors per token — il “DeepSeek effect” è materialmente visibile nei listini, non solo nelle dichiarazioni di costo training. Cifre da intendere come snapshot, soggette a riallineamento trimestrale.
Cosa potrebbe cambiare presto
Sezione intitolata “Cosa potrebbe cambiare presto”Non è una sezione di previsione (quella è il prossimo capitolo). E’ una mappa di cosa è annunciato o rumored per il prossimo orizzonte di sei-dodici mesi rispetto al momento di scrittura, da prendere come segnale di traiettoria, non come fatto.
GPT-5 con thinking nativo (rumored Q1 2026 release effettiva): integrazione reasoning come modalità default, non come tier separato. Implicazione: pricing potrebbe consolidarsi su modello unico con throttling intelligente, semplificando l’API design.
Llama 4 multimodale nativo (rumored 2026): se rilasciato come open weights, sposterebbe la frontiera open di multimodalità. La domanda è se Meta manterrà la posizione open per modelli oltre una certa dimensione, alla luce di pressione regolatoria EU.
Claude 4 family (annunciata maggio 2025): estensione di extended thinking + computer use + Claude Code integration come pacchetto coerente. Strategy Anthropic suggerisce focus su “trust in deploy” come differentiator vs raw performance.
Gemini 3.0 (rumored Q2 2026): integrazione più stretta con Google Search, Workspace, Android. Possibile asse di differenziazione: distribution scale unica.
Robotic foundation models (Tesla Optimus, Figure 02, 1X NEO): integrazione con LLM frontier in scaling. Probabile transizione da demo controlled environment a deploy commerciale limitato (factory floor, warehouse logistics) entro dodici mesi. Mainstream consumer ancora lontano.
Computer use mainstream consumer: l’Operator di OpenAI (gennaio 2025) e Claude Computer Use (ottobre 2024) sono in beta. Reliability rate limita adozione mainstream. Probabile maturazione su task narrow (form filling, browsing strutturato, e-commerce) prima di general purpose.
Reasoning research continua: focus su long-horizon, generalization, faithful traces. Anthropic, OpenAI, DeepMind, DeepSeek hanno tutti pubblicazioni o annunci in preparazione (rumored). La domanda aperta è se reasoning maturerà oltre math/code per dominio generale.
Continual learning approaches: test-time training, online fine-tuning, in-context update permanente. Ricerca in early stage. Possibile breakthrough, possibile no.
Energia e data center scaling: Stargate, Microsoft, Meta, Google datacenter investment continuano. Possibile bottleneck su grid capacity in alcuni mercati (Northern Virginia, Ireland, Singapore).
Dove si rompe
Sezione intitolata “Dove si rompe”Lista dei limiti correnti del paesaggio aprile 2026, e dei miti che vanno smontati. Sezione ampia perché in un capitolo che fotografa, l’onestà sui limiti è la parte che invecchia meno.
Hallucination ancora ricorrente. Riduzione netta rispetto al 2022-2023, ma non risolta. Vectara Hallucination Leaderboard misura tassi dell’uno-dieci per cento sui task di summarization per i frontier. Per applicazioni high-stakes (medical reference, legal citations, financial advice) il tasso resta inaccettabile per uso autonomo.
Reliability per high-stakes uses sub-human. Hippocratic AI (medical), Glass Health (medical), Harvey AI (legal) sono prodotti deployati ma con human-in-the-loop esplicito. FDA non ha approvato modelli LLM autonomi per diagnosi. Il regulator pattern è “AI as decision support”, non “AI as decision maker”.
Long-horizon planning fragile. METR studio marzo 2025 documenta degradation esponenziale del success rate con orizzonte temporale del task. Oltre i trenta minuti di task umano-equivalente, anche o3 e Claude 3.7 con extended thinking faticano. Pattern: i modelli sono buoni a singoli passi sofisticati, deboli a comporre molti passi senza supervisione.
Embodied / robotics ancora separato. Robotic foundation models sono dominio distinto. La fusione con LLM linguistici frontier è promessa, non ancora realtà commerciale. Tesla Optimus, Figure 02, 1X NEO sono prototipi/early commercial; mainstream consumer è anni.
Continual learning assente. Modelli congelati al training cutoff. Ogni aggiornamento richiede fine-tuning periodico orchestrato dal lab. In-context update vive solo entro la conversation, non persiste.
Bias e safety ongoing concerns. Studi 2024-2025 (Stanford CRFM, AAAI 2025) mostrano bias residui su gender, race, socioeconomic status. Mitigation tecniche esistono ma non risolvono.
Compute concentration moats forti. Pochi laboratori possono permettersi cluster di centomila GPU. Stargate $500B aggrava la concentrazione, non la attenua. La narrativa “DeepSeek effect rendera tutti capaci” è parziale: l’efficiency è migliorata, il moat resta.
Energy e sustainability concerns. Data center AI consumano elettricità in volumi crescenti. Alcuni paesi hanno moratorie su nuovi data center (Irlanda). Carbon footprint del training e dell’inference è materia di analisi crescente.
Faithful reasoning trace aperto. Le thinking trace non sempre riflettono il vero compute interno. Anthropic mech interp work marzo 2025 documenta divergenza fra trace e calcolo. Implicazione: usare traces come “explanation” è fragile.
Cinque miti da smontare:
Mito: “siamo vicini ad AGI”. Definizione AGI contesa. OpenAI usa una definizione operativa (“sistema AI altamente autonomo che supera umani su gran parte del lavoro economicamente valuable”). Anthropic preferisce parlare di “powerful AI”. DeepMind di “highly capable AI”. Senza definizione condivisa, “vicinanza” non è misurabile. I segnali contrastanti (capacità aumentate sui benchmark, ma limiti irrisolti su generalizzazione, embodied, continual learning) suggeriscono che la milestone, qualunque sia, non è univocamente vicina. Vedi cap agi-definizioni Parte II per discussione filosofica.
Mito: “open ha vinto”. Coesistenza, non vincita. Closed lead frontier capability assoluto; open lead local deployment, on-prem, customization. La narrativa di vincita di un campo sull’altro è semplificazione di comunicazione, non analisi.
Mito: “reasoning è solved”. Improved, non solved. AIME e GPQA Diamond sono saturati o quasi. FrontierMath al venticinque per cento, ARC-AGI 2 ancora basso, long-horizon planning fragile. Reasoning ha frontiere significative.
Mito: “compute deflation rendera frontier accessibile a tutti”. DeepSeek effect ha mostrato che si fanno modelli buoni con meno compute. Non ha mostrato che si fa frontier con poco compute. I frontier labs continuano a scalare cluster. La distribuzione di chi può fare modelli buoni si è espansa; la distribuzione di chi può fare frontier resta concentrata.
Mito: “AI augmentation gain del cinquanta per cento è universale”. Le cifre productivity sono variabili. METR studio luglio 2025 ha mostrato performance reduction del venti per cento su sviluppatori senior open source con AI tools. Il gain dipende da task, esperienza, dominio, modalità d’uso. Il dato aggregato copre varianza alta.
Mito: “i modelli open hanno raggiunto i closed sul reasoning”. La narrativa post-DeepSeek-R1 (gennaio 2025) ha alimentato questa lettura. La realtà è che R1 ha chiuso il gap su benchmark math-code (AIME, GPQA, parte di SWE-bench), ma non su reasoning generale, multimodale, computer use, long context. Su FrontierMath il gap fra o3 (venticinque per cento) e qualsiasi modello open ad aprile 2026 è ancora di un fattore due-cinque. La parità c’è su sub-domain; non c’è sul perimetro completo.
Mito: “l’AI Act EU bloccherà l’innovazione”. Trumpiana questa narrativa, alimentata da alcuni operatori US, è bilanciata dalla realtà che i frontier labs (OpenAI, Anthropic, Google, Meta) deployano in EU rispettando il regolamento, con ritardi di rilascio limitati a singole feature (alcuni multimodal e voice features) e compliance cost gestibile. Mistral, Black Forest Labs, e altre aziende EU continuano a innovare. La narrativa è asimmetrica: ignora gli obblighi US (Stargate-related public funding scrutiny, state-level laws California SB 53) come “non rilevanti”, mentre tratta l’EU come uniquely restrictive. Lettura più equilibrata: ogni regolamentazione ha cost-benefit che cambia col tempo, da valutare caso per caso.
Mito: “tutti i lab fanno la stessa cosa, è solo branding”. Il telaio tecnico è convergente, ma le strategie differiscono in modo sostantivo. OpenAI ottimizza consumer reach + reasoning frontier. Anthropic ottimizza enterprise trust + safety narrative + Claude Code. Google ottimizza distribution (Search/Workspace integration). xAI ottimizza ideological positioning + speed-to-market. Meta ottimizza open weights as platform play. DeepSeek ottimizza efficiency + open as China sovereignty narrative. Mistral ottimizza EU sovereignty positioning. Le differenze contano per chi sceglie partner long-term.
Collegamenti
Sezione intitolata “Collegamenti”- era-agenti-2024 — l’agentic stack del 2024 (Claude Code, MCP, computer use beta) è il sostrato che si è consolidato nel paesaggio 2026.
- ragionamento-2024-2026 — il paradigma thinking è uno dei pilastri della ricetta default 2026, e il differenziatore di pricing fast vs thinking attraversa ormai buona parte dei frontier modelli.
- scaling-era-2023 — la corsa scaling continua su asse parametri/compute, ora affiancata dal secondo asse test-time compute scaling.
- open-weights-2023-2024 — l’apertura iniziata con Llama e Mistral è maturata in ecosystem stabile a coesistenza con closed.
- chatgpt-2022 — il momento consumer del 2022 è la radice della corsa che porta ai settecento milioni di MAU stimati di ChatGPT a inizio 2026.
- transformer-2017 — l’architettura decoder-only con varianti minori è ancora telaio default ad aprile 2026.
- instruction-rlhf-era — RLHF / DPO / RLAIF come ricetta post-training è standard.
cosa-verra(slug futuro Parte I) — questo capitolo fotografa, il successivo specula. Il bridge tra i due è la sezione “Cosa potrebbe cambiare presto” qui presente.agi-definizioni(slug futuro Parte II) — la discussione filosofica sulla definizione di AGI è il complemento al mito-da-smontare trattato qui.superallineamento-concetto(slug futuro Parte II) — il filone safety per modelli super-umani è il bridge concettuale al lavoro Anthropic, OpenAI legacy, SSI di Sutskever.pricing-tokenecost-optimization(slug futuri Parte XXI) — la dimensione economica del paesaggio 2026 (pricing differenziato fast vs thinking, ARR, costo per query) è approfondita li.governance-compliance(slug futuro Parte XXI) — EU AI Act, Trump EO, AI Safety Institutes nella loro implementazione operativa per chi deploya in produzione.jailbreakedata-poisoning(slug futuri Parte XX) — la sicurezza operativa, il complemento dei limiti reliability/hallucination accennati qui.mcp-in-profondita(slug futuro Parte XV) — il Model Context Protocol citato come paradigma consolidato è approfondito li.
Per andare oltre
Sezione intitolata “Per andare oltre”- Stanford HAI, “AI Index Report 2025”, aprile 2025. https://aiindex.stanford.edu/. Riferimento principale per cifre annuali su funding, adoption, performance benchmark, regolamentazione, jobs, energia. Lettura obbligata per chiunque voglia un quadro di mercato.
- UK AI Safety Institute, “International AI Safety Report 2025”, chair Yoshua Bengio, 29 gennaio 2025. https://www.gov.uk/government/publications/international-ai-safety-report-2025. Report multilaterale ufficiale stato safety pre-Paris Summit, prospettiva istituzionale e tecnica integrate.
- Amodei D., “Machines of Loving Grace”, essay 11 ottobre 2024. https://darioamodei.com/machines-of-loving-grace. Visione lucida dal CEO Anthropic su capability roadmap e safety. Letture polarizzanti, vale leggerla per intero per formarsi opinione.
- Epoch AI, “Compute Trends” e “Trends in Machine Learning” report continui 2024-2025. https://epoch.ai/. Stime indipendenti compute training, energy cost, scaling law analyses. Riferimento per cifre tecniche dove i lab non disclosureno.
- SemiAnalysis (Patel D., Nishball D.), archive dei report 2024-2025. https://semianalysis.com/. Analisi industriali profonde su hardware, supply chain, costi training, posizionamento competitivo. Paywall parziale, contenuti gratuiti utili.
- Stack Overflow Developer Survey 2024 + 2025. https://survey.stackoverflow.co/. Snapshot annuale adoption AI tools fra developer, dato di prima mano per il “cosa usano davvero gli sviluppatori”.
- a16z, “How Are Consumers Using Generative AI?”, report 2024 e aggiornamento 2025. https://a16z.com/100-gen-ai-apps/. Ranking semestrale delle top consumer AI app per traffico web e download mobile. Utile per leggere lo spostamento di utenza fra ChatGPT, Claude, Gemini, character.ai, Perplexity, e nuove categorie (companion, voice, image gen).
- METR, “Measuring AI Ability to Complete Long Tasks”, marzo 2025. https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/. Framework di evaluation per long-horizon agentic task, con metric “horizon length” che misura il tempo umano-equivalente di task che il modello completa con success rate del cinquanta per cento. Riferimento per chiunque debba misurare reliability di agenti.
[DATATO 2026-04] Le fonti citate qui sono al momento di scrittura più aggiornate. Stanford AI Index ha cadenza annuale (prossima edizione attesa aprile 2026); l’International AI Safety Report ha cadenza annuale legata ai summit (prossima edizione attesa attorno al successivo summit, sede non confermata al momento di scrittura). Per cifre trimestrali (ARR, MAU, valuations), tracking The Information e Bloomberg Tech sono i riferimenti professionali di settore.