Salta ai contenuti

Scaling era 2023: GPT-4, Claude, Gemini e la corsa ai parametri

Trenta miliardi di dollari di venture funding AI nel 2023, contro circa cinque miliardi nel 2022. Otto modelli di taglia frontier rilasciati in dodici mesi, da quasi tutti i grandi laboratori del mondo, in finestre temporali sovrapposte. Per anni le “scaling laws” erano state una previsione teorica scritta in un paper di OpenAI del 2020. Nel 2023 diventano strategia di business per quattro continenti — e contemporaneamente bottleneck di capitale, di hardware NVIDIA, di dati di pre-training, di energia elettrica. Il 22 marzo, mentre GPT-4 e Claude sono stati appena rilasciati e Bard fatica a recuperare, il Future of Life Institute pubblica una lettera aperta che chiede una moratoria di sei mesi sull’addestramento di modelli più potenti di GPT-4. La firmano Elon Musk, Steve Wozniak, Yoshua Bengio, e nei giorni successivi superano le trentamila adesioni. Nessun laboratorio si ferma. Nessuno rallenta. Nove mesi dopo, il 6 dicembre, Google DeepMind rilascia Gemini, e l’anno chiude con un altro modello frontier in più rispetto a quanti ne esistessero a marzo.

Il 2023 è l’anno in cui lo scaling smette di essere una promessa accademica e diventa un’industria. Prima del 2023 esisteva un modello LLM di frontiera chiaramente dominante (GPT-3, poi GPT-3.5) e una manciata di modelli di laboratorio competitivi ma non largamente accessibili (PaLM, Chinchilla, LaMDA). Dopo il 2023, esistono almeno cinque famiglie di modelli frontier mantenute da cinque organizzazioni distinte (OpenAI, Anthropic, Google DeepMind, Meta, Mistral), più una decina di modelli open o semi-open competitivi (Llama 1/2, Falcon, MPT, Qwen, Yi, DeepSeek, Mixtral). Capire il 2023 è capire la geografia attuale di chi conta nel settore: ogni laboratorio rilevante del 2026 ha consolidato la propria posizione in quei dodici mesi, e i pattern di competizione, alleanza, investimento e regolamentazione che governano il presente sono stati disegnati in quel periodo.

Il secondo motivo per cui il capitolo conta riguarda i tre cambiamenti tecnici strutturali che il 2023 introduce contemporaneamente: la multimodalità nativa (input testo + immagini in GPT-4, vision + audio + video in Gemini), l’esplosione del context window (da 4-8k token a inizio anno, a 100-200k a metà anno con Claude 2/2.1, a 1M nel 2024 con Gemini 1.5), e l’emergere delle Mixture-of-Experts (MoE) sparse come architettura di riferimento per i modelli più grandi (GPT-4 presunto MoE da leak, Mixtral apertamente MoE). Ognuna di queste tre tendenze cambia cosa significa “modello di linguaggio” e cosa si può chiedere a un sistema generativo.

Il terzo motivo è economico e geopolitico. Il 2023 vede il consolidamento dei “compute moats”: NVIDIA passa da circa 360 miliardi di dollari di market cap a inizio anno a oltre 1200 miliardi a fine anno, le H100 diventano il bene più scarso del settore tecnologico, e la capacità di addestrare modelli frontier diventa un privilegio di poche organizzazioni che possono permettersi cluster di decine di migliaia di GPU. La regolamentazione si attiva in parallelo: il Biden Executive Order on AI di ottobre 2023, il compromesso politico sull’EU AI Act di dicembre 2023, l’AI Safety Summit di Bletchley Park di novembre 2023. Per la prima volta gli Stati nazionali trattano gli LLM frontier come oggetto di policy industriale strategica, non come prodotti tecnologici qualunque.

Per leggere il 2023 bisogna ricostruire da dove si parte. Il 30 novembre 2022 OpenAI rilascia ChatGPT (vedi chatgpt-2022): un’interfaccia di chat web sopra GPT-3.5, addestrata con la pipeline SFT + RLHF documentata in InstructGPT (Ouyang et al. gennaio 2022). In due mesi raggiunge cento milioni di utenti, secondo la stima UBS di febbraio 2023. Il prodotto è gratuito, virale, copre i giornali generalisti. La reazione delle altre big tech è immediata e visibile.

Il 23 gennaio 2023 Microsoft annuncia un investimento “multi-anno, multi-miliardario” in OpenAI, stimato dalla stampa attorno ai dieci miliardi di dollari (la cifra esatta non è mai stata confermata pubblicamente). L’investimento estende la partnership iniziata nel 2019 con il primo miliardo, include accesso esclusivo a Azure come infrastruttura di training e inferenza per OpenAI, e dà a Microsoft diritti commerciali di lungo periodo sui modelli. Il 7 febbraio Microsoft lancia “the new Bing”, un Bing Search integrato con un chatbot conversazionale chiamato internamente “Sydney”. Si scopre nelle settimane successive che il modello sotto Bing Chat era già una versione preliminare di GPT-4, mesi prima del rilascio ufficiale.

Sundar Pichai (informatico indiano-americano, 1972-, CEO di Google e Alphabet dal 2015 al 2019 rispettivamente) dichiara internamente “Code Red” a fine dicembre 2022, secondo un report del New York Times del 21 dicembre. Il messaggio richiama Larry Page e Sergey Brin a contribuire alla risposta strategica. Il 6 febbraio 2023 Google annuncia Bard, un chatbot conversazionale basato su una versione lightweight di LaMDA. Il 7 febbraio, durante la demo pubblica, Bard risponde a una domanda sul James Webb Space Telescope affermando che “JWST took the very first pictures of a planet outside of our own solar system”. L’affermazione è falsa: la prima foto di un esopianeta era stata fatta nel 2004 dal Very Large Telescope dell’European Southern Observatory. La gaffe viene notata da astronomi su Twitter nelle ore successive. Il giorno della demo Alphabet perde circa cento miliardi di dollari di capitalizzazione di mercato in chiusura.

Anthropic in questo momento è una “Public Benefit Corporation” di circa 150 dipendenti, fondata nel 2021 da Dario Amodei (informatico italo-americano, 1983-, ex VP of Research di OpenAI) e Daniela Amodei (sua sorella, COO), insieme a circa una dozzina di altri ex-OpenAI fra cui Jared Kaplan (autore principale del paper sulle scaling laws del 2020) e Tom Brown (primo autore del paper GPT-3). Il laboratorio si posiziona esplicitamente sul tema AI safety. A dicembre 2022 pubblica “Constitutional AI: Harmlessness from AI Feedback” (Bai et al., arXiv:2212.08073), che descrive una variante di RLHF in cui il feedback proviene da un secondo modello AI guidato da una “costituzione” scritta, anziché interamente da labeler umani. Questa diventa la firma metodologica di Anthropic, alternativa al PPO + reward model umano della linea OpenAI.

Google DeepMind, in questo momento, è ancora formalmente diviso fra Google Brain (a Mountain View, sotto Jeff Dean) e DeepMind (a Londra, sotto Demis Hassabis, neuroscienziato britannico, 1976-, fondatore di DeepMind nel 2010 e CEO della DeepMind acquisita da Google nel 2014). Il 20 aprile 2023 Sundar Pichai annuncia la fusione delle due unità in “Google DeepMind”, sotto Hassabis come CEO unico. La fusione è una delle reazioni dirette alla pressione competitiva di OpenAI, e diventa l’organizzazione che produrrà Gemini.

Meta è in una posizione diversa. Mark Zuckerberg (imprenditore americano, 1984-, CEO di Meta dal 2004) ha investito massivamente in metaverse fra 2021 e 2022, con risultati commerciali deludenti. La pivot strategica del 2023 verso AI generativa è guidata da Yann LeCun (informatico francese, 1960-, Chief AI Scientist di Meta e Turing Award 2018) e dal team Meta AI Research. Il 24 febbraio 2023, una settimana dopo Bing Chat e una settimana prima di GPT-4, Meta rilascia Llama 1 in modalità “research-only”: weights distribuiti su richiesta a ricercatori accademici, con licenza non commerciale.

Mistral AI viene fondata a maggio 2023 a Parigi da Arthur Mensch (informatico francese, 1992-, ex DeepMind e autore del paper Chinchilla del 2022), Guillaume Lample e Timothée Lacroix (entrambi ex Meta, autori principali del paper Llama 1). Il pitch alla Series A di giugno 2023, raccolta di circa 105 milioni di euro a una valutazione di 240 milioni di euro su una società di poche settimane, è il record europeo di seed-stage AI dell’anno.

In Cina e altrove, l’ondata 2023 vede emergere Alibaba con la famiglia Qwen (agosto 2023), Kai-Fu Lee (informatico taiwanese-americano, 1961-, fondatore di 01.AI a marzo 2023) con Yi (novembre), Liang Wenfeng (manager finanziario cinese, ex hedge fund High-Flyer) che lancia DeepSeek (novembre 2023), e il Technology Innovation Institute di Abu Dhabi che rilascia Falcon 7B/40B/180B fra maggio e settembre 2023.

Il primo angolo è strategico, non tecnico. ChatGPT cattura l’attenzione del pubblico globale in dicembre-gennaio. Per ogni laboratorio competitivo, esiste una finestra stretta entro cui rispondere: rilasciare un prodotto comparabile entro circa sei mesi, oppure perdere mindshare di mercato in modo strutturale. Sei mesi è il tempo medio durante il quale un nuovo prodotto consumer può ancora essere percepito come “ritardato ma serio”; oltre, diventa “in inseguimento”. Questa lettura è esplicita in molte testimonianze post-fatto di executive di Google, Meta, Anthropic, Microsoft.

Il risultato è una densità di rilasci senza precedenti. Marzo 2023 vede in tre giorni il rilascio di GPT-4 (14 marzo), Claude 1 (14 marzo), e l’integrazione di GPT-4 in Bing già da settimane. Maggio 2023 porta PaLM 2 con Bard rinnovato. Luglio 2023 vede Claude 2 con la prima context window da 100k token in produzione, e Llama 2 due settimane dopo con licenza commerciale. Settembre 2023 vede Mistral 7B come primo modello frontier da una startup europea, GPT-4V che aggiunge vision a GPT-4, Falcon 180B come primo modello open weights sopra i 100B parametri. Dicembre 2023 chiude con Gemini di Google e Mixtral 8x7B di Mistral. La pressione competitiva è brutale e simmetrica: nessun laboratorio può fermarsi, perché tutti gli altri stanno correndo.

Marcatura di classe: questa è una constatazione storiografica sul ritmo di rilascio, documentabile dalle date pubbliche dei vari modelli. Non è una filiazione (i laboratori non si copiano direttamente) né un’analogia con corse industriali precedenti (la dinamica è specifica per intensità di capitale richiesto e per simultaneità).

Angolo tecnico: scaling continua, ma i bottleneck cambiano

Sezione intitolata “Angolo tecnico: scaling continua, ma i bottleneck cambiano”

Il secondo angolo è tecnico. Le scaling laws (Kaplan et al. 2020, raffinate da Hoffmann et al. 2022 con Chinchilla — vedi scaling-laws e compute-optimal in preparazione, Parte XI) prevedono che la performance di un LLM cresca in modo prevedibile con compute, parametri e dati. Nel 2023 questa previsione viene confermata: GPT-4 (stima ~1.7T parametri totali, ~280B attivi via MoE secondo leak) batte GPT-3.5 (175B parametri) su quasi tutti i benchmark, in modo coerente con l’estrapolazione delle scaling laws. PaLM 2 (~340B), Claude 2, Llama 2 70B, Gemini Ultra confermano lo stesso pattern.

Ma emergono tre bottleneck strutturali che non erano visibili nei paper accademici. Il primo è il compute hardware: NVIDIA H100 esce nel 2022 ma diventa il collo di bottiglia produttivo nel 2023, con liste d’attesa di mesi e prezzi unitari sopra i quarantamila dollari. Il secondo sono i dati di pre-training: il web indicizzabile di alta qualità è una risorsa finita, il dibattito sul “data wall” inizia a circolare in paper come Villalobos et al. “Will We Run Out of Data? An Analysis of the Limits of Scaling Datasets in Machine Learning” (arXiv:2211.04325, ottobre 2022). Il terzo è l’energia elettrica: i datacenter di addestramento per modelli frontier consumano nell’ordine di decine di megawatt sostenuti per mesi, e iniziano a competere con la rete elettrica civile in alcune regioni.

Il risultato è che lo scaling continua a pagare in performance, ma a costi unitari crescenti. GPT-3 era stato addestrato per circa 4.6 milioni di dollari di compute (stima Lambda Labs 2020). PaLM è stimato attorno ai 10-15 milioni. GPT-4 è stimato da analisti del settore (Heim 2024, SemiAnalysis 2023) fra 50 e 100 milioni di dollari di solo compute. Gemini Ultra plausibilmente sopra i 100 milioni. La curva costo-performance non sta piegando verso l’efficienza: sta piegando verso l’esclusione di chiunque non sia un hyperscaler o un laboratorio molto ben capitalizzato.

Angolo architetturale: la fine dell’unico paradigma

Sezione intitolata “Angolo architetturale: la fine dell’unico paradigma”

Il terzo angolo riguarda l’architettura. Per il periodo 2017-2022, il paradigma dominante era stato unificato: decoder-only Transformer, dense, addestrato su next-token prediction su corpus testuale, eventualmente fine-tunato con SFT + RLHF. GPT-1, GPT-2, GPT-3, GPT-3.5, ChatGPT, PaLM, Chinchilla erano tutti varianti di questo schema base, scalate in parametri e dati.

Il 2023 rompe l’unicità del paradigma in tre direzioni contemporanee. Le Mixture-of-Experts (MoE) entrano come architettura di produzione mainstream: GPT-4 è quasi certamente MoE (basato su leak indipendenti di George Hotz e di SemiAnalysis di luglio-agosto 2023, mai confermati né smentiti da OpenAI), Mixtral 8x7B di dicembre rende l’architettura pubblica e open. La multimodalità nativa sostituisce l’approccio “bolted-on” dei sistemi precedenti: GPT-4 accetta input immagini fin dal lancio (anche se la capacità è gated fino a settembre 2023 con GPT-4V), Gemini è progettato fin dall’inizio per testo, immagini, audio, video. I context window crescono di un ordine di grandezza in pochi mesi: da 4-8k token tipici di metà 2022 a 100k di Claude 2 (luglio 2023), a 200k di Claude 2.1 (novembre 2023), a 1M di Gemini 1.5 (febbraio 2024).

Marcatura di classe: questa è una constatazione architetturale documentabile dai paper e dai blog ufficiali dei vari laboratori. Nessuna delle tre direzioni è inventata nel 2023 (MoE ha precedenti in Shazeer et al. 2017, multimodalità in CLIP del 2021 e Flamingo del 2022, long context in Longformer del 2020 e altri); il 2023 è l’anno in cui passano da ricerca a produzione mainstream simultaneamente.

Il 14 marzo 2023, OpenAI pubblica il blog post “GPT-4” e il “GPT-4 Technical Report” (arXiv:2303.08774). Il paper è insolito per il settore: trentanove pagine di cui la maggior parte sono benchmark di valutazione, una sezione molto breve sulla metodologia di training, e una dichiarazione esplicita di non-disclosure su architettura, dimensioni del modello, dati di training, costo computazionale. La motivazione, scritta nel paper, cita “the competitive landscape and the safety implications of large-scale models like GPT-4”. Una rottura con la tradizione di OpenAI dei paper GPT-2 e GPT-3, che avevano riportato dimensioni e compositione dei dataset.

Quello che è disclosed: GPT-4 accetta input multimodale (testo + immagini), produce solo testo in output, ha context window iniziale di 8192 token con una variante a 32k disponibile in API a partire da fine marzo. Su benchmark accademici e professionali standard, raggiunge performance di top decile su molti esami: simulato Uniform Bar Exam con punteggio attorno al 90° percentile (rispetto al 10° percentile di GPT-3.5), GRE Verbal e Quantitative sopra il 95° percentile, AP Biology e History 5/5, USMLE step 1 sopra la soglia di passaggio. La variante visiva permette di interpretare grafici, schemi, screenshot, foto.

Quello che non è disclosed e che la comunità ha ricostruito da leak nei mesi successivi:

  • Architettura. Stimata Mixture-of-Experts da circa 8 esperti da 220 miliardi di parametri ciascuno, per un totale di circa 1.7-1.8 trilioni di parametri, con circa 280 miliardi di parametri attivi per token (top-2 routing). Fonte: George Hotz (hacker e fondatore di Comma.ai) in un podcast di luglio 2023, indipendentemente confermato da SemiAnalysis (Dylan Patel) in un report di agosto 2023. OpenAI non ha mai confermato né smentito.
  • Dati di training. Mix di web crawl, libri, codice, dati conversazionali. Knowledge cutoff settembre 2021 al lancio (poi aggiornato a aprile 2023, poi dicembre 2023 in versioni successive).
  • Costo di training. Stimato fra 50 e 100 milioni di dollari di solo compute, con riferimento a circa 25.000 GPU A100 per circa tre mesi.
  • Tempi. Il modello era completato entro l’agosto 2022, secondo dichiarazioni successive di Sam Altman. È stato tenuto interno per circa sei mesi, durante i quali è stato sottoposto a red teaming e safety alignment, prima del rilascio a marzo 2023.

Il rilascio è simultaneo su due canali. ChatGPT Plus (lanciato a 20 dollari al mese il 1 febbraio 2023) ottiene accesso a GPT-4 dal 14 marzo. Le API di OpenAI rendono GPT-4 disponibile via waitlist agli sviluppatori. Microsoft conferma il giorno stesso che Bing Chat girava già su una versione di GPT-4.

Lo stesso 14 marzo 2023, Anthropic annuncia Claude. Il rilascio iniziale è limitato a partner aziendali selezionati (Notion, Quora con Poe, DuckDuckGo, Robin AI), senza un’interfaccia consumer pubblica come ChatGPT. La scelta di posizionamento è esplicitamente “B2B-first”: Anthropic non vuole replicare il modello di adozione consumer di ChatGPT, preferendo costruire credibilità e ricavi attraverso integrazioni enterprise.

Il modello al lancio ha context window di 9000 token, performance comparabili a GPT-3.5 su molti benchmark, e una postura di safety distintiva grazie al training con Constitutional AI. La “costituzione” è un set di principi scritti in linguaggio naturale (derivati da fonti come la Dichiarazione Universale dei Diritti dell’Uomo, terms of service di alcune piattaforme, principi etici elaborati internamente da Anthropic) che guida un secondo modello AI nel dare feedback sul training del modello principale, sostituendo o affiancando i labeler umani della pipeline RLHF classica. Marcatura di classe: questa è una filiazione tecnica documentata: Constitutional AI deriva da RLHF (Christiano et al. 2017) e InstructGPT (Ouyang et al. 2022), con la sostituzione del feedback umano con feedback AI guidato da costituzione.

Claude 2 esce l’11 luglio 2023 con un cambiamento strutturale: context window di 100.000 token, primo modello di produzione a offrire questa scala di contesto. La capacità è tecnicamente impressionante: 100k token corrispondono approssimativamente a 75.000 parole, ovvero un romanzo breve o una raccolta di documenti aziendali sostanziosa. Anthropic apre anche un’interfaccia web pubblica claude.ai inizialmente per utenti USA e UK. Claude 2.1 a novembre 2023 estende il contesto a 200.000 token e introduce miglioramenti di accuratezza su long-context retrieval.

Sul piano commerciale, Anthropic raccoglie nel 2023 round successivi che la portano da startup di nicchia a attore principale: 300 milioni da Google ad aprile, 450 milioni in Series C a maggio (lead Spark Capital), 4 miliardi da Amazon a settembre con un secondo tranche da 4 miliardi annunciato per il 2024, 2 miliardi da Google a ottobre. A fine 2023 la valutazione è sopra i 18 miliardi di dollari.

Il 24 febbraio 2023, una settimana prima di GPT-4 e Claude, Meta AI Research rilascia il paper “LLaMA: Open and Efficient Foundation Language Models” (Touvron et al., arXiv:2302.13971). Il paper descrive una famiglia di quattro modelli (7B, 13B, 33B, 65B parametri) addestrati su circa 1-1.4 trilioni di token di dati pubblicamente disponibili, principalmente in linea con i principi compute-optimal di Chinchilla (più dati, parametri minori del massimo possibile per il compute budget).

I weights non sono pubblicati apertamente. Meta li distribuisce su richiesta a ricercatori accademici registrati, con licenza non commerciale. Il 3 marzo 2023, una settimana dopo il rilascio, qualcuno pubblica i weights di tutti e quattro i modelli su 4chan tramite un torrent. La diffusione è immediata e irreversibile. Il giorno successivo, la pagina della pull request su GitHub di facebookresearch/llama che chiede di aggiungere il magnet link al README diventa virale come simbolo dell’evento. Meta non agisce contro la diffusione.

Il leak ha un effetto catalitico sull’ecosistema open source. Nelle settimane successive emergono Alpaca (Stanford, marzo 2023, fine-tune di Llama 7B su 52k istruzioni generate da GPT-3, costo training stimato 600 dollari), Vicuna (UC Berkeley + CMU + Stanford + UCSD, marzo 2023, fine-tune su 70k conversazioni di ShareGPT, performance dichiarata vicina a ChatGPT su valutazione preliminare), Koala (Berkeley, aprile 2023), GPT4All (Nomic AI, marzo 2023), e decine di altri fine-tune in pochi mesi. Per la prima volta dal lancio dell’API GPT-3 nel 2020, esiste un modello base liberamente disponibile (anche se tecnicamente illecitamente per chi non aveva firmato la licenza accademica) abbastanza capace da essere alla base di un ecosistema di derivati.

Il 10 maggio 2023, durante la keynote di Google I/O, Sundar Pichai annuncia PaLM 2. Il “PaLM 2 Technical Report” (Anil et al., maggio 2023) descrive il successore del PaLM originale (Chowdhery et al. aprile 2022, 540 miliardi di parametri). PaLM 2 è dichiaratamente più piccolo del predecessore in numero di parametri — stime esterne lo collocano attorno ai 340 miliardi, anche se Google non conferma — ma addestrato su un mix di dati più ampio e curato, in linea con le lezioni di Chinchilla (compute-optimal scaling).

PaLM 2 rimpiazza LaMDA come modello sotto Bard. Quattro varianti vengono distribuite (Gecko, Otter, Bison, Unicorn, in ordine crescente di taglia) per coprire differenti use case, dal mobile on-device (Gecko) al frontier (Unicorn). Il modello ha forte capacità multilingua (oltre 100 lingue rappresentate nel pre-training), e una variante codice-specializzata (Codey) che alimenta gli auto-complete di Google Cloud. Per uso clinico esce Med-PaLM 2 con performance specializzate su benchmark medici USMLE.

Il rilascio è coerente con la strategia di Google: portare i modelli in tutti i prodotti consumer ed enterprise (Workspace con Duet AI annunciato lo stesso I/O, Cloud Vertex AI, Bard, Search Generative Experience). Il problema percepito dal mercato è che PaLM 2 arriva due mesi dopo GPT-4 e non lo supera nettamente sui benchmark più visibili. L’azione Google, salita del 5% nei giorni dell’annuncio, non recupera la perdita strutturale del 7 febbraio.

Il 18 luglio 2023 Meta rilascia Llama 2 (Touvron et al., arXiv:2307.09288). Tre dimensioni (7B, 13B, 70B parametri), training su circa 2 trilioni di token, e per ciascuna taglia sia una versione “base” pre-training-only sia una versione “Chat” fine-tunata con SFT + RLHF. La novità centrale rispetto a Llama 1 non è tecnica ma giuridica: i weights sono open con una “Llama 2 Community License” che permette uso commerciale per organizzazioni con meno di 700 milioni di utenti attivi mensili (clausola pensata per escludere le big tech concorrenti, ma che lascia praticamente tutti gli altri liberi di usarlo).

Il rilascio avviene in partnership con Microsoft (Llama 2 disponibile su Azure) e con Hugging Face come piattaforma di distribuzione principale. Il paper accompagna il rilascio con un livello di dettaglio raro nel settore commerciale: descrizione della pipeline RLHF con due reward model (uno per helpfulness, uno per safety), quantità di feedback umano usato (oltre un milione di annotazioni), strategie di red teaming, valutazioni di safety. È il documento più trasparente sul training di un modello di scala significativa rilasciato da un attore commerciale fino a quel momento.

L’effetto sull’ecosistema open è pari o superiore al leak di Llama 1. Llama 2 70B Chat diventa il riferimento per benchmark “best open model” del 2023. Fine-tune specializzati emergono in dozzine: Code Llama (Meta stesso, agosto 2023), Llama 2 Long (Meta, settembre 2023, context 32k), Llemma (matematica), MetaMath, Alpaca-2, Nous-Hermes, e centinaia di altri rilasciati su Hugging Face nei mesi successivi.

Mistral 7B e Mixtral (settembre e dicembre 2023, Mistral AI)

Sezione intitolata “Mistral 7B e Mixtral (settembre e dicembre 2023, Mistral AI)”

Il 27 settembre 2023, Mistral AI rilascia Mistral 7B con il claim “outperforms Llama 2 13B on all benchmarks and Llama 2 34B on many benchmarks” (paper “Mistral 7B”, Jiang et al. 2023, arXiv:2310.06825). Il modello è rilasciato con licenza Apache 2.0 — un’apertura più radicale di Llama 2 (che ha la sua licenza custom). Architetturalmente introduce due innovazioni di efficienza: Sliding Window Attention (attention limitato a una finestra mobile di 4096 token, per estendere il context efficace senza esplosione di compute) e Grouped-Query Attention (compromesso fra Multi-Head e Multi-Query Attention, vedi mqa-gqa in preparazione, Parte IX).

Il modello viene distribuito inizialmente come torrent magnet link su Twitter da un account Mistral AI senza accompagnamento di blog post elaborato, in deliberato richiamo al pattern del leak Llama 1. La provocazione comunicativa è parte del posizionamento del laboratorio.

L’11 dicembre 2023, Mistral rilascia Mixtral 8x7B (paper “Mixtral of Experts”, Jiang et al. 2024, arXiv:2401.04088), il primo Mixture-of-Experts apertamente disponibile a queste prestazioni. Il modello ha 8 esperti per layer, ciascuno strutturalmente di taglia 7B; routing top-2 (per ogni token, 2 esperti su 8 sono attivi); circa 47 miliardi di parametri totali, circa 13 miliardi attivi per token. Performance superiori a Llama 2 70B su molti benchmark, con costo di inferenza significativamente inferiore. Anche Mixtral è Apache 2.0.

Il 6 dicembre 2023, Google DeepMind rilascia Gemini 1.0 (paper “Gemini: A Family of Highly Capable Multimodal Models”, Gemini Team, dicembre 2023, arXiv:2312.11805). Tre dimensioni: Nano (per on-device su Pixel 8), Pro (per Bard generalista e API), Ultra (modello frontier, dichiarato superiore a GPT-4 su 30 di 32 benchmark testati). L’architettura è multimodale dal pre-training: testo, immagini, audio, video sono trattati come token in un singolo Transformer, non come modalità “bolted-on” via encoder separati.

Il rilascio è ben coreografato ma incappa in una controversia visibile. Il video promozionale “Hands-on with Gemini: Interacting with multimodal AI” mostra il modello che risponde in tempo reale a stimoli visivi e verbali continui. Bloomberg e altri rivelano nei giorni successivi che il video era stato editato post-fact: i prompt erano stati composti via testo, non parlati; le risposte erano state selezionate come “best of many takes”; la latenza apparente era stata accelerata in editing. Google ammette in una dichiarazione che il video usava “still image frames from the footage and prompted via text”, e che il risultato era “for inspirational purposes”. L’episodio diventa case study di marketing AI e contribuisce a un atteggiamento più scettico della stampa verso le demo successive del settore.

Gemini Ultra non è inizialmente disponibile: viene rilasciato solo a febbraio 2024 in “Gemini Advanced”. Gemini Pro alimenta Bard da dicembre 2023, e a febbraio 2024 Bard viene rinominato Gemini, allineando brand di prodotto e brand di modello.

Hinton lascia Google e il dibattito sui rischi (maggio 2023)

Sezione intitolata “Hinton lascia Google e il dibattito sui rischi (maggio 2023)”

Il 1 maggio 2023, Geoffrey Hinton (informatico britannico-canadese, 1947-, Turing Award 2018, “godfather of deep learning”) annuncia in un’intervista al New York Times di aver lasciato Google “to talk freely about the risks of AI”. Hinton aveva collaborato con Google dal 2013 (acquisizione di DNNresearch) e aveva ricevuto stock options significative dall’azienda. La sua decisione di uscire per parlare apertamente arriva subito dopo i rilasci di GPT-4 e Claude e contemporaneamente al consolidamento competitivo del settore.

I temi che Hinton evidenzia in interviste successive (NYT, BBC, MIT Tech Review fra aprile e maggio 2023): rischio che i modelli diventino più capaci dei loro creatori, rischio di disinformazione automatizzata su scala, rischio di perdita di controllo sui sistemi autonomi, rischio di concentrazione di potere in poche aziende. Hinton dichiara esplicitamente di non poter sottoscrivere la lettera FLI (la considera “tatticamente sbagliata”) ma di condividerne le preoccupazioni di fondo.

L’episodio è significativo per due ragioni. Primo, mostra una frattura visibile fra la generazione che ha costruito il deep learning e una porzione del settore tech che minimizza i rischi sistemici. Secondo, contribuisce alla legittimazione politica del dibattito sui rischi: nei mesi successivi, vari ricercatori esprimono preoccupazioni in pubblico (Bengio, Russell, Hinton appunto), creando il contesto culturale in cui Biden EO e UK AI Safety Summit possono essere annunciati con copertura mediatica favorevole.

Pattern correlato: Ilya Sutskever in OpenAI, già co-leader del team Superalignment con Jan Leike, esprime preoccupazioni simili in interviste interne dell’epoca (riportate post-fact in retrospettive del 2024). Il filone “scientists worried about their own creation” diventa elemento riconoscibile del discorso sull’AI nel 2023, in opposizione al filone “accelerationist” dell’effective accelerationism (e/acc) che emerge nello stesso periodo.

Il 2023 vede l’emersione di un ecosistema di modelli di alta qualità da laboratori cinesi e altri paesi non statunitensi:

  • Qwen (Alibaba Cloud, da agosto 2023): prima famiglia open di LLM da Alibaba, dimensioni 7B e 14B (fra l’altro), forte capacità su lingua cinese e inglese, license commerciale.
  • DeepSeek (DeepSeek, novembre 2023): primi rilasci da DeepSeek Inc., laboratorio fondato dal manager finanziario Liang Wenfeng. Modelli 7B e 67B parametri. Setta la base per i lavori successivi (DeepSeek-V2 nel 2024, DeepSeek-V3 e R1 nel 2025, vedi ragionamento-2024-2026 in preparazione, Parte I).
  • Yi (01.AI, novembre 2023): modelli 6B e 34B di Kai-Fu Lee, fondatore di 01.AI a marzo 2023. Performance competitive su benchmark cinesi e inglesi.
  • Falcon (Technology Innovation Institute, Abu Dhabi, maggio-settembre 2023): modelli 7B, 40B, 180B con licenza permissiva. Falcon 180B è temporaneamente il più grande modello open weights al mondo a settembre 2023.
  • MPT (MosaicML, da maggio 2023): MPT-7B e MPT-30B, ottimizzati per training cost-efficient. MosaicML viene acquisita da Databricks per 1.3 miliardi di dollari a settembre 2023, in una delle exit AI più visibili dell’anno.

Quattro tendenze attraversano i rilasci.

Multimodalità nativa. GPT-4 accetta immagini in input dal lancio (capacità rilasciata ampiamente come “GPT-4V” il 25 settembre 2023). Gemini è multimodale in pre-training. La direzione è verso modelli generalisti che accettano qualsiasi modalità rappresentabile come sequenza di token.

Context window growth. La progressione del 2023 è ripida: GPT-3.5 inizia l’anno a 4k token, GPT-4 a 8k/32k, Claude 2 sale a 100k a luglio, Claude 2.1 a 200k a novembre. La tendenza prosegue nel 2024 con Gemini 1.5 a 1M token. La crescita è abilitata da tecniche come sliding window attention, attention sinks, RoPE scaling con NTK-aware interpolation, ring attention, Flash Attention 2 (vedi long-context-tecniche in preparazione, Parte X).

MoE come architettura per il frontier. GPT-4 (presunto), Mixtral 8x7B (apertamente). Il pattern: separare “parametri totali” (capacità del modello) da “parametri attivi per token” (costo di inferenza), permettendo modelli molto grandi con costo di servizio gestibile. Il trade-off è memoria (tutti gli esperti devono essere caricati anche se ne usi due) vs compute (calcoli solo gli esperti selezionati). Vedi moe-fondamenti e moe-economia (in preparazione, Parte X) per la trattazione tecnica.

Costi di training crescenti. La curva GPT-3 a 4.6M, PaLM a 10-15M, GPT-4 stimato 50-100M, Gemini Ultra plausibilmente sopra 100M, è esponenziale e disegna una curva di esclusione: organizzazioni che non possono permettersi nove cifre di compute non possono restare al frontier. Il dibattito su “diminishing returns” inizia a circolare in questo periodo, ma viene sospeso fino al 2024-2025 quando l’evidenza si fa più chiara.

La dimensione capital del 2023 va letta in scala. Il funding venture totale dedicato a startup AI passa da circa 5 miliardi di dollari nel 2022 a oltre 30 miliardi nel 2023, secondo i conteggi di Crunchbase e PitchBook (le metodologie variano leggermente, ma l’ordine di grandezza del salto è confermato da fonti indipendenti). I round principali del 2023:

  • Microsoft in OpenAI, gennaio 2023: investimento “multi-anno multi-miliardario” stimato dalla stampa attorno ai 10 miliardi di dollari, infrastruttura Azure inclusa, accordo di revenue share complesso.
  • Anthropic, durante il 2023: 300M Google ad aprile, 450M Series C maggio (Spark Capital lead), 4B Amazon a settembre, 2B Google a ottobre. Valutazione fine 2023 sopra i 18 miliardi.
  • Inflection AI, giugno 2023: 1.3 miliardi raccolti (Microsoft, Reid Hoffman, Bill Gates, NVIDIA). Acquisita da Microsoft come “acqui-hire” a marzo 2024 dopo difficoltà commerciali.
  • Mistral AI, giugno 2023 Series A: circa 105 milioni di euro a valutazione 240 milioni di euro su una società di sei settimane. Successive round 2023-2024 portano la valutazione sopra i 2 miliardi di euro.
  • Cohere, giugno 2023: 270 milioni di dollari Series C a valutazione 2.2 miliardi.
  • Adept, marzo 2023: 350 milioni Series B a valutazione 1 miliardo.
  • xAI, fondata da Elon Musk a luglio 2023, raccoglie 6 miliardi a fine 2024 a valutazione 24 miliardi.

NVIDIA è il beneficiario asimmetrico. La sua azione passa da circa 146 dollari a inizio 2023 a circa 495 a fine anno (split-adjusted), una crescita del 240% in dodici mesi. La capitalizzazione di mercato passa da circa 360 miliardi a circa 1200 miliardi. Le H100 sono il bene più scarso del settore tech: lead time di 6-12 mesi per ordini significativi, prezzi unitari sopra i 40.000 dollari, allocation gestita personalmente da Jensen Huang per i clienti strategici.

Il pattern è chiaro: il 2023 è anno di concentrazione di capitale verso i laboratori di frontiera, con barriere di accesso che si alzano per chi arriva dopo. Le startup AI che riescono a raccogliere round significativi sono quelle che possono dimostrare di avere accesso privilegiato a compute (via partnership cloud o investitori strategici) o team con track record diretto in OpenAI, DeepMind, FAIR.

Il SAT (Scholastic Assessment Test) è un esame standardizzato statunitense con due sezioni principali, Math e Evidence-Based Reading and Writing (EBRW), ciascuna su scala 200-800 per un totale 400-1600. Il GPT-4 Technical Report riporta i punteggi simulati ottenuti somministrando ai modelli test SAT pubblicati pubblicamente.

GPT-3.5: SAT EBRW 670, SAT Math 590, totale 1260. Posizionamento: 87° percentile circa. GPT-4: SAT EBRW 710, SAT Math 700, totale 1410. Posizionamento: 93° percentile circa.

Il salto è significativo soprattutto in Math (+110 punti) e meno marcato in EBRW (+40 punti). Il pattern è coerente con altri benchmark: GPT-4 mostra miglioramenti più pronunciati su task che richiedono ragionamento multi-step (matematica, logica, code generation) rispetto a task di pura conoscenza fattuale o composizione testuale, dove il margine di miglioramento sopra GPT-3.5 era già più stretto. Il guadagno su Math non è ancora a livello di top decile umano: studenti che ottengono 800 in Math (perfetto) sono ancora nettamente superiori. Ma per la prima volta un LLM general-purpose si colloca, su un esame standard non addestrato specificamente per quel test, sopra il novantesimo percentile di una popolazione di studenti competitivi.

Esempio 2: come funziona Mixtral 8x7B (MoE in pratica)

Sezione intitolata “Esempio 2: come funziona Mixtral 8x7B (MoE in pratica)”

Mixtral 8x7B è il primo Mixture-of-Experts open di scala competitiva. Per capire come funziona, segui il percorso di un singolo token attraverso un layer del modello.

Input: il token corrente (rappresentato come vettore di embedding di dimensione 4096) entra nel blocco Transformer. Il blocco ha la struttura standard: Self-Attention con RoPE positional encoding (Grouped-Query Attention con 32 query heads e 8 key/value heads), seguito da un layer Feed-Forward.

Differenza chiave rispetto a un Transformer dense: il Feed-Forward layer non è un singolo MLP. È costituito da 8 esperti separati, ciascuno un MLP di dimensioni standard (FFN size 14336, SwiGLU activation), e da un router. Il router è un piccolo network lineare che produce 8 logits dal vettore di input del token. Si applica softmax per ottenere 8 probabilità, si selezionano le top-2 (i due esperti con probabilità più alta), si rinormalizza la distribuzione sui 2 selezionati.

Output: il token viene processato dai 2 esperti selezionati. I loro output vengono combinati con la weighted sum usando le probabilità rinormalizzate del router. Il risultato è il vettore di output del Feed-Forward layer, che procede al prossimo blocco Transformer.

Conseguenze pratiche:

  • Per ogni token, solo 2 dei 8 esperti del Feed-Forward sono attivi. Il costo di compute per token è simile a un modello con un solo expert da 7B parametri di FFN (più Self-Attention condivisa).
  • Tutti gli 8 esperti devono essere in memoria, perché token diversi nello stesso batch possono routing su esperti diversi. Memoria richiesta come modello da 47B parametri totali.
  • Il router è addestrato congiuntamente al resto del modello con un auxiliary loss che incentiva il bilanciamento del carico fra esperti (load balancing loss). Senza questo loss, il router tenderebbe a concentrare tutto il traffico su uno o due esperti, sprecando capacità.

Pseudocodice del routing:

def moe_layer(x, experts, router):
# x: [batch, seq, hidden_dim]
# experts: lista di 8 MLP
# router: linear da hidden_dim a 8
logits = router(x) # [batch, seq, 8]
probs = softmax(logits, dim=-1)
top2_probs, top2_idx = topk(probs, k=2, dim=-1)
top2_probs = top2_probs / top2_probs.sum(dim=-1, keepdim=True)
out = zeros_like(x)
for i in range(2):
expert_idx = top2_idx[..., i]
weight = top2_probs[..., i].unsqueeze(-1)
# Per ogni token, applica l'expert selezionato
expert_out = apply_expert_per_token(x, experts, expert_idx)
out = out + weight * expert_out
return out

Marcatura di classe: questo è un esempio operativo della meccanica MoE, derivato dal paper Mixtral e dall’implementazione di riferimento. Per la trattazione completa di MoE come architettura vedi moe-fondamenti e moe-routing (in preparazione, Parte X).

Il 6 febbraio 2023 Google annuncia Bard via blog post di Sundar Pichai. La demo pubblica è programmata per il 7 febbraio a Parigi, prevista come risposta strategica al Microsoft Bing event del giorno precedente. Una delle slide del demo mostra Bard che risponde alla domanda “What new discoveries from the James Webb Space Telescope can I tell my 9 year old about?”. La risposta in tre punti, mostrata in screenshot:

  1. In 2023, The JWST spotted a number of galaxies nicknamed “green peas”.
  2. The telescope captured images of galaxies that are over 13 billion years old.
  3. JWST took the very first pictures of a planet outside of our own solar system.

Il terzo punto è falso. La prima immagine diretta di un esopianeta era stata fatta nel 2004 dal telescopio terrestre Very Large Telescope dello European Southern Observatory in Cile (sistema 2M1207). JWST ha prodotto immagini importanti di esopianeti nel 2022 (HIP 65426 b, novembre), ma non “le prime in assoluto”.

Astronomi su Twitter, fra cui Grant Tremblay (Center for Astrophysics, Harvard) e Bruce Macintosh (UC Santa Cruz, parte del team Gemini Planet Imager), notano l’errore nelle ore successive. La storia raggiunge la stampa generalista entro fine giornata. Il giorno seguente, 8 febbraio, Alphabet (la holding di Google) chiude con una perdita di circa 100 miliardi di dollari di capitalizzazione di mercato, una delle più grandi perdite giornaliere di valore di una singola azienda in termini assoluti dell’anno.

Cosa insegna l’episodio: hallucination strutturale degli LLM (vedi hallucination in preparazione, Parte XX) non è un bug occasionale ma una proprietà del paradigma autoregressive next-token. Il modello produce l’output statisticamente più plausibile dato il prompt, anche quando non sa. Per una demo pubblica del prodotto di punta di un’azienda da trilioni di dollari, una factual error in tre frasi è sufficiente a costare cento miliardi di valore. Il messaggio per il settore: i modelli vanno presentati onestamente come fallibili, e i prodotti vanno costruiti con strati di verifica, retrieval, citation, abstention. Il pattern della “factuality demo” viene rivisto dopo questo episodio in tutti i grandi laboratori.

Il 22 marzo 2023, otto giorni dopo i rilasci di GPT-4 e Claude 1, il Future of Life Institute (organizzazione non-profit USA fondata nel 2014 da Max Tegmark, fisico cosmologo del MIT, fra gli altri) pubblica una lettera aperta intitolata “Pause Giant AI Experiments: An Open Letter”. Il testo chiede a “all AI labs to immediately pause for at least 6 months the training of AI systems more powerful than GPT-4”. Argomenti: rischi di disinformazione su scala industriale, automazione del lavoro a cascata, perdita di controllo su sistemi sempre più capaci, possibilità di “out-of-control AI race”.

I primi firmatari di alto profilo includono Elon Musk (allora già fondatore di xAI in incubazione), Steve Wozniak (co-fondatore di Apple), Yoshua Bengio (Turing Award 2018, IVADO/MILA), Stuart Russell (UC Berkeley, autore del libro standard di AI), Yuval Noah Harari (storico), Tristan Harris (Center for Humane Technology), Andrew Yang (politico USA). Le firme superano le 1000 nelle prime 24 ore, le 30.000 nelle settimane successive (con caveat: il sistema di firma online non aveva verifica robusta, alcune firme di alto profilo erano dichiarate falsamente).

La lettera diventa il documento centrale del dibattito pubblico sulla regolamentazione AI nel 2023. Sam Altman risponde indirettamente in interviste successive (“alcune delle preoccupazioni sono valide, ma una pausa unilaterale di sei mesi non è la soluzione giusta”). Demis Hassabis prende le distanze in un’intervista al Time. Yann LeCun firma una contro-lettera del Future of Life Institute stesso che minimizza i rischi.

Il fatto: nessun laboratorio si è fermato. Nei sei mesi successivi (marzo-settembre 2023) escono PaLM 2, Llama 2, Claude 2, Mistral 7B, Falcon 180B, GPT-4V. Il pattern di rilascio non rallenta. L’unico effetto misurabile della lettera è di accelerare i percorsi di regolamentazione governativa (Biden EO ottobre, EU AI Act dicembre, AI Safety Summit Bletchley novembre), che però partono indipendentemente. Marcatura di classe: questa è una constatazione storiografica sulla relazione fra advocacy informale e azione industriale; la lettera è caso esemplare di “moral suasion” che non si traduce in coordinamento volontario, in linea con la struttura di gioco non-cooperativo del settore.

Per dare un’idea concreta di cosa significava “frontier open weights nel 2023”, segui un’interazione tipica con Llama 2 70B Chat su un task di code generation, eseguito su un’istanza GPU singola da 80GB (NVIDIA A100) con quantization int8 per stare in memoria.

Prompt utente:

Write a Python function that takes a list of integers and returns
the second largest unique value. Handle the case where the list
has fewer than 2 unique values by returning None.

Risposta tipica del modello (produzione documentata in valutazioni dell’epoca):

def second_largest_unique(nums):
unique_values = set(nums)
if len(unique_values) < 2:
return None
sorted_values = sorted(unique_values, reverse=True)
return sorted_values[1]

Seguita da una breve spiegazione del codice, esempi di chiamata, gestione dei caso limite. Il codice è funzionalmente corretto, leggibile, gestisce il caso edge specificato.

Confronti contemporanei (HumanEval pass@1 dichiarati nel paper Llama 2): GPT-3.5 48.1%, GPT-4 67.0%, Llama 2 70B Chat 29.9%. Il gap su benchmark code è significativo. Su task generali di linguaggio (MMLU), Llama 2 70B raggiunge circa 68.9% contro 70% di GPT-3.5 e 86.4% di GPT-4. Il messaggio: open weights nel 2023 raggiungono performance vicine a GPT-3.5 in molti domini, restano nettamente sotto GPT-4 nei domini dove GPT-4 eccelle (codice, matematica, ragionamento multi-step). La narrativa “open ha raggiunto closed” è prematura per il 2023; diventa più sostenibile dal 2024 in avanti con Llama 3, Mistral Large, DeepSeek-V3, e i modelli reasoning del 2025.

[DATATO 2026-04]

La sezione sotto raccoglie gli sviluppi successivi al 2023 che derivano direttamente dai pattern di quel periodo. Vive separata dal corpo storico per non proiettare il presente sul passato.

I prodotti del 2023 hanno avuto continuità di lineage chiaramente tracciabile. GPT-4 (marzo 2023) → GPT-4 Turbo (novembre 2023) → GPT-4o (maggio 2024, “omni” multimodale unificato) → o1 (settembre 2024, primo reasoning model con thinking visibile) → o3 (annunciato dicembre 2024, rilasciato 2025) → GPT-5 (2025-2026). Claude 1 (marzo 2023) → Claude 2 (luglio 2023) → Claude 2.1 (novembre 2023) → Claude 3 famiglia Haiku/Sonnet/Opus (marzo 2024) → Claude 3.5 Sonnet (giugno 2024, miglioramento generazionale dentro la stessa label) → Claude 3.5 Sonnet new (ottobre 2024, computer use) → Claude 3.7 Sonnet (febbraio 2025, hybrid reasoning) → Claude 4 famiglia (maggio 2025) → Claude Opus 4.6/4.7 (fine 2025-2026). Gemini 1.0 (dicembre 2023) → Gemini 1.5 Pro (febbraio 2024, 1M context) → Gemini 1.5 Flash → Gemini 2.0 (dicembre 2024) → Gemini 2.5 Pro (2025). Llama 1 (febbraio 2023) → Llama 2 (luglio 2023) → Llama 3 (aprile 2024) → Llama 3.1 405B (luglio 2024, primo Llama frontier) → Llama 4 (2025). Mistral 7B (settembre 2023) → Mixtral 8x7B (dicembre 2023) → Mistral Large (febbraio 2024) → Mistral Large 2 → Codestral.

NVIDIA chiude il 2023 con market cap di circa 1200 miliardi di dollari, partendo da circa 360 miliardi a inizio anno. A fine 2024 supera i 3000 miliardi, brevemente la società più valutata al mondo. H100 resta il bene scarso del settore fino al rilascio del successore Blackwell (B100/B200, annunciato marzo 2024, in volume 2025). Le alternative emergono ma non dominano: TPU di Google (v5p e Trillium nel 2024), Trainium di AWS (v2 nel 2024), Microsoft Maia (2024), Cerebras WSE-3 (2024), Groq, SambaNova. Il “compute moat” per i modelli frontier resta strutturale: addestrare un modello da decine di miliardi di parametri richiede cluster di decine di migliaia di GPU coordinate, fuori portata per chiunque non sia un hyperscaler o un laboratorio molto ben capitalizzato.

Il dibattito su “stiamo finendo i dati di training” si articola fra 2023 e 2024. Villalobos et al. nel 2022 stimavano l’esaurimento dei dati testuali di alta qualità per pre-training entro il 2026-2032. Le risposte del settore: dati sintetici (modelli che generano dati per addestrare modelli successivi), dati multimodali (video, audio come fonti enormi sotto-utilizzate), dati proprietari (accordi di licensing con publisher), e self-improvement loop (modelli reasoning che generano traces per il proprio fine-tuning). Il dibattito non è chiuso a fine 2025: alcuni paper sostengono che la qualità dei modelli sta saturando, altri che la curva di scaling continua se si aggiungono compute e modalità nuove.

Il 2023 cristallizza una dialettica permanente. Il fronte closed (OpenAI, Anthropic, Google) mantiene la leadership di performance di frontier ma deve giustificare prezzi premium e accettare le obiezioni di trasparenza. Il fronte open (Meta con Llama, Mistral, DeepSeek, Qwen) chiude rapidamente il gap, raggiungendo o superando le performance closed di un anno prima. Nel 2024-2025 il gap si stringe ulteriormente: Llama 3.1 405B (luglio 2024) compete con GPT-4 originale; DeepSeek-V3 (dicembre 2024) e R1 (gennaio 2025) sorprendono il settore con performance comparabili a frontier closed a costi di training dichiarati molto inferiori; Mistral Large 2 e Qwen 2.5 sono competitive su molti benchmark.

La distinzione “open weights” vs “open source” resta importante. Llama 2/3, Mistral, Qwen rilasciano weights ma non i dati di training né il codice di training dettagliato. Veri “open source” come OLMo (Allen Institute for AI) o Pythia (EleutherAI) sono minoritari ma esistono. Il dibattito su quale modello sia legittimamente “open” continua nel 2026.

L’AI Safety Summit di Bletchley Park (1-2 novembre 2023, ospitato dal Regno Unito presso il sito storico di Alan Turing e del codebreaking della Seconda guerra mondiale) è il primo summit intergovernativo dedicato esplicitamente ai rischi sistemici dell’AI di frontiera. Partecipano 28 paesi, rappresentanti dei principali laboratori (OpenAI, Anthropic, Google DeepMind, Meta, Microsoft), e una decina di esperti riconosciuti (Bengio, Stuart Russell, Andrew Yao). La “Bletchley Declaration” è firmata da USA, UK, EU, Cina, India, Giappone fra gli altri: dichiarazione di intenti su cooperazione internazionale, valutazione condivisa dei rischi sistemici, trasparenza sui modelli di frontiera. Non è un accordo vincolante, ma stabilisce un format internazionale che si ripete nei summit successivi (Seoul maggio 2024, Parigi febbraio 2025).

Sul piano nazionale emergono gli AI Safety Institutes: UK AI Safety Institute (annunciato a Bletchley, formalizzato nel 2024), US AI Safety Institute (creato dall’EO Biden a ottobre, dentro il NIST), e analoghi in Giappone, Singapore, Canada nei mesi successivi. Il modello è ispirato agli istituti di ricerca pubblica per la sicurezza nucleare e biologica. Capability di valutazione indipendente, accesso pre-deployment ai modelli frontier, red teaming sistematico.

L’EU AI Act raggiunge accordo politico l’8 dicembre 2023 nel trilogo Parlamento-Consiglio-Commissione. Adozione formale a marzo 2024, entrata in vigore graduale 2024-2026. Disposizioni specifiche su general-purpose AI models con requisiti di trasparenza e di valutazione del rischio sistemico per modelli sopra una soglia di compute (10^25 FLOPs).

Il Biden Executive Order 14110 “On the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence” del 30 ottobre 2023 stabilisce obblighi di reporting per chi addestra modelli sopra 10^26 FLOPs e crea l’AI Safety Institute. Viene revocato dall’amministrazione Trump nel gennaio 2025; alcuni elementi sopravvivono in forme modificate.

In Cina, le “Interim Measures for the Management of Generative AI Services” del Cyberspace Administration of China (entrate in vigore il 15 agosto 2023) richiedono security review per i modelli generativi pubblici, alignment con “core socialist values”, responsabilità dei provider per i contenuti generati. Il pattern è di regolamentazione restrittiva ex-ante, in contrasto con l’approccio market-driven con guardrails ex-post degli USA, e con l’approccio risk-based ex-ante dell’EU AI Act.

Il 17 novembre 2023, il board di OpenAI rimuove Sam Altman da CEO. Il giorno successivo il presidente Greg Brockman si dimette. Il 19 novembre Microsoft annuncia che Altman si unirà a un nuovo team di ricerca interno. Il 20 novembre, oltre 700 dei circa 770 dipendenti OpenAI firmano una lettera che chiede il ritorno di Altman, minacciando di seguirlo in Microsoft. Il 22 novembre, Altman torna come CEO con un nuovo board (Bret Taylor, Larry Summers, Adam D’Angelo). L’episodio diventa case study di governance fragility per i laboratori di frontiera, e accelera la transizione di OpenAI verso una struttura corporate più convenzionale (annunciata nel 2024, in attuazione 2025-2026). Vedi chatgpt-2022 per il dettaglio.

La curva costo-performance del 2023 mostra un pattern preoccupante per la sostenibilità del paradigma. Da GPT-3 (4.6M) a GPT-4 (50-100M) il costo cresce di un ordine di grandezza, mentre i miglioramenti su benchmark crescono in modo più contenuto (da 70% a 86% su MMLU, ad esempio). Il dibattito sui rendimenti decrescenti dello scaling pure inizia a circolare in modo serio a fine 2023. Le risposte tentate: data quality migliore, training algorithms più efficienti (Chinchilla-optimal), RLHF migliore, ma anche cambio di paradigma verso test-time compute scaling con i reasoning models (vedi ragionamento-2024-2026 in preparazione, Parte I). Nel 2024-2026 il dibattito si articola: il pre-training puro mostra effettivi rendimenti decrescenti, ma test-time compute scaling apre una nuova dimensione di scaling.

Tutti i modelli del 2023 hallucinano. GPT-4 hallucina meno di GPT-3.5 ma hallucina ancora; Claude 2 hallucina; Gemini hallucina; tutti gli open hallucinano. La causa è strutturale al paradigma autoregressive next-token: il modello produce l’output statisticamente più plausibile, anche quando non sa. Le mitigation (RAG, citation, fine-tuning su factuality, abstention training, constitutional AI) riducono la frequenza ma non la eliminano. La gaffe Bard del 7 febbraio è il caso esemplare, ma gli incidenti continuano per tutto il 2023 e proseguono negli anni successivi.

I “compute moat” del 2023 sono effettivi. Il numero di organizzazioni che possono addestrare un modello frontier resta nell’ordine di una decina globalmente (OpenAI, Anthropic, Google, Meta, Microsoft, xAI, alcuni laboratori cinesi come ByteDance, Alibaba, DeepSeek). La competizione si concentra in poche giurisdizioni (USA, Cina, UK in misura minore, EU come hub regolatorio più che produttivo). La narrativa “AI come democratizzazione” del 2010-2015 viene revisionata: la fine del 2023 mostra che AI di frontiera è oligopolistica, non democratica.

GPT-4V (settembre 2023), Gemini (dicembre 2023), Claude 3 vision (marzo 2024) sono impressionanti su demo curate ma fragili su task reali. Riconoscimento di testo a bassa risoluzione, ragionamento spaziale preciso (contare oggetti, misurare distanze), interpretazione di grafici scientifici complessi: ognuno di questi è un caso di failure ricorrente. Il messaggio: la multimodalità nativa del 2023 è un capability promettente ma non ancora robusta per applicazioni critical.

I bias dei corpus di pre-training restano: gender stereotypes, race biases, religious associations, asimmetrie linguistiche (lingue minoritarie sotto-rappresentate). RLHF e Constitutional AI mitigano in parte ma introducono nuovi bias (preferenze dei labeler, biases delle costituzioni scritte). Il “alignment tax” (perdita di capability come effetto collaterale dell’alignment) è documentato in più paper del 2023-2024. Critiche da entrambi i lati: chi sostiene che i modelli sono “troppo censurati”, e chi sostiene che restano “troppo bias”. Il dibattito non è risolto.

Mito 1: “GPT-4 è AGI”. GPT-4 è un LLM multimodale di grande scala, capace di performance impressionanti su molti task. Manca delle proprietà che le definizioni serie di AGI richiedono (vedi agi-definizioni in preparazione, Parte II): autonomia goal-directed, persistenza di obiettivi, capacità di apprendere nuovi domini in modo robusto, modello del mondo coerente, planning su lungo termine. Hallucina, sbaglia matematica oltre certe complessità, manca di memoria di lungo termine fra sessioni, non ha agency persistente. Il paper “Sparks of Artificial General Intelligence” (Bubeck et al., Microsoft Research, marzo 2023, arXiv:2303.12712) è stato letto a volte come rivendicazione che GPT-4 sia AGI; gli autori esplicitamente dichiarano nell’abstract che GPT-4 mostra “early sparks of AGI” ma non “AGI in any meaningful sense”.

Mito 2: “Open source ha vinto nel 2023”. Llama 2, Mistral, Falcon sono “open weights con licenza” o “permissive open weights”. I dati di training non sono pubblici, il codice di training non è pubblico, la pipeline RLHF non è interamente replicabile. La distinzione fra open weights e open source è sostantiva. Inoltre, sui benchmark frontier nel 2023, GPT-4 e Claude restano sopra Llama 2 e Falcon 180B con margine; la “vittoria open” è rivendicabile solo dal 2024-2025 con Llama 3.1 405B, DeepSeek-V3, e successori.

Mito 3: “Lo scaling continuerà per sempre”. Le scaling laws di Kaplan 2020 e Chinchilla 2022 mostrano già che esiste un bilanciamento ottimale parametri-dati per ogni budget di compute. Il 2023 mostra che i bottleneck pratici (compute hardware, energia, dati di alta qualità) sono visibili e non aggirabili banalmente. Il dibattito 2024-2025 sul “data wall” e sull’efficacia di test-time compute scaling è la naturale evoluzione di questa constatazione. “Scaling continua” è una previsione impegnativa, non una garanzia.

Mito 4: “Il leak Llama 1 è stato accidentale”. La diffusione su 4chan il 3 marzo 2023 è apparsa “leak” agli osservatori esterni. Ma la velocità con cui Meta ha accettato la situazione (nessun takedown legale, nessuna retorica di proprietà, e il successivo rilascio open di Llama 2 a luglio) suggerisce che il leak fosse stato anticipato come probabile e usato strategicamente per posizionare Meta come “campione open” in opposizione a OpenAI/Anthropic closed. La lettura del leak come “evento accidentale” sottostima il calcolo strategico di Meta.

Mito 5: “Gemini Ultra è uscito a dicembre 2023”. Gemini è stato annunciato il 6 dicembre 2023, ma Gemini Ultra (la variante frontier) non è stato disponibile fino a febbraio 2024 con il lancio di Gemini Advanced. Le valutazioni di benchmark comunicate il 6 dicembre erano vere ma non corrispondevano a un prodotto disponibile. Pattern di “annuncio prima del rilascio” che si ripete nel settore.

Mito 6: “La open letter di marzo 2023 ha avuto un impatto reale”. La lettera “Pause Giant AI Experiments” del Future of Life Institute (22 marzo 2023) ha raccolto oltre 30.000 firme, compresi nomi noti (Musk, Wozniak, Bengio). Nessun laboratorio si è fermato. Nessuno ha rallentato. La moratoria di sei mesi proposta non è mai stata implementata. L’impatto è stato in termini di visibilità del dibattito pubblico, non di azione concreta sui programmi di addestramento. Marcatura di classe: questa è una constatazione storiografica, basata sui rilasci documentati nei mesi successivi alla lettera.

Mito 7: “Constitutional AI sostituisce RLHF”. Constitutional AI è una variante della pipeline RLHF che usa feedback AI-generated guidato da una costituzione, anziché feedback umano puro. Anthropic la usa in combinazione con RLHF tradizionale, non come sostituto. La maggior parte dei laboratori usa pipeline ibride. Il dibattito metodologico fra RLHF, RLAIF, DPO, IPO, KTO, ORPO è aperto e non si risolve nel 2023 (vedi rlhf-ppo, rlaif-constitutional, dpo-family in preparazione, Parte XI).

Mito 8: “I modelli cinesi del 2023 erano marginali”. Qwen, DeepSeek, Yi sono stati pubblicamente sotto-considerati nel 2023 dal discorso anglofono. Le performance dichiarate erano spesso scettate per problemi di benchmark contamination o di selezione. Nei due anni successivi, DeepSeek-V2/V3/R1 e Qwen 2.5 hanno mostrato che la sotto-considerazione era prematura: i laboratori cinesi del 2023 erano già in posizione competitiva e hanno consolidato rapidamente. La sorpresa pubblica per DeepSeek-R1 a gennaio 2025 sarebbe stata meno sorprendente con una lettura più attenta dei rilasci 2023.

Mito 9: “Il context window grande risolve i problemi di RAG”. Claude 2 a 100k token e Claude 2.1 a 200k vengono celebrati come “fine di RAG” da una porzione di commentari del 2023. L’analisi più rigorosa (paper “Lost in the Middle” di Liu et al., luglio 2023, arXiv:2307.03172) mostra che modelli con context lungo mostrano degradation significativa nel recuperare informazioni dal centro del context (pattern U-shape: meglio ai bordi, peggio nel mezzo). Inoltre il costo di inferenza scala quadraticamente con la lunghezza del context per attention standard. RAG non viene sostituito; viene integrato (long context + retrieval mirato + reranking). Vedi lost-in-the-middle, rag-base, rag-avanzato (in preparazione, Parte XIV).

  • chatgpt-2022 — l’evento sociotecnico che innesca la corsa del 2023. Senza ChatGPT, nessuno dei rilasci del 2023 avrebbe avuto la stessa pressione competitiva o copertura mediatica.
  • gpt3-2020 — il modello base scaling. GPT-3 stabilisce il paradigma “modello molto grande addestrato su molti dati” che il 2023 spinge fino al frontier.
  • bert-gpt-2018-2019 — la separazione encoder-only / decoder-only e l’origine della linea GPT. Decoder-only è l’architettura che tutti i modelli frontier del 2023 continuano.
  • transformer-2017 — il blocco architetturale di base. Il Transformer di Vaswani et al. è ancora il building block di tutti i modelli del 2023, con varianti su attention (GQA, sliding window, flash) e con MoE come variante di Feed-Forward.
  • instruction-rlhf-era (in preparazione, Parte I) — la consolidazione di SFT + RLHF come pipeline standard, di cui Constitutional AI è variante. Il 2023 vede questa pipeline diventare assunto di base.
  • open-weights-2023-2024 (in preparazione, Parte I) — l’ecosistema open che esplode con Llama, Mistral, Falcon, e successori. Approfondisce la dimensione open del 2023.
  • era-agenti-2024 (in preparazione, Parte I) — il passaggio successivo: tool use maturo, MCP, Claude Code, Cursor. I modelli del 2023 sono il substrato su cui si costruiscono gli agenti del 2024-2026.
  • ragionamento-2024-2026 (in preparazione, Parte I) — i thinking models (o1, o3, DeepSeek-R1) come nuovo paradigma di scaling che parte dove finisce lo scaling pre-training del 2023.
  • moe-fondamenti (in preparazione, Parte X) — la trattazione tecnica di Mixture-of-Experts. GPT-4 (presunto MoE) e Mixtral aprono l’epoca produttiva di MoE; il capitolo dedicato approfondisce la meccanica.
  • moe-economia (in preparazione, Parte X) — quando MoE conviene davvero. Il pattern parametri totali / parametri attivi del 2023 è oggetto di analisi economica.
  • multimodal-vision (in preparazione, Parte X) — VLM, CLIP, ViT, patchify, cross-attention. La multimodalità di GPT-4V e Gemini è radicata in questa famiglia di tecniche.
  • multimodal-audio (in preparazione, Parte X) — audio e speech tokenizzato. Gemini estende la multimodalità a queste modalità.
  • long-context-tecniche (in preparazione, Parte X) — sliding attention, ring attention, RoPE scaling, Flash Attention. La crescita di context window del 2023-2024 è abilitata da queste tecniche.
  • scaling-laws (in preparazione, Parte XI) — Kaplan, Chinchilla, successori. La cornice teorica che il 2023 mette alla prova in scala industriale.
  • compute-optimal (in preparazione, Parte XI) — Chinchilla e compute-optimal scaling. PaLM 2 e Llama 2 sono esempi di modelli progettati seguendo queste indicazioni.
  • rlhf-ppo (in preparazione, Parte XI) — la meccanica di RLHF con PPO. Pipeline standard per ChatGPT, GPT-4, Claude (in parte), Llama 2 Chat.
  • rlaif-constitutional (in preparazione, Parte XI) — Constitutional AI di Anthropic. La firma metodologica di Claude.
  • eu-ai-act (in preparazione, Parte XXI) — il regolamento europeo. Il compromesso politico di dicembre 2023 nasce in risposta diretta ai modelli del 2023.
  • OpenAI, “GPT-4 Technical Report”, arXiv:2303.08774, marzo 2023. Il documento ufficiale di rilascio. Da leggere come documento d’epoca: il primo “technical report” di OpenAI deliberatamente non-tecnico su architettura e dati. La sezione di benchmark resta riferimento standard.
  • Touvron H., Lavril T., Izacard G. et al., “LLaMA: Open and Efficient Foundation Language Models”, arXiv:2302.13971, febbraio 2023. Il paper che catalizza l’ecosistema open. Da leggere per la dichiarazione esplicita di addestramento Chinchilla-optimal e per il dataset breakdown.
  • Touvron H., Martin L., Stone K. et al., “Llama 2: Open Foundation and Fine-Tuned Chat Models”, arXiv:2307.09288, luglio 2023. Documento di trasparenza eccezionale per il momento: pipeline RLHF dettagliata, due reward model, red teaming, valutazioni di safety. Riferimento per chiunque voglia capire come si addestra un modello chat moderno.
  • Bai Y., Kadavath S., Kundu S. et al., “Constitutional AI: Harmlessness from AI Feedback”, arXiv:2212.08073, dicembre 2022. Il paper di Anthropic che formalizza Constitutional AI. Da leggere come alternativa metodologica al paper InstructGPT di OpenAI.
  • Anil R., Dai A.M., Firat O. et al., “PaLM 2 Technical Report”, maggio 2023. Il rilascio Google di maggio. Da leggere per il pattern Chinchilla-optimal applicato a un modello di scala intermedia con multilingua forte.
  • Gemini Team, Google DeepMind, “Gemini: A Family of Highly Capable Multimodal Models”, arXiv:2312.11805, dicembre 2023. Il paper Gemini. Da leggere per la trattazione di multimodalità nativa e per il benchmark setup.
  • Jiang A.Q., Sablayrolles A., Mensch A. et al., “Mistral 7B”, arXiv:2310.06825, ottobre 2023. Il primo paper Mistral. Da leggere per Sliding Window Attention e Grouped-Query Attention spiegate in modo accessibile.
  • Jiang A.Q., Sablayrolles A., Roux A. et al., “Mixtral of Experts”, arXiv:2401.04088, gennaio 2024. Il paper Mixtral. Da leggere per la trattazione MoE in produzione open.
  • Hoffmann J., Borgeaud S., Mensch A. et al., “Training Compute-Optimal Large Language Models” (Chinchilla), arXiv:2203.15556, marzo 2022. Il paper precedente che imposta il framework “compute-optimal” applicato dal 2023 in poi. Prerequisito per leggere correttamente PaLM 2 e Llama 2.
  • Bubeck S., Chandrasekaran V., Eldan R. et al., “Sparks of Artificial General Intelligence: Early experiments with GPT-4”, Microsoft Research, arXiv:2303.12712, marzo 2023. Il paper più discusso del periodo. Da leggere insieme alle critiche (es. Mitchell, Ananthaswamy 2023) per il dibattito su “GPT-4 e AGI”.
  • Heim L., “Estimating the Training Compute of GPT-4”, blog post, 2024. Una delle stime più citate sul costo di training di GPT-4. Da leggere insieme ai report SemiAnalysis (Dylan Patel) per le ricostruzioni di architettura via leak.
  • Future of Life Institute, “Pause Giant AI Experiments: An Open Letter”, 22 marzo 2023. Documento d’epoca della pressione regolatoria. Da leggere per capire il sentimento di una porzione vocale del settore in quel momento.
  • The White House, “Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence”, 30 ottobre 2023. Il testo dell’EO Biden. Da leggere per il setup iniziale della governance AI USA pre-revisione 2025.
  • EU Trilogue Outcome on AI Act, 8 dicembre 2023. Il compromesso politico iniziale. Da seguire poi nei testi successivi del 2024 per la versione finale adottata.