Open weights 2023-2024: Llama, Mistral e il ritorno dell'open

Un file torrent caricato su 4chan il 4 marzo 2023, sei giorni dopo che Meta ha distribuito Llama 1 a un gruppo ristretto di ricercatori accademici. Il magnet link finisce in una pull request su GitHub al repo facebookresearch/llama e resta aperto per giorni. Meta non emette DMCA, non sanziona, non cambia roadmap pubblicamente. Cinque mesi dopo rilascia Llama 2 con pesi scaricabili e licenza commerciale, riconoscendo implicitamente che il leak ha fatto a Meta il favore di catalizzare un ecosystem che nessun ufficio comunicazione avrebbe potuto orchestrare. Diciotto mesi dopo, il 23 luglio 2024, Meta pubblica Llama 3.1 in tre tagli, fra cui un modello da 405 miliardi di parametri che è il primo open weights con prestazioni vicine ai modelli closed di frontiera. Nello stesso biennio nascono Mistral a Parigi, Qwen ad Hangzhou, Yi a Pechino, DeepSeek dentro un hedge fund quantitativo, Gemma a Mountain View, Phi a Redmond. L’ecosystem open weights smette di essere una nicchia accademica e diventa il secondo polo dell’industria AI mondiale.

Perché questo capitolo

Il biennio 2023-2024 è il momento in cui gli LLM open weights smettono di essere un esperimento sperimentale e diventano un’infrastruttura industriale parallela ai modelli closed. Prima del febbraio 2023, l’unico modello apertamente scaricabile comparabile a GPT-3 era OPT-175B di Meta (maggio 2022, distribuito solo su richiesta) e BLOOM-176B di BigScience (luglio 2022, davvero open ma sotto-performante). Dopo il luglio 2024, esistono almeno una decina di famiglie di modelli open weights di qualità competitiva, eseguibili su hardware consumer via tool come llama.cpp, vLLM, Ollama, e usati come fondamento di un’economia di fine-tune e applicazioni che non passa per le API di OpenAI o Anthropic. Capire come questo ribaltamento è avvenuto in diciotto mesi è capire perché, al momento di scrittura, il mercato AI è bipolare e non monopolare.

Il secondo motivo per cui il capitolo conta riguarda l’asimmetria economica fra pretraining e fine-tuning. Addestrare da zero un modello da decine o centinaia di miliardi di parametri costa decine o centinaia di milioni di dollari di compute, e resta un privilegio di pochi laboratori molto capitalizzati. Fine-tunare un modello pretrained su un task specifico costa decine o centinaia di dollari, ed è alla portata di un singolo dottorando con qualche GPU. Il rilascio dei pesi sblocca la seconda economia senza sbloccare la prima: un pattern che ha conseguenze profonde su chi può fare cosa nell’industria AI, e che rimane invariato anche oggi.

Il terzo motivo è geopolitico e regolatorio. Nel 2024 i modelli open weights di frontiera vengono prodotti negli Stati Uniti (Meta, Google, Microsoft), in Francia (Mistral), in Cina (Alibaba, 01.AI, DeepSeek), negli Emirati Arabi (TII Abu Dhabi). La diffusione globale dell’expertise di pretraining riduce il vantaggio strategico americano sui modelli closed. In parallelo, i regolatori (Biden Executive Order del 30 ottobre 2023, EU AI Act dicembre 2023) iniziano a trattare i modelli di frontiera come oggetto di policy industriale, con regole differenziate ma non vietatorie sul regime open. Il dibattito open vs closed che si consolida in questo periodo è il riferimento di tutta la conversazione successiva sulla governance AI.

Contesto

Per leggere il 2023-2024 dell’open bisogna ricostruire da dove si parte. Nel novembre 2022 il rilascio di ChatGPT (vedi chatgpt-2022) ha fatto esplodere la domanda pubblica per LLM conversazionali. Il 2023 è già l’anno della corsa allo scaling industriale, con GPT-4, Claude, PaLM 2, Gemini Ultra rilasciati o in preparazione (vedi scaling-era-2023). Nello stesso anno la metodologia RLHF documentata da OpenAI in InstructGPT diventa lo standard per allineare i modelli a istruzioni e dialogo, con varianti come Constitutional AI di Anthropic (vedi instruction-rlhf-era).

Sul fronte open, lo stato dell’arte all’inizio del 2023 è modesto. Le famiglie disponibili sono GPT-J e GPT-NeoX di EleutherAI (al massimo 20B parametri, qualità non comparabile a GPT-3), OPT di Meta (175B ma weights solo su richiesta accademica e qualità limitata da un dataset non particolarmente curato), BLOOM di BigScience (176B, multilingua, ma sotto-performante per via della scelta di privilegiare ampia copertura linguistica su qualità inglese). Nessuno di questi è competitivo con GPT-3.5, e tutti sono inadatti come base per fine-tune di livello produttivo.

La mossa di Meta arriva in questo contesto. Mark Zuckerberg (imprenditore americano, 1984-, CEO di Meta dal 2004) negli anni precedenti ha investito massivamente nel metaverso con risultati commerciali deludenti. La pivot strategica del 2023 verso AI generativa è guidata internamente da Yann LeCun (informatico francese, 1960-, Chief AI Scientist di Meta dal 2013, Turing Award 2018 con Bengio e Hinton, sostenitore pubblico del rilascio open delle ricerche AI) e dal team Meta GenAI. La logica strategica è esplicita in interviste successive di Zuckerberg (Stratechery luglio 2023, Lex Fridman podcast giugno 2024, Threads agosto 2024): Meta non vende API LLM, quindi non ha conflitto di interesse a regalare il modello; rendere disponibile l’open base accelera l’innovazione e attira talent verso Meta; e impedisce che il valore strategico del LLM venga catturato da pochi laboratori chiusi che possono poi imporre prezzi monopolistici a tutta l’industria, Meta inclusa.

In Europa, Mistral AI viene fondata a maggio 2023 a Parigi da tre ex ricercatori di alto profilo. Arthur Mensch (informatico francese, 1992-, ex DeepMind dal 2020 al 2023, autore principale del paper Chinchilla del 2022 che ha riformulato le scaling laws) è il CEO. Guillaume Lample (informatico francese, ex Meta AI Paris, autore principale del paper Llama 1) e Timothée Lacroix (anche lui ex Meta, co-autore di Llama 1) sono i co-fondatori tecnici. La startup, di poche settimane di vita e senza prodotto né ricavi, raccoglie a giugno 2023 una Series A di 105 milioni di euro a una valutazione pre-money di circa 240 milioni, guidata da Andreessen-Horowitz e Lightspeed Venture Partners. Il record europeo dell’anno per il segmento.

In Cina emergono nello stesso periodo tre attori. Alibaba Cloud, attraverso il team Tongyi Qianwen, lancia Qwen ad agosto 2023. Kai-Fu Lee (informatico taiwanese-americano, 1961-, ex direttore di Google China e di Microsoft Research Asia, autore di “AI Superpowers” del 2018, fondatore di Sinovation Ventures) costituisce 01.AI a marzo 2023 e rilascia Yi a novembre. Liang Wenfeng (manager finanziario cinese, 1985-, fondatore dell’hedge fund quantitativo High-Flyer Capital Management) crea DeepSeek a luglio 2023 come spin-off di ricerca dell’hedge fund, finanziato interamente con il budget computazionale interno e senza capitale esterno per i primi anni. La motivazione dichiarata da Liang in interviste cinesi (36Kr, maggio 2024) è esplorativa: dimostrare che la ricerca di frontiera in AI non è privilegio di San Francisco.

Negli Emirati Arabi, il Technology Innovation Institute di Abu Dhabi lancia la famiglia Falcon (7B, 40B, 180B) fra maggio e settembre 2023, con un investimento pubblico statale che si inserisce nella strategia di diversificazione economica post-petrolio del paese.

Il quadro complessivo a inizio 2023 è quindi quello di un mercato ancora largamente closed-dominato, con OpenAI come leader incontrastato del segmento conversazionale e con Anthropic, Google DeepMind, Microsoft come challenger principali. L’open weights è una nicchia di ricerca e hobbisti, con modelli di qualità inferiore ai closed di un fattore importante. Quello che cambia nei diciotto mesi successivi è esattamente la chiusura di questo gap, e l’emergere di un ecosystem parallelo di tool che rende i modelli open praticabili in produzione.

L’intuizione

Angolo strategico: open come forza di mercato

Il primo angolo è strategico, non tecnico. La decisione di Meta di rilasciare Llama 2 e poi Llama 3 con licenza commerciale non nasce dall’idealismo di Yann LeCun (anche se LeCun è il principale advocate pubblico). Nasce da una lettura precisa del mercato. OpenAI, con GPT-4 closed, sta diventando l’unico fornitore di API LLM di frontiera, e questo monopolio si trasferirebbe in prezzi crescenti per tutti i clienti enterprise, Meta inclusa. Anthropic e Google possono attenuare il monopolio ma seguono lo stesso modello di business closed. Se Meta rilascia un modello open sufficientemente buono, costringe i player closed a competere sui prezzi e mantiene per Meta l’opzione di continuare a innovare senza dipendere da provider esterni.

L’argomento è simmetrico a quello che Microsoft ha fatto contro Sun, IBM e Oracle negli anni 90 e 2000 finanziando Linux: investire in un’alternativa open al concorrente dominante, anche senza ricavarne diretto profitto, perché erodere il monopolio del concorrente vale più dei costi sostenuti. Marcatura di classe: questa è un’analogia strategica ricorrente nella stampa di settore (Stratechery di Ben Thompson la rende esplicita a luglio 2023), non una filiazione storica. Meta non sta replicando Microsoft anni 90; sta facendo il calcolo strategico simile in un mercato diverso.

L’altro lato strategico riguarda talent acquisition. I migliori ricercatori AI vogliono pubblicare e rilasciare i loro lavori. Un laboratorio che vieta i rilasci open perde rispetto a uno che li incoraggia, in un mercato del lavoro dove la mobilità è altissima e gli stipendi contano meno della reputazione accademica. Meta usa esplicitamente la cultura open come asset di reclutamento, in opposizione alla cultura sempre più riservata di OpenAI e Google DeepMind dopo il 2022.

Angolo tecnico: pretraining caro, fine-tuning cheap

Il secondo angolo è tecnico-economico. Il costo di addestramento di un LLM ha due componenti molto diverse. Il pretraining (forward + backward pass su trilioni di token, senza supervisione, per imparare la distribuzione del linguaggio) costa decine o centinaia di milioni di dollari. Llama 2 70B è stimato fra 10 e 25 milioni di dollari di solo compute (basato su 3.3 milioni di GPU-hour A100 e prezzi cloud equivalenti). Llama 3.1 405B è stimato sopra i 100 milioni di dollari (estrapolato da circa 30 milioni di GPU-hour H100). Il fine-tuning (forward + backward pass su poche migliaia o decine di migliaia di esempi human-curated, per allineare il modello a un task specifico) costa decine o centinaia di dollari. Stanford Alpaca, fine-tune di Llama 1 7B su 52.000 instruction-following demonstrations, è dichiarato a circa 600 dollari (500 di API OpenAI per generare il dataset, 100 di compute).

L’asimmetria di sei ordini di grandezza ha una conseguenza diretta. Rilasciare i pesi pretrained sblocca un’intera economia di derivati senza che il rilasciante perda il vantaggio di chi può effettivamente fare il pretraining. Meta può rilasciare Llama 3.1 405B sicura che nessun concorrente possa replicarne il pretraining a basso costo (richiederebbe un cluster di decine di migliaia di GPU H100 e mesi di tempo), ma può aspettarsi che migliaia di team accademici e startup costruiscano valore sopra Llama 3.1, contribuendo all’ecosystem Meta-centric. Marcatura di classe: questa è una constatazione economica documentabile dai costi pubblici dei vari modelli e dalle dichiarazioni dei laboratori, non un’analogia o un’estrapolazione speculativa.

Angolo culturale: lo spirito del software libero, riadattato

Il terzo angolo è culturale. La cultura open source nata negli anni 80-90 attorno a GNU, Linux, Apache, Python ha sempre privilegiato il rilascio del codice sorgente sotto licenza permissiva. Gli LLM open weights del 2023-2024 ereditano lo spirito ma con un compromesso importante: rilasciano i pesi del modello (analogo del binario eseguibile, ma con la particolarità che i pesi sono direttamente utilizzabili senza ulteriore compilazione), ma quasi nessuno rilascia il dataset di pretraining e il codice di training. Meta non rilascia il dataset di Llama 2 o 3. Mistral non rilascia né dataset né codice di training. DeepSeek pubblica più dettagli ma non il dataset completo.

Marcatura di classe: questa è una distinzione di equivalenza, non un’equivalenza. “Open weights” non è “open source” in senso pieno OSI/FSF. Il pattern “open weights, closed training pipeline” è una scelta deliberata, non un fraintendimento: un modello con pesi pubblici ma training data privato è ancora utile come base di fine-tune e di applicazioni, mentre il rilascio dei dati esporrebbe il rilasciante a rischi legali (copyright, privacy) e annullerebbe parte del valore competitivo. Iniziative come AI2 OLMo (2024), LLM360 Amber, Pythia di EleutherAI (2023) sono “fully open” includendo dataset e codice, e infatti restano sotto-performanti rispetto ai migliori “open weights” closed-pipeline. Il mercato ha implicitamente votato per il compromesso.

La meccanica

Llama 1 e il leak (febbraio-marzo 2023)

Il 24 febbraio 2023 Meta AI Research pubblica “LLaMA: Open and Efficient Foundation Language Models” (Touvron et al., arXiv:2302.13971). LLaMA è una famiglia di modelli decoder-only Transformer in quattro tagli: 7B, 13B, 33B, 65B parametri. Le scelte architetturali sono incrementali rispetto allo stato dell’arte del 2022 (RoPE positional encoding, RMSNorm, SwiGLU activation, pre-normalization), ma la combinazione è curata e diventa rapidamente un riferimento di best practice. Il pretraining usa un mix di dati interamente pubblici: Common Crawl filtrato (67%), C4 (15%), GitHub codice (4.5%), Wikipedia multilingua (4.5%), libri Project Gutenberg + Books3 (4.5%), ArXiv paper (2.5%), StackExchange Q&A (2%). I tagli più piccoli sono addestrati su 1.0 trilioni di token, i più grandi su 1.4 trilioni.

La scelta di privilegiare modelli più piccoli addestrati più a lungo è esplicita e si allinea con Chinchilla (Hoffmann et al. 2022, vedi scaling-laws e compute-optimal in preparazione, Parte XI). Il paper sostiene che LLaMA-13B batte GPT-3 175B su molti benchmark, a una frazione del costo di inferenza. Marcatura di classe: questa è una filiazione metodologica documentata, dato che il paper Llama 1 cita esplicitamente Chinchilla come fondamento e include come autore principale Touvron, che ha lavorato anche su CodeT5 e altri modelli open Meta.

I pesi sono distribuiti via un Google Form a ricercatori accademici verificati, sotto licenza non commerciale. Il 4 marzo 2023, una settimana dopo il rilascio, qualcuno carica un file torrent con i pesi completi su 4chan. Una pull request su GitHub al repo facebookresearch/llama aggiunge il magnet link al README (PR numero 73, “Save bandwidth by using a torrent to distribute more efficiently”, aperta da un account GitHub anonimo). La PR resta aperta per giorni, l’URL del torrent diventa virale su Twitter e Reddit. Meta non emette DMCA takedown, non sanziona pubblicamente, non rilascia comunicati negativi. Nei mesi successivi accelera la roadmap verso Llama 2.

L’effetto immediato del leak sulla comunità è duplice. Da un lato, una proliferazione di repository GitHub con copie del torrent, conversioni a formati alternativi (HuggingFace transformers, GGML che diventerà GGUF), istruzioni per il deployment locale. Dall’altro, un’accelerazione della ricerca accademica: per la prima volta dal 2020 (rilascio dell’API GPT-3) i ricercatori non-OpenAI hanno accesso ai pesi di un modello competitivo con GPT-3 senza dover negoziare accesso accademico. Lavori di interpretability, probing, fine-tuning, distillation che richiedono accesso ai pesi (e non solo all’API) diventano possibili.

Il leak catalizza in pochi mesi una cascata di fine-tune sopra LLaMA-7B/13B. Il pattern lo definisce Stanford Alpaca, pubblicato il 13 marzo 2023 da Rohan Taori, Ishaan Gulrajani e altri studenti del Center for Research on Foundation Models di Stanford. Alpaca è LLaMA-7B fine-tunato su 52.000 instruction-following demonstrations generate con il metodo “self-instruct” (Wang et al. 2022) usando text-davinci-003 di OpenAI come generatore. Il costo dichiarato è circa 600 dollari (500 per API OpenAI, 100 per training su 8 GPU A100 per 3 ore). Il demo web di Alpaca viene chiuso da Stanford dopo pochi giorni per concerns di safety, ma i pesi e il dataset sono rilasciati.

Vicuna (LMSYS, UC Berkeley + UCSD + CMU + MBZUAI, 30 marzo 2023) fine-tuna LLaMA-13B su 70.000 conversazioni utente raccolte da ShareGPT.com, costo circa 300 dollari. Per valutarlo, LMSYS introduce la metodologia LLM-as-judge usando GPT-4 stesso come giudice (vedi llm-as-judge in preparazione, Parte XIX), una pratica controversa ma che diventa rapidamente standard. LMSYS dichiara “90% della qualità di ChatGPT” per Vicuna-13B, una claim che scatena dibattito ma che orienta l’intera comunità open verso l’idea che fine-tune accurati possano colmare gran parte del gap con i modelli closed. Nelle settimane successive escono Koala (Berkeley, 3 aprile), GPT4All (Nomic AI, 28 marzo, focus su deployment locale CPU), Dolly (Databricks), OpenAssistant (LAION), WizardLM, Baize, Orca, e decine di altri.

Llama 2: open weights ufficiale (luglio 2023)

Il 18 luglio 2023 Meta rilascia Llama 2 in tre tagli (7B, 13B, 70B). Il paper “Llama 2: Open Foundation and Fine-Tuned Chat Models” (Touvron et al., arXiv:2307.09288) è ampio: 77 pagine, oltre 60 coautori. La differenza chiave rispetto a Llama 1 è la licenza, che consente esplicitamente l’uso commerciale dei modelli con due restrizioni principali. La prima è la “large operators clause”: aziende con oltre 700 milioni di monthly active users alla data del rilascio (18 luglio 2023) devono richiedere una licenza separata a Meta. La clausola è disegnata per evitare che Google, Microsoft, ByteDance, Tencent, Apple usino Llama nei loro prodotti consumer senza accordo, escludendo di fatto i diretti competitor cloud. La seconda è una acceptable use policy che vieta usi militari, di sorveglianza di massa, di violazione di proprietà intellettuale, di generazione di malware.

Marcatura di classe: questa è una distinzione di equivalenza nominale che va resa esplicita. La licenza Llama 2 non è FLOSS in senso strict OSI, perché contiene restrizioni d’uso (sui large operators) e restrizioni d’utilizzo (acceptable use policy) che le definizioni canoniche di “free software” e “open source” escludono. Tecnicamente è “source-available with restrictions”. La comunità ha adottato il termine “open weights” per evitare la disputa terminologica, riconoscendo che i pesi sono accessibili e utilizzabili da quasi chiunque, pur senza essere “open source” in senso pieno.

Le novità tecniche di Llama 2 rispetto a Llama 1 sono incrementali ma significative. Il pretraining usa 2 trilioni di token (vs 1.0-1.4T di Llama 1), su un mix che esclude esplicitamente fonti note di dati personali. Il context window passa da 2048 a 4096 token. Il taglio 70B introduce Grouped-Query Attention (GQA), un compromesso fra Multi-Head Attention standard e Multi-Query Attention che riduce il footprint del KV cache mantenendo qualità (vedi mqa-gqa in preparazione, Parte IX). I tagli 7B e 13B usano ancora MHA standard.

Il fine-tuning di Llama 2-Chat è documentato in dettaglio nel paper. Tre stadi:

Supervised fine-tuning (SFT) su 27.540 demonstrations human-written, di alta qualità (Meta sostiene di aver scartato dataset più grandi acquistati esternamente perché di qualità inferiore).
Reward modeling con due reward model separati: uno per helpfulness (predice quale di due risposte è più utile), uno per safety (predice quale è più sicura). La separazione è una scelta deliberata: i due obiettivi sono parzialmente in tensione (un modello molto cauto rifiuta troppe richieste utili), e separarli permette di pesarli esplicitamente nella fase di RLHF.
RLHF iterativo con due tecniche combinate. Rejection sampling fine-tuning: si generano molti candidate per prompt, si seleziona il migliore secondo il reward model, si fine-tuna il modello su quei candidate. PPO (Proximal Policy Optimization) successivo per ulteriori iterazioni.

Il paper documenta cinque iterazioni successive (RLHF-V1 fino a V5), ognuna con dataset di preferenze human-labeled crescente (in totale oltre 1.4 milioni di confronti pairwise). Il pattern iterativo è una novità rispetto al singolo round di InstructGPT-style RLHF.

Le motivazioni di Meta dietro Llama 2 sono articolate da Zuckerberg in un memo interno trapelato a luglio 2023 e in interviste pubbliche successive. Tre punti ricorrenti. Primo, “Meta non vende API LLM”: diversamente da OpenAI o Anthropic, il business model di Meta non dipende dal vendere accesso al modello, quindi regalarlo non cannibalizza nessun ricavo esistente. Secondo, “open accelera l’innovazione attorno a noi”: migliaia di ricercatori e startup costruiranno sopra Llama, generando miglioramenti di efficienza, fine-tune specializzati, tool che Meta può adottare internamente. Terzo, “evitare la cattura del valore da parte di pochi player chiusi”: se Meta non rilascia un’alternativa, Microsoft e Google (via OpenAI e Gemini) impongono nei prossimi anni prezzi monopolistici a tutta l’industria, Meta inclusa. Il rilascio open è quindi una mossa di posizionamento competitivo, non solo di filantropia.

Il rilascio è simultaneo con un partnership annuncio con Microsoft Azure: Llama 2 è disponibile sia self-hosted via download diretto da HuggingFace o dal sito Meta, sia come modello hosted su Azure AI Studio. AWS e Google Cloud aggiungono il supporto Llama 2 nei mesi successivi. L’effetto di mercato è immediato: per la prima volta esiste un’alternativa open di qualità conversazionale e con licenza commerciale a GPT-3.5, e migliaia di applicazioni enterprise iniziano a valutarla come sostituto delle API closed.

Marcatura di classe: la cascata di fine-tune Alpaca / Vicuna / Koala / GPT4All sopra Llama 1 è una filiazione documentata (ognuno cita Llama come base e Stanford Alpaca o self-instruct come metodologia), non un’analogia. Allo stesso tempo, l’ondata di rilasci closed dei mesi successivi (Anthropic Claude, Google PaLM 2, ecc.) non è filiazione di Llama: è risposta competitiva al ChatGPT shock e lavoro parallelo. Distinguere i due piani evita di scrivere una storia falsa di “tutto discende da Llama”.

Mistral 7B: la startup francese colpisce duro (settembre 2023)

Il 27 settembre 2023 Mistral pubblica Mistral 7B con un paper conciso (arXiv:2310.06825, 9 pagine). Il rilascio avviene con un tweet che contiene un magnet link torrent dei pesi, accompagnato dalla frase “Mistral 7B is out. Here’s a magnet link.”. Niente landing page sgargiante, niente API gate, niente waitlist. La “release philosophy” minimalista è esplicitamente teorizzata dal team come differenziatore culturale rispetto al marketing pesante dei laboratori americani.

Le novità tecniche dichiarate nel paper:

Sliding Window Attention (SWA): ogni token presta attenzione solo a una finestra locale di 4096 token precedenti, riducendo la complessità da quadratica a lineare in lunghezza. Stacked through layers, la “receptive field” effettiva del modello raggiunge 8192-16384 token con costo computazionale modesto.
Grouped-Query Attention (GQA) anche al taglio 7B, dove Llama 2 7B usa ancora MHA standard.
Tokenizer: SentencePiece BPE da 32.000 entry, simile a Llama 2.
Performance: Mistral 7B dichiara di battere Llama 2 13B su tutti i benchmark testati (MMLU, ARC, HellaSwag, WinoGrande, PIQA, BoolQ, MATH, GSM8K, HumanEval, MBPP, CommonsenseQA), e di avvicinarsi a Llama 1 34B su alcuni.
Licenza Apache 2.0: licenza FLOSS standard, senza clausole MAU, senza acceptable use policy. Mistral 7B è il primo modello open di scala 7B davvero “FLOSS” con prestazioni competitive.

L’effetto sull’ecosystem è amplificato dalla scelta della licenza. Apache 2.0 elimina ogni ambiguità legale: chiunque può integrare Mistral 7B in prodotti commerciali, ridistribuirlo, modificarlo, senza dover navigare clausole custom come quelle di Llama 2. Per startup e fornitori cloud, è un sollievo legale concreto.

Mixtral 8x7B: il MoE diventa open (dicembre 2023)

Il 11 dicembre 2023, dopo un teaser dello stesso stile minimalista su Twitter, Mistral pubblica Mixtral 8x7B. Il paper formale (arXiv:2401.04088) esce a gennaio 2024. Mixtral è un Mixture-of-Experts sparso, e diventa il primo modello MoE open weights di qualità competitiva.

Architettura in sintesi (vedi moe-fondamenti, moe-routing in preparazione, Parte X):

32 layer Transformer decoder-only.
Per ogni layer, 8 experts di tipo feed-forward (FFN), invece di un singolo FFN dense.
Un router lineare per ogni layer decide quali experts attivare per ogni token. Top-2 routing: per ogni token vengono selezionati i 2 experts con score più alto, e l’output finale è la somma pesata dei loro output.
Attention, embedding, normalization, router sono shared (non sparsi): solo gli FFN sono replicati come experts.
Totale parametri: circa 47B (non 56B = 8 x 7B, perché parte sostanziale dei parametri è shared).
Parametri attivi per token: circa 13B.

In pseudocodice il routing in un singolo layer si scrive così:

def moe_layer(x, experts, router, top_k=2):
    # x: tensore [batch, seq_len, hidden_dim]
    # experts: lista di 8 funzioni FFN
    # router: matrice lineare [hidden_dim, 8]

    scores = softmax(x @ router, dim=-1)        # [batch, seq, 8]
    top_scores, top_idx = topk(scores, k=top_k) # [batch, seq, 2]

    output = 0
    for i in range(top_k):
        expert_id = top_idx[..., i]
        weight = top_scores[..., i]
        # invoca solo l'expert selezionato per ogni token
        output += weight * experts[expert_id](x)
    return output

Il valore strategico del routing top-2 è che ogni token paga il costo computazionale di 2 experts (su 8 disponibili), non di tutti gli 8. Il modello quindi ha la capacità rappresentativa di ~47B parametri ma il costo di inferenza per token di un modello dense da ~13B. Mixtral dichiara di battere Llama 2 70B e GPT-3.5 sulla maggior parte dei benchmark, con velocità di inferenza simile a un modello dense da 13B.

Mixtral introduce anche il concetto di “specializzazione implicita degli experts”: l’analisi post-hoc dei pattern di routing mostra che alcuni experts sono attivati più frequentemente per certi tipi di token (codice, matematica, lingue specifiche) anche senza training esplicito di specializzazione. La specializzazione non è perfettamente interpretabile (non è “expert 0 = python, expert 1 = francese”), ma esiste a livello statistico ed è una conferma empirica delle ipotesi teoriche su MoE delle architetture Switch Transformer e GLaM.

La licenza Mixtral è Apache 2.0, come Mistral 7B. Il rilascio rende disponibile pubblicamente per la prima volta un MoE sparso competitivo: prima di Mixtral, l’architettura era ricerca pubblicata principalmente da Google (Switch Transformer di Fedus et al. 2021, GLaM di Du et al. 2022, ST-MoE di Zoph et al. 2022) ma senza modelli scaricabili, e ipotizzata per GPT-4 sulla base di leak indiretti (vedi scaling-era-2023). Mixtral è il primo MoE che sviluppatori e ricercatori possono scaricare, ispezionare, fine-tunare, deployare.

L’ondata cinese: Qwen, Yi, DeepSeek

Parallelamente all’Europa, in Cina nello stesso periodo emergono tre famiglie di modelli open di alta qualità. L’ondata cinese è strutturalmente importante perché introduce diversità geografica nell’ecosystem open e perché alcuni modelli (DeepSeek in particolare) introducono innovazioni architetturali originali.

Qwen (Alibaba Cloud). Il team Tongyi Qianwen, guidato da Junyang Lin e altri, rilascia Qwen-7B e Qwen-14B in agosto 2023, seguiti da Qwen-1.8B e Qwen-72B in novembre. Il “Qwen Technical Report” (Bai et al., arXiv:2309.16609, settembre 2023) documenta il pretraining su 3 trilioni di token (multilingua, con forte enfasi su cinese e inglese), un tokenizer da 152.000 entry pensato per ottimizzare la rappresentazione del cinese (i tokenizer occidentali frammentano i caratteri cinesi in molti più token), l’integrazione di tool use e function calling fin dal pretraining (i modelli sanno produrre chiamate strutturate a tool senza fine-tuning aggiuntivo). La licenza è custom (Tongyi Qianwen LICENSE), permissiva ma con clausole MAU simili a Llama (restrizioni per operatori con oltre 100 milioni di MAU). Qwen 1.5 (febbraio 2024), Qwen 2 (giugno 2024), Qwen 2.5 (settembre 2024) scalano fino a 72B parametri, introducono varianti MoE e long-context fino a 128k, e specializzazioni come Qwen2.5-Coder e Qwen2.5-Math.

Yi (01.AI). La startup di Kai-Fu Lee, fondata a marzo 2023, raccoglie nei mesi successivi oltre 200 milioni di dollari da Alibaba e Sinovation Ventures, con valutazione di oltre 1 miliardo di dollari entro fine 2023. Il 6 novembre 2023 01.AI rilascia Yi-6B e Yi-34B con licenza custom (commerciale dietro registrazione, ricerca libera). Yi-34B-200K aggiunge una variante long-context. La famiglia si espande nel 2024 con Yi-9B, Yi-1.5, Yi-VL multimodale.

DeepSeek. Liang Wenfeng fonda DeepSeek a luglio 2023 come spin-off di ricerca dell’hedge fund quantitativo High-Flyer Capital Management. La caratteristica distintiva è il finanziamento: DeepSeek non raccoglie capitale esterno per anni, finanziandosi interamente con il budget computazionale di High-Flyer (stimato in oltre 10.000 GPU A100 acquistate prima delle restrizioni US di ottobre 2022 sull’esportazione di chip avanzati verso la Cina). Il modello operativo è un’eccezione nel panorama startup AI: nessuna pressione di go-to-market, nessun investitore VC che chiede metriche, focus esclusivo sulla ricerca.

DeepSeek rilascia in cascata. DeepSeek-LLM 7B/67B (novembre 2023, paper arXiv:2401.02954). DeepSeek-Coder (gennaio 2024, focus su codice, con varianti 1.3B / 6.7B / 33B). DeepSeek-Math 7B (febbraio 2024, fine-tune su matematica, dichiara performance comparable a GPT-4 su alcuni benchmark math). DeepSeek-V2 (maggio 2024, paper arXiv:2405.04434), MoE 236B totali / 21B attivi, con l’innovazione architetturale Multi-Head Latent Attention (MLA) che riduce drasticamente il footprint del KV cache rispetto a MHA e GQA standard.

DeepSeek-V2 batte Llama 3 70B su molti benchmark generalisti, e si avvicina a GPT-4 Turbo. Il prezzo di inferenza nelle API ufficiali DeepSeek è circa $0.14 per million input tokens e$ 0.28 per million output tokens (maggio 2024), contro $10/$ 30 per million tokens di GPT-4 Turbo allo stesso momento. Un fattore 70-100x di differenza di prezzo. La cifra mette in allarme l’industria americana dei modelli closed, che inizia a tagliare drasticamente i prezzi delle API nei mesi successivi (vedi pricing-token in preparazione, Parte XXI).

Llama 3 e Llama 3.1: il salto del 2024

Il 18 aprile 2024 Meta rilascia Llama 3 in due tagli (8B, 70B). I cambiamenti rispetto a Llama 2 sono consistenti:

Pretraining su 15 trilioni di token (vs 2T di Llama 2): un balzo di un ordine di grandezza, possibile per via di un’aggressiva pipeline di filtraggio qualità su Common Crawl + dati custom (codice, matematica, dati multilingua).
Tokenizer espanso a 128.000 entry (vs 32k di Llama 2), basato su tiktoken (lo stesso tokenizer di GPT-3.5/4). L’espansione consente migliore compressione del testo (meno token per la stessa stringa), risparmiando memoria e velocizzando inferenza.
GQA su tutti i tagli, anche su 8B (Llama 2 8B usava MHA).
Context window di 8192 token al lancio (poi esteso in varianti successive).
Fine-tuning a tre livelli: SFT, rejection sampling, DPO (Direct Preference Optimization, Rafailov et al. 2023). Niente PPO. Il passaggio segnala un cambio di paradigma dell’industria: DPO è più semplice, più stabile, più riproducibile di PPO, e nel 2024 diventa la default choice per allineare modelli open (vedi dpo-family in preparazione, Parte XI).

Il 23 luglio 2024 Meta pubblica Llama 3.1 in tre tagli (8B, 70B, 405B), accompagnata dal paper “The Llama 3 Herd of Models” (Meta, arXiv:2407.21783, 92 pagine, oltre 500 coautori). Llama 3.1 405B è la milestone: il primo modello open weights con parametri al livello dei modelli closed di frontiera, addestrato per circa 30 milioni di GPU-hour su un cluster Meta di decine di migliaia di GPU H100. Il context window è esteso a 128.000 token. Gli 8B e 70B sono ricalibrazioni di Llama 3 con context esteso, multilinguismo migliorato, tool use nativo.

Sui benchmark MMLU, GSM8K, HumanEval, MATH, MMLU-Pro, IFEval, Llama 3.1 405B si posiziona vicino a GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro. Su alcuni benchmark Llama 3.1 405B supera GPT-4o; su altri (specialmente reasoning multi-step e multimodal long-context) resta indietro. La narrazione di Meta è esplicita: “frontier-grade open model, available to all”.

Il rilascio è accompagnato da un blog post di Mark Zuckerberg intitolato “Open Source AI Is the Path Forward” (luglio 2024), che articola in modo strutturato la posizione strategica di Meta sul rilascio open. Il post identifica tre vantaggi attesi: per Meta (controllo della propria infrastruttura AI senza dipendenze da provider closed, sviluppo di prodotti basati su Llama internamente), per l’ecosystem (ricercatori e startup non dipendenti da pochi player, riduzione dei costi di mercato per i clienti enterprise), per l’America (mantenimento di leadership in un’arena dove l’alternativa è una concentrazione del valore in 3-4 mani). Il post diventa il riferimento citato dalla maggior parte dell’industria nei dibattiti sul regime di rilascio.

Sotto il profilo tecnico, il paper “The Llama 3 Herd of Models” (oltre 500 coautori, 92 pagine) è il documento più dettagliato mai rilasciato su un modello open frontier-grade. Il paper descrive in dettaglio: pipeline di filtering del Common Crawl con classificatori di qualità, training stack distribuito su decine di migliaia di GPU H100 con tensor + pipeline + data parallelism, post-training con SFT + rejection sampling + DPO iterati, vision adapter Llama 3-V che aggiunge capacità multimodali, valutazione su oltre 150 benchmark. Per il lettore tecnico è la lettura più ricca per capire come si addestra un modello di questa scala in pratica.

La licenza di Llama 3 e 3.1 mantiene la clausola MAU (700M) ma rimuove alcune restrizioni d’uso, in particolare la possibilità di usare l’output del modello per addestrare altri modelli (clausola che era controversa in Llama 2). La licenza resta non-FLOSS in senso strict OSI, ma è la più permissiva fra i modelli “frontier-grade”.

Gemma, Falcon, Phi: gli altri

Tre famiglie completano il panorama open weights del biennio.

Falcon (Technology Innovation Institute, Abu Dhabi). TII rilascia Falcon-7B e Falcon-40B in maggio 2023, con licenza Apache 2.0 modificata, e Falcon-180B il 6 settembre 2023, con licenza ad-hoc che consente uso commerciale ma vieta hosting di servizi cloud che competano con TII. Falcon-180B è per pochi mesi il più grande modello open weights al mondo. Il pretraining è documentato come usando il dataset RefinedWeb (Penedo et al. 2023, arXiv:2306.01116), un’iterazione molto accurata di Common Crawl filtering che diventa riferimento metodologico per altri laboratori.

Gemma (Google DeepMind). Google entra nel mercato open weights il 21 febbraio 2024 con Gemma 2B e 7B, derivati architetturalmente da Gemini ma con pesi scaricabili. La licenza è custom (Gemma Terms of Use), commerciale ammesso con restrizioni d’uso. Gemma 2 (giugno 2024) aggiunge tagli 9B e 27B. Il messaggio implicito è chiaro: Google non vuole lasciare il segmento small-open interamente a Meta e Mistral, e usa Gemma come canale di reclutamento e di evangelizzazione dell’ecosystem JAX/TPU. Le scelte architetturali (RoPE, GeGLU, RMSNorm, GQA per 7B+) ricalcano lo stato dell’arte di Llama-style.

Vale la pena notare che Falcon 180B, pur essendo per pochi mesi il più grande modello open al mondo, non ha generato un ecosystem comparable a quello di Llama o Mistral. Le ragioni sono diverse: il modello richiede hardware troppo grande per essere pratico in inferenza (il rilascio precede di poco le tecniche di quantization aggressiva di llama.cpp), la licenza non standard scoraggia l’adozione commerciale di alcuni operatori cloud, e la documentazione tecnica è meno ricca di quella di Meta o Mistral. Il caso Falcon 180B mostra che essere “primo e più grande” non basta: contano la licenza, il deployment-friendliness, la documentazione, l’investimento in ecosystem.

Phi (Microsoft Research). La famiglia Phi è guidata da Sebastien Bubeck (informatico francese, ex MSR Redmond, autore di “Sparks of Artificial General Intelligence” del 2023, paper interno Microsoft sull’analisi di GPT-4 prima del rilascio pubblico). Phi-1 (giugno 2023, 1.3B parametri) è addestrato su “textbook quality data” filtrato e parzialmente sintetizzato con GPT-3.5/4. La tesi: modelli piccoli su dati di altissima qualità competono con modelli molto più grandi su dati grezzi. Phi-1.5 (settembre 2023), Phi-2 (dicembre 2023, 2.7B), Phi-3 (aprile 2024, in tagli 3.8B / 7B / 14B), Phi-3.5 (agosto 2024) iterano sul concetto. La licenza Phi è MIT (full FLOSS). Il messaggio strategico di Microsoft è “small is enough, se i dati sono curati”, complementare alla strategia Microsoft + OpenAI che fornisce closed top-tier via Azure.

La tesi Phi è metodologicamente importante anche al di là del singolo modello. Il paper “Textbooks Are All You Need” (Gunasekar et al. arXiv:2306.11644, giugno 2023) mostra che un modello da 1.3B addestrato su 7B token di dati altamente curati supera modelli da 10x i parametri addestrati su Common Crawl grezzo, su benchmark di coding. La generalizzazione è discussa (alcuni critici notano che il dataset sintetico potrebbe contaminare i benchmark), ma il principio “data quality batte data quantity per modelli piccoli” diventa influente e si propaga in scelte successive di altri laboratori (Llama 3 stesso enfatizza il filtering aggressive del Common Crawl).

Il dibattito open vs closed: posizioni esplicite

Il biennio 2023-2024 vede consolidarsi un dibattito pubblico intenso sull’opportunità di rilasciare modelli open weights di taglio frontier. Le posizioni si polarizzano in tre campi.

Il campo pro-open è guidato pubblicamente da Yann LeCun, Mark Zuckerberg, Andreessen-Horowitz (in particolare Marc Andreessen e Ben Horowitz), EleutherAI come collettivo, Mistral come azienda. Gli argomenti ricorrenti: più occhi sul modello aumentano la sicurezza nel lungo periodo, in analogia con l’esperienza FLOSS classica (Linux kernel, OpenSSL nonostante Heartbleed); la concentrazione del potere AI in 3-4 laboratori chiusi è un rischio sistemico maggiore di qualunque misuse individuale, perché crea un single point of failure regolatorio e commerciale; l’innovazione accademica e startup richiede accesso ai pesi (non solo API), perché molte ricerche (mechanistic interpretability, fine-tuning, model surgery, distillation) sono impossibili senza accesso al modello completo; i modelli closed possono essere ritirati o cambiati arbitrariamente dal provider, distruggendo applicazioni costruite sopra (rischio di “model deprecation” che si materializza più volte nel 2023-2024 quando OpenAI ritira modelli senza preavviso lungo).

Il campo anti-open include parti di OpenAI (in particolare il safety team, anche se la posizione ufficiale OpenAI è più sfumata), policy team di Anthropic, Geoffrey Hinton dopo le dimissioni da Google a maggio 2023, alcuni think tank di AI safety (CSET, GovAI, MIRI). Gli argomenti: modelli sufficientemente capaci sono dual-use, con applicazioni in cybersecurity offensiva, supporto a sintesi di patogeni, disinformation a scala industriale, automazione di scam; una volta rilasciati i pesi, non si possono più ritirare, e questa irreversibilità è qualitativamente diversa dal rilascio software perché il “danno” potenziale di un LLM avanzato è asimmetrico (utile a difensori in modo modesto, utile ad attaccanti in modo significativo per certi scenari); il fine-tuning rimuove i safety filter, quindi qualunque “safety alignment” applicato dal rilasciante è di fatto cosmetico per chi vuole rimuoverlo.

Un campo intermedio, in cui si collocano la maggior parte dei governi e regolatori, propone di regolamentare in base alla capacità (compute threshold), non al regime di rilascio. Il Biden Executive Order 14110 sull’AI del 30 ottobre 2023 introduce il concetto di “dual-use foundation model” e una soglia di reporting a 10^26 FLOPs di training (modelli stimati al di sopra al 2024: GPT-4, Claude 3 Opus, Gemini Ultra; al di sotto al 2024: Llama 2 70B, Mistral, la maggior parte degli open). EU AI Act (compromesso politico dicembre 2023, pubblicato in Gazzetta Ufficiale UE luglio 2024) classifica “general purpose AI models” e introduce obblighi differenziati; i modelli “open source” sono in parte esentati ma non se classificati come “systemic risk” sopra una soglia equivalente. La Cina pubblica “Interim Measures for the Management of Generative Artificial Intelligence Services” ad agosto 2023, con obblighi di conformità ai contenuti che si applicano sia a closed sia a open distribuiti commercialmente.

L’esito del dibattito al 2024 è una coesistenza pragmatica. Nessun modello open frontier è stato vietato. Nessuno schema di “responsible disclosure” obbligatoria pre-rilascio è stato adottato. Le clausole di reporting US (Biden EO) sono state mantenute ma non aggressivamente applicate. L’EU AI Act esenta parzialmente l’open ma riserva supervisione sui modelli più potenti indipendentemente dal regime. Il messaggio implicito: l’industria continua a rilasciare open weights, e i regolatori monitorano senza vietare. Vedi eu-ai-act e governance-compliance in preparazione (Parte XXI).

L’ecosystem di tool: HuggingFace, llama.cpp, vLLM, Ollama

L’esplosione di modelli open è inseparabile dall’esplosione di tool che li rendono usabili. Quattro nodi sono centrali.

HuggingFace. Fondata nel 2016 come app di chatbot consumer da Clement Delangue, Julien Chaumond e Thomas Wolf, HuggingFace pivota nel 2018 verso una libreria open source per Transformer (transformers, ora il pacchetto Python più scaricato dell’NLP). Nel 2023-2024 HuggingFace è di fatto il GitHub dei modelli AI: il hub ospita oltre 1 milione di modelli a fine 2024 (vs ~100.000 a inizio 2023, fonte HuggingFace blog), oltre 200.000 dataset, integrazione gratuita di inference endpoints, librerie complementari (peft per LoRA/QLoRA, trl per RLHF/DPO, accelerate per training distribuito, datasets per loading). La valutazione di HuggingFace passa da circa 2 miliardi (Series C maggio 2022) a 4.5 miliardi (Series D agosto 2023, con investitori fra cui Google, NVIDIA, Salesforce, AMD, Intel, IBM, Qualcomm).

llama.cpp. Georgi Gerganov, ingegnere bulgaro indipendente, pubblica il primo commit di llama.cpp su GitHub il 10 marzo 2023, sei giorni dopo il leak di Llama 1. Il progetto è una reimplementazione in C++ puro dell’inference di LLaMA, ottimizzata per CPU e successivamente per GPU via Metal (Apple Silicon), CUDA (NVIDIA), Vulkan, ROCm (AMD). Le innovazioni chiave: inference quantizzata fino a 4-bit (e poi 3-bit, 2-bit, 1.58-bit) con perdita di qualità marginale per modelli sufficientemente grandi; il formato file GGUF (GPT-Generated Unified Format), un container binario auto-descrittivo per modelli quantizzati che diventa lo standard de facto per modelli locali; zero dipendenze esterne, build cross-platform, single binary di pochi megabyte. A fine 2024 llama.cpp ha oltre 65.000 stelle su GitHub e supporta praticamente tutti i modelli open weights mainstream (Llama, Mistral, Qwen, Yi, DeepSeek, Gemma, Phi, e dozzine di altri).

vLLM. Woosuk Kwon, Zhuohan Li e altri ricercatori dello Sky Computing Lab di UC Berkeley pubblicano “Efficient Memory Management for Large Language Model Serving with PagedAttention” (Kwon et al., SOSP 2023, arXiv:2309.06180) e rilasciano vLLM in giugno 2023. L’idea centrale è PagedAttention: gestire il KV cache come pagine di memoria virtuale (in analogia esplicita con la memoria virtuale dei sistemi operativi), eliminando la frammentazione interna che affligge i server inference standard e abilitando continuous batching efficiente. Il throughput dichiarato è 2-24x rispetto a HuggingFace Transformers e Text Generation Inference (TGI) di HuggingFace, e vLLM diventa rapidamente lo standard per serving inferenza di modelli open weights su GPU NVIDIA. Vedi paged-attention, vllm-sglang-tgi, serving-stacks-llm in preparazione (Parte XIII).

Ollama. Lanciato nell’estate 2023 da Michael Chiang e Jeffrey Morgan (entrambi ex Docker), Ollama è un wrapper in Go sopra llama.cpp con UX semplificata: installazione one-line, comando ollama run llama2 che scarica e avvia il modello, REST API locale compatibile con il formato OpenAI, libreria di modelli pre-quantizzati. Ollama diventa lo strumento di riferimento per developer che vogliono LLM locali senza configurazione manuale. A fine 2024 ha oltre 90.000 stelle GitHub. Vedi llama-cpp-ollama in preparazione (Parte XIII).

Altri tool rilevanti dell’ecosystem: SGLang (UC Berkeley, 2024) come alternativa a vLLM con focus su structured generation; TGI (HuggingFace, 2023) come server inference open source; Axolotl (OpenAccess AI Collective, 2023) come framework di fine-tuning modulare; Unsloth (2023) per fine-tuning ottimizzato 2-5x più veloce della baseline; LM Studio e Jan come GUI consumer cross-platform; LocalAI come server compatibile API OpenAI per modelli locali.

Quantization come abilitatore del local LLM

L’inferenza di un modello FP16 da 70B parametri richiede circa 140 GB di VRAM solo per i pesi, fuori portata per qualunque GPU consumer. La quantization riduce questo footprint sostituendo i pesi a 16 bit con rappresentazioni a precisione inferiore.

Tagli tipici e impatto sulla qualità:

FP16: 2 byte per parametro, baseline. Llama 2 70B in FP16 = ~140 GB.
INT8: 1 byte per parametro, ~50% riduzione. Perdita di qualità trascurabile per modelli > 7B (Dettmers et al. “LLM.int8()” arXiv:2208.07339, agosto 2022).
INT4 / NF4: 0.5 byte per parametro, ~75% riduzione. Perdita di qualità modesta per modelli > 7B. Llama 2 70B in INT4 = ~40 GB.
INT3 / INT2: footprint ulteriormente ridotti, perdita più visibile. Utili per modelli molto grandi su hardware molto piccolo.

Le tecniche concrete più diffuse nel 2023-2024 (vedi quantization-base, quantization-metodi in preparazione, Parte XI):

GPTQ (Frantar et al. arXiv:2210.17323, ottobre 2022): post-training quantization basata su Optimal Brain Quantization, una pass di calibrazione su un piccolo dataset.
AWQ (Lin et al. arXiv:2306.00978, giugno 2023): activation-aware weight quantization, preserva i pesi salient identificati via activation magnitude.
GGUF / k-quants (llama.cpp, 2023+): formati custom a varie risoluzioni (Q4_0, Q4_K_M, Q5_K_S, Q8_0), pensati per inference CPU/GPU mixed.
EXL2 (ExLlamaV2, Turboderp, 2023): quantization mista a granularità di tensor.
QLoRA (Dettmers et al. arXiv:2305.14314, maggio 2023): fine-tuning di adapter LoRA sopra un modello quantizzato a 4-bit, permette di fine-tunare modelli da 65B su una singola GPU 48GB.

Un Llama 2 70B in formato Q4_K_M occupa circa 40 GB, che sta su due GPU consumer 24GB (RTX 3090 / 4090) o su un Mac Studio M2 Ultra con 64-128 GB di unified memory. Un Llama 3 8B in Q4 sta in 5 GB e gira sul SoC di un MacBook Air. Il salto operativo è sostanziale: la categoria “local LLM” passa da “richiede un cluster” a “gira sul mio laptop”.

Confronto fra licenze: una matrice di stato

Il regime di licenza determina cosa una startup, un’azienda o un ricercatore può fare con un modello, ed è diventato a fine 2024 un criterio di selezione importante quanto la performance. Le posizioni del biennio si possono leggere lungo cinque dimensioni: uso commerciale ammesso, restrizioni MAU, restrizioni d’uso (acceptable use policy), output utilizzabile per addestrare altri modelli, ridistribuzione libera dei pesi.

Llama 2 (Meta, luglio 2023): commerciale sì; MAU 700M (clausola operatori); restrizioni d’uso sì (no militari, sorveglianza, malware); output non utilizzabile per training di altri modelli (clausola controversa); ridistribuzione ammessa con licenza propagata.
Llama 3 / 3.1 (Meta, 2024): commerciale sì; MAU 700M; restrizioni d’uso sì ma più snelle; output utilizzabile per training di altri modelli (clausola rimossa rispetto a Llama 2); ridistribuzione ammessa.
Mistral 7B / Mixtral 8x7B (Mistral, 2023): Apache 2.0 puro, nessuna restrizione MAU, nessuna restrizione d’uso, output libero, ridistribuzione libera.
Qwen 1 / 2 / 2.5 (Alibaba, 2023-2024): Tongyi Qianwen LICENSE, commerciale sì, MAU 100M, restrizioni d’uso sì, output libero, ridistribuzione ammessa.
Yi (01.AI, 2023): commerciale dietro registrazione, ricerca libera, restrizioni d’uso sì.
DeepSeek (2023-2024): licenza permissiva DeepSeek custom, commerciale sì, no MAU, restrizioni d’uso modeste, output libero.
Falcon 7B/40B (TII, 2023): Apache 2.0 modificato (con clausola revenue-share solo per uso commerciale ad alto fatturato, poi rilasciata in pure Apache 2.0 in versioni successive); Falcon 180B con licenza ad-hoc che vieta hosting cloud competitor.
Gemma (Google, 2024): Gemma Terms of Use, commerciale sì, restrizioni d’uso sì, no MAU.
Phi (Microsoft, 2023-2024): licenza MIT, full FLOSS senza restrizioni.

L’analisi rapida mostra una polarizzazione. Da una parte i modelli con licenze davvero permissive (Mistral, Phi, Falcon 7B/40B), che sono attraenti per startup e usi commerciali senza vincoli legali ma che rappresentano una minoranza dei modelli top-performance. Dall’altra i modelli “frontier-grade” con licenze custom (Llama 2/3, Qwen, Gemma), più restrittive ma con prestazioni migliori. La scelta pratica per un’azienda dipende dal trade-off fra restrizioni accettabili e performance richiesta.

Esempi

Esempio 1: Stanford Alpaca come blueprint dell’ecosystem fine-tune

Il 13 marzo 2023, nove giorni dopo il leak di Llama 1, Rohan Taori e colleghi del CRFM di Stanford pubblicano Alpaca: LLaMA-7B fine-tunato su 52.000 instruction-following demonstrations generate con self-instruct usando text-davinci-003 di OpenAI come generatore. Il dataset è prodotto in modo automatico: si parte da 175 prompt-response seed scritti a mano, si chiede a text-davinci-003 di generarne varianti e nuovi prompt, si filtra per qualità e diversità.

Il costo dichiarato totale è circa 600 dollari: 500 di API OpenAI, 100 di compute (3 ore su 8 GPU A100 a noleggio AWS). Il modello risultante, valutato qualitativamente da labeler umani, è dichiarato “comparable a text-davinci-003” su 90% dei prompt di una valutazione informal. L’accuracy della claim è discussa nelle settimane successive (la valutazione non è un benchmark formale), ma il messaggio resiste: con 600 dollari un team accademico ha prodotto un modello conversazionale di qualità accettabile, partendo da un base model open e da un dataset sintetico generato da GPT.

L’effetto sulla comunità è amplificato. Vicuna replica e migliora il pattern una settimana dopo. Decine di altri progetti seguono nelle settimane successive. Il pattern “base model open + dataset di instruction-following sintetico + fine-tuning a basso costo” diventa il workflow standard del fine-tuning open per il resto del 2023 e del 2024. La pratica solleva anche dubbi etici e legali (i terms of service di OpenAI vietano l’uso degli output per addestrare modelli concorrenti), ma l’industria continua a usarli, e il caso resta non-risolto giudizialmente.

Esempio 2: Mixtral 8x7B routing in azione

Per capire concretamente cosa fa il MoE di Mixtral, considera un singolo token “Parigi” che entra nel layer 15 di un Mixtral 8x7B. La sequenza di operazioni:

Il vettore di embedding del token (4096 dimensioni) attraversa l’attention layer, producendo un vettore di output 4096-dim.
Il router del layer 15, una matrice lineare 4096 x 8, prende il vettore di output dell’attention e produce 8 score (uno per expert). Dopo softmax, supponiamo: expert 0 = 0.42, expert 3 = 0.31, expert 5 = 0.12, gli altri sotto 0.05.
Il router seleziona top-2: expert 0 e expert 3.
Il vettore viene passato attraverso l’expert 0 (un FFN con dimensione interna ~14336) producendo un output, e attraverso l’expert 3 producendo un altro output.
Gli output sono pesati per gli score normalizzati (0.42 e 0.31, normalizzati a 0.575 e 0.425) e sommati.
Il risultato passa al layer 16, dove un router potenzialmente diverso seleziona experts diversi per lo stesso token.

In questo modo, ogni token attiva 2 dei 8 experts per layer (1/4 del costo computazionale di un dense con la stessa capacità), ma diversi token attivano experts diversi (i token tendono a specializzarsi: token di codice attivano certi experts, token di linguaggio naturale altri, anche se la specializzazione non è perfettamente interpretabile). Il modello ha quindi una capacità rappresentativa di ~47B parametri (somma di tutti gli experts e parti shared) ma costo di inferenza per token simile a un dense da ~13B.

Il risparmio è reale ma non gratuito. Il MoE richiede di tenere tutti gli experts caricati in VRAM (perché diversi token attivano experts diversi e non si può predire in anticipo), quindi la footprint memoria è quella del modello completo. Un Mixtral 8x7B in FP16 richiede ~94 GB di VRAM, paragonabile a un dense da 47B. La quantization a 4-bit lo porta a ~24 GB, eseguibile su una singola RTX 4090 24GB.

Esempio 3: Llama 3.1 405B vs GPT-4o su MMLU

Il 23 luglio 2024, Meta pubblica i risultati di valutazione di Llama 3.1 405B su benchmark generalisti. Su MMLU (Massive Multitask Language Understanding, Hendrycks et al. 2021, 57 task accademici di scelta multipla) Llama 3.1 405B ottiene 88.6% (5-shot, con il prompt format ottimizzato di Meta). GPT-4o, valutato con metodologia simile, ottiene circa 88.7%. Claude 3.5 Sonnet circa 88.3%. Gemini 1.5 Pro circa 85.9%.

Lo scarto fra il primo modello open frontier-grade e i modelli closed top-tier su MMLU è quindi nell’ordine di pochi decimi di punto, sostanzialmente entro il margine di errore del benchmark. Su altri benchmark il quadro è meno favorevole a Llama 3.1: su benchmark di reasoning multi-step (GPQA Diamond, MATH livello competition) Claude 3.5 Sonnet e GPT-4o mantengono un vantaggio di 5-10 punti; su benchmark multimodal (MMMU) Llama 3.1 405B vision è inferiore a GPT-4o vision. Il pattern complessivo è “parità su task standard, gap residuo su task hard”.

L’effetto strategico è significativo. Per la prima volta dal rilascio di GPT-4 (marzo 2023), un modello open è competitivo con i closed top-tier su benchmark generalisti standard. Le aziende che valutavano GPT-4 come unica scelta per task complessi ora hanno un’alternativa open self-hostable. Il prezzo medio di mercato delle API LLM cala di conseguenza: GPT-4 Turbo da $10/$ 30 per million tokens (input/output) di novembre 2023 a $2.50/$ 10 per million tokens di GPT-4o di maggio 2024, una riduzione media superiore al 70% in un anno. La pressione competitiva degli open ha contribuito materialmente al taglio.

Esempio 4: DeepSeek-V2 a 1/100 del prezzo di GPT-4 Turbo

Il 7 maggio 2024 DeepSeek pubblica DeepSeek-V2 e ne apre l’inferenza tramite un’API ufficiale propria. Il prezzo dichiarato è $0.14 per million input tokens e$ 0.28 per million output tokens. Allo stesso momento, GPT-4 Turbo di OpenAI costa $10 per million input tokens e$ 30 per million output tokens. Il rapporto di prezzo è circa 70x in input, 100x in output. Per qualunque applicazione enterprise che processa volumi consistenti, la differenza è materiale.

L’origine del prezzo è duplice. Da un lato, DeepSeek-V2 è MoE 236B totali / 21B attivi, quindi il costo di inferenza per token è quello di un modello dense da ~21B, non di un dense di taglia equivalente. Dall’altro, l’innovazione architetturale Multi-Head Latent Attention (MLA) riduce drasticamente il footprint del KV cache (proietta le rappresentazioni di key/value in uno spazio latente compresso), permettendo batch più grandi sulla stessa memoria GPU. Il throughput per GPU è quindi molto più alto, e il costo per token marginale crolla.

L’effetto di mercato si propaga. OpenAI rilascia GPT-4o a maggio 2024 a $5/$ 15 per million tokens (input/output), un dimezzamento rispetto a GPT-4 Turbo. Anthropic abbassa Claude 3 Haiku a $0.25/$ 1.25 per million tokens. Google Gemini 1.5 Flash a $0.075/$ 0.30. La pressione competitiva degli open self-hostable e degli open via API low-cost contribuisce sostanzialmente al taglio dei prezzi LLM del 2024-2025. La cifra di “10x riduzione di prezzo all’anno” che diventa narrazione standard nella stampa di settore è in parte effetto diretto della concorrenza degli open.

Esempio 5: Mistral 7B su un MacBook

Per concretizzare la portata dell’ecosystem locale: a fine 2024, scaricare e avviare Mistral 7B Instruct quantizzato Q4_K_M su un MacBook Pro M2 con 16 GB di RAM richiede tre comandi:

# Installa Ollama (one-liner del sito ufficiale)
curl -fsSL https://ollama.ai/install.sh | sh

# Scarica il modello (~4 GB)
ollama pull mistral

# Avvia conversazione
ollama run mistral

Il modello carica in pochi secondi, occupa circa 5 GB di RAM, e risponde a 20-40 token al secondo su Apple Silicon (a seconda del modello specifico). Per uno sviluppatore, l’esperienza è equivalente a usare ChatGPT in browser, ma il modello gira interamente sul laptop, senza connettività esterna, senza chiavi API, senza limiti di rate, senza costo per token. Il pattern ha conseguenze su privacy, cost-sensitivity, edge deployment.

Eredità oggi

[DATATO 2026-04]: stato dell’ecosystem alla data di scrittura. Le specifiche dei singoli modelli e tool cambiano ogni mese; quello che resta è il pattern.

Filiazione documentata delle famiglie. Llama 1 (febbraio 2023) → Llama 2 (luglio 2023) → Llama 3 (aprile 2024) → Llama 3.1 (luglio 2024) → Llama 3.2 multimodal (settembre 2024) → Llama 3.3 (dicembre 2024) → Llama 4 (in preparazione al momento di scrittura). Mistral 7B (settembre 2023) → Mistral 7B v0.2 / v0.3 → Mixtral 8x7B (dicembre 2023) → Mixtral 8x22B (aprile 2024) → Mistral Nemo, Codestral, Mathstral (2024). Qwen 1 (agosto 2023) → Qwen 1.5 (febbraio 2024) → Qwen 2 (giugno 2024) → Qwen 2.5 (settembre 2024). DeepSeek-LLM (novembre 2023) → DeepSeek-V2 (maggio 2024) → DeepSeek-V2.5 → DeepSeek-V3 (in preparazione) → DeepSeek-R1 (gennaio 2025, primo reasoning model open-weights, vedi capitolo ragionamento-2024-2026).

Tool diventati standard. HuggingFace come hub di riferimento per modelli e dataset, vLLM e SGLang per serving GPU, llama.cpp per local e edge, Ollama per UX consumer, Axolotl e Unsloth per fine-tuning. Lo stack è stabilizzato: la maggior parte delle nuove release di modelli open è simultaneamente disponibile su HuggingFace, supportata da vLLM, e quantizzata in formato GGUF per llama.cpp entro 24-48 ore dal rilascio.

Local LLM come categoria stabilita. Privacy, edge deployment, embedded AI, applicazioni offline sono tutti use case che richiedono LLM locali e che sono coperti dall’ecosystem open. Aziende sanità, legal, governo che non possono inviare dati a API esterne usano LLM open self-hosted. Mac M-series e laptop con NPU dedicate diventano hardware di sviluppo per local LLM. Vedi hosted-vs-self-hosted e deployment-patterns in preparazione (Parte XIII).

Mercato bipolare. Il pattern di mercato consolidato è la coesistenza di due regimi. Closed top-tier (GPT-4o, Claude 3.5/4.x Sonnet/Opus, Gemini 1.5/2.x Pro/Ultra) per task dove la qualità marginale conta più del costo: applicazioni consumer ad alto volume, agenti complessi multi-step, multimodal avanzato. Open self-hosted (Llama 3.1/3.3 70B/405B, Mixtral, Qwen 2.5, DeepSeek) per cost-sensitive (volumi enormi a costi unitari bassi), privacy-sensitive (dati che non possono uscire dal perimetro), customizable (fine-tuning su domini specifici).

Numeri di sintesi al 2024. HuggingFace hub passa da circa 100.000 modelli a inizio 2023 a oltre 1 milione a fine 2024 (fonte: blog HuggingFace). I download cumulativi della famiglia Llama superano i 350 milioni a estate 2024 (fonte: Mark Zuckerberg, post Threads agosto 2024). vLLM, llama.cpp, Ollama hanno ognuno fra 30.000 e 90.000 stelle GitHub a fine 2024. Mistral passa da valutazione $2B (dicembre 2023) a$ 6B (giugno 2024). Il prezzo medio di mercato delle API LLM cala di oltre il 70% in dodici mesi, in parte effetto della pressione competitiva degli open.

[DATATO 2026-04]: i numeri di mercato e di adozione si aggiornano rapidamente. Quello che resta strutturale è il pattern di crescita di un ordine di grandezza in un anno per ognuno degli indicatori principali, e la coesistenza stabile di open self-hosted e closed API come due regimi paralleli del mercato.

Influenza su benchmark e cultura. La leaderboard di Chatbot Arena (LMSYS) diventa il riferimento di valutazione qualitativa, e include sia closed sia open. La cultura “release con tweet + magnet link” di Mistral ha influenzato il marketing di altri laboratori. Il pattern di rilasci frequenti (mesi non anni) è normalizzato per chiunque voglia rimanere rilevante.

Dove si rompe

L’ecosystem open weights ha limiti strutturali e fraintendimenti diffusi che vanno espliciti.

“Open weights” non è “open source”. Training data, training code, training recipe sono spesso non rilasciati. Llama 2 e 3 non rilasciano il dataset di pretraining (per ragioni legali su copyright e per protezione del vantaggio competitivo). Mistral non rilascia né dataset né codice di training. DeepSeek pubblica più dettagli architetturali ma non il dataset completo. La differenza pratica è importante: chi scarica i pesi non può riprodurre il pretraining, non può verificare integralmente cosa il modello ha visto, non può rifare lo stesso modello con dati propri. Iniziative come AI2 OLMo (Allen Institute, 2024), LLM360 Amber, Pythia di EleutherAI (2023) sono “fully open” includendo dataset e training code, ma sono sotto-performanti rispetto ai migliori “open weights” closed-pipeline. Il mercato ha implicitamente accettato il compromesso.

Licenze custom non sono FLOSS. Llama (clausola MAU 700M, acceptable use policy), Yi (commerciale dietro registrazione), Qwen (clausola MAU 100M), Gemma (Gemma Terms of Use) sono “source-available with restrictions”, non Open Source nel senso OSI. Apache 2.0 (Mistral, Falcon piccoli) e MIT (Phi) sono le uniche licenze davvero permissive nell’ecosystem. La distinzione conta per startup che operano in giurisdizioni con vincoli legali stretti, e per progetti che vogliono ridistribuire i modelli sotto licenze proprie.

Performance gap residuo con i closed top-tier. A fine 2024, su benchmark hard (reasoning multi-step, multimodal long-context, agentic), i modelli closed mantengono ancora un vantaggio di 5-15 punti su molti benchmark. Llama 3.1 405B è competitive ma non superiore a GPT-4o e Claude 3.5 Sonnet in modo sistematico. Il mito “Llama batte GPT-4” (diffuso in pezzi di stampa di luglio 2024) è una semplificazione: Llama 3.1 405B è competitive su molti task, ma “battere” implica vantaggio sistematico che non c’è.

Mito: open vince. Coesistenza, non dominanza. Il mercato del 2024-2026 è bipolare, non sta convergendo a un’unica modalità. Le aziende usano sia API closed sia self-hosted open, scegliendo per task. La narrazione “open vincerà” è un’estrapolazione che ignora i vincoli economici (pretraining costa decine-centinaia di milioni e resta privilegio di pochi) e la dinamica competitiva (i closed continuano a investire e mantenere un vantaggio su task hard).

Mito: open è più sicuro. L’argomento di LeCun (“più occhi sul modello = più sicurezza”) è un’analogia con FLOSS classico che si applica solo parzialmente. Per i bug software classici, “many eyes” ha funzionato (Linux kernel, Apache, OpenSSL parzialmente). Per gli LLM, il safety alignment è fragile: Qi et al. (“Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!”, arXiv:2310.03693, ottobre 2023) documentano che bastano circa 100 esempi di fine-tuning avversariale su Llama 2 7B per rimuovere completamente i refusals di sicurezza. Una volta rilasciati i pesi, qualunque safety filter è bypassabile da un attaccante motivato con qualche centinaio di dollari di compute. L’argomento “open è più sicuro” non è falso in assoluto, ma è più condizionato di quanto la retorica suggerisca: dipende dal threat model che si considera. Per misuse individuale (generare malware, disinformation), l’open è meno sicuro perché non rimovibile. Per abuso da parte di chi controlla il modello (lock-in di provider closed che cambia comportamento), l’open è più sicuro perché auto-deployabile.

Mito: pretraining democratizzato. Falso. Solo Meta, Google, Microsoft, Alibaba, DeepSeek (via High-Flyer compute), TII Abu Dhabi, e poche altre organizzazioni hanno il capitale e l’hardware per addestrare modelli da centinaia di miliardi di parametri. Il pretraining resta un privilegio di pochi, e l’open ribalancia il mercato a valle del pretraining (fine-tuning, deployment, derivate), non a monte.

Reproducibilità della ricerca limitata. Senza accesso a training data, training code, training recipe completi, replicare un modello open weights da zero è impossibile. La ricerca di interpretability, alignment, safety può lavorare sui pesi rilasciati ma non può rispondere a domande del tipo “cosa sarebbe successo se avessimo escluso questa fonte di dati”, “questo comportamento emerge dal pretraining o dal fine-tuning”. La distinzione “open weights” vs “fully open” si traduce in distinzione fra “scienza che si può fare” e “scienza che resta esclusa”.

Velocità di obsolescenza. La curva è ripida: ogni 6-12 mesi, modelli più piccoli rivaleggiano con i predecessori più grandi. Llama 3 8B nel 2024 supera Llama 2 70B del 2023 su molti benchmark. Questo significa che fine-tune, integrazioni, tool ecosistem costruiti su un modello specifico hanno una shelf life limitata: ogni anno è necessario rifare il lavoro su un nuovo base model. Per startup e progetti accademici, il costo ricorrente di “stare al passo” è significativo, anche se inferiore a quello di addestrare da zero.

Reversibilità impossibile. Una volta rilasciati i pesi, non si possono ritirare. Se un modello open rilasciato oggi si rivela in futuro pericoloso (per esempio, capace di assistere significativamente in cyberattack o sintesi di patogeni), non c’è modo di “richiamare” i pesi distribuiti. Questa irreversibilità è il tratto strutturale che distingue open da closed più di qualunque altro: closed può essere ritirato, open no.

Costi economici del rilascio top-tier. La sostenibilità economica del rilasciare modelli frontier-grade open è discutibile, e questo è probabilmente il limite più sottile da capire. Meta può permetterselo perché monetizza ads sulle proprie piattaforme e usa Llama come investimento ecosistemico. Mistral pivota a freemium nel 2024 perché il modello “tutto open” non è sostenibile per una startup VC-backed. DeepSeek opera con un modello eccezionale (hedge fund parent senza pressione VC). Il pattern “rilascia tutto open frontier-grade, monetizza altrove” non è facilmente replicabile da chi non ha asset complementari.

Differenziazione e frammentazione dell’ecosystem. La proliferazione di modelli open (Llama, Mistral, Qwen, Yi, DeepSeek, Falcon, Gemma, Phi, e dozzine di varianti specializzate) crea anche un costo di attenzione per chi deve scegliere. Per startup e team di prodotto, valutare quale modello adottare richiede benchmark interni, A/B test, ricalibrazione di prompt per ogni famiglia. La frammentazione è il rovescio della medaglia della diversità: ogni modello ha quirks, formati di prompt sottilmente diversi, performance variabile per dominio. La standardizzazione attorno a un piccolo numero di “default open” (Llama per la generalità, Qwen per il cinese, DeepSeek per il rapporto qualità/prezzo) emerge nel 2024 ma non è completa.

Collegamenti

chatgpt-2022 — il momento che innesca la corsa AI globale del 2023; i modelli open rispondono a un mercato creato da ChatGPT.
scaling-era-2023 — il 2023 dei modelli closed (GPT-4, Claude, Gemini, PaLM 2); l’open weights cresce in parallelo come secondo polo.
instruction-rlhf-era — la metodologia SFT + RLHF/DPO che Meta applica in Llama 2-Chat e Llama 3, e che è ereditata da quasi tutti i modelli open conversazionali.
era-agenti-2024 (capitolo successivo, in preparazione) — il 2024 vede l’esplosione dell’agent coding, e i modelli open weights sono fondamentali per scenari agentic self-hosted.
ragionamento-2024-2026 (in preparazione) — DeepSeek-R1 (gennaio 2025) sarà il primo reasoning model open weights, erede diretto della famiglia DeepSeek 2023-2024.
moe-fondamenti, moe-routing, moe-load-balancing, moe-economia (Parte X, in preparazione) — Mixtral 8x7B è il primo MoE open di qualità competitiva; questi capitoli ne approfondiscono la meccanica.
quantization-base, quantization-metodi (Parte XI, in preparazione) — quantization GPTQ, AWQ, GGUF, EXL2 sono ciò che rende deployabili i modelli open su hardware consumer.
lora-peft (Parte XI) — LoRA / QLoRA sono lo strumento standard per fine-tunare modelli open con costo limitato.
vllm-sglang-tgi, llama-cpp-ollama, serving-stacks-llm, hosted-vs-self-hosted (Parte XIII) — i tool di serving e deployment che rendono usabile l’ecosystem open.
dpo-family (Parte XI) — DPO, usato in Llama 3, sostituisce PPO come metodo standard di alignment per i modelli open dal 2024.
pricing-token (Parte XXI) — il taglio dei prezzi delle API closed nel 2024 è in parte risposta alla pressione competitiva dell’open.
eu-ai-act, governance-compliance (Parte XXI) — la regolamentazione del 2024 (Biden EO, EU AI Act) ha clausole specifiche su modelli open.

Compute moat sul pretraining intatto. Nonostante l’open weights, addestrare un modello di taglio Llama 3.1 405B richiede oggi un cluster di decine di migliaia di GPU H100 e centinaia di milioni di dollari. Il numero di organizzazioni al mondo capaci di farlo è nell’ordine di una decina, principalmente USA + Cina + uno o due laboratori europei o medio-orientali. Il rilascio open spalma questo prodotto su milioni di utenti, ma non democratizza la capacità di produrlo. Per la ricerca di lungo periodo, questa concentrazione resta un vincolo strutturale.

Sintesi minimale

[DATATO 2026-04]: la sintesi sotto è la lettura del biennio 2023-2024 dal punto di vista del 2026. Il pattern (bipolarità, asimmetria pretraining/fine-tuning, ecosystem di tool) è quello che, dopo due anni di osservazione, sembra strutturalmente stabile. Le specifiche dei modelli, i prezzi, le quote di mercato si aggiornano ogni mese.

Per il lettore che vuole tenere il filo del biennio in poche righe. Da febbraio 2023 a luglio 2024, l’ecosystem LLM open weights è passato da nicchia accademica a secondo polo industriale del settore AI. I tre vettori sono stati: il rilascio di Llama da parte di Meta (1 leakata, 2 ufficiale, 3 e 3.1 frontier-grade), l’emergere di Mistral come challenger europeo con Apache 2.0 e MoE Mixtral, e l’ondata cinese di Qwen, Yi, DeepSeek con DeepSeek-V2 che introduce innovazioni architetturali originali. In parallelo, l’ecosystem di tool (HuggingFace come hub, vLLM e SGLang per serving, llama.cpp e Ollama per local) ha reso i modelli open praticamente deployabili in produzione, non più solo riproducibili in laboratorio. La quantization (GPTQ, AWQ, GGUF, QLoRA) ha portato modelli da 70B su hardware consumer. Il dibattito open vs closed si è polarizzato e poi normalizzato in coesistenza pragmatica: il mercato 2024 è bipolare, non monopolare, e probabilmente lo resterà.

Per andare oltre

Touvron H. et al., “Llama 2: Open Foundation and Fine-Tuned Chat Models”, arXiv:2307.09288, 2023. Il paper di riferimento per capire come Meta ha costruito Llama 2-Chat con SFT + RLHF iterativo. 77 pagine, denso ma leggibile.
Meta AI, “The Llama 3 Herd of Models”, arXiv:2407.21783, 2024. Documento ufficiale di Llama 3 e 3.1 405B. 92 pagine, oltre 500 coautori, riferimento per pretraining, fine-tuning, valutazione, multimodalità di un modello frontier-grade open.
Jiang A.Q. et al., “Mixtral of Experts”, arXiv:2401.04088, 2024. Paper Mixtral 8x7B: short e chiaro, riferimento per il primo MoE open competitivo.
DeepSeek-AI, “DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model”, arXiv:2405.04434, 2024. DeepSeek-V2 con Multi-Head Latent Attention, una delle innovazioni architetturali più originali del biennio.
Kwon W. et al., “Efficient Memory Management for Large Language Model Serving with PagedAttention”, SOSP 2023, arXiv:2309.06180. Paper vLLM. Riferimento per capire l’innovazione di sistemi che rende l’inferenza open economica.
Mark Zuckerberg, “Open Source AI Is the Path Forward”, Meta blog e Threads, luglio 2024. Articolo di posizione strategica del CEO di Meta sulla scelta open. Utile per capire la lettura strategica dietro le scelte di Meta.
gerganov/llama.cpp, repository GitHub https://github.com/ggerganov/llama.cpp. Codice e documentazione del progetto che ha definito il local LLM. Vale la pena leggere il README e la storia dei commit del 2023.
Qi X. et al., “Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!”, arXiv:2310.03693, 2023. Documento chiave per capire il limite intrinseco del safety alignment nei modelli open: pochi esempi di fine-tuning avversariale rimuovono i refusals. Letto insieme ai paper Llama 2 e 3, mette in prospettiva il dibattito open vs closed sotto il profilo safety.
Bai J. et al., “Qwen Technical Report”, arXiv:2309.16609, 2023. Documento di riferimento per Qwen 1, e per capire come è strutturato il pretraining di un modello cinese multilingua di taglio frontier.
Touvron H. et al., “LLaMA: Open and Efficient Foundation Language Models”, arXiv:2302.13971, 2023. Il paper originale di Llama 1, dove sono documentate le scelte architetturali (RoPE, RMSNorm, SwiGLU, pre-normalization) che diventano standard per quasi tutti i modelli open dei due anni successivi.
Stratechery (Ben Thompson), “Meta and the Open Source AI Boom”, luglio 2023, e successive analisi 2024. Lettura strategica della scelta open di Meta nel quadro più ampio della competizione AI.