Salta ai contenuti

Riduzionismo e olismo: quando scomporre funziona e quando no

Scomporre un sistema nei suoi pezzi è la mossa che ha costruito quasi tutta la scienza moderna. Questo capitolo spiega perché quella mossa, da sola, non basta mai a ricostruire il tutto — e perché un ingegnere AI ha bisogno di due lenti, non di una.

C’è una frase che si sente nei bar e nei consigli di amministrazione: “il tutto è più della somma delle parti”. Detta così suona come saggezza vaga, il tipo di cosa che si annuisce senza pensarci. Ma sotto quella frase consunta c’è una delle questioni più vecchie e più pratiche del pensiero scientifico: quando posso capire qualcosa scomponendolo, e quando quella strategia mi tradisce.

La strategia di scomporre ha un nome — riduzionismo — e una storia di vittorie schiaccianti. La biologia ha smesso di essere magia quando si è accettato che un organismo è fatto di cellule, le cellule di molecole, le molecole di atomi, e che non serve nessuna “forza vitale” in più. La chimica è diventata predittiva quando si è capito che le proprietà di una sostanza dipendono dalla struttura dei suoi atomi.

Scomponi, studia i pezzi, ricomponi: questo metodo ha funzionato così bene per così a lungo che è diventato quasi invisibile, il modo ovvio di fare scienza. Talmente ovvio che, di solito, non lo si nota nemmeno come una scelta — e una strategia che non si vede come scelta è una strategia che non si sa quando smettere di usare.

L’altra posizione — l’olismo — sostiene che per certi sistemi la ricomposizione non torna: il tutto ha proprietà che nessuna parte possiede e che non si leggono nei pezzi presi singolarmente. Per decenni l’olismo ha avuto cattiva fama, associato a vitalismo e misticismo. La tesi di questo capitolo è che riduzionismo e olismo non sono due ideologie fra cui scegliere una squadra: sono due strategie di indagine, ciascuna potente nel suo dominio e cieca fuori da esso. E che un ingegnere AI ne usa entrambe, spesso nello stesso pomeriggio: il riduzionismo quando isola il tool che lancia l’eccezione, l’olismo quando il bug non sta in nessun componente ma nell’interazione fra loro. Il capitolo dà il vocabolario per sapere quale lente stai usando, e perché.

C’è un motivo in più, specifico per chi lavora con sistemi AI, per cui questa distinzione non è filosofia astratta. Un modello di linguaggio moderno è, alla lettera, il sistema che mette più sotto pressione la nostra capacità di scegliere la lente giusta.

Da un lato si vorrebbe capirlo riduzionisticamente — i pesi, i neuroni, i circuiti, le feature — e c’è un intero campo di ricerca, la mechanistic interpretability, che ci prova. Dall’altro lato il modello esibisce comportamenti — il modo in cui ragiona, sbaglia, si corregge — che nessuno riesce a leggere nei singoli pesi. La stessa tensione si ripresenta un livello sopra, quando il modello diventa un agente: orchestratore, tool, memoria, ambiente.

Chi non ha il vocabolario di questo capitolo si trova a oscillare fra le due lenti senza saperlo, e a usare quella sbagliata nel momento sbagliato. Chi ce l’ha sa dire, davanti a un problema concreto, se quel problema vive in un pezzo o nell’organizzazione dei pezzi — e quella diagnosi cambia tutto ciò che viene dopo.

Il capitolo non chiede di prendere posizione. Chiede di smettere di confondere due strategie, e di riconoscere quale delle due un certo problema richiede. È un’abilità diagnostica, non una fede.

L’idea di scomporre per capire ha una data di nascita pulita. Nel 1637 il filosofo e matematico francese René Descartes — Cartesio — pubblica il Discorso sul metodo, e fra le sue quattro regole per ben condurre la ragione c’è questa: dividere ogni difficoltà esaminata in tante parti quanto possibile e necessario per risolverla. È la formulazione canonica del metodo analitico.

Cartesio va oltre la regola di metodo. Considera gli animali, e il corpo umano stesso, come automi — macchine che differiscono dai congegni artificiali solo per il grado di complessità. Il riduzionismo nasce qui come programma esplicito, e nasce già con la sua ambizione massima: non solo “scomponi per studiare”, ma “il vivente è una macchina scomponibile”. È quella seconda affermazione, molto più forte, che il dibattito dei tre secoli successivi metterà alla prova.

Per due secoli quel programma trova un avversario: il vitalismo, la posizione secondo cui la vita richiede una forza o un principio non riducibile alla fisica e alla chimica. La sua versione più articolata è dell’embriologo tedesco Hans Driesch (1867-1941), che dopo aver osservato come un embrione danneggiato possa comunque svilupparsi in un organismo completo postula l’entelechia: un fattore immateriale, direttivo, che non consuma energia e che distinguerebbe il vivente dal non vivente.

Il dibattito vitalismo contro meccanicismo — la posizione opposta, per cui la biochimica basta — dura fino al primo Novecento. Lo vince il meccanicismo: non si trova nessuna entelechia, la chimica organica spiega progressivamente ciò che sembrava richiedere magia. Questa vittoria è importante, perché è la radice del riduzionismo ontologico moderno, di cui si dirà fra poco.

Va detto subito, però, una cosa che il capitolo riprenderà. Il vitalismo aveva torto sull’ontologia — non c’è nessuna forza vitale. Ma l’intuizione che l’organizzazione conta, che mettere insieme i pezzi nel modo giusto fa una differenza, non era sbagliata. Quell’intuizione sopravvive, ripulita dal misticismo, nell’olismo. Perdere una battaglia ontologica non vuol dire avere torto su tutto: è una distinzione che torna utile per non liquidare l’olismo come superstizione.

Sul fronte opposto, all’inizio del Novecento, nasce un olismo scientifico. La scuola della Gestalt in psicologia (Max Wertheimer, Wolfgang Köhler, Kurt Koffka, attivi fra gli anni 1910 e 1930) mostra con esperimenti che la percezione tratta configurazioni intere, non somme di stimoli puntiformi: vedi un cerchio, non una collezione di punti.

Lo slogan che si associa alla Gestalt — spesso citato male come “il tutto è più della somma delle parti” — in realtà diceva qualcosa di più preciso: il tutto è diverso dalla somma delle parti. Diverso, non più. La distinzione, come si vedrà, è tutta la differenza: “più” suggerisce una quantità in eccesso, “diverso” suggerisce una qualità nuova, e l’olismo serio parla di qualità, non di quantità.

Pochi decenni dopo, il biologo austriaco Ludwig von Bertalanffy (1901-1972) prova a dare all’olismo una forma scientifica generale con la General System Theory (formulata dagli anni ‘40, raccolta nel libro omonimo del 1968): un approccio “organismico” che cerca principi validi per sistemi di tipo diverso, indipendenti dalla natura fisica dei componenti. La mossa di von Bertalanffy è importante perché toglie all’olismo l’odore di misticismo: non c’è bisogno di una forza vitale per sostenere che un organismo ha proprietà di sistema; basta osservare che esistono regolarità che dipendono dall’organizzazione e non dal materiale. Un anello di feedback si comporta in un certo modo che sia fatto di neuroni, di transistor o di prezzi di mercato. È lo stesso filone da cui nasce questa Parte IX, anticipato in Sistema, ambiente, confine, stato.

Il momento che dà al dibattito la sua forma moderna arriva nel 1972, e arriva da dentro la disciplina che più di tutte sembrava il regno del riduzionismo: la fisica. Il fisico statunitense Philip W. Anderson (1923-2020, premio Nobel per la fisica nel 1977 per i suoi lavori sulla materia condensata) pubblica su Science un saggio breve e tagliente, More Is Different, che diventerà il testo canonico della questione. Che a scriverlo sia un fisico, e non un biologo o uno psicologo, non è un dettaglio: la fisica era considerata la disciplina più riduzionista di tutte, quella in cui — almeno in linea di principio — tutto si riconduce alle particelle elementari. Anderson argomenta che nemmeno lì la riduzione completa funziona. La sezione “Esempi” lo smonta in dettaglio.

Più tardi, nel 1984, la nascita del Santa Fe Institute — un istituto di ricerca interdisciplinare sui sistemi complessi, di cui Anderson sarà fra gli animatori — trasforma lo studio dell’emergenza in un programma di ricerca quantitativo.

Non più “il tutto è diverso dalla somma” come slogan, ma modelli concreti: automi cellulari, reti, vita artificiale, dinamiche al margine del caos. L’emergenza smette di essere un’osservazione filosofica e diventa qualcosa che si misura e si simula. È il filone che, decenni dopo, fornirà il vocabolario per parlare di emergenza nei sistemi AI — e che incontreremo nella sezione “Dove si rompe” a proposito delle capacità emergenti degli LLM.

Vale la pena fissare la mappa concettuale prima di proseguire. Il riduzionismo come metodo nasce nel Seicento con Cartesio; vince la sua battaglia decisiva — quella ontologica, contro il vitalismo — fra Ottocento e primo Novecento; e proprio nel momento del trionfo incontra, dalla Gestalt e poi da von Bertalanffy e Anderson, l’obiezione che la vittoria ontologica non si estende automaticamente al piano epistemico. Tutto il capitolo vive dentro questa distinzione, che la prossima sezione rende operativa.

Prima di qualsiasi formalismo, due modi distinti di afferrare la differenza fra le due strategie. Il primo parte da un oggetto familiare e mostra come riduzionismo e olismo lavorino su domande diverse. Il secondo guarda la stessa scena dal punto di vista di chi monta e smonta, e mostra dove la scomposizione si rompe.

Prendi un orologio meccanico. Vuoi capire come funziona. La strategia giusta è evidente: aprilo, e guarda dentro. Ci sono ingranaggi, una molla, un bilanciere, le lancette. Ogni pezzo ha una funzione che puoi studiare isolatamente — la molla immagazzina energia, gli ingranaggi la trasmettono con un certo rapporto, il bilanciere la rilascia a scatti regolari.

Una volta capito ogni pezzo e come si aggancia al successivo, hai capito l’orologio. Il comportamento del tutto — segnare l’ora — è esattamente la somma ordinata dei comportamenti dei pezzi. Smontare funziona perfettamente. Questo è il dominio naturale del riduzionismo: un sistema dove le parti hanno funzioni stabili e le interazioni sono poche e fisse.

Ora prendi un fiume. Vuoi capire perché in un certo punto si forma un vortice. Provi la stessa strategia: scomponi il fiume nelle sue parti. Ma quali sono le parti di un fiume? Le molecole d’acqua? Una molecola d’acqua, presa da sola, non ha niente che assomigli a un vortice — non ha velocità di corrente, non ha turbolenza, non ha “forma”.

Il vortice non è in nessuna molecola. Non è nemmeno nella somma delle molecole intese come elenco: è nel modo in cui si muovono l’una rispetto all’altra, nella loro organizzazione dinamica. Se isoli una molecola per studiarla, hai buttato via esattamente la cosa che volevi capire. Il vortice è una proprietà del fiume-come-tutto.

Ecco il punto. Le due strategie non si contraddicono: rispondono a domande diverse.

“Di cosa è fatto?” è una domanda riduzionista, e per il fiume la risposta è onesta: è fatto di molecole d’acqua, niente altro, nessuna sostanza misteriosa. Nessun olista serio lo nega.

“Come si comporta come un tutto, e perché compare il vortice?” è una domanda olistica, e per rispondere devi guardare il livello del flusso, non quello della molecola. Riduzionismo e olismo non competono per la stessa risposta. Stanno rispondendo a cose diverse — ed è per questo che metterli in concorrenza, come se uno dovesse vincere, è già un fraintendimento.

C’è una conseguenza pratica che conviene estrarre subito. Davanti a un sistema, prima di scegliere come studiarlo, la domanda non è “riduzionismo o olismo?” ma “questo sistema assomiglia più a un orologio o più a un fiume, rispetto alla domanda che mi sto ponendo?”. Lo stesso oggetto può essere l’uno o l’altro a seconda di cosa chiedi: il fiume è un “orologio” se la domanda è “di cosa è fatta l’acqua” (idrogeno e ossigeno, scomposizione perfetta), ed è un “fiume” se la domanda è “perché il vortice”.

Il secondo angolo guarda la stessa idea dal punto di vista di chi lavora con le mani. Capire un sistema scomponendolo ha due fasi, e quasi sempre si pensa solo alla prima.

La prima fase è l’analisi: smontare. Prendi il sistema, lo dividi nelle parti, studi ogni parte. Questa fase il riduzionismo la fa benissimo, sempre. Smontare è quasi sempre possibile e quasi sempre informativo.

La seconda fase è la sintesi: rimontare. Avendo capito ogni parte, ricostruire il comportamento del tutto. È qui che la storia si complica. Per l’orologio la sintesi è gratis: incastri i pezzi e l’orologio funziona, il comportamento del tutto si legge dai pezzi. Per il fiume la sintesi non è gratis affatto: anche conoscendo perfettamente la fisica di ogni molecola d’acqua, ricostruire da lì dove e quando si formerà un vortice è un problema che, in pratica, non si risolve con carta e penna — bisogna far girare la simulazione e guardare cosa succede.

Questa è la chiave di tutto il capitolo, e vale la pena scriverla in chiaro: il riduzionismo non si rompe nella fase di analisi, si rompe nella fase di sintesi.

Nessuno nega che il fiume sia fatto di molecole. Quello che si nega è che dalla conoscenza delle molecole si ricostruisca, facilmente o per niente, il comportamento del fiume. L’olismo non è l’idea che “non si possa smontare”. È l’idea che rimontare non è gratis, che la sintesi è un lavoro a sé, con difficoltà proprie, che la conoscenza delle parti non ti regala.

Detto in modo che si attacchi: smontare è facile, rimontare è il mestiere. Chi confonde “ho capito tutti i pezzi” con “ho capito il sistema” sta saltando la seconda fase senza accorgersene.

C’è una ragione precisa per cui la sintesi è dura, e non è pigrizia. Quando rimonti, devi tenere conto non solo delle parti ma di tutte le loro interazioni.

Con due parti c’è un’interazione. Con tre, ce ne sono tre. Con dieci parti le coppie di interazioni sono quarantacinque, e se le interazioni non si fermano alle coppie — se contano anche le terne, le quaterne — il numero esplode. L’analisi scala col numero di parti; la sintesi scala col numero di relazioni fra le parti, che cresce molto più in fretta.

È per questo che capire ogni ingranaggio di un orologio è un lavoro finito, mentre prevedere il fiume non lo è: nel fiume ogni molecola interagisce con tutte quelle vicine, e “tutte quelle vicine” cambia a ogni istante. L’orologio ha poche interazioni fisse; il fiume ne ha tante e mutevoli. La differenza fra i due non è la quantità di parti — è la quantità e la stabilità delle relazioni.

Un terzo modo di afferrare la differenza, utile perché mostra che la scelta della lente è anche una scelta di quota di osservazione. Immagina di sorvolare una città. Da molto in alto vedi una macchia, dei flussi di traffico, l’alternarsi di quartieri densi e zone verdi: vedi la città-come-sistema, i suoi pattern, i suoi ritmi. Non vedi le singole persone.

Scendi di quota, fino a camminare per strada: ora vedi le persone, le facce, le singole decisioni — e non vedi più il pattern del traffico, sei dentro di esso. Hai guadagnato dettaglio e perso visione d’insieme.

Nessuna delle due quote è “quella vera”. La quota alta è la lente olistica: coglie le proprietà del tutto e perde il dettaglio delle parti. La quota bassa è la lente riduzionista: coglie le parti e perde il pattern.

Il punto cruciale è che certe proprietà esistono solo a una certa quota. “L’ingorgo si sposta all’indietro a passo d’uomo” è una frase vera, verificabile, ma è vera solo alla quota alta: nessuna singola auto “si sposta all’indietro”, ognuna va avanti. L’ingorgo come oggetto che arretra è una proprietà che compare solo guardando il flusso, e sparisce appena scendi al livello dell’auto singola. Non è un’illusione — è una proprietà reale, ma di un livello, non di un altro.

Questo terzo angolo aggiunge qualcosa ai primi due. L’orologio e il fiume dicono che esistono sistemi diversi; lo smontare e il rimontare dicono che la sintesi è dura. La città dice che, per uno stesso sistema, riduzionismo e olismo sono due quote, e che scegliere la quota è scegliere quali proprietà sono visibili e quali no. È esattamente la stessa idea che il capitolo Modelli descrittivi, predittivi, prescrittivi chiama “livello di descrizione”: la quota è una scelta di modellazione, e si rivelerà la chiave per capire il dibattito sulle capacità emergenti degli LLM.

Le due intuizioni vanno ora rese precise. “Riduzionismo” e “olismo” sono parole che si usano in modo sciatto, e gran parte delle discussioni sterili nasce dal fatto che due persone usano la stessa parola per cose diverse. Servono due distinzioni nette.

Il riduzionismo non è una tesi sola: sono tre, e la confusione fra loro è l’errore più comune del dibattito. Vanno separate perché si può accettarne una e rifiutarne un’altra senza alcuna contraddizione.

La prima è il riduzionismo ontologico. È una tesi su cosa esiste: non ci sono, nei sistemi complessi, sostanze o forze speciali che non siano già presenti nelle parti.

Un organismo è fatto degli stessi atomi della materia inerte, e obbedisce alle stesse leggi fisiche; non c’è nessuna entelechia in più. Questa versione è oggi largamente accettata — ed è, di fatto, l’eredità della vittoria del meccanicismo sul vitalismo. Quando questo capitolo dice “niente magia”, si riferisce a questa tesi: l’accetta senza riserve.

La seconda è il riduzionismo epistemico, o teorico. È una tesi sulle teorie e le spiegazioni: le leggi e i concetti di un livello superiore sono, in linea di principio, derivabili da quelle del livello inferiore. La chimica si deriva dalla fisica, la biologia dalla chimica, la psicologia dalla biologia.

Questa versione è controversa, ed è il vero bersaglio del dibattito. Si noti la clausola “in linea di principio”: il riduzionismo epistemico non chiede che la derivazione sia fattibile, solo che sia possibile. È proprio questa pretesa di possibilità che Anderson contesta.

La terza è il riduzionismo metodologico. È una tesi sul come si fa ricerca: la strategia più efficace è studiare i fenomeni al livello micro — molecole, neuroni, singoli componenti software.

Questa non è nemmeno in vera opposizione all’olismo: è una scelta di metodo, e spesso è la scelta giusta. Si può fare ricerca metodologicamente riduzionista — partire sempre dallo scomporre — pur pensando che il riduzionismo epistemico sia falso, cioè pur sapendo che alla fine la ricomposizione non tornerà del tutto. Le due cose convivono senza attrito.

Il punto cruciale: si può accettare il riduzionismo ontologico e rifiutare quello epistemico. Si può cioè credere che non ci sia nessuna magia nelle parti — niente forza vitale, niente sostanza in più — e al tempo stesso credere che le leggi del tutto non si deducano da quelle delle parti. Le due cose sono compatibili, perché parlano di cose diverse: una di cosa esiste, l’altra di cosa si può dedurre.

Tenere insieme questo è tutta la chiave per capire la posizione di Anderson, ed è il punto su cui si gioca la rispettabilità scientifica dell’olismo. L’olista serio non è un vitalista mascherato: è qualcuno che accetta l’ontologia riduzionista e nega quella epistemica. Non crede a sostanze misteriose; crede che dedurre il tutto dalle parti, in pratica e spesso anche in principio, non si possa.

Specularmente, anche l’olismo ha due versioni, e anche qui la distinzione separa la posizione difendibile da quella problematica.

L’olismo epistemico (o metodologico) è la versione debole: per capire il sistema devi guardarlo al suo livello, perché le proprietà globali non sono leggibili dalle parti prese da sole.

Non nega che il tutto sia fatto di parti e niente altro — su questo concorda con il riduzionismo ontologico. È la posizione mainstream nelle scienze della complessità, ed è quella che questo capitolo difende.

L’olismo ontologico è la versione forte: il tutto ha un’esistenza o un potere causale autonomo che le parti non hanno, nemmeno in linea di principio. È una posizione minoritaria, vicina nello spirito al vitalismo storico, e il capitolo la marca come tale: non è un fatto consolidato, è un’opzione filosofica contesa.

Mettendo insieme le due distinzioni: la posizione robusta — quella di Anderson, e quella di gran parte delle scienze dei sistemi complessi — è riduzionismo ontologico più olismo epistemico. Tutto è fatto di parti che obbediscono alle stesse leggi (ontologia riduzionista); ma per capire il tutto devi studiarlo al suo livello, perché dalle parti non lo ricostruisci (epistemologia olistica). Non è una posizione di compromesso tiepido: è la posizione precisa che il resto del capitolo articola.

Conviene visualizzare le combinazioni come una piccola tabella, perché le caselle che restano vuote dicono qualcosa.

La casella in alto a sinistra — accettare sia l’ontologia sia l’epistemologia riduzioniste — è il costruzionismo: dalle leggi delle parti si ricostruisce tutto. È la posizione che Anderson attacca. La casella in basso a destra — rifiutare entrambe — è il vitalismo e l’olismo forte: c’è una sostanza in più e le teorie non si riducono. La casella interessante, quella che il capitolo difende, è in alto a destra: nessuna sostanza in più, ma le teorie non si riducono comunque. È una posizione precisa, non un “sta nel mezzo”.

Lo strumento concettuale che lega tutto è l’emergenza: una proprietà del tutto che nessuna parte possiede e che “appare” quando le parti si organizzano. La temperatura è emergente — una singola molecola non ha temperatura, la temperatura è una proprietà statistica di tante molecole. Il vortice è emergente. La forma di un cristallo è emergente.

La parola, da sola, però non basta: usata male diventa un coperchio per nascondere l’ignoranza. Serve una distinzione che separi l’emergenza “innocua e meccanica” da quella “carica e controversa”.

Il filosofo statunitense Mark Bedau, in un saggio del 1997 intitolato Weak Emergence (in Philosophical Perspectives, vol. 11), ha dato a questo concetto la distinzione più utile che si possa portare in un lavoro di ingegneria. Due tipi di emergenza:

L’emergenza debole. La proprietà del tutto è derivabile dalle parti in linea di principio — non c’è nessuna magia, il sistema è completamente meccanico — ma è derivabile solo simulando il sistema passo passo, eseguendolo, senza alcuna scorciatoia analitica.

Bedau usa la parola “incomprimibile” (incompressible): non esiste una formula che ti dia il risultato saltando la simulazione; l’unico modo per sapere cosa fa il tutto è lasciarlo girare. Bedau sostiene che questa è l’unica emergenza reale, e che è comunissima: il Game of Life di Conway (l’automa cellulare in cui pattern complessi nascono da tre regole banali), il traffico, i mercati, le reti neurali. Niente di mistico — solo intrattabilità predittiva.

L’emergenza forte. La proprietà del tutto non è derivabile dalle parti nemmeno in linea di principio, e porta con sé poteri causali genuinamente nuovi.

Questa versione è filosoficamente controversa: molti la considerano incoerente, o comunque non necessaria a spiegare nulla di ciò che osserviamo. La coscienza è l’esempio più citato di candidata all’emergenza forte — è un esempio disputato, e appartiene alla filosofia della mente, non a questo capitolo. Il punto qui è solo segnare la differenza: l’emergenza debole è uno strumento di lavoro, la forte è una posizione da maneggiare con cautela.

Per un ingegnere la notizia utile è questa: quasi tutta l’emergenza che incontrerai è debole. Il sistema è deterministico, riducibile in principio, senza nessuna magia — ma per sapere cosa fa devi eseguirlo. Quando qualcuno dice “questo comportamento è emergente” intendendo “è magico, non si può spiegare”, sta usando la parola male. L’emergenza debole è l’opposto della magia: è perfettamente meccanica e solo intrattabile da predire a tavolino.

Conviene fissare l’idea di incomprimibilità con un esempio quantitativo minimo, perché è la parte più facile da fraintendere. Prendi una funzione semplice: il prossimo numero è il precedente moltiplicato per 3,9 e poi per uno meno se stesso — in formula, xn+1=3,9xn(1xn)x_{n+1} = 3{,}9 \cdot x_n \cdot (1 - x_n), con xnx_n un numero fra 0 e 1.

In parole povere, questa formula prende un numero, lo schiaccia e lo rilancia: è la cosiddetta mappa logistica, e per il valore 3,9 del coefficiente si comporta in modo caotico. La regola sta in una riga, la conosci interamente, non c’è nulla di nascosto al livello micro.

Eppure non esiste alcuna formula che, dato x0x_0, ti restituisca x1000x_{1000} senza calcolare anche tutti i 999 valori intermedi. Devi iterare. Mille passi per il millesimo valore. Questo è il senso preciso di “incomprimibile”: non manca nessuna conoscenza sulle parti — la regola è tutta lì — manca una scorciatoia, e per i sistemi emergenti-deboli la scorciatoia semplicemente non c’è.

Il prezzo per sapere cosa fa il tutto è eseguire il tutto. Una mappa logistica con un solo numero è già incomprimibile; un sistema agentico con migliaia di chiamate a un modello e a dei tool lo è a maggior ragione. È la ragione tecnica per cui non si può “dimostrare a tavolino” che un agente non entrerà mai in un loop: per saperlo, in generale, bisogna eseguirlo.

C’è un corollario che disturba ma è onesto: per un sistema emergente-debole, “in linea di principio derivabile dalle parti” e “in pratica imprevedibile senza eseguirlo” sono entrambe vere insieme, e non si contraddicono. La prima è un’affermazione sull’ontologia (non serve nient’altro che le parti). La seconda è un’affermazione sull’epistemologia (la sola conoscenza delle parti non basta a predire). È, di nuovo, la stessa coppia ontologico/epistemico vista sopra, applicata stavolta non al riduzionismo in generale ma allo specifico fenomeno dell’emergenza.

Tutto il discorso fin qui presuppone una parola che conviene rendere esplicita: livello di descrizione. Un livello di descrizione è un vocabolario, un insieme di entità e proprietà con cui si parla di un sistema.

Lo stesso pezzo di realtà ammette più livelli. Un’app web la puoi descrivere come bit nella memoria, come istruzioni macchina, come funzioni di un linguaggio, come componenti architetturali, come esperienza dell’utente.

Sono cinque vocabolari diversi per la stessa cosa. Nessuno è “quello vero”: ognuno è adeguato a certe domande e muto su altre. Chiedere “perché l’utente si è confuso” al livello dei bit è una domanda mal posta, non perché i bit siano falsi, ma perché la confusione dell’utente non è una proprietà esprimibile in quel vocabolario.

Il riduzionismo, riformulato in questo vocabolario, è la scommessa che il livello basso sia sufficiente — che parlando di bit si possa, in linea di principio, dire tutto ciò che si direbbe parlando di componenti. L’olismo epistemico è l’osservazione che certe proprietà sono esprimibili solo a un certo livello: “questa funzionalità è lenta” è una proprietà del livello architetturale, e tradurla in un fatto sui bit, se anche fosse possibile, la renderebbe illeggibile.

C’è una conseguenza che lega questa sezione a Modelli descrittivi, predittivi, prescrittivi. Scegliere il livello di descrizione è un atto di modellazione, con gli stessi compromessi: un livello più basso è più fedele e meno trattabile, uno più alto è più trattabile e meno fedele. Riduzionismo e olismo, allora, non sono due verità in conflitto: sono due punti su un asse di modellazione, e la scelta del punto dipende — come sempre — dalla domanda. Questa è la formulazione più precisa della tesi del capitolo, ed è il ponte verso la sezione successiva sull’emergenza.

Resta un pezzo: la causazione verso il basso (downward causation), l’idea che il livello superiore eserciti un potere causale su quello inferiore. Anche qui due versioni.

La versione debole è innocua, e quasi ovvia: il contesto macro vincola cosa fanno le parti. La struttura tridimensionale di una proteina vincola come si muovono i suoi atomi; la cultura di un team vincola le decisioni del singolo membro; la temperatura di un gas vincola la distribuzione delle velocità delle molecole. Il livello alto non viola nessuna legge del livello basso — semplicemente, fissa le condizioni al contorno entro cui le parti operano.

La versione forte è controversa: il macro causerebbe il micro scavalcando le leggi del micro. Questa cozza con un’obiezione classica, la sovradeterminazione causale: se gli stati micro bastano già, da soli, a causare l’effetto successivo, allora un potere causale macro “in più” non ha alcun lavoro da fare — sarebbe una causa di troppo, e due cause complete per uno stesso effetto sono una di troppo.

Questo capitolo tiene la versione debole della downward causation, che è tutto ciò che serve all’ingegneria, e marca la forte come dibattito aperto di filosofia della mente, non come risultato acquisito. Quando in un sistema agentico si dice che “il prompt di sistema vincola il comportamento dei singoli passi”, si sta usando — correttamente — la versione debole: il livello alto fissa il contesto, non scavalca le regole del livello basso.

Un’ultima messa a fuoco prima degli esempi. Anche accettando che un sistema sia riducibile in linea di principio, restano tre ostacoli che rendono la ricomposizione intrattabile in pratica. Vale la pena nominarli, perché sono i tre motivi concreti per cui l’emergenza debole esiste.

Il primo è l’esplosione combinatoria. Come si è visto nel secondo angolo, il numero di interazioni cresce molto più in fretta del numero di parti. Simularle tutte, per un sistema di dimensioni reali, diventa proibitivo: non c’è abbastanza compute nell’universo per certe ricomposizioni esatte.

Il secondo è la non linearità e il caos. In molti sistemi un piccolo errore nelle condizioni iniziali si amplifica esponenzialmente nel tempo — è ciò che la mappa logistica mostrava in miniatura. La predizione esatta del tutto diventa impossibile anche conoscendo perfettamente le leggi, perché non si conoscono mai le condizioni iniziali con precisione infinita.

Il terzo è la sensibilità al contesto. Il comportamento di una parte dipende da quali altre parti la circondano. “Studiare la parte isolata” può dare una risposta che, rimessa nel sistema completo, non vale più — è esattamente il modo in cui l’esempio del bug agentico, fra poco, ingannerà il debugger.

La conclusione che lega i tre ostacoli è semplice, e va tenuta per tutto il resto del capitolo: riducibile-in-principio non implica predicibile-in-pratica. Quello scarto fra principio e pratica è lo spazio preciso in cui vive l’emergenza debole, e in cui un ingegnere passa gran parte del suo tempo.

Tre esempi eterogenei: uno storico-fisico, uno computazionale, uno operativo.

Esempio uno: “More is Different”, il caso di Anderson

Sezione intitolata “Esempio uno: “More is Different”, il caso di Anderson”

Il saggio di Anderson del 1972 è l’esempio più pulito perché è scritto da un riduzionista. Anderson era un fisico, e premette esplicitamente “we must all start with reductionism, which I fully accept” — dobbiamo tutti partire dal riduzionismo, che accetto pienamente. La sua mossa non è rifiutare il riduzionismo: è separarlo da un’altra tesi che gli viene abitualmente confusa.

Anderson distingue l’ipotesi riduzionista dall’ipotesi costruzionista. La prima dice che tutto obbedisce allo stesso insieme di leggi fondamentali — ed è vera, e Anderson la accetta. La seconda è il salto che Anderson chiama “the main fallacy”, l’errore principale:

“The ability to reduce everything to simple fundamental laws does not imply the ability to start from those laws and reconstruct the universe.”

In italiano: la capacità di ridurre ogni cosa a poche leggi fondamentali non implica la capacità di partire da quelle leggi e ricostruire l’universo.

E, scrive Anderson, “the constructionist hypothesis breaks down when confronted with the twin difficulties of scale and complexity” — l’ipotesi costruzionista crolla davanti alla doppia difficoltà della scala e della complessità.

Si noti che questa è esattamente la distinzione analisi/sintesi del secondo angolo dell’intuizione: l’ipotesi riduzionista riguarda lo smontare, quella costruzionista il rimontare. Anderson, mezzo secolo prima che si parlasse di sistemi agentici, aveva dato al capitolo la sua tesi centrale in una frase.

Anderson lo prova con la fisica. Il suo esempio più semplice è la molecola di ammoniaca (NH3). I chimici dicono che l’ammoniaca “è” una piramide triangolare con un dipolo elettrico. Ma le leggi fondamentali — la simmetria dello spazio e del tempo — dicono che nessuno stato stazionario di un sistema ha un dipolo elettrico.

Contraddizione? No: per tunneling quantistico l’azoto attraversa il triangolo di idrogeni, rovesciando la piramide come un ombrello al vento, circa trenta miliardi di volte al secondo. Lo stato stazionario vero è una sovrapposizione simmetrica della piramide e della sua immagine rovesciata — e quella sovrapposizione non ha dipolo. La proprietà “ha una forma definita con un dipolo” non è una proprietà che si legge nelle leggi fondamentali: emerge a un certo livello di descrizione e svanisce a un altro.

L’esempio del cristallo è ancora più netto. Un cristallo è costruito da atomi che obbediscono a leggi che esprimono l’omogeneità perfetta dello spazio — leggi che non hanno nessuna direzione privilegiata. Eppure il cristallo, scrive Anderson, “suddenly and unpredictably displays an entirely new and very beautiful symmetry”: una struttura regolare, con direzioni privilegiate, che le leggi sottostanti non lasciavano prevedere.

È un caso di rottura di simmetria: lo stato del sistema grande ha meno simmetria delle leggi che lo governano. Detto così sembra un paradosso — come fa l’effetto ad avere meno simmetria della causa? Ma è proprio questo il punto di Anderson: l’organizzazione collettiva di molte parti può “scegliere” una configurazione particolare fra le tante che le leggi simmetriche permettono, e quella scelta è imprevedibile dalle leggi da sole. Il tutto non è prevedibile dalle parti non perché manchi qualche legge, ma perché l’organizzazione collettiva produce qualcosa di qualitativamente nuovo.

Da qui la gerarchia di scienze che Anderson disegna — fisica delle particelle, fisica dei molti corpi, chimica, biologia molecolare, biologia cellulare, fisiologia, psicologia, scienze sociali — con il commento che la chiude:

“this hierarchy does not imply that science X is ‘just applied Y.’ … Psychology is not applied biology, nor is biology applied chemistry.”

Ogni livello, dice Anderson, richiede “entirely new laws, concepts, and generalizations” — leggi, concetti e generalizzazioni interamente nuovi. Va segnata con cura la classe di questa affermazione: non è una filiazione (Anderson non dice che la psicologia discende storicamente dalla biologia), non è un teorema; è una tesi epistemica, l’affermazione che ogni livello richiede concetti propri non deducibili dal livello sotto. È proprio il riduzionismo epistemico che viene negato, lasciando intatto quello ontologico.

Anderson chiude il saggio con due esempi presi dall’economia, e uno di questi merita di essere citato perché spiega in due righe il titolo. Karl Marx aveva scritto che le differenze quantitative diventano qualitative; ma — osserva Anderson — uno scambio di battute attribuito a Francis Scott Fitzgerald ed Ernest Hemingway negli anni ‘20 lo dice ancora meglio.

Fitzgerald: “i ricchi sono diversi da noi”. Hemingway: “sì, hanno più soldi”. Più soldi è una differenza puramente quantitativa. Eppure quella differenza di quantità, oltre una certa soglia, diventa una differenza di tipo — una vita diversa, non solo una vita con un numero più grande.

“More is different”: di più non è solo di più, a un certo punto diventa altro. È esattamente la tesi che il capitolo applica, nella sezione “Dove si rompe”, alle scaling laws e alle capacità degli LLM — sistemi in cui aggiungere parametri, oltre una certa scala, sembra cambiare la qualità di ciò che il modello fa, non solo la quantità.

Esempio due: il Game of Life e l’emergenza debole

Sezione intitolata “Esempio due: il Game of Life e l’emergenza debole”

Il Game of Life, ideato dal matematico John Conway nel 1970, è una griglia di celle, ognuna viva o morta, che evolve a passi discreti secondo tre regole banali: una cella viva con due o tre vicine vive sopravvive, una morta con esattamente tre vicine vive nasce, in tutti gli altri casi muore o resta morta. Le regole stanno in una riga. Conosci le parti — le celle — alla perfezione: non c’è niente da scoprire al livello micro.

Eppure dalla griglia emergono strutture che le tre regole non lasciano affatto prevedere a tavolino: configurazioni stabili, configurazioni che oscillano, e gli aliscafi (gliders), pattern di celle che si spostano sulla griglia mantenendo la forma, come piccoli oggetti che camminano. Si è perfino dimostrato che il Game of Life è Turing-completo: con la configurazione iniziale giusta può eseguire qualunque calcolo. Un computer universale che esce da tre regole su una griglia.

Questo è l’esempio perfetto di emergenza debole nel senso di Bedau. Niente magia: il sistema è deterministico, completamente specificato, riducibile in linea di principio. Conosci le parti e le regole alla perfezione, fin dall’inizio.

Ma per sapere se una data configurazione iniziale produrrà un aliscafo, o un computer, o il nulla, non esiste scorciatoia: devi far girare la simulazione e guardare. La conoscenza completa delle parti — le regole — non ti regala la conoscenza del comportamento del tutto. Per averla, devi pagare il costo dell’esecuzione. È il senso preciso di “incomprimibile”, e il Game of Life lo rende visibile a occhio nudo.

Esempio tre: il bug che non sta in nessun componente

Sezione intitolata “Esempio tre: il bug che non sta in nessun componente”

Uno scenario che chiunque costruisca sistemi agentici riconosce. Hai un agente con tre componenti: un retrieval step che recupera documenti, un planner che decide i passi, un executor che li esegue chiamando dei tool. In produzione, ogni tanto, l’agente entra in un ciclo: ripete lo stesso passo, consuma budget, non conclude.

La strategia riduzionista parte subito, ed è quella giusta da provare per prima. Isola i componenti, e testali uno a uno.

Testi il retrieval da solo, con cento query: funziona, recupera documenti pertinenti. Testi il planner da solo, con cento stati: produce piani sensati. Testi l’executor da solo: chiama i tool correttamente, gestisce gli errori. Ogni componente, isolato, passa il suo test. Eppure il sistema, intero, si blocca.

Il bug non sta in nessun componente. Sta nell’interazione. Il retrieval, su una certa classe di query, recupera un documento leggermente fuori tema; il planner, vedendo quel documento, propone un passo che l’executor esegue producendo un output che — rientrando nel contesto — fa recuperare di nuovo lo stesso tipo di documento.

Nessun pezzo è rotto. È rotto l’anello che formano insieme. È un caso di emergenza debole, esattamente come gli aliscafi: il comportamento “loop” non è in nessuna parte, è nell’organizzazione delle parti, e l’unico modo per vederlo è eseguire il sistema intero e osservare la traccia. Il loop è alla rete agentica ciò che il vortice è al fiume — una proprietà del flusso, non di un componente.

La lezione operativa: la strategia riduzionista — isola e testa i pezzi — è necessaria e va fatta, ma quando ogni pezzo passa e il sistema fallisce, hai la prova che il bug è olistico, e cercarlo ancora dentro i componenti è tempo perso. Va cercato nelle interazioni, con strumenti che guardano il sistema intero: tracing end-to-end, log dell’intero loop, eval sul comportamento complessivo. Le due lenti non sono in competizione: la riduzionista circoscrive il problema, l’olistica lo risolve.

Un dettaglio che vale la pena estrarre, perché è controintuitivo. In questo scenario la strategia riduzionista non solo non trova il bug — rischia di nasconderlo.

Ogni test di componente che passa è una piccola prova rassicurante, e l’accumularsi di prove rassicuranti porta a concludere “i pezzi sono a posto, il problema dev’essere altrove”, quando il problema è proprio nel “fra i pezzi” che nessun test di componente esamina.

È una trappola epistemica precisa: il metodo riduzionista, applicato a un problema olistico, produce evidenza che punta nella direzione sbagliata. Non è che fallisce in silenzio; fallisce dando una falsa sicurezza. Riconoscere il pattern — “tutti i componenti verdi, il sistema rosso” — è di per sé una diagnosi, e va trattato come un segnale forte, non come un mistero.

Esempio quattro: la temperatura, ovvero quando ridurre funziona benissimo

Sezione intitolata “Esempio quattro: la temperatura, ovvero quando ridurre funziona benissimo”

I primi tre esempi rischiano di lasciare l’impressione che il riduzionismo sia sempre il perdente. Non è così, ed è importante mostrarlo: un esempio in cui la riduzione tra un livello e l’altro funziona, e funziona splendidamente, è la temperatura di un gas.

Un gas è fatto di molecole che si muovono e urtano. Una singola molecola non ha “temperatura” — ha una velocità. La temperatura è una proprietà del gas-come-tutto, ed è quindi, a rigore, emergente.

Eppure la fisica statistica, fra Ottocento e primo Novecento, è riuscita a fare esattamente ciò che il costruzionismo promette: ha derivato la proprietà macro da quella micro. La temperatura, si è scoperto, è proporzionale all’energia cinetica media delle molecole. C’è una formula pulita che collega il livello micro (le velocità) al livello macro (la temperatura), e la formula non richiede di simulare ogni molecola: è una scorciatoia analitica vera.

Perché qui la riduzione riesce e per il fiume no? La differenza è il tipo di organizzazione. In un gas all’equilibrio le molecole sono, statisticamente, tutte uguali e indipendenti: l’urto fra due molecole non crea una struttura persistente, il disordine è massimo e uniforme.

Quando le parti sono intercambiabili e le loro interazioni si “mediano via”, la statistica fornisce il ponte fra i livelli, e la riduzione epistemica funziona. Nel fiume turbolento, invece, le interazioni creano strutture — vortici — che persistono, si influenzano, hanno storia. Lì non c’è media che salvi: devi simulare.

Questo esempio chiude il quadro. Non è che la riduzione epistemica fallisca sempre. Fallisce quando l’organizzazione delle parti produce struttura persistente; riesce quando l’organizzazione è statisticamente uniforme.

Sapere in quale dei due casi sei è metà del lavoro di scegliere la lente. Le scaling laws, che incontreremo nella sezione “Dove si rompe”, sono il caso “temperatura” del deep learning: una proprietà di livello-sistema che, sorprendentemente, ha una legge pulita. Non tutti i sistemi grandi sono fiumi; alcuni sono gas.

Prima delle applicazioni, conviene disinnescare gli errori che fanno sbagliare lente a chi non li ha visti nominare.

“Il tutto è più della somma delle parti” letto come quantità. È la formula da bar, e fraintende il punto. Non si tratta di “più” in senso quantitativo, come se mettendo insieme i pezzi spuntasse un pezzo extra.

Si tratta di diverso in senso qualitativo: l’organizzazione delle parti produce proprietà di tipo nuovo, che le parti singole non hanno. La Gestalt diceva “diverso”, non “più”, e la differenza non è pedanteria — è la differenza fra l’olismo come slogan vuoto e l’olismo come osservazione precisa.

Confondere le tre versioni del riduzionismo. È l’errore più costoso. Accettare che non esista una forza vitale (riduzionismo ontologico) non obbliga ad accettare che la psicologia si deduca dalla fisica (riduzionismo epistemico). Anderson accetta il primo e nega il secondo, senza alcuna contraddizione.

Chi tratta “riduzionismo” come un blocco unico finisce in uno di due errori speculari. O butta via l’ontologia insieme all’epistemologia, e cade nel vitalismo. O accetta l’epistemologia insieme all’ontologia, e cade nel costruzionismo che Anderson smonta. La distinzione fra le tre versioni non è un cavillo accademico: è ciò che tiene aperta la terza casella della tabella, quella difendibile.

Emergenza usata come parola magica. Nella pratica, “è emergente” troppo spesso significa solo “non ho capito come”.

L’emergenza debole di Bedau è l’esatto contrario della magia: è perfettamente meccanica, deterministica, riducibile in linea di principio. È solo intrattabile da predire senza simulare. Se chiami “emergente” un comportamento per dispensarti dal capirlo, stai usando la parola come tappeto sotto cui nascondere la polvere.

Downward causation come violazione delle leggi fisiche. La versione utile della causazione verso il basso è debole: il contesto macro vincola le parti, fissa le condizioni al contorno, non viola nulla. La versione forte — il macro che scavalca il micro — cozza con la sovradeterminazione causale ed è dibattito aperto, non risultato acquisito. Chi sente “downward causation” e pensa subito a una forza misteriosa che piove dall’alto sta immaginando la versione forte e controversa, non quella ordinaria e innocua.

Riduzionismo “sbagliato”, olismo “giusto” (o viceversa). Sono strategie, non verità in competizione. Il riduzionismo ha prodotto quasi tutta la scienza moderna; l’olismo senza riduzionismo a monte diventa vago. Scegliere “una squadra” è già l’errore: la domanda corretta non è quale lente sia giusta, ma quale lente serva per il problema che hai davanti.

Antiriduzionismo confuso con antiscienza. L’olismo trascina una reputazione mistica, in parte meritata dalla sua versione ontologica forte. Ma l’antiriduzionismo costruzionista di Anderson non è un rifiuto della scienza: è una posizione interna alla fisica più rigorosa, sostenuta da un premio Nobel, fondata su esempi tecnici. Confondere i due olismi fa scartare quello serio per colpa di quello mistico.

Le due lenti non sono filosofia da tempo libero. Decidono come imposti il lavoro, e gli scenari che seguono sono concreti.

Scegliere il livello di debugging. Davanti a un fallimento di un sistema AI, la prima domanda diagnostica è: il difetto è in un componente o nell’interazione?

Se è in un componente, la strategia riduzionista — isola, riproduci, ripara il pezzo — è la più rapida ed efficace. Se i componenti isolati passano tutti i test, hai una diagnosi vera e propria: il bug è d’interazione, e va affrontato con osservabilità a livello di sistema.

Sapere distinguere i due casi ti risparmia ore di ricerca nel posto sbagliato — e ti evita la trappola di accumulare prove rassicuranti che puntano lontano dal vero problema.

Leggere i benchmark di scaling senza farsi ingannare. Quando una curva di performance “scatta” a una certa scala di modello, la lettura ingenua è “salto qualitativo, capacità emergente”.

Ma — come si vede nella sezione “Dove si rompe” — quel salto può essere un artefatto della metrica scelta. Prima di concludere che un modello ha acquisito una capacità nuova di colpo, controlla con quale metrica è stata misurata: una metrica discontinua può fabbricare un salto da una crescita perfettamente liscia.

La lente giusta qui è ricordare che la metrica è una quota di osservazione, non una finestra trasparente sulla realtà.

Calibrare le aspettative sull’interpretabilità. Chi si avvicina alla mechanistic interpretability — il tentativo di capire una rete neurale circuito per circuito — spesso parte dall’idea implicita che “un concetto stia in un neurone”.

Non è così, e saperlo prima evita frustrazione: le reti usano rappresentazioni distribuite, la localizzazione pulita va costruita con strumenti appositi, non trovata già pronta. L’aspettativa realistica è che il riduzionismo dell’interpretabilità funzioni solo dopo un lavoro di “cambio di base” che renda i pezzi leggibili. Chi parte sapendolo imposta il lavoro nel modo giusto; chi non lo sa spreca tempo a cercare neuroni-concetto che non esistono.

Progettare gli ambienti di test. Se un comportamento di un sistema è emergente-debole, l’unico modo per conoscerlo è eseguire il sistema intero.

Conseguenza pratica diretta: gli unit test dei componenti sono necessari ma non sufficienti. Servono ambienti di simulazione e eval end-to-end che facciano girare l’agente completo contro scenari realistici, perché è solo lì che i comportamenti d’interazione diventano visibili. Un sistema agentico testato solo a pezzi è un sistema di cui non conosci il comportamento.

Decidere il confine dell’analisi post-mortem. Quando un incidente in produzione richiede un’analisi a posteriori, la scelta riduzionismo/olismo decide quanto largo guardare.

Un post-mortem solo riduzionista trova “il componente X ha restituito un valore errato” e si ferma lì. Un post-mortem che tiene anche la lente olistica chiede perché il sistema, nel suo insieme, non ha contenuto quell’errore — perché non c’era un controllo, perché il valore errato si è propagato senza che nulla lo fermasse.

I due livelli di analisi producono due liste di azioni correttive diverse. Il primo dice “ripara il componente X”. Il secondo dice “aggiungi una barriera che impedisca a un errore di componente di diventare un incidente di sistema”. Entrambe le liste servono, e fermarsi alla prima lascia il sistema esposto al prossimo errore di un altro componente.

Le idee di questo capitolo hanno limiti e zone di disputa che vanno dette con onestà. Diverse di queste non sono questioni chiuse: sono dibattiti vivi, e il capitolo le marca come tali.

Il dibattito sulle capacità emergenti degli LLM è aperto. Nel 2022 Jason Wei e colleghi pubblicano, su Transactions on Machine Learning Research, Emergent Abilities of Large Language Models: definiscono “emergente” un’abilità assente nei modelli piccoli e presente in quelli grandi, e mostrano curve in cui la performance resta a livello-caso fino a una certa scala e poi sale di colpo. La loro conclusione: questa emergenza non si predice estrapolando una scaling law dai modelli piccoli.

Nel 2023 Rylan Schaeffer, Brando Miranda e Sanmi Koyejo rispondono con Are Emergent Abilities of Large Language Models a Mirage? (NeurIPS 2023, premiato come Outstanding Paper) e ribaltano il quadro. L’emergenza apparente, sostengono, nasce dalla scelta della metrica, non da un cambiamento del modello. Una metrica discontinua come l’exact-match — la risposta intera vale 1 se perfetta, 0 altrimenti — produce salti netti; una metrica continua, come la distanza di edit fra token o la log-probabilità della risposta corretta, sulla stessa identica famiglia di modelli mostra una crescita liscia e predicibile. Gli autori hanno perfino fabbricato “emergenza” artificiale su task di visione, semplicemente cambiando la metrica.

Va marcato con precisione cosa è e cosa non è dimostrato. Non è un fatto consolidato che le capacità emergenti degli LLM siano un miraggio, né che siano emergenza forte. La lettura più prudente: l’effetto-metrica è reale — Schaeffer ha mostrato in modo convincente che molta “emergenza” riportata è artefatto di misura — e resta aperta la questione se qualche capacità salti davvero, al netto della metrica.

Per questo capitolo il valore dell’episodio è indipendente da chi vinca: è l’illustrazione più limpida di un punto centrale. Lo stesso fenomeno appare emergente o liscio a seconda del livello di descrizione che scegli — e la metrica è una scelta di livello di descrizione, esattamente come la scelta di modello discussa in Modelli descrittivi, predittivi, prescrittivi. Vedere un salto non è leggere un fatto della natura: è leggere un fatto della natura attraverso uno strumento. Il terzo angolo dell’intuizione — la città vista da due quote — qui smette di essere una metafora e diventa una controversia tecnica viva.

L’emergenza forte è contesa. Tutto il capitolo difende l’emergenza debole di Bedau, che è meccanica e innocua. L’emergenza forte — proprietà non derivabili dalle parti nemmeno in principio, con poteri causali nuovi — non è affatto consenso.

Molti filosofi la considerano incoerente o superflua. Chiunque dica “le reti neurali hanno capacità fortemente emergenti” sta facendo un’affermazione filosoficamente carica, non un’osservazione neutra. Il capitolo non la sostiene e non la nega: la segnala come dibattito, e raccomanda di trattare con sospetto chi la usa come se fosse un fatto stabilito.

Il limite olistico dell’interpretabilità meccanicistica. La mechanistic interpretability è, alla lettera, riduzionismo applicato al deep learning: cerca di capire una rete scomponendola in neuroni, circuiti, feature. Il programma “circuiti” — reso noto dai lavori di Chris Olah e colleghi, prima a OpenAI e poi ad Anthropic — cerca sottografi computazionali interpretabili dentro la rete. Funziona, in parte.

Ma incontra un limite che è olistico nel senso preciso del capitolo. Le reti neurali usano rappresentazioni distribuite: un concetto non sta in un neurone, sta in un pattern di attivazione su molti neuroni. Peggio, c’è la superposizione: il lavoro Toy Models of Superposition di Nelson Elhage e colleghi (Anthropic, 2022) mostra in modelli-giocattolo che una rete codifica più feature di quanti neuroni abbia, sovrapponendole come combinazioni lineari.

Conseguenza diretta: i neuroni sono polisemantici — uno stesso neurone si attiva per cose senza relazione fra loro, per esempio stringhe di DNA, poesia araba e header HTTP. Volere “un concetto = un neurone” è chiedere alla rete una localizzazione che la rete non usa: la rete ha imparato a impacchettare l’informazione in modo distribuito, perché impaccarla così le conviene.

La risposta tecnica sono gli sparse autoencoder, che provano a estrarre dalla rete feature monosemantiche pulite; un lavoro Anthropic del 2023 decompone un layer da 512 neuroni in oltre 4000 feature, e un follow-up del 2024 lo applica a un modello di produzione. Ma il punto resta: la localizzazione pulita “un concetto = un neurone” è l’eccezione, non la regola. Il riduzionismo, qui, funziona solo dopo una trasformazione di base che lo renda possibile — e quella trasformazione è a sua volta un atto di modellazione. La tensione fra le due lenti non è accademica: è un vincolo operativo del mestiere.

Le scaling laws sono leggi di livello-sistema. Le scaling laws — le regolarità empiriche che predicono la loss di un modello in funzione di parametri, dati e compute — sono un esempio limpido di “more is different”. Non derivano dal singolo peso, né dal singolo neurone, né da nessun componente: valgono per il modello-come-tutto. Sono una regolarità stabile che emerge alla scala e che non si legge in nessuna parte.

È un’osservazione che taglia in due sensi. Da un lato conferma il capitolo: c’è una legge che vive solo al livello del sistema intero. Dall’altro corregge un’aspettativa sbagliata — che l’emergenza porti sempre imprevedibilità. Qui il livello-sistema ha leggi più semplici e più predicibili del livello-componente: nessuno sa dire cosa farà il singolo peso, ma la loss del modello intero segue una curva pulita.

L’emergenza, quindi, può rendere il tutto più difficile da prevedere (gli aliscafi del Game of Life) o più facile (le scaling laws, la temperatura). Non è una regola unica. È un altro motivo per non trattare “emergente” come sinonimo di “imprevedibile”: a volte il livello alto è proprio il livello dove le cose diventano semplici.

Scegliere una squadra è già l’errore. Il fraintendimento più diffuso è leggere il capitolo come “olismo batte riduzionismo”. Non è così.

Il riduzionismo ha prodotto quasi tutta la scienza moderna, e resta la prima strategia da provare di fronte a quasi ogni problema: scomporre, isolare, testare. L’olismo senza riduzionismo a monte diventa vago — “il sistema è un tutto interconnesso” non è una spiegazione di niente.

Il capitolo non promuove l’olismo a scapito del riduzionismo: argomenta che le due lenti hanno domini diversi e che l’errore vero è usarne una sola, sempre, per riflesso. Un ingegnere che usa solo la lente riduzionista non vedrà mai i bug d’interazione; uno che usa solo quella olistica non riparerà mai un componente. Servono entrambe, e serve sapere quando passare dall’una all’altra.

Antiriduzionismo non è antiscienza. Va detto perché l’olismo si porta dietro una cattiva reputazione meritata a metà. Storicamente l’olismo è stato associato al vitalismo e al misticismo, e quell’associazione è in parte giusta — l’olismo ontologico forte assomiglia davvero al vitalismo.

Ma l’antiriduzionismo costruzionista di Anderson è tutt’altra cosa: è una posizione interna alla scienza più dura, sostenuta da un premio Nobel per la fisica, fondata su esempi tecnici come la rottura di simmetria nei cristalli. Confondere le due cose — l’olismo serio e quello mistico — fa scartare il primo per colpa del secondo.

L’olismo, abusato, diventa una scusa per non capire. Detto il limite del riduzionismo, va detto anche quello speculare dell’olismo, perché il capitolo non vuole sbilanciare. Dichiarare un comportamento “emergente” o “olistico” può diventare un modo elegante per fermarsi prima di aver capito. “È il sistema nel suo insieme” non è una spiegazione: è la promessa di una spiegazione che si rimanda.

L’olismo onesto fa il contrario di rinunciare. Identifica quale organizzazione produce quale proprietà, costruisce un modello al livello giusto, esegue, misura. La pigrizia che si traveste da olismo si riconosce da un sintomo: non aumenta la capacità di predire o intervenire. Se dopo aver detto “è emergente” non sai fare nulla di più di prima, non hai usato l’olismo — lo hai usato come alibi.

La linea fra debole e forte non è sempre nitida. Il capitolo ha trattato l’emergenza debole come netta e maneggevole e quella forte come controversa. Onestà richiede di dire che il confine fra le due, in casi concreti, può essere sfumato. Stabilire se una proprietà sia “derivabile in linea di principio” è esso stesso un giudizio non sempre decidibile: dipende da cosa si conta come derivazione, da quanto compute si concede, da quanto si è disposti a idealizzare. Per l’ingegneria la distinzione resta utile come prima approssimazione — quasi tutto ciò che incontri è debole — ma non va trattata come una dicotomia perfettamente tagliata.

  • Modelli descrittivi, predittivi, prescrittivi — il livello di descrizione a cui guardi un sistema è una scelta di modellazione; è quella scelta a decidere se vedi emergenza o no. Lo stesso sistema “scatta” o “cresce liscio” a seconda della lente.
  • Sistema, ambiente, confine, stato — la nozione di sistema, di parti e di confine; il contrasto fra pensiero sistemico e pensiero analitico, di cui questo capitolo è l’approfondimento.
  • confini-del-sistema (in preparazione) — dove tracci il confine decide quali proprietà contano come “del tutto” e quali come “dell’ambiente”: è la scelta che precede ogni discorso su riduzionismo ed emergenza.
  • ponte-sistemi-ai (in preparazione) — perché la teoria dei sistemi, e questa tensione in particolare, serve a chi progetta e deploya agenti.
  • emergenza (in preparazione) e sistemi-complessi-intro (in preparazione) — nella Parte XV, l’emergenza diventa l’oggetto di capitoli propri, con il dettaglio quantitativo che qui resta a livello di intuizione.
  • emergent-abilities (in preparazione) e scaling-laws (in preparazione) — nella Parte sul training, il dibattito Wei contro Schaeffer e le leggi di livello-sistema vengono trattati per esteso.
  • mech-interp-intro (in preparazione), sae (in preparazione), attention-heads-circuits (in preparazione) — nella Parte sull’anatomia di un LLM, l’interpretabilità come programma riduzionista e i suoi limiti olistici.
  • multi-agent-failure-modes (in preparazione) e agent-observability (in preparazione) — i bug d’interazione e gli strumenti per vederli, ovvero il versante operativo dell’esempio tre.
  • P. W. Anderson, “More Is Different”, Science 177, 393-396, 1972. Quattro pagine, lettura diretta e ancora attualissima. Il testo che ha dato al dibattito la sua forma moderna.
  • Mark A. Bedau, “Weak Emergence”, Philosophical Perspectives 11, 375-399, 1997. La distinzione fra emergenza debole e forte, e l’idea di incomprimibilità. Il riferimento filosofico del capitolo.
  • J. Wei et al., “Emergent Abilities of Large Language Models”, TMLR 2022, arXiv:2206.07682. La tesi pro-emergenza nelle capacità degli LLM.
  • R. Schaeffer, B. Miranda, S. Koyejo, “Are Emergent Abilities of Large Language Models a Mirage?”, NeurIPS 2023, arXiv:2304.15004. Il contrappunto: l’emergenza come artefatto di metrica. Da leggere insieme a Wei et al.
  • N. Elhage et al., “Toy Models of Superposition”, Anthropic / Transformer Circuits Thread, 2022. Perché una rete codifica più feature dei neuroni che ha, e perché questo limita il riduzionismo dell’interpretabilità.