Ashby, omeostato e adattamento

Perché un sistema che vuole restare vitale in un mondo che non ha progettato non può limitarsi a correggere l’errore: deve, quando serve, riconfigurare il modo stesso in cui lo corregge.

Perché questo capitolo

Il 16 marzo 1948, in un ospedale psichiatrico inglese, una macchina fatta di quattro unità di controllo di bombe della Royal Air Force smise di scattare e si fermò. Aveva, da sola, trovato un equilibrio.

Sposti a forza una delle sue lancette, e la macchina riprende a scattare finché tutte e quattro tornano al centro. Inverti la polarità di un collegamento — un sabotaggio che manderebbe in tilt qualunque termostato — e la macchina, dopo un po’ di tentativi, torna comunque all’equilibrio. Il suo costruttore, lo psichiatra W. Ross Ashby, la chiamò Homeostat e la considerò il modello più semplice possibile di quello che fa un cervello quando si adatta.

I tre capitoli precedenti di questa Parte hanno smontato un anello di feedback singolo: un sensore misura uno scarto, un controllore agisce per ridurlo, e il problema difficile è la stabilità — fare in modo che l’anello converga invece di oscillare o divergere. Quel quadro spiega bene come un sistema insegue un obiettivo fisso.

Non spiega però due cose che ogni organismo vivente fa di continuo. La prima: tenere simultaneamente molte variabili — temperatura, glicemia, pH — dentro un intervallo compatibile con la sopravvivenza. La seconda, più sottile: cambiare il proprio modo di rispondere quando l’ambiente cambia tanto che il vecchio modo non funziona più. Un anello a parametri fissi sa correggere l’errore; non sa accorgersi che la sua stessa logica di correzione è diventata sbagliata.

Ashby costruisce la sua teoria attorno a questa seconda domanda. Non chiede “come si stabilizza un anello”, ma “come fa un sistema a restare adattato a un mondo che non ha progettato e che cambia sotto i suoi piedi”. È una domanda che a lui, psichiatra, arriva dalla clinica: un cervello che si adatta male è un cervello che soffre, e capire l’adattamento riuscito significa capire anche quello fallito.

La risposta che propone — l’ultrastabilità, un secondo anello di feedback che riconfigura i parametri del primo — è una delle idee più citate della cibernetica. E dà un nome preciso a qualcosa che chi costruisce sistemi AI incontra ogni giorno: un agente che cambia approccio dopo una serie di fallimenti, un harness che interviene quando un budget sta per sforare, un loop di training che cambia strategia quando la loss non scende. Sono tutti, nel senso tecnico stretto che vedremo, sistemi a due anelli annidati.

Accanto all’ultrastabilità, questo capitolo introduce un secondo contributo di Ashby altrettanto influente: la legge della varietà necessaria, un vincolo che dice quanto deve essere “ricco” un regolatore per avere anche solo la possibilità di controllare un sistema. È un risultato che ha implicazioni dirette per chi progetta sistemi di safety e di valutazione, e lo incontreremo a metà capitolo.

C’è infine un terzo filo, che il capitolo segue fino in fondo: un teorema del 1970, il good regulator theorem, secondo cui controllare bene un sistema implica, di necessità matematica, averne un modello interno. Tre idee — ultrastabilità, varietà necessaria, modello interno — che insieme compongono una teoria di che cosa serva per regolare qualcosa. Tutte e tre nascono prima del 1970, e tutte e tre, lette con attenzione, parlano a chi oggi costruisce agenti, harness e sistemi di controllo.

Contesto

L’idea che un organismo difenda attivamente la propria costanza interna è più vecchia della cibernetica di un secolo. Claude Bernard (fisiologo francese, 1813-1878), nella Introduction à l’étude de la médecine expérimentale del 1865, osserva che gli animali superiori non subiscono passivamente l’ambiente esterno: mantengono un ambiente interno — il milieu intérieur — relativamente costante, che protegge le cellule dalle fluttuazioni del mondo fuori.

La sua frase è rimasta: “la fixité du milieu intérieur est la condition d’une vie libre et indépendante” — la fissità dell’ambiente interno è la condizione di una vita libera e indipendente. La costanza interna non è un dettaglio fisiologico: è ciò che rende possibile l’autonomia dell’organismo dal mondo che lo circonda. Un sistema che si lascia trascinare da ogni fluttuazione esterna non può fare progetti propri.

Il termine arriva sessant’anni dopo. Walter Bradford Cannon (fisiologo americano di Harvard, 1871-1945) conia nel 1926 la parola homeostasis, dal greco hómoios (simile) e stásis (stare). La scelta del prefisso è deliberata: non homo-stasis, “stato identico”, che suggerirebbe immobilità, ma homeo-stasis, “stato simile”, una costanza che è il prodotto di processi continui di correzione.

Cannon la popolarizza nel libro The Wisdom of the Body (1932), dove descrive i meccanismi che tengono costanti frequenza cardiaca, pressione, temperatura, glicemia, calcio nel sangue, ossigenazione. Per Cannon, però, l’omeostasi resta descrittiva: è il catalogo dei meccanismi specifici del corpo, non ancora una teoria generale di che cosa renda un sistema adattivo. Resta una domanda aperta: che cosa hanno in comune tutti questi meccanismi, al di là del fatto di trovarsi nello stesso corpo? La risposta — uno schema astratto che vale per qualunque sistema, vivo o costruito — è il contributo di Ashby.

Il salto verso la teoria generale è opera di W. Ross Ashby (1903-1972), psichiatra inglese che lavora per gran parte della carriera in ospedali psichiatrici — soprattutto il Barnwood House Hospital, vicino a Gloucester. Ashby è una figura particolare nella cibernetica.

Mentre Norbert Wiener (matematico statunitense, 1894-1964, che nel 1948 dà alla disciplina il nome di cibernetica nel libro omonimo) arriva al feedback dal problema ingegneristico del tiro contraereo, Ashby ci arriva dal cervello e dalla domanda clinica di che cosa significhi un adattamento che funziona o che fallisce. Tiene dal 1928 un diario di idee scientifiche, cresciuto negli anni a venticinque volumi e migliaia di pagine, oggi archiviato e digitalizzato.

Due suoi libri contano per questo capitolo. Design for a Brain: The Origin of Adaptive Behaviour (Chapman & Hall, 1952) costruisce la teoria dell’ultrastabilità e descrive l’Homeostat. An Introduction to Cybernetics (Chapman & Hall, 1956) espone in forma sistematica la nozione di varietà e la legge della varietà necessaria. Il titolo Design for a Brain compare in realtà già nel 1948, come titolo dell’articolo su Electronic Engineering in cui Ashby descrive per la prima volta in stampa la macchina; il libro del 1952 ne è l’espansione.

Ashby non lavora isolato. Dal settembre 1949 fa parte del Ratio Club, un club informale a cena fondato dal neurologo John Bates al National Hospital for Nervous Diseases di Londra: una ventina di giovani scienziati britannici — psichiatri, neurofisiologi, ingegneri, matematici — che si ritrovano davanti a birra e cibo a discutere di cibernetica.

Tra i membri W. Grey Walter (neurofisiologo che costruisce piccoli robot a forma di tartaruga capaci di muoversi verso la luce), Horace Barlow, Donald MacKay e, dopo la prima riunione, Alan Turing. Una regola del club vietava l’ammissione ai professori: chi veniva promosso a quel grado accademico doveva dimettersi, perché l’autorità accademica avrebbe inibito la discussione tra pari.

Il Ratio Club è considerato l’hub della cibernetica britannica — un filone distinto da quello americano delle Macy Conferences, più orientato al cervello e all’adattamento biologico che al controllo e alla comunicazione ingegneristica. È in questo ambiente, fatto di neurofisiologi che parlano con ingegneri, che l’Homeostat viene discusso e preso sul serio come modello del cervello.

Una nota sulla portata di ciò che Ashby fa. Cannon aveva mostrato che il corpo mantiene la sua costanza interna, e con quali meccanismi specifici. Ashby fa una mossa diversa: cerca lo schema astratto comune a tutti quei meccanismi, lo schema che varrebbe per qualunque sistema adattivo, vivente o costruito. È il passaggio dalla fisiologia — descrittiva, legata al corpo — alla teoria dei sistemi — astratta, indifferente al substrato. L’Homeostat serve esattamente a questo: è un sistema che si adatta senza essere un organismo, e quindi dimostra che l’adattamento è una proprietà di una struttura, non di una sostanza biologica. È questa astrazione a rendere l’idea di Ashby trasferibile a un agente software.

L’intuizione

Il concetto centrale del capitolo è l’ultrastabilità: un sistema che non si limita a tornare all’equilibrio, ma che, quando l’equilibrio diventa irraggiungibile con la configurazione attuale, cambia la configurazione stessa.

Per afferrarlo conviene guardarlo da due angoli distinti prima di formalizzarlo: un termostato che impara a fare un mestiere diverso, e un viaggiatore che si adatta a un paese sconosciuto. Un terzo angolo serve poi a introdurre la legge della varietà necessaria, l’altro pilastro del capitolo, e lo fa con l’immagine di una partita a due.

Primo angolo: il termostato che sa cambiare mestiere

Un termostato ordinario è un anello di feedback nella sua forma più nuda. Misura la temperatura della stanza, la confronta con il setpoint, accende il riscaldamento se fa troppo freddo, lo spegne se fa abbastanza caldo. Ha un solo modo di rispondere, e quel modo è cablato.

Finché il mondo si comporta come il termostato si aspetta, va benissimo. Stacca la caldaia e collega al suo posto un condizionatore con i fili giusti, e il termostato continua a fare il suo lavoro.

Ma inverti i due fili — fai in modo che “troppo caldo” attivi il riscaldamento invece del raffreddamento — e il termostato peggiora la situazione all’infinito: più la stanza si scalda, più lui scalda. Non ha alcun modo di accorgersene. La sua logica di correzione è giusta solo per un certo cablaggio del mondo, e quel cablaggio lui non lo può né cambiare né mettere in discussione. È un anello di feedback negativo che, per colpa di un segno invertito, si comporta come un anello positivo che diverge.

L’Homeostat di Ashby è, nell’intuizione, un termostato che possiede una capacità in più. Quando si accorge che la stanza si sta scaldando mentre dovrebbe raffreddarsi — quando cioè la variabile che gli sta a cuore esce dall’intervallo accettabile — non insiste.

Prova invece a ricablarsi: cambia il segno di un collegamento, e se ancora non funziona prova un’altra configurazione, finché la stanza non torna alla temperatura giusta. C’è un primo anello che regola la temperatura, e un secondo anello che regola come il primo anello regola. È la differenza tra correggere l’errore e correggere il modo in cui si corregge l’errore. Il primo anello agisce sul mondo; il secondo agisce sul primo anello.

Si noti che il termostato ordinario, davanti ai fili invertiti, non sta sbagliando nel senso usuale. Sta facendo esattamente quello per cui è costruito: ridurre lo scarto secondo la sua regola. Il problema è che la regola, in quel cablaggio, è quella sbagliata — e una regola non può mettere in discussione se stessa. Serve qualcosa di esterno alla regola, che la guardi dall’alto e la cambi. Quel “qualcosa” è il secondo anello. È una distinzione che torna ovunque: nessun anello può correggere un difetto della propria logica di correzione; serve un livello sopra.

Secondo angolo: il viaggiatore in un paese sconosciuto

Immagina di essere lasciato in un paese di cui non conosci la lingua, la valuta, le regole. Hai alcune variabili essenziali, nel senso letterale del termine: devi mangiare, devi trovare un riparo per dormire, devi evitare di finire nei guai. Se una di queste esce dal suo intervallo vitale abbastanza a lungo, il gioco finisce.

All’inizio provi comportamenti quasi a caso: gesti, parole, monete porte avanti a chi hai davanti. Molti falliscono. Resti affamato — la variabile “fame” si avvicina al limite del suo intervallo accettabile.

Ogni fallimento serio non ti spinge a ripetere la stessa cosa con più forza: ti spinge a cambiare strategia. Provi un altro gesto, un altro posto, un altro modo di pagare. Per tentativi, costruisci un repertorio che funziona: quel ristorante, quel gesto per ottenere il conto, quell’angolo riparato dove dormire. A quel punto smetti di cambiare. Sei adattato. Se poi ti spostano in un’altra città, le variabili essenziali tornano a uscire dal range e il processo riparte da capo.

Questo è l’adattamento nel senso di Ashby. Non è un piano calcolato in anticipo da chi conosce l’ambiente. È una ricerca per tentativi, guidata da un solo segnale grezzo: le mie variabili essenziali sono dentro o fuori dall’intervallo vitale?

Il sistema non ha bisogno di capire l’ambiente né di prevederlo. Ha bisogno solo di accorgersi quando sta per “morire” e di continuare a cambiare configurazione finché non smette. In questa lettura, che è il cuore di Design for a Brain, l’intelligenza adattiva è un processo di stabilizzazione, non di pianificazione. Non c’è un progettista interno che calcola la mossa giusta: c’è un meccanismo che rifiuta gli stati non vitali e si ferma su quelli vitali.

Questo angolo ha un risvolto che vale la pena rendere esplicito. L’adattamento, così inteso, è guidato dai fallimenti, non dai successi. Il viaggiatore non cambia strategia quando una cosa funziona — la tiene. Cambia quando fallisce. Il segnale che muove tutto il processo è negativo: è l’uscita dal viable range, non il successo, a innescare la riconfigurazione. Un sistema che fa così è, in un certo senso, conservatore per costruzione: cambia il meno possibile, e solo quando è costretto. È una proprietà desiderabile — un sistema che riconfigura se stesso a ogni minima occasione non si stabilizza mai — ma ha anche un costo, che vedremo nella sezione sui limiti.

Terzo angolo: la regolazione come partita a due

I primi due angoli riguardano l’ultrastabilità: come un sistema cambia se stesso per restare adattato. Il terzo angolo cambia argomento e introduce l’altra grande idea del capitolo, la legge della varietà necessaria — un vincolo che riguarda non come un regolatore agisce, ma quanto deve essere ricco per poter agire con successo.

Conviene presentarlo come un gioco. Ci sono due giocatori. Il primo, chiamiamolo Disturbo, fa una mossa scelta tra un certo numero di mosse possibili. Il secondo, il Regolatore, deve rispondere in modo che l’esito finale resti dentro l’insieme degli esiti accettabili.

Supponi che il Disturbo abbia cento mosse distinte e il Regolatore solo dieci contromosse distinte. Allora ci sono almeno novanta situazioni in cui il Regolatore non può rispondere in modo specifico: è costretto a riusare una delle sue dieci contromosse per disturbi diversi, e per la maggior parte di essi quella contromossa sarà quella sbagliata.

L’esito sfugge. Solo un Regolatore con almeno cento contromosse distinte ha, in linea di principio, la possibilità di neutralizzare ogni singola mossa del Disturbo. Non è una questione di intelligenza o di sforzo: con dieci contromosse e cento disturbi, novanta buchi restano aperti per pura aritmetica.

Questa è l’intuizione della frase di Ashby “only variety can absorb variety” — solo la varietà può assorbire la varietà. Non è un consiglio gestionale e non è una metafora.

È un vincolo di tipo conservativo, della stessa natura di una legge di conservazione in fisica. Il Regolatore non può creare ordine dal nulla. Può soltanto spendere la propria varietà di risposte per cancellare la varietà del disturbo. Se ne ha meno, una parte del disturbo passa sempre, qualunque sia la sua bravura.

Il punto controintuitivo è proprio questo: la bravura non basta. Possiamo immaginare un regolatore intelligentissimo, che ragiona benissimo, ma con dieci sole contromosse contro un disturbo da cento mosse. Per quanto bene scelga, novanta volte su cento sarà costretto a usare una contromossa pensata per un altro disturbo. Il limite non è cognitivo, è strutturale: riguarda quante cose diverse il regolatore può fare, non quanto bene pensa. Vedremo tra poco che questa frase si può scrivere come una disuguaglianza precisa.

La meccanica

I tre termini da fissare

Prima di mettere insieme i pezzi, conviene fissare tre termini che il resto del capitolo dà per acquisiti.

L’omeostasi è il mantenimento attivo di certe variabili dentro un intervallo compatibile con la sopravvivenza, nonostante le perturbazioni esterne. La parola chiave è attivo: non è una proprietà passiva del sistema, è il risultato di un lavoro continuo.

Le variabili essenziali sono le grandezze il cui valore, se esce da un certo intervallo, compromette l’integrità del sistema. In un corpo: temperatura, glicemia, pH del sangue. In un agente: budget, fallimenti accumulati, ampiezza degli effetti delle sue azioni.

Il viable range è l’intervallo entro cui una variabile essenziale può muoversi senza danno. Non è un punto, è una fascia. Finché la variabile resta nella fascia, va tutto bene; il problema scatta solo quando ne esce.

Ultrastabilità: due anelli annidati

Con questi termini, mettiamo in forma precisa l’intuizione del termostato che si ricabla. Un sistema ultrastabile ha due anelli di feedback, uno dentro l’altro, che operano a velocità diverse.

L’anello primo è quello reattivo e veloce, ed è esattamente l’anello di feedback descritto in Anatomia di un anello: errore, setpoint, guadagno, ritardo. Misura lo stato del sistema, lo confronta con quanto voluto, agisce sull’ambiente, osserva il nuovo stato. Lavora a parametri fissi: la sua logica di correzione — quanto correggere per ogni unità di scarto, con quale segno — è data e non cambia mentre l’anello gira.

L’anello secondo è quello riconfigurante e lento. Non guarda lo stato istante per istante: guarda le variabili essenziali. L’anello secondo fa una sola domanda, e la ripete: le variabili essenziali sono dentro il viable range? Se sì, non fa nulla e lascia girare l’anello primo. Se no, cambia un parametro dell’anello primo e osserva di nuovo.

In pseudocodice:

parametri = configurazione_iniziale
loop:
    stato = passo_anello_primo(stato, parametri)   # feedback veloce
    if variabili_essenziali(stato) fuori dal viable_range:
        parametri = nuova_configurazione()         # feedback lento, per tentativi
    # se dentro il range, parametri restano invariati

La riga che porta tutto il peso è la condizione if. L’anello secondo non insegue un valore obiettivo e non ottimizza niente: non cerca la “migliore” configurazione. Resta completamente inerte finché le variabili essenziali sono dentro il range, e si attiva solo al confine.

È un feedback a soglia: silenzioso quando le cose vanno, esplorativo quando vanno male. Questa è la differenza con un anello ordinario, che corregge in continuazione, in modo proporzionale allo scarto. Un anello ordinario reagisce sempre, anche a una deviazione minima; l’anello secondo dell’ultrastabilità o dorme o salta. Non c’è una via di mezzo.

La scelta di questo design ha una ragione precisa. Se l’anello secondo intervenisse anche per piccole deviazioni, riconfigurerebbe il sistema di continuo, e il primo anello non avrebbe mai il tempo di stabilizzarsi con i parametri che ha. La soglia serve a dare al primo anello la possibilità di fare il suo lavoro, e a chiamare il secondo solo quando quel lavoro, dimostrabilmente, non basta.

C’è anche un’asimmetria di velocità che non è un dettaglio. L’anello primo deve essere veloce, perché è lui che risponde alle perturbazioni momento per momento. L’anello secondo deve essere lento, perché una riconfigurazione è un’operazione costosa e perché, se cambiasse i parametri troppo in fretta, finirebbe per scartare configurazioni che avrebbero funzionato se solo avessero avuto il tempo di assestarsi. Un sistema ultrastabile ben fatto è impaziente sullo stato e paziente sui parametri.

Vale la pena collegare questo schema ai tre capitoli precedenti della Parte. Anatomia di un anello ha smontato l’anello primo nei suoi componenti; Overshoot, ritardo, oscillazioni, divergenza ha studiato i suoi possibili destini — convergenza, oscillazione, divergenza. L’ultrastabilità aggiunge una mossa nuova: se l’anello primo, con i parametri che ha, è destinato a oscillare o divergere, il secondo anello cambia quei parametri. È la teoria dei tre capitoli precedenti più la possibilità di intervenire sul livello che, finora, era stato trattato come dato e immutabile.

Resta da capire che cosa faccia, esattamente, nuova_configurazione(). Nell’Homeostat la risposta è netta: una scelta casuale. Il sistema non sa quale configurazione lo salverà, quindi ne prova una a caso, e se non basta ne prova un’altra, finché non ne capita una che riporta le variabili essenziali nel range.

È ricerca per tentativi ed errori nello spazio dei parametri, guidata da un singolo bit di feedback — dentro o fuori dal range — e non da un gradiente che indica la direzione giusta. Questa è insieme la forza e la debolezza dello schema: la forza è che non richiede di conoscere l’ambiente in anticipo; la debolezza è che, senza una direzione, la ricerca può essere lunghissima. Torneremo su questo punto nella sezione “Dove si rompe”.

L’Homeostat, pezzo per pezzo

L’Homeostat è la realizzazione fisica di quello schema, costruita con quello che c’era in un ospedale inglese nel 1948. Ashby lo completa il 16 marzo 1948 a Barnwood House, dopo aver risolto alcuni problemi di cortocircuiti.

È fatto di quattro unità identiche, ricavate da unità di controllo di bombe della Royal Air Force — residuati della guerra appena finita, riusati per costruire un modello del cervello. Il dettaglio non è solo aneddotico: dice quanto la cibernetica, ai suoi inizi, fosse una scienza fatta con i mezzi a disposizione, da persone che venivano da campi diversi.

Ogni unità ha in cima un ago magnetico — il movimento di un milliamperometro — che pesca in una piccola vasca d’acqua. La vasca funge da potenziometro: la posizione dell’ago determina una corrente in uscita.

Le quattro unità sono interconnesse: l’uscita di ognuna alimenta le bobine delle altre tre. L’ago di ciascuna unità rappresenta una variabile essenziale; la posizione centrale dell’ago è l’equilibrio, e i bordi della vasca segnano il viable range. Quando tutti e quattro gli aghi stanno vicini al centro, il sistema è vitale.

Questo è l’anello primo: quattro variabili accoppiate che si influenzano a vicenda e cercano un equilibrio. Il pezzo che rende l’Homeostat ultrastabile, e non solo stabile, è il secondo livello.

Ogni unità ha un uniselector: un commutatore rotante a venticinque posizioni, di quelli usati nelle centrali telefoniche dell’epoca per instradare le chiamate. L’uniselector imposta i parametri della connessione di quell’unità — il segno e il peso con cui le altre unità la influenzano.

Finché l’ago resta nel viable range, l’uniselector non si muove. Ma se l’ago supera la soglia, l’uniselector di quell’unità scatta su una nuova posizione, e i nuovi parametri associati a quella posizione sono presi da una tabella di numeri casuali. La macchina cambia così i propri parametri per tentativi. È, fisicamente, la riga nuova_configurazione() dello pseudocodice di prima: un selettore meccanico che pesca a caso una nuova configurazione.

Il comportamento osservabile è quello che colpiva chi vedeva la macchina funzionare. Collega le quattro unità in un modo qualsiasi, sposta a forza un ago, inverti la polarità di un collegamento, blocca meccanicamente un ago: l’Homeostat, scattando di uniselector in uniselector, ritrova ogni volta una configurazione in cui tutte e quattro le lancette tornano e restano vicine al centro.

Si auto-stabilizza partendo da condizioni iniziali profondamente diverse, comprese alcune che un progettista non aveva previsto. Per Ashby questo era il modello minimo dell’adattamento cerebrale: un sistema che mantiene le proprie variabili essenziali entro limiti e che, quando i parametri correnti non bastano, li riconfigura finché non torna vitale.

C’è un punto sottile in questo comportamento che vale la pena estrarre. L’Homeostat non sa, in nessun senso, perché una certa configurazione funziona. Non costruisce una spiegazione, non ragiona sull’ambiente. Sa soltanto distinguere uno stato vitale da uno non vitale, e tenere quello vitale. Tutta l’apparente intelligenza della macchina — l’aria di chi “capisce” come reagire a un sabotaggio — emerge da un meccanismo che non capisce nulla: rifiuta gli stati cattivi e si ferma su quelli buoni. Per Ashby questa era una tesi, non un limite: l’adattamento non richiede comprensione, richiede solo un criterio di vitalità e la capacità di riconfigurarsi.

L’eco pubblica fu notevole. La rivista Time nel 1949 lo definì “the closest thing to a synthetic brain so far designed by man” — la cosa più vicina a un cervello sintetico finora progettata. Ashby stesso, nell’articolo del dicembre 1948 su Electronic Engineering dove descrive per la prima volta in stampa la macchina, arriva a immaginare che un Homeostat perfezionato possa giocare a scacchi “con una sottigliezza e profondità di strategia superiori a quelle dell’uomo che lo ha progettato”.

Va detto con onestà anche il limite, perché Ashby per primo lo conosceva. L’Homeostat era lento, e la lentezza non era un difetto di costruzione rimediabile: il numero di configurazioni da provare cresce in modo esplosivo con il numero di unità, e una ricerca casuale che non ha alcuna direzione le esplora una alla volta. Quattro unità erano gestibili; un sistema con molte più variabili non lo sarebbe stato.

Ashby sapeva che la macchina non scalava. La sua importanza non è ingegneristica, è concettuale: è la prima dimostrazione fisica che una macchina può riconfigurare se stessa per restare adattata, senza che nessuno le dica come farlo. Quel “senza che nessuno le dica come” è il punto: l’adattamento non era programmato, era una proprietà che emergeva dalla struttura a due anelli.

C’è un’ultima cosa da dire sul modo in cui Ashby intendeva l’Homeostat. Non lo presentava come un cervello, e nemmeno come una sua imitazione fedele. Lo presentava come la prova di un principio: che il comportamento adattivo, quello che dall’esterno sembra intelligente e mirato a uno scopo, può essere prodotto da un meccanismo cieco fatto di feedback e riconfigurazione. Se questo è vero per una macchina di quattro unità, sosteneva Ashby, allora non c’è ragione di principio per cui non possa essere vero, su scala enormemente maggiore, per un cervello. L’Homeostat era un argomento, non una copia.

La legge della varietà necessaria

Passiamo all’altro pilastro del capitolo, esposto da Ashby nel libro del 1956. La varietà di un sistema, nella sua definizione, è “il numero di elementi distinti” di un insieme — oppure, a scelta, il logaritmo in base 2 di quel numero.

Un interruttore ha varietà 2: acceso o spento. Un sistema con quattro stati distinti ha varietà 4, ovvero 2 bit. Un dado ha varietà 6. La varietà misura, in sostanza, quanto un sistema può essere diverso da sé stesso: quanti stati distinguibili può assumere. Un dettaglio che Ashby sottolinea: la varietà dipende anche dall’osservatore e dalla sua capacità di discriminare. Due stati che un osservatore non sa distinguere, per lui, contano come uno solo.

Con questo strumento si enuncia la legge. Chiamiamo $D$ il disturbo, con la sua varietà $V(D)$ — il numero di mosse distinte che il disturbo può fare. Chiamiamo $R$ il regolatore, con varietà $V(R)$ — il numero di contromosse distinte di cui dispone. E chiamiamo $E$ l’esito, cioè la variabile essenziale che vogliamo tenere costante, con varietà $V(E)$ — il numero di valori distinti che l’esito può ancora assumere, cioè quanto può ancora fluttuare nonostante la regolazione. La legge della varietà necessaria dice:

$V(E) \geq V(D) - V(R)$

In parole povere: la varietà che rimane nell’esito — cioè quanto male stiamo regolando — non può scendere sotto la varietà del disturbo meno la varietà del regolatore.

Se il disturbo ha cento mosse e il regolatore dieci contromosse, l’esito conserva almeno novanta gradi di libertà incontrollati. Per portare $V(E)$ al minimo, cioè per rendere l’esito perfettamente costante, serve $V(R) \geq V(D)$ : il regolatore deve avere almeno tanta varietà quanta ne ha il disturbo che vuole assorbire. Questo è il contenuto preciso della frase “solo la varietà può assorbire la varietà”.

Ashby dà alla stessa legge anche una forma informazionale, e questo la lega direttamente alla teoria dell’informazione che Claude Shannon (matematico e ingegnere statunitense, 1916-2001) aveva pubblicato proprio nel 1948, lo stesso anno dell’Homeostat. Se al posto della varietà si usa l’entropia di Shannon $H$ — la misura dell’incertezza media di una variabile, in bit — la legge diventa:

$H(E) \geq H(D) - H(R)$

È lo stesso vincolo riscritto in un’altra unità di misura. Varietà e incertezza sono, in questo contesto, la stessa quantità: entrambe contano quanti stati distinti sono in gioco, e il logaritmo che trasforma un conteggio in bit è la stessa operazione in entrambe le definizioni.

La regolazione, vista così, è un trasferimento di varietà: il regolatore spende la propria varietà per cancellare quella del disturbo, esattamente come un canale di comunicazione spende capacità per trasmettere informazione. Il legame con la teoria dell’informazione qui non è un’analogia decorativa: è la stessa matematica che compare in due posti. Chi conosce l’entropia dal capitolo entropia-cross-entropy (in preparazione) ritrova qui la stessa grandezza in un ruolo nuovo.

Questa lettura informazionale ha una conseguenza che merita attenzione. Se la regolazione è trasferimento di varietà, allora il regolatore ha bisogno di informazione sul disturbo per poterlo contrastare: deve in qualche modo “vedere” il disturbo, o le sue conseguenze, abbastanza presto. Un regolatore cieco — che non riceve informazione sul disturbo — non può fare meglio di un valore medio fisso. È il primo accenno di un’idea che il good regulator theorem porterà fino in fondo: regolare bene richiede sapere, e sapere è una forma di modello.

Una conseguenza va sottolineata perché è la più fraintesa. La legge fissa un limite inferiore: dice che senza abbastanza varietà la regolazione fallisce di sicuro. Non dice che con abbastanza varietà la regolazione riesce.

Avere cento contromosse non garantisce di scegliere ogni volta quella giusta — potresti avere lo strumento adatto in mano e usarlo nel momento sbagliato. La legge della varietà necessaria è una condizione necessaria ma non sufficiente. È, nella sostanza, un teorema “no free lunch” della regolazione: stabilisce un costo minimo incomprimibile, non una ricetta per il successo. Il pezzo mancante — sapere quale contromossa usare quando — è l’oggetto del prossimo risultato.

Il good regulator theorem

Se la varietà sufficiente non basta, che cosa manca? Manca sapere quale contromossa va usata per quale disturbo. Avere cento contromosse in un cassetto non aiuta se, davanti a un disturbo, peschi nel cassetto a caso. Serve un’associazione corretta tra disturbi e risposte — e quell’associazione, vedremo, è una forma di conoscenza del sistema.

Qui arriva il risultato che, vent’anni dopo l’Homeostat, chiude il cerchio. Nel 1970 Roger C. Conant — informatico statunitense — e W. Ross Ashby pubblicano sull’International Journal of Systems Science un articolo dal titolo che è già la sua tesi: “Every Good Regulator of a System Must Be a Model of That System” — ogni buon regolatore di un sistema deve essere un modello di quel sistema.

L’impianto è il seguente. Si considerano cinque insiemi: i disturbi primari $D$ , gli stati del sistema da regolare $S$ , gli eventi del regolatore $R$ , tutti gli esiti possibili $Z$ , e gli esiti desiderabili $G$ , che sono un sottoinsieme di $Z$ .

Il risultato dimostrato è questo: tra tutti i regolatori che sono al tempo stesso ottimi — tengono l’esito dentro $G$ — e massimamente semplici — minimizzano la varietà della propria uscita — il regolatore deve realizzare una mappa deterministica $h$ che va da $S$ a $R$ , cioè dagli stati del sistema agli eventi del regolatore.

Quella mappa $h$ è un omomorfismo: il regolatore risulta essere un’immagine strutturale del sistema regolato. Detto in modo diretto: un buon regolatore semplice non può fare a meno di contenere, al proprio interno, un modello del sistema che regola.

L’intuizione dietro la dimostrazione si può afferrare così. Per scegliere ogni volta la contromossa giusta, il regolatore deve, in qualche modo, “sapere” in che stato si trova il sistema e che cosa quello stato implica. Se due stati diversi del sistema richiedono due contromosse diverse, il regolatore deve poterli distinguere — cioè la sua struttura interna deve rispecchiare quella distinzione. Ripeti il ragionamento per ogni distinzione che conta, e quello che ottieni è che la struttura interna del regolatore deve ricalcare la struttura del sistema. Quella struttura ricalcata è il modello.

La conclusione è elegante perché non è un’esortazione progettuale — “sarebbe bene modellare il sistema” — ma una necessità: la modellazione non è una scelta del progettista, è una conseguenza dell’essere insieme efficaci e semplici. Un controllore che regola bene un sistema senza averne un modello, sotto le ipotesi del teorema, semplicemente non può esistere.

Questo è un teorema nel senso pieno — c’è una dimostrazione matematica — e va trattato come tale, senza gonfiarlo a slogan. Due precisazioni sono doverose.

La prima riguarda il tipo di mappa: è un omomorfismo, non un isomorfismo. La differenza conta. Un isomorfismo sarebbe una corrispondenza perfetta uno-a-uno, una copia esatta; un omomorfismo conserva la struttura ma può perdere informazione. Il modello che il regolatore deve avere è un’immagine semplificata del sistema, non una copia fedele in scala 1:1. Un buon regolatore di un sistema complicato può essere molto più semplice del sistema, purché ne preservi la struttura rilevante.

La seconda riguarda la portata. Alcuni studiosi hanno osservato che ciò che la dimostrazione stabilisce è più ristretto di ciò che il titolo promette. In senso stretto, il teorema prova che il regolatore ottimo-e-semplice è una funzione deterministica dello stato del sistema — il che è un senso tecnico e limitato di “essere un modello”. Vale citare il risultato per ciò che dimostra, non per ciò che il titolo evoca.

Con questa cautela, la portata resta notevole. L’idea è stata ripresa in teoria del controllo sotto il nome di internal model principle, formulato da Bruce Francis e W. Murray Wonham nel 1976: un controllore che deve annullare un certo tipo di disturbo deve contenere al proprio interno un modello di quel disturbo.

L’esempio classico dell’internal model principle è semplice. Per annullare perfettamente un disturbo periodico — un’oscillazione che si ripete con un certo periodo — il controllore deve contenere al proprio interno un generatore della stessa oscillazione. Non basta reagire: bisogna prevedere, e prevedere richiede una replica interna della struttura del disturbo. È lo stesso messaggio del good regulator theorem, calato nel linguaggio delle equazioni differenziali della control theory.

La stessa idea riaffiora oggi nelle scienze cognitive, per esempio nel free energy principle del neuroscienziato britannico Karl Friston, che lega predizione, modello interno e mantenimento dell’organismo dentro i propri stati vitali — un filo che riconnette il good regulator theorem all’omeostasi da cui il capitolo è partito.

Quel filo merita di essere reso esplicito, perché chiude la struttura del capitolo. Siamo partiti dall’omeostasi: mantenere le variabili essenziali nel range. Abbiamo visto che mantenerle richiede un secondo anello che riconfigura (l’ultrastabilità), che il secondo anello ha bisogno di abbastanza varietà per riuscirci (la legge della varietà), e che usare bene quella varietà richiede un modello del sistema (il good regulator theorem). Il free energy principle riavvolge il nastro: un organismo mantiene la propria omeostasi proprio perché possiede un modello predittivo del mondo. Le tre idee non sono tre risultati separati — sono i lati di un’unica figura, e il punto di partenza e quello di arrivo coincidono.

La traiettoria che va dalla legge della varietà al good regulator theorem si può riassumere così: per regolare bene servono abbastanza contromosse (la varietà necessaria) e sapere quale usare quando (un modello del sistema). Le due cose insieme; nessuna delle due da sola.

Esempi

I quattro esempi che seguono sono volutamente eterogenei: un calcolo aritmetico sulla legge della varietà, un confronto di codice sull’ultrastabilità, uno scenario di agent coding, e un caso fisiologico che riporta alle origini. Sono lo stesso schema visto da quattro distanze diverse.

Esempio numerico: la legge della varietà in cifre

Un servizio web riceve richieste che possono finire in otto stati di errore qualitativamente distinti: timeout, risorsa non trovata, errore interno del server, payload malformato, token di autenticazione scaduto, rate limit superato, dipendenza esterna irraggiungibile, dato a valle corrotto. La varietà del disturbo è $V(D) = 8$ .

Supponi che l’handler di errore conosca solo tre risposte distinte: riprova la richiesta, registra l’errore in un log, fallisci restituendo un codice 500 generico. Allora $V(R) = 3$ . La legge dà subito:

$V(E) \geq V(D) - V(R) = 8 - 3 = 5$

Restano almeno cinque classi di errore che l’handler non può trattare in modo specifico. Un token scaduto e una dipendenza irraggiungibile finirebbero entrambi nel ramo generico “fallisci”, anche se il primo si risolverebbe rinnovando il token e il secondo aspettando e ritentando su un endpoint alternativo.

Per azzerare la varietà residua dell’esito servirebbe $V(R) \geq 8$ : un ramo di gestione distinto e appropriato per ciascuna delle otto classi. Il numero cinque non è un’opinione né una stima: è una sottrazione. Dice che un handler con tre risposte ha, di necessità strutturale, un punto cieco su cinque tipi di problema, e che nessuna quantità di cura nello scrivere quei tre rami lo elimina. Per chiudere il punto cieco non serve scrivere meglio i rami che già ci sono: serve aggiungerne.

Questo esempio mostra anche il modo corretto di leggere la legge come strumento di progetto. Davanti a un sistema che regola male, la prima domanda non è “il regolatore sta scegliendo bene?” ma “il regolatore ha abbastanza varietà?”. Se $V(R) < V(D)$ , nessun miglioramento della logica di scelta può salvare la situazione: il limite è a monte. La legge ti dice di guardare prima il conteggio delle risposte disponibili, e solo dopo la qualità della loro selezione. È un ordine di indagine, prima ancora che un teorema.

Esempio in codice: ultrastabilità come retry che cambia strategia

L’ultrastabilità si riconosce in uno schema di codice molto comune, e spesso scritto senza saperlo. Confronta un retry ingenuo con un retry ultrastabile: due frammenti che a colpo d’occhio si somigliano, ma che appartengono a due categorie diverse di sistema.

# Retry ingenuo: ripete identica la stessa chiamata.
for tentativo in range(max_tentativi):
    esito = chiamata_diretta()
    if ok(esito):
        break

Questo schema ha un solo anello e una sola configurazione. Se la chiamata diretta fallisce per una ragione strutturale — l’endpoint è giù — riproverà la stessa cosa fino a esaurire i tentativi, e fallirà comunque.

È il termostato con i fili invertiti: insiste con l’unico modo che conosce. Il retry ingenuo è perfettamente sensato contro un disturbo transitorio — un timeout casuale che alla seconda prova non si ripete — ed è del tutto inutile contro un disturbo strutturale. Non distingue i due casi perché ha una sola risposta.

# Retry ultrastabile: cambia strategia quando la variabile
# essenziale (latenza dentro budget) esce dal viable range.
strategie = [chiamata_diretta, con_cache, endpoint_fallback,
             modalita_degradata]
i = 0
while True:
    esito = strategie[i]()                  # anello primo: esegue
    if latenza_ok(esito) and not errore(esito):
        break                               # variabile essenziale ok
    i = (i + 1) % len(strategie)            # anello secondo: riconfigura

Qui ci sono due anelli. L’anello primo è la singola chiamata. L’anello secondo controlla la variabile essenziale — la latenza dentro il budget, l’assenza di errore — e quando esce dal range non insiste: avanza alla strategia successiva.

È la stessa logica dell’uniselector dell’Homeostat che scatta su una nuova posizione. Il sistema non sa in anticipo quale strategia funzionerà; le prova in sequenza finché la variabile essenziale non rientra. La differenza tra i due frammenti non è la quantità di codice: è che il secondo ha un repertorio di configurazioni e un livello che decide quando cambiarle. Il primo frammento può solo insistere; il secondo può cambiare mestiere.

Esempio reale: l’agente di coding con guardrail di budget

Un agente di coding che lavora a un task ha alcune variabili essenziali, e spesso sono esplicite nella sua configurazione: i token spesi devono restare sotto un tetto, il numero di tentativi falliti consecutivi sotto una soglia, nessun file fuori dalla working directory deve essere toccato. Sono i suoi viable range.

L’anello primo è il loop osserva-pensa-agisci con cui l’agente esegue il task: legge file, scrive codice, lancia test, guarda i risultati. È un anello di feedback nel senso pieno, e a parametri fissi sa fare una cosa sola — eseguire il task con l’approccio corrente.

L’anello secondo è l’harness — il runtime attorno al modello — che monitora le variabili essenziali. Finché il budget di token è lontano dal tetto e i fallimenti non si accumulano, l’harness non interviene: lascia lavorare l’agente. Quando il budget si avvicina al limite, o i fallimenti consecutivi superano la soglia, l’harness riconfigura: compatta il contesto per liberare spazio, cambia l’approccio del modello, oppure escala la decisione a un operatore umano. L’harness è, nel senso stretto del capitolo, il secondo anello di feedback dell’agente.

Va marcata la classe di questo legame, perché è il tipo di affermazione che scivola facilmente. È un’analogia strutturale, non una filiazione. La forma è identica a quella dell’ultrastabilità di Ashby — due anelli annidati, il secondo a soglia che riconfigura il primo — e questa identità di forma è reale e utile per progettare.

Ma chi disegna gli harness moderni non discende storicamente da Ashby né lo cita: la struttura è stata riscoperta perché è la soluzione naturale al problema, non perché tramandata. Dire “l’harness è ultrastabile” è corretto come descrizione di forma; dire “l’harness deriva dall’omeostato” sarebbe una filiazione falsa.

Riconoscere l’analogia, comunque, ha un valore concreto: aiuta a progettare l’harness con intenzione, applicando una lezione che Ashby aveva già reso esplicita settant’anni fa. Il secondo anello deve restare a soglia. Un harness che interviene di continuo soffoca l’agente; uno che interviene solo al confine del viable range lo lascia lavorare e lo salva quando serve. Questa lezione si può importare anche senza che ci sia una linea di discendenza: è il vantaggio di riconoscere una struttura comune.

Esempio biologico: la glicemia

Per ancorare il concetto alla sua origine fisiologica, la glicemia — la concentrazione di glucosio nel sangue. È una variabile essenziale con un viable range stretto: a digiuno, all’incirca tra 70 e 110 milligrammi per decilitro. Fuori da quell’intervallo, in entrambe le direzioni, le cellule soffrono.

L’anello primo è la regolazione ormonale rapida. Dopo un pasto la glicemia sale, e l’insulina la riporta giù facendo entrare il glucosio nelle cellule; dopo un digiuno la glicemia scende, e il glucagone la rialza liberando glucosio dal fegato. Tra i due ormoni, la variabile resta vicina al setpoint, oscillando di poco. Finché questo anello regge, nient’altro nel corpo deve cambiare.

Quando il primo anello non basta — un cambiamento prolungato di dieta, un nuovo regime di attività fisica, una gravidanza — intervengono adattamenti più lenti, a un altro livello. Cambia la sensibilità dei recettori all’insulina, cambia l’espressione di certi enzimi, cambia la massa delle cellule che producono insulina. Sono modifiche dei parametri della regolazione, non della regolazione istante per istante.

È esattamente la struttura a due livelli dell’ultrastabilità: una regolazione veloce che lavora a parametri fissi, e una ri-taratura lenta dei parametri stessi quando la regolazione veloce, da sola, non riporta più la variabile essenziale nel range. E come nell’Homeostat, il secondo livello non è istantaneo: la ri-taratura metabolica richiede giorni o settimane.

Quando questo secondo anello fallisce — non trova una configurazione che riporti la glicemia nel range — il risultato ha un nome clinico, ed è il diabete. Il fallimento dell’adattamento di secondo ordine non è un’astrazione: è una patologia. È un esempio concreto del limite “riconfigurarsi può non bastare” che vedremo nella sezione sui limiti: a volte la configurazione vitale, semplicemente, non è raggiungibile, e il secondo anello cerca a vuoto.

Questo esempio biologico chiude il cerchio aperto in apertura di capitolo. Cannon descriveva i meccanismi della glicemia come parte del catalogo dell’omeostasi; Ashby ne estrae lo schema astratto a due anelli; e quello schema, una volta astratto, descrive con la stessa precisione un retry in un servizio web e una macchina di lamiere e vasche d’acqua del 1948. È la portata di una buona astrazione: lo stesso disegno, riconoscibile a ogni scala e in ogni materiale.

Applicazioni pratiche

Le idee di Ashby sono nate per il cervello, ma la loro astrazione le rende strumenti di progetto per chi costruisce sistemi software adattivi. Quattro usi concreti, in ordine di vicinanza all’agent coding.

Progettare l’harness come sistema ultrastabile. La struttura a due anelli dà un criterio di progetto, non solo una descrizione. Per costruire un harness robusto conviene dichiarare esplicitamente quali sono le variabili essenziali dell’agente — budget di token, fallimenti consecutivi, ampiezza del blast radius, tempo di esecuzione — e per ciascuna un viable range.

L’harness diventa allora l’anello secondo: monitora quelle variabili e interviene solo al confine. La lezione operativa di Ashby è che il secondo anello deve essere a soglia. Un monitor che corregge in continuazione, in modo proporzionale a ogni piccola deviazione, interferisce con il lavoro dell’agente e ne degrada le prestazioni; un monitor che resta silenzioso dentro il range e salta solo al bordo lascia all’agente lo spazio per lavorare e mantiene la rete di sicurezza dove serve. È la differenza tra un supervisore che corregge ogni mossa e uno che interviene solo quando il lavoro sta per uscire dai binari.

Dimensionare un sistema di safety con la legge della varietà. Un classificatore di sicurezza, un giudice LLM che valuta le risposte di un altro modello, un sistema di monitoraggio runtime: tutti questi sono regolatori, e la legge della varietà necessaria dà un principio per dimensionarli. Devono avere varietà sufficiente a coprire la varietà dei comportamenti che sorvegliano.

Se il modello sorvegliato può fallire in cinquanta modi qualitativamente distinti e il monitor ne distingue dodici, restano una quarantina di modi di fallimento che il monitor non riconosce come tali — un punto cieco strutturale, non un difetto di taratura risolvibile con più impegno o con un prompt migliore.

Qui va marcata la classe dell’affermazione, perché è facile abusarne. Questo è l’uso della legge come principio di progetto, non come calcolo esatto. La legge nella sua forma matematica vale per insiemi di stati ben definiti e numerabili; “i modi di fallimento di un LLM” non sono un insieme così netto, e applicarvi la disuguaglianza alla lettera sarebbe un’estensione qualitativa, non una deduzione. Ma la direzione che la legge indica è solida e vale come euristica di progetto: un sorvegliante meno vario di ciò che sorveglia ha, per ragioni di struttura, qualcosa che gli sfugge.

L’ultrastabilità come forma del meta-apprendimento. L’adattamento di secondo ordine — un sistema che, quando la strategia corrente non riporta le metriche nel range, non insiste ma cambia strategia — è la forma astratta di parecchie cose moderne.

Il meta-apprendimento, l’imparare a imparare, è un anello che modifica il modo di apprendere di un anello sottostante. L’auto-correzione di un agente che, dopo una serie di fallimenti, abbandona l’approccio e ne prova un altro, è un anello secondo che riconfigura il primo. Un loop di training che cambia il learning rate quando la loss smette di scendere ha la stessa struttura.

Riconoscere il pattern a due anelli permette di progettarlo deliberatamente — decidere quali sono le metriche essenziali, quali le soglie, quale il repertorio di riconfigurazioni — invece di lasciarlo emergere per caso e accorgersene solo quando si rompe. Un adattamento di secondo ordine progettato a tavolino è prevedibile; uno emerso per accidente è una sorpresa, di solito sgradita.

Robustezza come capacità di riconfigurazione. Ashby cambia il significato della parola robustezza. Robusto non vuol dire soltanto “resiste senza cambiare”. Un sistema robusto nel senso dell’ultrastabilità è uno che cambia configurazione per restare vitale quando le condizioni escono dal previsto.

Progettare per la robustezza, in questa accezione, significa tre cose concrete: identificare le variabili essenziali, definirne il viable range, e dotare il sistema di un repertorio di configurazioni alternative tra cui cercare quando il range viene violato. Un sistema con una sola configurazione può essere stabile, ma non è ultrastabile: alla prima perturbazione che la sua unica configurazione non gestisce, non ha dove andare.

Vale la pena notare che questa accezione di robustezza si sposa accanto, non sopra, a quella ingegneristica usuale. La robustezza classica chiede che un sistema tolleri rumore e incertezza senza cambiare; la robustezza di Ashby chiede che cambi quando tollerare non basta più. Un sistema davvero resiliente ha entrambe: un primo anello che assorbe le perturbazioni piccole senza scomporsi, e un secondo anello che riconfigura quando ne arriva una grande. Le due robustezze coprono regimi diversi, e un buon progetto non sceglie tra loro: le mette in serie.

Fraintendimenti tipici

Cinque equivoci ricorrono ogni volta che questi concetti vengono usati fuori dal loro contesto originario. Vale la pena nominarli prima di passare ai limiti veri e propri.

“Omeostasi” non vuol dire immobilità. È l’errore più comune, e Cannon lo aveva previsto scegliendo il prefisso homeo- invece di homo-. Un sistema in omeostasi non è fermo: è pieno di processi correttivi che lavorano in continuazione, e il valore della variabile oscilla sempre, di poco, attorno al setpoint. La costanza è un risultato dinamico, non l’assenza di movimento. Un corpo a temperatura costante sta bruciando energia per restare tale.

“Ultrastabilità” non vuol dire stabilità più forte. Il prefisso ultra- trae in inganno. L’ultrastabilità non è “tanta stabilità”: è stabilità a un livello superiore. Un sistema semplicemente stabile torna all’equilibrio usando i parametri che ha; un sistema ultrastabile cambia i parametri quando quelli che ha non bastano più. Sono due capacità diverse, non la stessa in dose maggiore. Un sistema può essere stabilissimo e per niente ultrastabile — è il caso del termostato con i fili invertiti, perfettamente stabile finché il cablaggio è giusto e del tutto incapace di adattarsi quando non lo è.

La legge della varietà non dice “più varietà è meglio”. La legge fissa una soglia minima: almeno tanta varietà quanta ne ha il disturbo. Non dice che superare quella soglia migliora la regolazione. Varietà del regolatore in eccesso non si traduce in regolazione migliore, e ha un costo: un regolatore più vario è più difficile da costruire, da capire e da mantenere. La legge è un “almeno”, non un “il più possibile”.

Il good regulator theorem non dice che il regolatore è una copia del sistema. La mappa che il teorema costruisce è un omomorfismo, non un isomorfismo: il modello interno può, anzi di norma deve, perdere informazione rispetto al sistema. Un buon regolatore di un sistema complicato è un modello semplificato di quel sistema, non una sua replica. Confondere le due cose porta a sovrastimare quanto debba essere complesso un regolatore.

L’Homeostat non “imparava” come una rete neurale. È un’analogia che viene spontanea e che è fuorviante. L’Homeostat non aggiornava pesi seguendo un gradiente verso un obiettivo: non c’era nessun obiettivo da minimizzare, nessuna direzione. Faceva una ricerca casuale per tentativi nello spazio dei parametri, guidata da un solo bit di feedback — variabili essenziali dentro il range, sì o no. È selezione per tentativi ed errori, non ottimizzazione differenziabile. L’analogia con il reinforcement learning regge per la parte “ricerca guidata da un segnale”; cade del tutto per la parte “il segnale indica una direzione”. Il segnale dell’Homeostat non indica nulla, dice solo se fermarsi.

Dove si rompe

I fraintendimenti sopra sono errori di lettura. I limiti che seguono sono invece intrinseci alla teoria: l’idea di Ashby è potente, e proprio per questo le sue frontiere vanno dette con chiarezza, perché contano quanto i meccanismi.

Il costo della ricerca casuale. L’Homeostat trova l’equilibrio per tentativi puramente casuali, e questo funziona solo finché lo spazio delle configurazioni è piccolo. Con quattro unità e uniselector a venticinque posizioni il numero di configurazioni è grande ma ancora esplorabile.

Con un sistema reale, dove i parametri sono migliaia e per giunta continui, una ricerca senza direzione non finisce mai in tempo utile. È il motivo per cui l’Homeostat resta un modello concettuale e non è diventato un’architettura ingegneristica. I metodi moderni che ne condividono la struttura — il reinforcement learning, gli algoritmi evolutivi — devono aggiungere qualcosa che l’Homeostat non aveva: un segnale che dà una direzione alla ricerca, non solo un bit che dice dentro o fuori. La differenza tra un gradiente, che indica da che parte andare, e un singolo bit di vitalità, che dice solo se sei vivo, è la differenza tra una ricerca che scala e una che non scala.

Riconfigurarsi richiede tempo, e il tempo a volte non c’è. Il secondo anello dell’ultrastabilità è lento per costruzione: deve provare configurazioni, osservare, riprovare. Durante questa ricerca le variabili essenziali sono, per definizione, fuori dal range.

Se la perturbazione è tale che restare fuori dal range anche per poco è fatale, l’ultrastabilità non aiuta: la macchina troverebbe la configurazione giusta, ma troppo tardi. Un organismo che cerca per tentativi come reagire a un predatore di solito non sopravvive alla ricerca. L’ultrastabilità è una strategia per perturbazioni che danno tempo, non per emergenze istantanee — per quelle servono risposte pre-cablate, riflessi, non esplorazione.

Le variabili essenziali vanno scelte, e la scelta è fragile. Tutto lo schema dipende dal sapere quali sono le variabili essenziali e dove stanno i confini del loro viable range. In un organismo l’evoluzione ha selezionato queste variabili e questi confini in milioni di anni. In un sistema progettato, qualcuno deve sceglierle a mano.

Se la scelta è incompleta — se una variabile davvero critica non è stata messa nella lista — il sistema la lascerà uscire dal range senza mai attivare il secondo anello, semplicemente perché non la sta guardando. Un agente che monitora il budget di token ma non monitora gli effetti collaterali delle sue azioni sul filesystem è ultrastabile rispetto al primo e completamente cieco rispetto al secondo. Lo schema non sceglie le variabili al posto del progettista, e un errore a questo livello non dà segnali: si manifesta soltanto come un fallimento che il secondo anello non ha intercettato perché non lo stava cercando.

Riconfigurarsi può peggiorare le cose. La ricerca per tentativi assume che, da qualche parte nello spazio delle configurazioni, ci sia una configurazione che riporta la vitalità. Questa assunzione non è sempre vera.

Se quella configurazione non esiste — se la perturbazione è oltre ciò che qualunque parametro può compensare — il secondo anello continua a scattare a vuoto, e ogni nuova configurazione casuale può portare il sistema in stati anche peggiori di quello di partenza. L’ultrastabilità non è una garanzia di sopravvivenza: è una strategia che funziona quando una via d’uscita esiste, e che si agita a vuoto, a volte in modo dannoso, quando non esiste.

Il good regulator theorem è più stretto del suo titolo. Lo si è già detto nella sezione sui fraintendimenti, ma va ripreso qui perché ha una conseguenza pratica. Il teorema non dimostra che ogni cosa che regola bene “contiene un modello” nel senso ricco e intuitivo di una rappresentazione interna manipolabile e ispezionabile.

Dimostra, sotto ipotesi precise di ottimalità e semplicità, che il regolatore è una funzione deterministica dello stato del sistema. Usare il teorema per affermare che un agente che si comporta bene “ha necessariamente un modello del mondo” nel senso forte è uno scivolamento dalla classe teorema alla classe analogia, mascherato da deduzione. Il teorema autorizza una conclusione precisa e limitata; tutto ciò che va oltre è interpretazione — legittima, ma da dichiarare come tale e non spacciare per corollario.

Confondere le classi di legame. Il rischio editoriale di un capitolo come questo è far passare per filiazione ciò che è analogia. L’omeostasi biologica e l’harness di un agente hanno la stessa forma — è un’analogia strutturale, forte e utile per progettare.

Ma l’harness non discende dall’Homeostat: non esiste una catena documentata di citazioni e influenze che colleghi Ashby a chi progetta runtime per agenti oggi. La struttura a due anelli è stata riscoperta perché è la soluzione naturale a una classe di problemi, non perché tramandata di mano in mano. Tenere distinta l’analogia — somiglianza di forma — dalla filiazione — discendenza storica documentata — non è pedanteria editoriale: è ciò che impedisce di costruire una genealogia falsa dell’AI a partire dalla cibernetica, una tentazione ricorrente perché la cibernetica, con il suo vocabolario di feedback e adattamento, sembra l’antenata diretta di tutto.

Tutti questi limiti, messi insieme, dicono una cosa sola. L’ultrastabilità e la legge della varietà non sono ricette, sono diagnosi. Non dicono come costruire un sistema adattivo che funziona; dicono quali condizioni un sistema adattivo deve soddisfare per avere anche solo una possibilità di funzionare — abbastanza varietà, le variabili essenziali giuste, il tempo per riconfigurarsi, una via d’uscita che esista. È il valore tipico di un buon risultato di teoria dei sistemi: non ti dà la soluzione, ma ti dice in anticipo dove cercarla e dove è inutile cercarla. Usata così, l’eredità di Ashby resta viva; usata come ricetta, delude.

Collegamenti

Wiener: comunicazione e controllo in animali e macchine — Ashby è uno dei fondatori della cibernetica, e l’Homeostat ne è uno degli oggetti-icona, accanto alle tartarughe robotiche di Grey Walter. Quel capitolo dà il quadro della disciplina entro cui questo si colloca.
Anatomia di un anello: errore, setpoint, guadagno, ritardo — l’omeostasi è un anello di feedback negativo, e l’ultrastabilità è precisamente un secondo anello costruito sopra il primo. Prerequisito diretto: senza l’anello singolo, l’anello-sopra-l’anello non si capisce.
Overshoot, ritardo, oscillazioni, divergenza — quel capitolo studia il destino di un singolo anello; questo aggiunge il livello che riconfigura l’anello quando il suo destino, a parametri fissi, sarebbe il fallimento.
legge-varieta-necessaria (in preparazione) — il capitolo successivo dedicato interamente alla legge della varietà necessaria; qui se ne danno l’intuizione e l’origine storica, lì la si approfondisce nel dettaglio formale.
black-box-sistemi (in preparazione) — il good regulator theorem dice che regolare bene un sistema di cui si vede solo l’input e l’output richiede di costruirne comunque un modello: il ponte è diretto.
Equilibrio, stabilità, attrattori — l’omeostasi è un equilibrio mantenuto attivamente, un attrattore tenuto in piedi dal lavoro continuo di un anello di feedback, non un punto di riposo passivo.
Cosa posso misurare, cosa posso governare — il good regulator theorem è il parente cibernetico dell’idea che per controllare un sistema occorre poterne stimare lo stato, e quindi averne un modello.
Modelli descrittivi, predittivi, prescrittivi — “ogni buon regolatore è un modello del sistema”: il teorema di Conant e Ashby lega in modo formale la regolazione e la modellazione.
entropia-cross-entropy (in preparazione) — la legge della varietà necessaria, nella sua forma informazionale, è scritta con l’entropia di Shannon: varietà e incertezza sono, in quel contesto, la stessa quantità misurata in bit.
ponte-cibernetica-rl (in preparazione) — l’Homeostat che cerca per tentativi guidato da un segnale di vitalità anticipa, nella forma, la logica del reinforcement learning; ne mostra anche il limite, l’assenza di una direzione di ricerca.
ponte-cibernetica-agenti (in preparazione) — l’agente con harness, budget e percorsi di escalation è, strutturalmente, un sistema ultrastabile a due anelli annidati.

Per andare oltre

W. Ross Ashby, Design for a Brain: The Origin of Adaptive Behaviour, Chapman & Hall, 1952 (seconda edizione riveduta 1960). Il testo dove Ashby costruisce la teoria dell’ultrastabilità e descrive l’Homeostat. Lettura impegnativa ma sorprendentemente chiara.
W. Ross Ashby, An Introduction to Cybernetics, Chapman & Hall, 1956. Il libro che introduce in forma sistematica la nozione di varietà e la legge della varietà necessaria; disponibile integralmente e gratuitamente in formato digitale.
Roger C. Conant e W. Ross Ashby, “Every Good Regulator of a System Must Be a Model of That System”, International Journal of Systems Science, vol. 1, n. 2, 1970. Il paper originale del good regulator theorem: breve, e va letto avendo in mente la distinzione tra ciò che il titolo promette e ciò che la dimostrazione stabilisce.
Walter B. Cannon, The Wisdom of the Body, W. W. Norton, 1932. Il libro che ha diffuso la parola e il concetto di omeostasi, scritto da un fisiologo per un pubblico ampio: l’origine biologica di tutto il capitolo.
Phil Husbands e Owen Holland, “The Ratio Club: A Hub of British Cybernetics”, in The Mechanical Mind in History, MIT Press, 2008. Ricostruzione storica del club che fa da sfondo all’opera di Ashby, con i ritratti dei suoi membri.
Claude E. Shannon, “A Mathematical Theory of Communication”, Bell System Technical Journal, 1948. Il paper che fonda la teoria dell’informazione e definisce l’entropia: lo stesso strumento matematico che Ashby usa, otto anni dopo, per riscrivere la legge della varietà in forma informazionale.