La legge della varietà necessaria

Solo la varietà può distruggere la varietà: un regolatore può cancellare l’imprevedibilità di un sistema solo nella misura in cui ne ha altrettanta dentro di sé. È un vincolo aritmetico, non un consiglio.

Perché questo capitolo

Un classificatore di sicurezza riconosce dodici tipi di richiesta proibita. Il modello che dovrebbe sorvegliare può rispondere in milioni di modi distinti, e molti di quei modi aggirano la richiesta proibita riformulandola.

La domanda non è se il classificatore sia scritto bene. La domanda è se possa, anche solo in linea di principio, coprire ciò che sorveglia. C’è un modo di rispondere prima ancora di guardare il codice: si contano gli stati distinti da una parte e dall’altra, e si sottrae.

Quel conto ha un nome. Nel 1956 lo psichiatra e pioniere britannico della cibernetica W. Ross Ashby (1903-1972) pubblica An Introduction to Cybernetics, il primo manuale sistematico della disciplina, e vi enuncia un risultato che chiama legge della varietà necessaria.

La legge dice una cosa sola, ma la dice in modo definitivo: un regolatore può ridurre l’imprevedibilità di ciò che governa solo nella misura in cui esso stesso è abbastanza ricco. Non è una questione di abilità, di sforzo, di buona ingegneria. È un vincolo della stessa natura di una legge di conservazione: stabilisce un costo minimo che nessuna ottimizzazione può comprimere.

Per chi costruisce guardrail, classificatori, sistemi di moderazione, monitor runtime, valutatori di modelli, la legge è uno strumento di progettazione scomodo e prezioso. Scomodo perché dice in faccia che molti sistemi di controllo sono sotto-dimensionati per costruzione, e che lo si poteva sapere dal primo giorno.

Prezioso perché trasforma una sensazione vaga — “questo filtro non basterà” — in una sottrazione che si può fare prima di scrivere una riga. La legge della varietà necessaria è il capitolo della cibernetica che parla più direttamente a chi oggi mette barriere attorno a sistemi capaci.

Contesto

La legge è già comparsa in questa wiki. Il capitolo Ashby, omeostato e adattamento la introduce a fianco dell’ultrastabilità, la presenta come un gioco a due e ne dà la formula. Quel capitolo racconta anche chi era Ashby, cos’era l’Homeostat, e dimostra il good regulator theorem.

Questo capitolo non ripete quella storia: la dà per letta e scende in profondità in un solo oggetto, la legge della varietà necessaria — la sua definizione di varietà, il suo enunciato preciso, le sue due forme, la sua riformulazione manageriale, i suoi limiti, e soprattutto cosa significa oggi per chi costruisce sistemi di AI. Se l’omeostato e la biografia di Ashby non ti sono familiari, il capitolo precedente è il punto di partenza naturale.

La legge nasce in un momento preciso della storia delle idee. Otto anni prima, nel 1948, erano usciti due libri che cambiano il vocabolario disponibile: Cybernetics di Norbert Wiener (matematico statunitense, 1894-1964), che mette il feedback al centro dello studio dei sistemi orientati a uno scopo, e A Mathematical Theory of Communication di Claude Shannon (matematico e ingegnere statunitense, 1916-2001), che fonda la teoria dell’informazione e definisce l’entropia.

Ashby costruisce sopra entrambi. La sua varietà è, dichiaratamente, “un concetto inseparabile da quello di informazione”, e nel suo libro mostra che la legge della varietà necessaria è la stessa cosa di un teorema di Shannon sulla correzione del rumore, vista da un’altra angolazione. La cibernetica di Ashby e la teoria dell’informazione di Shannon non sono parenti lontani: in questo punto sono la stessa matematica.

Dopo Ashby, la legge ha avuto due vite. Una nel management, dove Stafford Beer (teorico britannico della cibernetica gestionale, 1926-2002) ne fa il cardine del suo Viable System Model. L’altra nella teoria del controllo, dove l’idea che un buon regolatore debba contenere un modello del disturbo riemerge come internal model principle. Entrambe le vite sono nel seguito del capitolo. La terza vita, quella nei sistemi di AI, è il motivo per cui questo capitolo esiste.

La legge ha anche avuto i suoi critici, e vale la pena anticiparlo qui perché cambia il modo di leggerla. Alcuni studiosi hanno osservato che, formulata in piena generalità, la legge rischia di suonare quasi tautologica: “per controllare tutto devi poter rispondere a tutto” è difficile da contestare proprio perché non dice molto di più di quanto la definizione di varietà già implichi.

Il valore della legge, in questa lettura, non sta nell’enunciato astratto ma nelle sue applicazioni concrete, dove costringe a fare una cosa che la maggior parte dei progetti evita: contare. Contare gli stati del disturbo, contare le contromosse del regolatore, ed essere onesti sulla differenza. La legge è preziosa non perché riveli qualcosa di sorprendente, ma perché impone una disciplina di conteggio a un dominio — il dimensionamento dei sistemi di controllo — che di solito procede a intuito.

L’intuizione

Primo angolo: il gioco a due e il conteggio dei buchi

L’immagine più diretta della legge è una partita. Ci sono due giocatori. Il primo, chiamiamolo Disturbo, sceglie una mossa fra un certo numero di mosse possibili. Il secondo, il Regolatore, vede la mossa del Disturbo e risponde con una contromossa scelta fra le sue.

L’esito della partita dipende dalla coppia di mosse, ed esiste un insieme di esiti accettabili: il Regolatore vince un round se l’esito ci finisce dentro. L’obiettivo del Regolatore non è “vincere alla grande”: è tenere l’esito dentro l’insieme accettabile qualunque mossa faccia il Disturbo.

Supponi che il Disturbo abbia cento mosse distinte e il Regolatore solo dieci contromosse distinte. Il Regolatore deve coprire cento situazioni diverse con dieci risposte diverse. Per il principio dei cassetti — se metti cento oggetti in dieci cassetti, almeno un cassetto ne contiene parecchi — il Regolatore è costretto a riusare la stessa contromossa per disturbi diversi. E una contromossa pensata per un disturbo, applicata a un altro, in generale dà l’esito sbagliato.

Il conto è spietato: con dieci contromosse e cento disturbi, almeno novanta situazioni restano senza una risposta su misura. Non perché il Regolatore sia distratto o male addestrato. Per pura aritmetica.

Anche giocando in modo perfetto, novanta buchi restano aperti. Questa è l’intuizione della frase di Ashby: solo la varietà può assorbire la varietà. Il numero di buchi non è una stima né un’opinione: è una sottrazione, e una sottrazione si può fare prima di costruire qualsiasi cosa.

Secondo angolo: la regolazione come legge di conservazione

C’è un secondo modo di vedere la stessa cosa, che cambia la categoria mentale in cui la si colloca. La tentazione è leggere la legge come un consiglio gestionale — “attrezzati bene”, “preparati a tutto”. Non è quello. È un vincolo di tipo conservativo.

In fisica, una legge di conservazione dice che una certa quantità non si crea dal nulla: l’energia non aumenta da sola, la carica non appare. La legge della varietà necessaria dice una cosa della stessa forma sulla regolazione: l’ordine non si crea dal nulla.

Il Regolatore non può ridurre l’imprevedibilità dell’esito gratis: deve spendere la propria varietà di risposte per cancellare la varietà del disturbo, una contro una. Se ne ha meno, la differenza passa sempre, e nessuna bravura la elimina. La marcatura della classe qui conta: questa è una somiglianza strutturale forte con le leggi di conservazione fisiche, non una semplice analogia didattica — la legge è, in senso letterale, un vincolo conservativo sulla varietà.

Questo angolo spiega perché la legge è robusta. Un consiglio gestionale si può ignorare o aggirare con astuzia. Una legge di conservazione no: pone un limite che vale per qualsiasi strategia, per qualsiasi implementazione.

Quando un sistema di controllo fallisce “su un caso che non era previsto”, spesso non si è di fronte a sfortuna: si è di fronte a un sistema che aveva meno varietà del suo disturbo, e il caso non previsto era uno dei buchi che la legge garantiva. La parola “imprevisto” nasconde spesso un “non contato”.

C’è una conseguenza pratica di questo secondo angolo che vale la pena fissare. Se la varietà non si crea dal nulla, allora ogni unità di varietà del regolatore va pagata: costa righe di codice, costa modelli da addestrare, costa esseri umani da inserire nel loop, costa tempo di manutenzione. Un regolatore non è ricco gratis.

Questo è il motivo per cui la legge non è solo un risultato teorico ma uno strumento di budget: dice quanta varietà serve come minimo, e ogni unità in più di quel minimo è una voce di costo da giustificare. Un team che non ha contato la varietà del proprio disturbo sta dimensionando il proprio regolatore alla cieca, e di solito lo dimensiona sui casi che gli vengono in mente — un sottoinsieme arbitrario del disturbo reale.

Terzo angolo: l’osservatore che non distingue

Un terzo modo di guardare la legge nasce dalla precisazione di Ashby sulla varietà relativa all’osservatore, e merita un angolo proprio perché è quello che inganna più spesso chi progetta sistemi di sorveglianza. La varietà che entra nella legge non è la varietà “reale” del disturbo: è la varietà che il regolatore riesce a discriminare. Due disturbi che il regolatore non sa distinguere, per il regolatore sono lo stesso disturbo.

Immagina un controllore di accessi che decide in base al colore di un badge: verde passa, rosso no. Per quel controllore, due persone con badge verde sono indistinguibili, qualunque cosa abbiano nelle intenzioni. La sua varietà di percezione è 2.

Se il problema reale ha varietà 50 — cinquanta categorie di persona che andrebbero trattate diversamente — il controllore non ha 50 contromosse mancanti: ha un organo di senso che collassa 50 in 2 prima ancora che la decisione cominci. Il buco non è nel repertorio di risposte, è nella percezione.

Aggiungere contromosse a un regolatore che non vede non serve a niente: prima va aumentata la varietà di ciò che distingue. Questo terzo angolo dice che la legge va applicata due volte — una alla percezione del regolatore, una alle sue risposte — e che il termine debole dei due è quello che comanda.

La meccanica

La definizione di varietà

Tutto il capitolo poggia su una definizione, e Ashby la dà in modo asciutto. La varietà di un insieme è il numero dei suoi elementi distinti. Oppure, a scelta, il logaritmo in base 2 di quel numero, e allora la varietà si misura in bit. Le due definizioni non sono due cose: sono la stessa cosa in due unità, come misurare una distanza in metri o in passi. Il logaritmo è solo il cambio di unità.

Qualche esempio per fissare la scala. Un interruttore ha due stati, acceso e spento: varietà 2, ovvero 1 bit. Un sistema con quattro stati distinti ha varietà 4, ovvero 2 bit. Un dado ha varietà 6, ovvero $\log_2 6 \approx 2{,}585$ bit. Un byte ha 256 stati distinti, ovvero 8 bit. La varietà misura, in sostanza, quanto un sistema può essere diverso da sé stesso: quanti stati distinguibili può assumere.

Due precisazioni di Ashby pesano sul resto del capitolo, e conviene metterle in chiaro subito.

La prima: la varietà dipende dall’osservatore. Due stati che un osservatore non sa distinguere, per lui, contano come uno solo. La varietà non è una proprietà intrinseca dell’oggetto: è una proprietà dell’oggetto relativa a una capacità di discriminazione. Un mazzo di carte ha varietà 52 per chi distingue ogni carta, varietà 4 per chi guarda solo il seme, varietà 2 per chi guarda solo il colore. Questa dipendenza dall’osservatore non è un dettaglio filosofico: come si vedrà, è la crepa da cui passa un intero fallimento di monitoraggio.

La seconda: varietà e informazione sono lo stesso concetto. Il logaritmo che trasforma un conteggio di stati in bit è esattamente l’operazione che, quando gli stati sono equiprobabili, definisce l’entropia di Shannon. Questo non è un parallelo decorativo: è il ponte che, fra poco, dà alla legge la sua seconda forma.

L’enunciato preciso

Servono tre quantità. Le introduciamo una alla volta.

$D$ è il disturbo: tutto ciò che spinge l’esito fuori dai valori desiderati. La sua varietà $V(D)$ è il numero di perturbazioni distinte che il disturbo può produrre.

$R$ è il regolatore: ciò che agisce per riportare l’esito dentro i valori desiderati. La sua varietà $V(R)$ è il numero di contromosse distinte di cui dispone.

$E$ è l’esito, la variabile essenziale che vogliamo tenere costante — la temperatura di una stanza, la sicurezza di una risposta, la disponibilità di un servizio. La sua varietà $V(E)$ conta quanti valori distinti l’esito può ancora assumere nonostante la regolazione. È, in pratica, la misura di quanto stiamo regolando male: se $V(E)$ vale 1, l’esito è perfettamente costante e la regolazione è perfetta; se $V(E)$ è grande, l’esito fluttua ancora molto.

Con queste tre quantità, la legge della varietà necessaria si scrive così, se le varietà sono espresse in bit:

$V(E) \geq V(D) - V(R)$

In parole povere, questo dice che la varietà che rimane nell’esito — quanto male stiamo regolando — non può scendere sotto la varietà del disturbo meno la varietà del regolatore. C’è un pavimento sotto il fallimento, e quel pavimento è una sottrazione.

La stessa legge, se le varietà sono espresse come conteggi di stati invece che in bit, si scrive con una divisione:

$V(E) \geq \frac{V(D)}{V(R)}$

Non sono due leggi diverse. Sono la stessa disuguaglianza in due unità: il logaritmo trasforma una divisione in una sottrazione, esattamente come $\log(a/b) = \log a - \log b$ .

La wiki preferisce la forma additiva in bit, perché è quella che si collega in modo diretto all’entropia. Ma quando ci sono pochi stati e si vuole un numero concreto, la forma a divisione è spesso più comoda. Negli esempi che seguono useremo l’una o l’altra a seconda di cosa rende il conto più leggibile; il risultato non cambia.

C’è un caso limite che è il cuore operativo della legge. Per portare $V(E)$ al suo minimo — esito perfettamente costante, nessuna fluttuazione residua — la disuguaglianza richiede:

$V(R) \geq V(D)$

Il regolatore deve avere almeno tanta varietà quanta ne ha il disturbo che vuole assorbire. Questo è il contenuto esatto della frase di Ashby “only variety can destroy variety” — solo la varietà può distruggere la varietà.

Ashby usa il verbo “destroy”; Stafford Beer, più tardi, la riformula con “absorb”, assorbire. È lo stesso enunciato, e “assorbire” si è imposto perché rende meglio l’immagine: il regolatore assorbe la varietà del disturbo come una spugna assorbe acqua, fino alla sua capacità e non oltre. Oltre quella capacità, l’acqua cola — e l’acqua che cola è la varietà residua dell’esito.

La seconda forma: la legge come vincolo sull’informazione

Finora abbiamo contato stati come se fossero tutti ugualmente probabili. Nel mondo reale non lo sono: alcuni disturbi sono frequenti, altri rari. Lo strumento giusto per il caso non uniforme è l’entropia di Shannon, l’incertezza media in bit di una variabile aleatoria, $H = -\sum_i p_i \log_2 p_i$ . Chi vuole l’entropia dalle fondamenta la trova nel capitolo Entropia, cross-entropy, KL divergence; qui basta sapere che l’entropia coincide con $\log_2 N$ quando gli $N$ stati sono equiprobabili, ed è più piccola altrimenti.

Sostituendo le entropie alle varietà, la legge diventa:

$H(E) \geq H(D) - H(R)$

È lo stesso vincolo riscritto in un’altra unità di misura. E non è un’analogia che ci stiamo concedendo: è Ashby stesso, nel capitolo 11 del suo libro, a mostrare che la legge della varietà necessaria sta in rapporto esatto con un teorema di Shannon sulla correzione del rumore in un canale di comunicazione.

Nella corrispondenza, il disturbo $D$ è il rumore, il regolatore $R$ è il canale di correzione, e l’obiettivo “tenere l’esito costante” è trasmettere un messaggio a entropia zero. Le parole di Ashby: “the amount of noise that can be removed by a correction channel is limited to the amount of information that can be carried by that channel” — la quantità di rumore che un canale di correzione può rimuovere è limitata dalla quantità di informazione che quel canale può trasportare.

Marchiamo la classe di questo legame, perché è facile sbagliarla. Tra la legge di Ashby e il teorema di Shannon non c’è un’analogia didattica: c’è un’equivalenza formale, argomentata da Ashby e non semplicemente asserita. È letteralmente la stessa disuguaglianza, con gli stessi simboli che cambiano nome. La regolazione, vista così, è un trasferimento di informazione: il regolatore spende capacità di canale per cancellare l’incertezza che il disturbo introduce.

Da questa lettura discende una conseguenza che torna utile più avanti. Se regolare è trasferire informazione, allora il regolatore ha bisogno di informazione sul disturbo: deve in qualche modo vederlo, o vederne le conseguenze, abbastanza presto per reagire.

Un regolatore cieco — che non riceve alcuna informazione sul disturbo — non può fare meglio di un valore medio fisso. È una conclusione netta e contro-intuitiva: per quanto vario sia il suo repertorio, un regolatore che non osserva il disturbo non può usare quel repertorio in modo mirato, e tanto vale che ne abbia uno solo.

Avere abbastanza contromosse non serve, se non sai quale disturbo stai affrontando. La legge della varietà necessaria garantisce che il canale sia abbastanza largo; non garantisce che lo si stia usando per trasmettere la cosa giusta. Quel secondo problema — sapere quale contromossa serve per quale disturbo — è l’oggetto del good regulator theorem, dimostrato da Conant e Ashby e trattato nel capitolo Ashby, omeostato e adattamento.

Un conto con le entropie: perché i bit cambiano il risultato

Vale la pena fare un calcolo concreto con la forma informazionale, perché mostra una differenza che il conteggio nudo di stati nasconde. Quando i disturbi non sono equiprobabili, l’entropia è più piccola del logaritmo del numero di stati, e questo allenta il vincolo.

Considera un disturbo con otto stati possibili. Se gli otto stati fossero ugualmente probabili, la varietà in bit sarebbe $\log_2 8 = 3$ bit: per regolare perfettamente servirebbe un regolatore con almeno 3 bit di varietà, cioè otto contromosse distinte.

Ma supponi che la distribuzione reale sia molto sbilanciata: un disturbo capita nell’80% dei casi, un secondo nel 10%, e i restanti sei si dividono il 10% rimanente. L’entropia di questa distribuzione è $H(D) = -0{,}8\log_2 0{,}8 - 0{,}1\log_2 0{,}1 - 6 \cdot \frac{0{,}1}{6}\log_2\frac{0{,}1}{6}$ , che vale circa $1{,}2$ bit — molto meno dei 3 bit del caso uniforme.

In parole povere, questo dice che un disturbo concentrato su pochi casi frequenti porta meno incertezza, e quindi richiede meno varietà per essere assorbito. Un regolatore con $H(R) \approx 1{,}2$ bit — che in pratica gestisce bene i due disturbi frequenti e raggruppa gli altri sei — può portare $H(E)$ vicino a zero.

Questo è il motivo per cui, in pratica, un guardrail con poche regole può sembrare adeguato a lungo: copre i pochi disturbi frequenti, e la coda rara passa di rado abbastanza da non farsi notare. La forma a conteggio di stati ( $V(D) = 8$ ) sovrastima il problema; la forma a entropia ( $H(D) \approx 1{,}2$ ) lo misura meglio. Il pericolo è che la coda rara, quando arriva, è proprio quella che nessuno ha gestito — e in sicurezza la coda rara è spesso l’attacco mirato, non l’errore casuale.

Perché la tabella conta: il caso buono e il caso cattivo

Un dettaglio della meccanica viene spesso saltato, e saltarlo fa fraintendere la legge. La legge dice qual è il miglior risultato possibile data la varietà a disposizione. Ma quel miglior risultato si raggiunge solo se la struttura del problema — la tabella che lega ogni coppia disturbo-contromossa al suo esito — è favorevole.

Prendiamo un esempio con tre disturbi e tre contromosse. Gli esiti possibili sono $a$ , $b$ , $c$ , e l’unico accettabile è $a$ . La tabella incrocia il disturbo (righe) con la contromossa (colonne):

        r1   r2   r3
   d1    a    b    c
   d2    c    a    b
   d3    b    c    a

Questa tabella ha una proprietà speciale: in ogni riga compaiono tutti e tre gli esiti, ciascuno una volta. È un quadrato latino. Con una tabella così, il regolatore vince sempre: per $d_1$ gioca $r_1$ , per $d_2$ gioca $r_2$ , per $d_3$ gioca $r_3$ , e l’esito è $a$ in tutti i casi. $V(D) = 3$ , $V(R) = 3$ , la condizione $V(R) \geq V(D)$ è soddisfatta con l’uguaglianza, e l’esito resta inchiodato su $a$ , quindi $V(E) = 1$ .

Ora togliamo al regolatore una contromossa: gli resta solo $\{r_1, r_2\}$ .

        r1   r2
   d1    a    b
   d2    c    a
   d3    b    c

Per il disturbo $d_3$ non esiste più una contromossa che dia $a$ : qualunque cosa il regolatore giochi, l’esito è $b$ o $c$ . Con $V(D) = 3$ e $V(R) = 2$ , la legge dice che l’esito conserva varietà, e infatti c’è almeno un disturbo che sfugge.

La lezione della tabella è duplice. Da un lato, la legge vale anche con la tabella migliore possibile: nemmeno un quadrato latino lascia vincere un regolatore con $V(R) < V(D)$ .

Dall’altro, con una tabella sfavorevole il regolatore può fare anche peggio del limite che la legge fissa. Avere $V(R) \geq V(D)$ è necessario per regolare perfettamente; non è sufficiente, perché la struttura del problema può comunque tradire. La legge dà un pavimento al fallimento, non un soffitto al successo.

Cosa serve oltre la varietà: un cenno al modello interno

La legge dice quanta varietà serve. Non dice come usarla. Per chiudere il discorso conviene nominare il pezzo che manca, anche se il suo trattamento completo sta altrove.

Avere abbastanza contromosse non aiuta se, davanti a un disturbo, peschi una contromossa a caso: serve sapere quale contromossa va con quale disturbo. Quella conoscenza — l’associazione corretta tra disturbi e risposte — è ciò che il good regulator theorem di Conant e Ashby (1970) identifica con un modello del sistema da regolare. Il regolatore deve, in un senso preciso, contenere dentro di sé un’immagine strutturale di ciò che governa.

In teoria del controllo la stessa idea riemerge come internal model principle, formulato da Bruce Francis e W. Murray Wonham nel 1976: un controllore che vuole annullare perfettamente un certo tipo di disturbo deve contenere al proprio interno un generatore di quel disturbo.

Per cancellare un’oscillazione periodica, il controllore deve saper produrre la stessa oscillazione. Non basta reagire: bisogna prevedere, e prevedere richiede una replica interna della struttura del disturbo. Il legame tra la legge della varietà e questo principio è di filiazione documentata, non di analogia: il good regulator theorem e l’internal model principle sono due formulazioni dello stesso risultato, una in linguaggio insiemistico e una in linguaggio di equazioni differenziali.

La traiettoria completa, allora, è questa: per regolare bene servono abbastanza contromosse — la varietà necessaria, oggetto di questo capitolo — e sapere quale usare quando — un modello del sistema, oggetto del good regulator theorem. Le due cose insieme; nessuna delle due da sola basta. Questo capitolo si ferma alla prima; il capitolo Ashby, omeostato e adattamento sviluppa la seconda.

Esempi

I quattro esempi che seguono guardano la stessa legge da quattro distanze: un calcolo aritmetico, un confronto di codice, uno scenario di sistema reale, e un caso biologico che riporta alle origini cibernetiche della legge.

Esempio numerico: contare i punti ciechi di un filtro

Un servizio mette un filtro di moderazione davanti a un modello generativo. Il modello, sollecitato in modo avversariale, può produrre contenuti problematici che cadono in dodici categorie qualitativamente distinte: istruzioni pericolose, incitamento all’odio, contenuti sessuali su minori, disinformazione sanitaria, dati personali altrui, codice malevolo, frode finanziaria, autolesionismo, violazione di copyright, manipolazione politica, exfiltration di segreti, elusione di sistemi di sicurezza.

La varietà del disturbo è $V(D) = 12$ . È un numero approssimato — la tassonomia potrebbe essere più fine o più grossa — ma serve come ordine di grandezza, e per l’esercizio basta.

Il filtro, per come è stato scritto, riconosce quattro categorie: odio, contenuti sessuali, autolesionismo, codice malevolo. La sua varietà è $V(R) = 4$ .

La legge, nella forma additiva, dà $V(E) \geq 12 - 4 = 8$ . Tradotto: restano almeno otto categorie di contenuto problematico su cui il filtro non ha alcuna risposta dedicata.

Non “potrebbero esserci dei buchi”: ce ne sono almeno otto, e si possono nominare uno per uno confrontando le due liste — frode finanziaria, manipolazione politica, exfiltration di segreti, e così via. Il numero otto non è una stima di rischio né il risultato di un test: è una sottrazione fatta su un foglio prima di scrivere codice.

Questo cambia la natura della conversazione di progetto. La domanda non è più “il filtro è scritto bene?” — i quattro rami che ci sono potrebbero essere ottimi. La domanda è “il filtro ha abbastanza varietà?”, e la risposta è no, per otto.

Migliorare i quattro rami esistenti non chiude nessuno degli otto buchi. L’unico modo di chiuderli è aggiungere varietà: nuove categorie riconosciute, fino a $V(R) \geq 12$ . Oppure, se aggiungere otto categorie è troppo costoso, accettare consapevolmente che otto restano scoperte e attenuare il disturbo da un’altra parte — restringendo cosa il modello può fare a monte. Quel che la legge vieta è la terza opzione: sperare che otto buchi si chiudano da soli.

Esempio in codice: il gestore di errori che insiste

Lo stesso vincolo si vede chiaramente nel codice di gestione degli errori, ed è un esempio che ogni sviluppatore ha scritto decine di volte senza dargli un nome cibernetico. Confrontiamo due versioni di un handler che chiama un servizio esterno.

# Regolatore a varietà 1: una sola risposta per ogni errore
def chiama_servizio(richiesta):
    for tentativo in range(3):
        try:
            return servizio.invoca(richiesta)
        except ErroreServizio:
            continue          # unica contromossa: riprova
    raise ErroreNonRecuperabile

Questo handler ha varietà 1: davanti a qualsiasi errore, fa una cosa sola, riprova. Contro un disturbo transitorio — un timeout casuale che alla seconda prova non si ripete — il retry è la mossa giusta. Contro un disturbo strutturale — un token di autenticazione scaduto, un payload malformato, un rate limit superato — riprovare è inutile: l’errore si ripeterà identico tre volte.

L’handler non distingue i due casi perché ha una sola risposta. È il termostato con i fili invertiti del capitolo Ashby, omeostato e adattamento: insiste con l’unico modo che conosce. Qui $V(D)$ è almeno 2 — transitorio e strutturale sono disturbi qualitativamente diversi — mentre $V(R)$ è 1, e la legge garantisce che almeno un tipo di errore resti fuori controllo.

# Regolatore a varietà 4: una contromossa per classe di disturbo
def chiama_servizio(richiesta):
    for tentativo in range(3):
        try:
            return servizio.invoca(richiesta)
        except ErroreTransitorio:
            attendi_backoff(tentativo)        # contromossa 1
        except TokenScaduto:
            richiesta.token = rinnova_token()  # contromossa 2
        except PayloadMalformato:
            raise                              # contromossa 3: fail fast
        except RateLimit as e:
            attendi(e.retry_after)             # contromossa 4
    raise ErroreNonRecuperabile

La seconda versione ha varietà 4: quattro classi di disturbo, quattro contromosse distinte e appropriate. Se le classi effettive di errore del servizio sono esattamente queste quattro, allora $V(R) = V(D) = 4$ e l’handler può, in linea di principio, gestire ogni errore in modo specifico.

Se invece il servizio può fallire in un quinto modo non previsto, quel quinto modo cadrà in nessun ramo o nel ramo sbagliato: un buco garantito dalla legge. Aggiungere varietà al regolatore qui significa, letteralmente, aggiungere un except — e la legge dice quanti except servono come minimo: tanti quante sono le classi di errore distinte del servizio.

Esempio di sistema reale: monitorare un agente con accesso a tool

Un agente di coding ha accesso a una shell, al filesystem in scrittura, a un client HTTP e a un gestore di pacchetti. Un monitor runtime sorveglia le sue azioni e deve bloccare quelle pericolose. Il monitor ha tre regole: blocca i comandi che cancellano ricorsivamente, blocca le scritture fuori dalla cartella di lavoro, blocca le chiamate di rete verso domini non in allowlist.

La varietà dei comportamenti che un agente con quegli strumenti può produrre è enorme: leggere un segreto e inviarlo dentro una richiesta HTTP apparentemente legittima, installare un pacchetto compromesso, modificare uno script di build che verrà eseguito più tardi, codificare dati sensibili dentro un commit message.

Chiamiamo questa varietà $V(D)$ , sapendo che è grande e mal definita. Il monitor ha $V(R) = 3$ . La legge dice che la varietà residua non controllata, $V(E)$ , è almeno $V(D) - 3$ , e con $V(D)$ grande questo è quasi tutto $V(D)$ .

Il monitor non è scritto male: le sue tre regole funzionano bene per i tre disturbi che riconosce. È sotto-dimensionato. E qui torna la dipendenza della varietà dall’osservatore, il terzo angolo dell’intuizione.

Se l’agente codifica un segreto in base64 prima di esfiltrarlo, e il monitor cerca segreti solo in chiaro, allora per il monitor il comportamento “esfiltra in base64” e il comportamento “fa una richiesta innocua” sono indistinguibili — hanno varietà 1, non 2. La varietà che entra nella legge non è quella “vera” dei comportamenti dell’agente: è quella che il monitor riesce a discriminare. Un monitor che non distingue due comportamenti non li sta contando come due, e il buco che ne deriva non comparirà in nessun test che non usi proprio quella codifica.

Esempio biologico: la temperatura del corpo

L’ultimo esempio torna al terreno da cui la cibernetica è nata, la fisiologia, e mostra che la legge non è un’invenzione recente per sistemi artificiali: descrive qualcosa che gli organismi viventi risolvono da sempre. Il corpo umano deve mantenere la temperatura interna vicina a 37 gradi nonostante un disturbo ambientale enorme: freddo intenso, caldo umido, sforzo fisico, febbre, immersione in acqua. La varietà del disturbo termico è grande.

Il regolatore biologico risponde con un repertorio di contromosse sorprendentemente vario: vasocostrizione e vasodilatazione cutanea, sudorazione, brivido, modulazione del metabolismo, comportamento — cercare l’ombra, rannicchiarsi, coprirsi. Ognuna è una contromossa distinta, attivata da un disturbo distinto.

L’evoluzione, in linguaggio cibernetico, ha amplificato la varietà del regolatore termico finché ha potuto coprire la varietà del disturbo che l’organismo incontra nel suo ambiente. Un organismo con un solo meccanismo di risposta termica — solo il brivido, poniamo — sarebbe condannato dalla legge a perdere il controllo dell’esito appena la temperatura salisse.

Dove la varietà del disturbo eccede quella del regolatore, la legge si vede in azione: a temperature estreme, oltre il repertorio fisiologico, l’esito sfugge — ipotermia o colpo di calore. E si vede anche l’altra leva, l’attenuazione: vestirsi, costruire ripari, scaldare una stanza sono modi di abbassare la varietà del disturbo che arriva al corpo, invece di amplificare quella del regolatore interno. L’essere umano usa entrambe le leve di Beer da molto prima che Beer le nominasse.

Questo esempio chiude il cerchio storico. La legge della varietà necessaria è la formalizzazione di un principio che la regolazione biologica incarna da milioni di anni, e che Ashby — psichiatra prima che cibernetico — aveva sotto gli occhi ogni giorno. La cibernetica non ha inventato la regolazione: le ha dato un’aritmetica.

Applicazioni pratiche

Dimensionare un guardrail prima di scriverlo

La legge offre un metodo, non una formula magica. Prima di costruire un classificatore di sicurezza, un giudice LLM, un sistema di moderazione, si fa un esercizio: si elencano le classi di comportamento indesiderato che il sistema sorvegliato può produrre. Quella lista è $V(D)$ , almeno come ordine di grandezza e come tassonomia. Poi si elencano le classi che il regolatore distingue e a cui sa rispondere: quella lista è $V(R)$ . La differenza è il numero di punti ciechi, e si conosce prima del deploy.

Questo non rende sicuro un sistema. Lo rende onesto. Trasforma “speriamo che il filtro tenga” in “il filtro lascia scoperte queste otto classi, e accettiamo questo rischio, oppure aggiungiamo varietà”. La legge non dice quale delle due scelte fare; dice che la scelta esiste ed è esplicita.

L’esercizio del conteggio ha un effetto collaterale utile. Costringe a scrivere la tassonomia del disturbo, e quella tassonomia di solito non esiste prima che qualcuno la chieda. Un team che dice “il nostro filtro blocca i contenuti tossici” non ha contato nulla: “tossici” è una parola, non un conteggio.

Lo stesso team, costretto a elencare le classi, scopre che “tossico” copre dieci cose diverse, che il filtro ne gestisce tre, e che le altre sette non erano mai state nominate. Il valore della legge qui è prima ancora del calcolo: è l’obbligo di rendere esplicito un disturbo che era rimasto vago. Spesso il guadagno maggiore non è il numero finale, ma la lista che si è dovuti scrivere per ottenerlo.

La difesa a strati come somma di varietà

C’è un modo in cui la legge illumina una pratica di sicurezza diffusa: la difesa a strati, mettere più regolatori in serie invece di uno solo. Perché funziona, nel linguaggio della varietà? Un singolo regolatore con varietà $V(R)$ lascia scoperto $V(D) - V(R)$ . Se a valle si mette un secondo regolatore, indipendente dal primo, che copre classi di disturbo diverse, la varietà combinata dei due può superare quella di ciascuno.

L’accento è su “indipendente” e “classi diverse”. Due regolatori che riconoscono gli stessi disturbi non sommano varietà: la sovrapposizione non conta due volte. Due regolatori che coprono parti diverse del disturbo — per esempio un filtro lessicale e un classificatore semantico, che falliscono su disturbi di natura diversa — avvicinano la varietà totale a $V(D)$ .

La difesa a strati è efficace esattamente quando gli strati hanno varietà complementari, e inutile quando sono copie l’uno dell’altro. La legge spiega quando impilare difese aiuta e quando è solo costo: aiuta se ogni strato aggiunge varietà che gli altri non avevano. Tre filtri che sbagliano sugli stessi casi non sono una difesa a tre strati: sono un filtro solo, pagato tre volte.

Le due leve, e solo due: la variety engineering

Stafford Beer ha preso la legge di Ashby e ne ha fatto il principio operativo della cibernetica gestionale. Nel suo Viable System Model — il modello con cui descrive cosa serve perché un’organizzazione sia “viabile”, capace di sopravvivere e adattarsi — la legge della varietà necessaria è il vincolo da rispettare a ogni livello.

E Beer ne trae una conseguenza pratica che chiama variety engineering, ingegneria della varietà. Il salto di Beer è considerare la varietà non come un dato di fatto ma come una grandezza su cui si può intervenire deliberatamente, da progettare come si progetta una struttura portante.

Davanti allo squilibrio tra la varietà di un disturbo e la varietà di un regolatore, ci sono esattamente due mosse, e Beer insiste che sono solo due.

La prima è amplificare la varietà del regolatore: aumentare il numero di contromosse distinte. Per un sistema di AI significa un monitor con più classi riconosciute, più controlli in parallelo, un valutatore più ricco, un essere umano nel loop che aggiunge giudizio. Si alza $V(R)$ .

La seconda è attenuare la varietà del disturbo: ridurre il numero di stati distinti che il sistema controllato può presentare. Significa buttare via varietà prima che arrivi al regolatore — standardizzare, segmentare, restringere. Si abbassa $V(D)$ .

Non esiste una terza via. La legge è $V(E) \geq V(D) - V(R)$ : per ridurre $V(E)$ puoi solo far scendere $V(D)$ o far salire $V(R)$ . Beer lo dice in modo netto, perché nelle organizzazioni la tentazione costante è cercare scorciatoie che la legge non concede — un buon proposito, una direttiva, un valore aziendale non aggiungono varietà reale.

Quando un livello dell’organizzazione non riesce né ad amplificare la propria varietà né ad attenuare quella in ingresso, quel livello cede, e l’instabilità si propaga al resto. È la versione cibernetica di un principio organizzativo familiare: un reparto travolto da più richieste di quante ne possa distinguere e gestire non diventa più efficiente sotto pressione, collassa verso una risposta unica indifferenziata. Beer mise alla prova il modello su scala nazionale con il progetto Cybersyn nel Cile del 1971-1973, un sistema di gestione cibernetica dell’economia interrotto dal colpo di stato del 1973.

Attenuare la varietà di un agente: sandbox e permessi

La leva dell’attenuazione ha una traduzione diretta nella safety degli agenti, ed è spesso la più economica. Invece di rincorrere la varietà enorme dei comportamenti di un agente potente con un monitor sempre più ricco, si riduce alla radice la varietà di quei comportamenti.

È esattamente ciò che fanno sandboxing, tool ristretti, permessi minimi, spazio d’azione limitato. Un agente con accesso a una shell completa e a un filesystem in scrittura ha una varietà di comportamenti che nessun monitor pratico copre.

Lo stesso agente con tre tool ben definiti e un filesystem in sola lettura ha una varietà di comportamenti enormemente più piccola — e a quel punto un monitor modesto può davvero coprirla. Non si è migliorato il monitor: si è abbassato $V(D)$ finché il monitor esistente è diventato sufficiente. È la mossa più sottovalutata della safety degli agenti, perché agisce sul termine della legge che di solito si dà per scontato.

Questa scelta è la variety engineering di Beer applicata, anche se chi la fa raramente la chiama così. La legge inquadra il trade-off: amplificare il regolatore costa monitor complessi, falsi positivi, manutenzione; attenuare il disturbo costa funzionalità dell’agente.

La legge non dice quale costo preferire. Dice che uno dei due lo paghi, sempre. Il valore di averla in mente è proprio questo: rende impossibile la fantasia di un agente al tempo stesso pienamente capace e pienamente controllabile con un monitor leggero. O l’agente è meno capace, o il monitor è più pesante. La legge chiude la porta a metà.

Valutare un sistema più capace di chi lo valuta

C’è un’applicazione che è più un avvertimento che una ricetta. Per valutare in modo affidabile un modello molto capace serve un valutatore altrettanto ricco: un giudice con poca varietà non può discriminare gli errori sottili di un sistema con tanta varietà.

Se il valutato può sbagliare in mille modi distinti e il valutatore ne distingue dieci, la legge dice che almeno 990 modi di sbagliare passano la valutazione senza essere visti. Un valutatore più povero del valutato non produce una valutazione un po’ meno accurata: produce una valutazione cieca su quasi tutto, che però restituisce comunque un voto — e quel voto, scambiato per affidabile, è peggio di nessun voto.

Questo è il problema della supervisione scalabile, scalable oversight: come supervisionare in modo affidabile sistemi più capaci di chi li supervisiona. Tecniche come il giudizio assistito da altri modelli o il debate provano ad amplificare la varietà del supervisore prestandogli la varietà di un altro sistema capace.

Va marcata la classe di questo legame, perché qui è facile esagerare: tra la legge di Ashby e il problema della supervisione scalabile c’è un’analogia concettuale, non un teorema. La legge fornisce il vocabolario giusto — varietà del valutatore contro varietà del valutato — e una bussola per capire perché il problema è duro. Non fornisce una dimostrazione sul caso specifico degli LLM, e chiamarla “teorema sulla supervisione” sarebbe un abuso.

Il legame concettuale resta utile proprio perché tiene onesti: ricorda che un valutatore povero non diventa adeguato per buona volontà, e che le tecniche di supervisione scalabile vanno lette come tentativi di amplificare $V(R)$ — riuscite nella misura in cui ci riescono davvero, non per il fatto di essere proposte.

Perché il red-teaming non finisce mai

C’è una domanda che ricorre nei progetti: “quando avremo finito il red-teaming?”. La legge della varietà necessaria dà la risposta onesta, ed è una risposta scomoda. Il red-teaming — la ricerca strutturata dei modi in cui un sistema può fallire — è, nel vocabolario della legge, l’esplorazione della varietà del disturbo. Ogni nuovo attacco scoperto è uno stato distinto del disturbo che prima non era contato.

Una campagna di red-teaming è finita: ha un numero di ore, di tester, di tentativi. La varietà dei modi in cui un modello generativo capace può fallire non è finita in alcun senso pratico — è enorme e cresce con la capacità del modello.

Nessuna campagna finita esaurisce una varietà di quella scala. Il red-teaming, allora, non chiude il problema: sposta la soglia. Ogni attacco trovato e coperto aumenta $V(R)$ di una unità, ma $V(D)$ resta più grande. È una corsa, non un traguardo.

Questo non rende il red-teaming inutile — al contrario, è il modo principale di scoprire dove $V(R)$ è carente. Ma inquadra correttamente le aspettative: il red-teaming va trattato come un processo continuo che insegue una varietà che non si lascia raggiungere, non come un test che a un certo punto si supera. Un’organizzazione che pianifica il red-teaming come un gate da attraversare una volta sta usando il modello mentale sbagliato; la legge dice perché.

Dove si rompe

La legge è solida, ma è solida solo se la si usa per quello che è. I modi di fraintenderla sono molti, e ognuno è un modo concreto di sbagliare un progetto.

“Più varietà è sempre meglio.” No. La legge fissa una soglia minima — $V(R) \geq V(D)$ per azzerare $V(E)$ — non una direzione da seguire all’infinito. Superata la soglia, varietà aggiuntiva del regolatore non migliora la regolazione, e ha un costo: un regolatore più vario è più difficile da costruire, da capire, da mantenere, e ha più superficie per i propri errori.

La legge è un “almeno”, non un “il più possibile”. Un monitor con cento regole per un agente che può fare dieci cose non è cento volte più sicuro: è solo più fragile, e novanta delle sue regole sono codice che può sbagliare senza mai servire. Il regolatore giusto ha la varietà del disturbo, non più di quella.

“Varietà sufficiente significa sistema sicuro.” No. La legge è una condizione necessaria, non sufficiente. Avere $V(R) \geq V(D)$ garantisce che il regolatore non sia sotto-dimensionato per costruzione; non garantisce che usi la contromossa giusta per ogni disturbo. Il pezzo mancante — la mappa corretta da disturbi a risposte — è il good regulator theorem, ed è un secondo problema, distinto. Un guardrail con varietà teoricamente adeguata ma con la mappatura sbagliata, che applica la risposta per il disturbo X al disturbo Y, fallisce comunque. La legge della varietà sblocca la possibilità di regolare bene; non la realizza.

“È una legge di natura.” No, ed è la confusione più sottile. Le leggi di Newton sono leggi fisiche: si possono confermare o smentire con un esperimento. La legge della varietà necessaria è un teorema: è vera per costruzione, una volta date la definizione di varietà e le ipotesi sul gioco disturbo-regolatore-esito. Non c’è esperimento che la possa falsificare, così come nessun esperimento falsifica il fatto che cento oggetti in dieci cassetti riempiono almeno un cassetto.

Va citata come ciò che è — un risultato matematico sotto ipotesi precise — non come una legge di natura. La differenza non è pedanteria: trattarla da legge fisica porta a cercarne “eccezioni empiriche” che non possono esistere, e a stupirsi quando un sistema “viola la legge” mentre in realtà sta solo operando fuori dalle sue ipotesi. Trattarla da teorema ricorda l’unica cosa giusta da ricordare: vale dove valgono le sue ipotesi, e quando sembra fallire conviene controllare le ipotesi, non la legge.

La varietà reale è difficile da contare. Negli esempi da manuale gli stati sono discreti e numerabili. In un sistema reale — un mercato, un LLM, un ambiente di deployment — il numero di stati distinti è enorme, mal definito, e dipende dalla risoluzione dell’osservatore.

La legge resta vera, ma diventa difficile da usare come calcolo esatto. Nella pratica funziona come principio di progettazione e come bussola — “il regolatore è plausibilmente più povero del disturbo, quindi ci sono buchi” — più che come formula da cui estrarre un numero preciso. Pretendere precisione numerica da una varietà non numerabile è chiedere alla legge ciò che non può dare; chiederle la direzione del confronto — chi dei due ha più varietà — è invece quasi sempre possibile, ed è già abbastanza per decidere.

Il confine del sistema è una scelta. Cosa conta come disturbo e cosa come regolatore dipende da dove si traccia il confine del sistema, un tema sviluppato nel capitolo Scegliere il confine cambia il problema. Sposta il confine — includi nell’agente un tool che prima era esterno, considera l’utente parte del sistema o parte dell’ambiente — e i numeri cambiano.

La legge non è ambigua; lo è il suo uso, se non si fissa prima il confine in modo esplicito. Due analisti che applicano la legge allo stesso sistema con confini diversi otterranno conclusioni diverse, ed entrambe possono essere corrette rispetto al loro confine. Prima di contare la varietà, allora, va deciso e scritto cosa sta dentro e cosa sta fuori: il conteggio senza un confine dichiarato non è un conteggio.

La varietà come metrica può diventare un bersaglio. C’è una trappola finale. Se “aumentare $V(R)$ ” diventa un obiettivo misurato — numero di regole nel monitor, numero di categorie nel classificatore — si finisce per aggiungere varietà nominale che non corrisponde a varietà reale: dieci regole che riconoscono dieci varianti dello stesso disturbo non sono varietà 10 contro il disturbo, sono varietà 1 mascherata.

La varietà che conta è quella effettiva di discriminazione contro disturbi distinti, non il conteggio delle righe di configurazione. È lo stesso meccanismo per cui una metrica usata come target smette di misurare ciò che dovrebbe: il conteggio delle regole è un proxy della varietà, e come ogni proxy si corrompe quando diventa l’obiettivo.

Il disturbo cambia in risposta al regolatore. Negli esempi da manuale il disturbo è fisso: ha una varietà data, e il regolatore la affronta. In sicurezza il disturbo è spesso un avversario intelligente, e un avversario osserva il regolatore e cerca i suoi buchi. Quando il regolatore copre una classe di attacco, l’avversario non ripete quell’attacco: ne inventa uno nuovo, fuori dalle classi coperte.

La varietà effettiva del disturbo, allora, non è statica — si concentra dove il regolatore è debole. La legge resta vera istante per istante, ma il termine $V(D)$ diventa un bersaglio mobile che insegue le lacune di $V(R)$ . È il motivo per cui un guardrail testato contro un insieme fisso di attacchi può avere ottimi numeri e fallire in produzione: l’insieme di test aveva varietà nota, l’avversario reale no. La legge va allora usata con un disturbo pensato come adattivo, non come campione fisso.

La legge non dice nulla sui tempi. Il gioco di Ashby è, nella sua forma base, senza tempo: il regolatore vede la mossa del disturbo e risponde, e l’unica cosa che conta è se ha la contromossa giusta. Un sistema di controllo reale vive nel tempo: il disturbo arriva, il regolatore lo percepisce con un ritardo, agisce con un altro ritardo, e nel frattempo l’esito è già fuori controllo.

Un regolatore con varietà sufficiente ma troppo lento fallisce comunque, e la legge della varietà non lo segnala. I problemi di ritardo, overshoot e oscillazione sono un asse di fallimento ortogonale, trattato nel capitolo Overshoot, ritardo, oscillazioni, divergenza. Varietà sufficiente e tempi adeguati sono due requisiti distinti: averne uno non dà l’altro, e un’analisi di regolazione completa li controlla entrambi.

Collegamenti

Ashby, omeostato e adattamento — il capitolo che introduce la legge a livello intuitivo, racconta chi era Ashby, descrive l’Homeostat e dimostra il good regulator theorem. È il contesto naturale di questo capitolo: lì il quadro, qui l’approfondimento.
Wiener: comunicazione e controllo in animali e macchine — la cibernetica come disciplina del controllo e della comunicazione; la cornice in cui la nozione di regolatore prende senso.
Anatomia di un anello: errore, setpoint, guadagno, ritardo — il regolatore della legge agisce dentro un anello di feedback; la varietà necessaria dice quanto deve essere ricco quell’anello.
Overshoot, ritardo, oscillazioni, divergenza — la varietà insufficiente è una causa di fallimento della regolazione; i ritardi e le oscillazioni ne sono altre, complementari.
Entropia, cross-entropy, KL divergence — la forma informazionale della legge usa l’entropia di Shannon; varietà e incertezza sono, in quel contesto, la stessa quantità misurata in bit.
Cosa posso misurare, cosa posso governare — la legge presuppone che il regolatore osservi il disturbo; un regolatore cieco non può fare meglio di una media fissa.
Scegliere il confine cambia il problema — dove si traccia il confine del sistema cambia cosa conta come disturbo e cosa come regolatore, e quindi i numeri della legge.
Modelli descrittivi, predittivi, prescrittivi — la varietà necessaria garantisce abbastanza canale; il good regulator theorem aggiunge che serve un modello del sistema. I due risultati si completano.
sistemi-viabili-beer (in preparazione) — Stafford Beer e il Viable System Model; la variety engineering, le leve di attenuazione e amplificazione, sono il prolungamento manageriale di questa legge.
red-teaming (in preparazione) — il red-teaming di un modello è l’esplorazione della varietà dei suoi fallimenti; la legge spiega perché una campagna finita non esaurisce mai la varietà di un generatore.
agent-permissions (in preparazione) — restringere permessi, tool e blast radius di un agente è attenuare la varietà del disturbo: l’applicazione diretta della leva di Beer alla safety degli agenti.
Allineamento di sistemi più capaci di noi — la supervisione di sistemi più capaci di chi li supervisiona, letta come problema di varietà del valutatore contro varietà del valutato.

Per andare oltre

W. Ross Ashby, An Introduction to Cybernetics, Chapman & Hall, 1956 — capitoli 7 e 11. Il libro che definisce la varietà, enuncia la legge della varietà necessaria e ne mostra l’equivalenza con il teorema di Shannon sulla correzione del rumore. Disponibile integralmente e gratuitamente in formato digitale.
Roger C. Conant e W. Ross Ashby, “Every Good Regulator of a System Must Be a Model of That System”, International Journal of Systems Science, vol. 1, n. 2, 1970. Il complemento della legge: cosa serve oltre alla varietà sufficiente, ossia un modello del sistema da regolare.
Stafford Beer, Brain of the Firm (1972) e The Heart of Enterprise (1979), Wiley. I due libri in cui Beer costruisce il Viable System Model sopra la legge di Ashby e introduce la variety engineering.
Claude E. Shannon, “A Mathematical Theory of Communication”, Bell System Technical Journal, 1948. Il paper che fonda la teoria dell’informazione e definisce l’entropia: lo stesso strumento matematico che Ashby riusa per la forma informazionale della legge.
“Variety (cybernetics)”, Wikipedia. Sintesi compatta della definizione di varietà, della legge nelle sue due forme, del ruolo di Beer e dei limiti; un buon punto di partenza per orientarsi prima delle fonti primarie.