Informazione come riduzione di incertezza

Nel 1948 un ingegnere dei Bell Labs decise di misurare l’informazione senza chiedersi cosa significasse. Da quella mossa controintuitiva nasce il vocabolario con cui oggi parliamo di compressione, di canali rumorosi e — settant’anni dopo — di quanto bene un modello linguistico predice la prossima parola.

Perché questo capitolo

C’è una domanda che sembra filosofica e invece è ingegneristica: quanta informazione c’è in un messaggio? Prima del 1948 non esisteva una risposta quantitativa. “Informazione” era una parola vaga, legata al significato, al valore, all’utilità.

Poi Claude Shannon decise di buttare via il significato e misurare solo una cosa: quanto il messaggio era imprevedibile. La frase “domani sorge il sole” non porta quasi nessuna informazione, perché è certa. “Domani nevica a luglio in pianura” ne porta tanta, perché è rara. Due frasi grammaticali, due quantità di informazione diverse, e la differenza non sta nelle parole ma nelle probabilità.

Questo capitolo apre la Parte XIII, dedicata all’informazione, alla compressione e ai canali. È il capitolo che fissa il vocabolario comune: cos’è l’informazione di un evento, cos’è l’entropia di una sorgente, cos’è un canale di comunicazione, e quali sono i due limiti invalicabili che Shannon ha dimostrato — uno sulla compressione, uno sulla trasmissione.

I capitoli successivi della Parte scavano dentro ciascuno di questi pezzi; qui si costruisce la cornice. È un capitolo deliberatamente di vocabolario: non punta a esaurire nessuno dei temi, ma a darti le parole con cui leggerli quando arriveranno.

La teoria dell’informazione non è un capitolo di storia delle telecomunicazioni da archiviare. È la lente con cui, oggi, si legge cosa fa un language model mentre si addestra: la loss che minimizza è una quantità di Shannon, la metrica con cui lo si valuta — la perplexity — è letteralmente l’esponenziale dell’entropia, e l’idea profonda che “comprimere bene un testo equivale a comprenderlo” affonda le radici esattamente qui.

Una versione operativa di queste quantità, pensata per il machine learning, vive già in Entropia, cross-entropy, KL divergence. Quel capitolo è la macchina; questo è la cornice che spiega da dove viene la macchina e cosa significava, in origine, ciascuna delle sue parti.

Contesto

Il personaggio fondante è Claude Elwood Shannon (1916-2001), matematico e ingegnere americano dei Bell Telephone Laboratories, i laboratori di ricerca della compagnia telefonica AT&T. Shannon si era già fatto un nome con la tesi di master al MIT del 1937, dove aveva mostrato che l’algebra di Boole — la logica del vero e falso — descrive esattamente il comportamento dei circuiti a relè, gettando una delle basi concettuali dei circuiti digitali.

Undici anni dopo pubblica il lavoro che fonda un’intera disciplina: A Mathematical Theory of Communication, sul Bell System Technical Journal (vol. 27, pp. 379-423 a luglio 1948, pp. 623-656 a ottobre 1948). È uno dei paper più citati della storia della scienza. Un aneddoto racconta che Shannon non avesse particolare interesse a pubblicarlo, e lo fece su insistenza dei colleghi.

Shannon non parte da zero. Lavora in un istituto che da decenni si pone una domanda pratica e costosa: quanto traffico telegrafico e telefonico si può spingere su un cavo, e come ci si difende dal rumore che lo degrada? Due colleghi dei Bell Labs avevano già aperto la strada.

Harry Nyquist (1889-1976, ingegnere svedese-americano), in due lavori del 1924 e 1928 sulla velocità del telegrafo, aveva legato la velocità di trasmissione al numero di livelli di segnale distinguibili, con una relazione della forma “velocità proporzionale al logaritmo del numero di livelli”, e aveva individuato un vincolo tra banda e numero di impulsi indipendenti trasmissibili. Ralph Hartley (1888-1970, ingegnere americano), nel paper Transmission of Information del 1928, fu il primo a usare la parola “information” come grandezza tecnica misurabile, proponendo una misura logaritmica del numero di messaggi possibili.

Shannon eredita da Hartley la misura logaritmica e da Nyquist l’attenzione al vincolo di banda: è una filiazione documentata, non una semplice somiglianza — stesso istituto, lavori che Shannon cita e prosegue direttamente.

Per cogliere quanto la mossa di Shannon fosse radicale, conviene ricordare cosa c’era prima. Fino agli anni ‘40 la comunicazione era un problema di ingegneria fisica: progettare amplificatori, ridurre le distorsioni, allungare la portata di un segnale. Nessuno aveva una teoria che dicesse, indipendentemente dalla tecnologia, quanto si poteva fare in linea di principio — qual era il limite ultimo. Si discuteva di “quantità di informazione” in modo intuitivo, legandola alla larghezza di banda o al tempo di trasmissione, ma senza una definizione che reggesse.

Shannon cambia la domanda: invece di chiedere “come trasmetto meglio questo segnale”, chiede “qual è il massimo che si può fare con qualunque tecnologia, e qual è il prezzo minimo da pagare”. È il passaggio da un’ingegneria di tentativi a una teoria con dei teoremi.

Sono limiti dimostrati che nessun ingegnere futuro potrà aggirare, qualunque tecnologia inventi. Questo è il salto che rende il 1948 una data fondativa e non un miglioramento incrementale: non un cavo migliore, ma la mappa di tutti i cavi possibili.

La parola “entropia” arriva con un aneddoto celebre. John von Neumann (1903-1957, matematico ungherese-americano, tra i padri del calcolatore moderno) avrebbe suggerito a Shannon di chiamare così la sua quantità “perché nessuno sa davvero cosa sia l’entropia, e in un dibattito avrai sempre un vantaggio”. L’aneddoto è riportato da Tribus e McIrvine nel 1971 e non è verificabile alla lettera.

Il legame con l’entropia termodinamica del fisico austriaco Ludwig Boltzmann (1844-1906, la sua formula $S = k \ln W$ lega l’entropia al numero di microstati) è però reale: si tratta di un legame formale, le due formule hanno la stessa struttura matematica, non di una semplice scelta di nome.

Questo capitolo è la porta della Parte XIII. Dopo aver fissato qui il vocabolario, i capitoli successivi approfondiscono i singoli pezzi: i canali, il rumore e la capacità; la ridondanza e la correzione d’errore; la compressione e il minimum description length; la complessità di Kolmogorov; l’informazione mutua; la compressione lossy con perdita accettabile; il legame tra informazione e apprendimento; e il ponte diretto verso gli LLM.

Sono tutti capitoli in preparazione, e li si richiama lungo il testo dove servono. Il filo che li unisce è semplice: ogni capitolo prende una delle quantità o uno dei teoremi introdotti qui e lo porta fino alle sue conseguenze.

L’intuizione

Prima di qualsiasi formula, tre modi di guardare la stessa idea: l’informazione come sorpresa, come numero di domande, come ingrediente della compressione. Sono compatibili e si rinforzano a vicenda.

Angolo 1: informazione è sorpresa, non significato

La mossa che rende Shannon Shannon è una rinuncia. Nella prima pagina del paper del 1948 scrive, in sostanza, che gli aspetti semantici della comunicazione — cosa vuol dire il messaggio, se è vero, se è utile — sono “irrilevanti per il problema ingegneristico”.

Il telegrafo non deve capire il messaggio: deve riprodurlo. Quindi l’informazione non può misurare il significato. Misura un’altra cosa: quanto il messaggio era inatteso.

Pensa a un meteorologo nel deserto. Ogni mattina annuncia “oggi sole”. Il bollettino è grammaticalmente impeccabile e perfettamente inutile: non riduce nessuna incertezza, perché lo sapevi già.

Il giorno in cui annuncia “oggi pioggia”, invece, quel singolo messaggio porta moltissima informazione, perché era improbabile. Stessa lunghezza, stessa lingua, quantità di informazione opposte. L’informazione di un evento cresce quando la sua probabilità cala.

Questa è l’idea-seme di tutta la teoria, ed è anche la rinuncia che la rende potente: smettendo di misurare il significato, Shannon ottiene una grandezza che si può calcolare, sommare, confrontare, ottimizzare. Il prezzo è che “informazione” smette di voler dire “cosa conta” e inizia a voler dire “quanto era improbabile”. Tutto il resto del capitolo è conseguenza di questa scelta.

Vogliamo una funzione $s(p)$ che misuri questa “sorpresa” a partire dalla probabilità $p$ dell’evento. Tre requisiti minimi la determinano quasi del tutto:

Un evento certo non sorprende: se $p = 1$ , allora $s = 0$ .
Un evento più raro sorprende di più: $s$ decresce al crescere di $p$ .
Eventi indipendenti sommano le sorprese: se vedo due cose indipendenti con probabilità $p$ e $q$ , la probabilità di vederle entrambe è $p \cdot q$ , e la sorpresa complessiva dovrebbe essere $s(p) + s(q)$ .

L’unica famiglia di funzioni che soddisfa tutte e tre è $s(p) = -\log(p)$ , a meno della base del logaritmo. È il terzo requisito a forzare il logaritmo: è l’unica operazione che trasforma il prodotto delle probabilità nella somma delle sorprese. Da qui in poi questa quantità si chiama informazione dell’evento, o surprisal: in parole povere, $-\log p(x)$ dice “quanto mi stupisco di vedere $x$ ”.

Vale la pena soffermarsi sul perché l’additività sia così desiderabile, perché è il cardine di tutta la costruzione. Immagina di lanciare due monete eque. Ogni lancio risolve una scelta binaria, quindi porta un bit; due lanci indipendenti dovrebbero portare due bit, in modo che l’informazione si sommi come si sommano i gradini di una scala.

Ma la probabilità di vedere una particolare coppia di esiti — diciamo “testa, testa” — è $1/2 \times 1/2 = 1/4$ , cioè le probabilità si moltiplicano. Vogliamo che a probabilità che si moltiplicano corrispondano informazioni che si sommano: l’unica funzione che fa questo ponte tra moltiplicazione e somma è il logaritmo. Infatti $-\log_2(1/4) = 2$ bit, esattamente la somma dei due bit dei singoli lanci.

Il logaritmo non è una scelta estetica: è l’unico modo per rendere l’informazione una grandezza additiva su eventi indipendenti, e l’additività è ciò che la rende una grandezza “fisica” trattabile, come una lunghezza o una massa.

La scelta della base del logaritmo è solo una scelta di unità di misura, come scegliere tra metri e piedi. Base 2 dà i bit; base $e$ (logaritmo naturale) dà i nat, usati spesso nei conti di machine learning perché le derivate vengono più pulite; base 10 dà gli hartley, in onore del precursore.

Passare da un’unità all’altra è una semplice divisione per una costante. In questo capitolo si usa il bit, perché è l’unità che parla la lingua dei calcolatori e che rende immediato il legame con le scelte binarie.

Angolo 2: informazione è il numero di domande sì/no

Cambia scena: il gioco delle venti domande. Devo indovinare un oggetto che hai in mente, ponendoti solo domande a risposta sì/no. Se gli oggetti possibili sono otto, ugualmente probabili, la strategia ottimale è dimezzare lo spazio a ogni domanda: “è nella prima metà?”, poi di nuovo, poi di nuovo.

Tre domande bastano a identificarne uno tra otto, perché $2^3 = 8$ . In generale servono circa $\log_2(N)$ domande per distinguere fra $N$ alternative equiprobabili.

Questo è esattamente il bit, l’unità di informazione: un bit è la risposta a una domanda sì/no ben posta, l’informazione di una scelta binaria equiprobabile come testa o croce.

Il termine compare per la prima volta proprio nel paper di Shannon, che lo attribuisce al collega statistico John Tukey (1915-2000, statistico americano) come abbreviazione di “binary digit”. È raro poter datare con precisione la nascita di una parola tanto comune: il “bit” ha una data di battesimo, il 1948.

E se le alternative non sono equiprobabili? Allora una strategia furba — chiedere prima delle alternative più probabili — abbassa il numero medio di domande. Quel minimo medio, su molte ripetizioni, è l’entropia della sorgente.

“Quanto sono incerto su cosa uscirà” e “quante domande sì/no mi servono in media per scoprirlo” sono la stessa quantità. È il primo ponte tra incertezza e costo: l’incertezza non è solo uno stato mentale, ha un prezzo misurabile in domande, e quindi in bit.

C’è un terzo modo di leggere l’entropia che aiuta a non confonderla con altre grandezze: come misura di concentrazione di una distribuzione. Una distribuzione concentrata — quasi tutta la probabilità su un singolo esito — ha entropia bassa: sai già quasi sempre come va a finire, poche domande bastano, pochi bit servono. Una distribuzione spalmata uniformemente su molti esiti ha entropia alta: ogni esito è ugualmente plausibile, l’incertezza è massima. Tra i due estremi, l’entropia cresce in modo continuo man mano che la probabilità si distribuisce più uniformemente.

È per questo che, in machine learning, si parla di entropia di una predizione come misura della “confidenza” del modello: una predizione netta (90% su una classe) ha entropia bassa, una predizione indecisa (probabilità simili su molte classi) ha entropia alta. È sempre la stessa quantità di Shannon, vista come termometro della concentrazione.

Angolo 3: informazione è il costo minimo per scriverlo

Terza scena: devi spedire i simboli emessi da una sorgente lungo un cavo binario, e vuoi il messaggio più corto possibile. L’idea è antica e la conosci già dall’alfabeto Morse: le lettere frequenti hanno codici corti (“E” è un singolo punto), le rare hanno codici lunghi (“Q” sono quattro segnali).

Per assegnare bene le lunghezze devi sapere quali simboli sono probabili — cioè devi predire la sorgente. Un buon predittore è automaticamente un buon compressore: spende pochi bit su ciò che si aspetta e molti su ciò che lo sorprende.

Il numero medio di domande, la sorpresa media, il numero medio minimo di bit per descrivere un simbolo: sono lo stesso oggetto guardato da tre lati. “Quanto sono incerto”, “quante domande mi servono”, “quanto è lungo il messaggio” coincidono.

E questo terzo angolo nasconde la tesi che chiuderà il capitolo: se comprimere bene richiede predire bene, e predire bene richiede capire la struttura di ciò che si comprime, allora comprimere e capire potrebbero essere parenti molto stretti. Tieni a mente questa catena: la riprenderemo alla fine, con le dovute cautele.

La meccanica

Con le tre intuizioni in mano, mettiamo i simboli. Qui si resta volutamente leggeri sulle dimostrazioni: la macchina di calcolo (gradienti, stabilità numerica, cross-entropy come loss) sta in Entropia, cross-entropy, KL divergence. Qui interessa il significato delle quantità nella prospettiva della comunicazione.

Informazione di un evento

Per un evento $x$ con probabilità $p(x)$ , l’informazione (in bit, usando il logaritmo in base 2) è

I(x) = -\log_2 p(x).

In parole povere: quanto è sorprendente vedere $x$ . Qualche valore per ancorare l’intuizione:

$p(x) = 1$ dà $I = 0$ bit: nessuna sorpresa, nessuna informazione.
$p(x) = 1/2$ dà $I = 1$ bit: una scelta binaria equiprobabile.
$p(x) = 1/8$ dà $I = 3$ bit: come indovinare uno fra otto.
$p(x) \to 0$ dà $I \to \infty$ : un evento quasi impossibile, se accade, porta informazione enorme.

Entropia di una sorgente

Una sorgente non emette un solo evento, ne emette tanti, ciascuno con la sua probabilità. L’entropia è la media dell’informazione, pesata con le probabilità:

H(X) = -\sum_i p_i \log_2 p_i.

In parole povere: la sorpresa media per simbolo, ovvero l’incertezza media della sorgente.

Due proprietà la inquadrano. L’entropia è nulla solo quando la sorgente è deterministica (emette sempre lo stesso simbolo: nessuna incertezza). Ed è massima, pari a $\log_2 n$ per $n$ simboli, quando la sorgente è uniforme — quando ogni simbolo è ugualmente probabile e quindi l’incertezza è al massimo. Tra questi due estremi sta tutto il resto.

Nella prospettiva della comunicazione — quella di Shannon, diversa dalla prospettiva ML del capitolo di Parte IV — l’entropia ha un significato preciso: è il numero medio minimo di bit per simbolo necessari a codificare la sorgente senza perdere informazione. Non è una metafora, è il contenuto del primo teorema.

Tieni presente che l’entropia è una proprietà della sorgente, non del singolo messaggio: misura l’incertezza media su tutti i possibili messaggi che la sorgente può emettere, pesati con le loro probabilità. Misurare l’informazione di un singolo oggetto fisso, slegato da una sorgente che lo genera, richiede un’altra nozione — la complessità di Kolmogorov, tema di kolmogorov-complessita (in preparazione).

Il modello del canale

Il cuore del paper del 1948 è uno schema, diventato l’icona della disciplina. Una comunicazione si scompone in cinque blocchi in fila:

[Sorgente] -> [Codificatore] -> segnale -> [ CANALE ] -> segnale ricevuto -> [Decodificatore] -> [Destinatario]
                                              ^
                                       [Sorgente di rumore]

La sorgente (information source) produce il messaggio.
Il codificatore (transmitter) trasforma il messaggio in un segnale adatto al canale.
Il canale trasporta il segnale, ma è attraversato da una sorgente di rumore che lo corrompe.
Il decodificatore (receiver) ricostruisce il messaggio dal segnale ricevuto, rumore incluso.
Il destinatario riceve il messaggio ricostruito.

La forza dello schema è che non dipende dal mezzo: vale per un cavo telefonico, una trasmissione radio, un hard disk (dove il “canale” è il tempo e il “rumore” è il degrado del supporto), una sonda spaziale, una conversazione. Separare i blocchi permette di studiarli indipendentemente, ed è questa separazione a generare i due teoremi: uno riguarda il codificatore di sorgente (quanto si può comprimere), l’altro il codificatore di canale (quanto si può trasmettere in modo affidabile).

Per rendere lo schema concreto, segui un singolo carattere lungo la catena. Vuoi mandare la lettera “Q” da un amico all’altro via radio. La sorgente sei tu che scegli “Q” tra le lettere dell’alfabeto. Il codificatore la trasforma in una sequenza di bit (per esempio il suo codice ASCII) e poi in un’onda radio modulata: questo è il punto in cui si decide quanto comprimere, cioè quanti bit spendere, ed è qui che agisce il primo teorema.

L’onda viaggia nel canale, l’etere, dove altre trasmissioni, scariche atmosferiche e calore dei circuiti aggiungono rumore: l’onda che arriva non è identica a quella partita. Il decodificatore riceve l’onda sporca e deve indovinare quale sequenza di bit l’aveva generata; se il codificatore ha aggiunto la giusta ridondanza, il decodificatore corregge gli errori del rumore e ricostruisce “Q” — ed è qui che agisce il secondo teorema. Infine il destinatario, il tuo amico, legge “Q”.

Lo stesso racconto vale identico se al posto dell’etere c’è un cavo, un disco o una pagina scritta a matita: cambiano i dettagli fisici del canale e del rumore, non la struttura.

La genialità della separazione è che permette di ottimizzare i due codificatori in modo indipendente — un risultato noto come separation theorem. È il motivo per cui oggi un file viene prima compresso (codifica di sorgente: ZIP, JPEG) e poi protetto con codici a correzione d’errore separati (codifica di canale).

Sono due stadi distinti, ciascuno spinto verso il proprio limite di Shannon: prima si toglie ogni ridondanza inutile, poi se ne riaggiunge un po’, ma quella giusta. Comprimere e proteggere sono operazioni opposte che convivono nello stesso sistema.

Teorema 1: codifica di sorgente

Il teorema della codifica di sorgente (source coding theorem, o teorema della codifica senza rumore) dice, in sostanza: non si può comprimere una sorgente sotto la sua entropia senza perdere informazione. Formalmente, qualunque codice univocamente decodificabile ha lunghezza media $L$ per simbolo che soddisfa

L \geq H(X),

e si possono costruire codici con $L$ arbitrariamente vicino a $H(X)$ .

L’entropia è quindi il limite inferiore della compressione lossless: un muro teorico, non un limite di ingegno. Se un compressore promette di scendere sistematicamente sotto l’entropia di una sorgente senza perdita, sta sbagliando i conti o sta perdendo informazione di nascosto.

Questo teorema è il filo che porta al minimum description length e ai codici ottimali (Huffman, codifica aritmetica), approfonditi in compressione-mdl (in preparazione) e in codifica-ridondanza-errori (in preparazione).

La meccanica di Huffman e della cross-entropy come lunghezza di codifica vive in Entropia, cross-entropy, KL divergence. Qui ci interessa solo il messaggio del teorema: esiste un pavimento, e ha un nome.

Teorema 2: codifica di canale

Il teorema della codifica di canale (noisy channel coding theorem) è il risultato più sorprendente del paper, e quello che cambiò le telecomunicazioni. Ogni canale ha una capacità $C$ , misurata in bit per uso del canale. Il teorema afferma: per qualunque velocità di trasmissione $R$ inferiore alla capacità $C$ , esistono schemi di codifica che permettono di comunicare con probabilità d’errore arbitrariamente piccola, nonostante il rumore; per $R$ superiore a $C$ , l’errore non può essere reso arbitrariamente piccolo.

L’aspetto controintuitivo è questo: prima di Shannon si pensava che su un canale rumoroso, per ridurre l’errore, bisognasse rallentare sempre di più, avvicinandosi alla velocità zero. Shannon dimostra che esiste invece una soglia netta — la capacità — sotto la quale si può comunicare quasi senza errori, pagando in ridondanza e non in velocità.

La comunicazione affidabile su un canale inaffidabile non è un sogno: è possibile fino a $C$ , e impossibile oltre. È un confine duplice, esattamente come per la compressione — solo che qui $C$ è un tetto da non superare, mentre l’entropia era un pavimento sotto cui non scendere.

Il teorema, nella sua forma generale, vale per canali discreti e si dimostra con un argomento di codici scelti a caso su blocchi lunghi: una costruzione non costruttiva ed elegante, che garantisce l’esistenza dei codici buoni senza esibirne uno. La caccia ai codici pratici che si avvicinino davvero alla capacità ha occupato decenni di ricerca, fino ai turbo code e ai codici LDPC degli anni ‘90 e 2000.

Per il caso di un canale continuo con rumore gaussiano, la capacità ha una forma chiusa nota come teorema di Shannon-Hartley:

C = B \log_2\left(1 + \frac{S}{N}\right) \quad \text{[bit/s]},

dove $B$ è la banda del canale in hertz, e $S/N$ è il rapporto segnale-rumore espresso come rapporto lineare di potenze (non in decibel). In parole povere: la capacità cresce linearmente con la banda e logaritmicamente con la qualità del segnale. Raddoppiare la banda raddoppia la capacità; raddoppiare il rapporto segnale-rumore la aumenta di poco più di un bit per simbolo.

Il dettaglio del rumore e del rapporto segnale-rumore sta in Rumore, signal-to-noise ratio, filtraggio; il teorema di canale nella sua generalità è il tema di canali-rumore-capacita (in preparazione).

Ridondanza

La ridondanza è la parte di un messaggio che si può prevedere dal resto, e che quindi è teoricamente eliminabile. Se una sorgente avesse entropia massima, ogni simbolo sarebbe imprevedibile e non ci sarebbe nulla da rimuovere; quanto più è prevedibile, tanta più ridondanza contiene. Una misura comune è

R = 1 - \frac{H_{\text{effettiva}}}{H_{\text{massima}}},

dove $H_{\text{massima}}$ è l’entropia che la sorgente avrebbe se fosse uniforme.

Shannon stimò che l’inglese scritto abbia una ridondanza altissima: l’entropia effettiva è intorno a 1 bit per lettera, contro i circa 4,7 bit di 27 simboli uniformi. È il motivo per cui “ths sntnc s stll rdbl” resta leggibile: gran parte delle lettere è prevedibile dal contesto.

La ridondanza è una grandezza con due facce, e qui sta una delle eleganze della teoria. La compressione rimuove ridondanza (butta via ciò che è prevedibile); la codifica di canale riaggiunge ridondanza, ma in modo strutturato e controllato, per poter correggere gli errori introdotti dal rumore.

Sembrano opposti e invece sono lo stesso concetto usato in due direzioni: i bit di parità di un codice a correzione d’errore sono ridondanza deliberata.

Un esempio minimo rende tangibile il meccanismo. Supponi di voler trasmettere un singolo bit, 0 oppure 1, su un canale che ogni tanto lo capovolge. Se lo mandi una volta sola e arriva capovolto, il destinatario non ha modo di accorgersene.

Se invece lo ripeti tre volte — mandi 000 per uno 0 e 111 per un 1 — hai aggiunto ridondanza: a parità di informazione (un bit) hai speso tre bit. Ora se il rumore ne capovolge uno solo, il destinatario riceve qualcosa come 010 e applica la regola di maggioranza: due zeri contro un uno, quindi era uno 0. Hai corretto un errore al costo di triplicare i bit.

Questo “codice a ripetizione” è il più rozzo possibile e spreca tantissimo; il secondo teorema di Shannon garantisce che esistono codici molto più efficienti che si avvicinano alla capacità del canale. Ma l’idea è già tutta qui: la ridondanza è il prezzo che si paga al rumore per ottenere affidabilità.

Esempi

Cinque esempi eterogenei: uno numerico con i dadi, uno su una stringa da comprimere, uno su un canale fisico reale, uno sulla ridondanza della lingua, e infine un ponte verso l’AI.

Esempio 1: il dado equo e il dado truccato

Un dado equo a sei facce ha sei esiti equiprobabili. La sua entropia è

H = \log_2 6 \approx 2{,}585 \text{ bit/lancio}.

Servono in media circa 2,585 bit per registrare ogni esito: meno di 3, perché 3 bit basterebbero per 8 alternative e qui ne abbiamo solo 6.

Quel valore non intero, 2,585 bit, è già una lezione: l’entropia è una grandezza continua, non un conteggio di celle. Non significa “tre bit a volte e due bit altre volte”, significa che in media, su tantissimi lanci, il miglior codice possibile spende 2,585 bit per esito.

Ora un dado truccato che esce “6” la metà delle volte, e ciascuna delle altre cinque facce il 10% delle volte. L’entropia scende:

H = -\left(0{,}5 \log_2 0{,}5 + 5 \cdot 0{,}1 \log_2 0{,}1\right) = 0{,}5 + 5 \cdot 0{,}332 \approx 2{,}16 \text{ bit/lancio}.

Meno incertezza significa meno bit necessari, quindi maggiore comprimibilità.

E la sorpresa dei singoli esiti riflette le probabilità: vedere “6” sorprende solo $-\log_2 0{,}5 = 1$ bit, vedere “2” sorprende $-\log_2 0{,}1 = 3{,}32$ bit. L’evento raro è quello informativo, anche su un dado dove “raro” e “comune” coesistono nella stessa sorgente.

Esempio 2: comprimere una stringa quasi costante

Prendiamo la stringa AAAAAAAAB: otto A e una B. Le probabilità empiriche sono $p(A) = 8/9$ e $p(B) = 1/9$ . Le sorprese dei due simboli:

I(A) = -\log_2 \tfrac{8}{9} \approx 0{,}17 \text{ bit}, \qquad I(B) = -\log_2 \tfrac{1}{9} \approx 3{,}17 \text{ bit}.

L’entropia è la media pesata:

H = \tfrac{8}{9}\cdot 0{,}17 + \tfrac{1}{9}\cdot 3{,}17 \approx 0{,}503 \text{ bit/simbolo}.

Una codifica ingenua a 1 bit per simbolo (A = 0, B = 1) userebbe 9 bit per l’intera stringa. Un codificatore vicino all’ottimo, come la codifica aritmetica, si avvicina invece a $9 \times 0{,}503 \approx 4{,}5$ bit.

Il primo teorema garantisce che nessun compressore lossless può scendere stabilmente sotto quei circa 4,5 bit su questa sorgente: il limite non è tecnologico, è teorico. Le stringhe quasi costanti sono quasi gratis da trasmettere, perché contengono pochissima incertezza.

Esempio 3: la linea telefonica e il muro dei modem

Un canale telefonico vocale classico ha una banda di circa 3000 Hz e un rapporto segnale-rumore intorno ai 30 decibel, che in scala lineare significa $S/N \approx 1000$ . Applichiamo Shannon-Hartley:

C = 3000 \cdot \log_2(1 + 1000) \approx 3000 \cdot 9{,}97 \approx 29{,}9 \text{ kbit/s}.

Questo numero spiega un fatto che molti hanno vissuto in prima persona: i modem dial-up degli anni ‘90 si fermarono intorno ai 33,6 kbit/s (e il successivo standard a 56k usò un trucco asimmetrico sul lato digitale della rete). Non era pigrizia degli ingegneri: stavano sbattendo contro il limite di Shannon per quella banda e quel rumore.

Per andare oltre serviva più banda — ed è esattamente ciò che fece l’ADSL, usando le frequenze alte del doppino che il telefono vocale lasciava libere. Più ingegno sulla stessa banda non bastava: il muro era teorico.

Esempio 4: la ridondanza dell’italiano scritto

Prendi una frase mutilata: “qst frs ncr lggbl nch snz vcl”. Mancano quasi tutte le vocali, eppure il cervello ricostruisce “questa frase è ancora leggibile anche senza vocali”. Questo accade perché la lingua scritta è fortemente ridondante: ogni lettera è in larga parte prevedibile dalle altre.

Misuriamolo grossolanamente. Con 21 lettere dell’alfabeto italiano usate in modo uniforme, l’entropia massima sarebbe $\log_2 21 \approx 4{,}39$ bit per lettera. Ma le lettere non sono affatto uniformi (la “e” e la “a” dominano, la “q” è rara) e soprattutto sono correlate (dopo “q” arriva quasi sempre “u”). L’entropia effettiva per lettera, tenendo conto del contesto, è molto più bassa — dell’ordine di 1-1,5 bit, come Shannon stimò per l’inglese. La ridondanza è quindi

R = 1 - \frac{H_{\text{effettiva}}}{H_{\text{massima}}} \approx 1 - \frac{1{,}3}{4{,}39} \approx 0{,}70,

cioè circa il 70% del testo scritto è, in linea di principio, prevedibile e quindi comprimibile.

È esattamente ciò che sfrutta un compressore come ZIP, ed è anche ciò che rende possibile la correzione automatica e l’autocompletamento: la struttura statistica della lingua lascia poco spazio alle vere sorprese. Un language model spinge questa idea al limite, modellando la prevedibilità del testo con una precisione che a Shannon, che faceva le sue stime con carta e matita, sarebbe parsa fantascienza.

Esempio 5 (ponte AI): la perplexity di un language model

L’ultimo esempio chiude il cerchio con l’AI, ed è il motivo per cui questo capitolo apre una Parte rilevante per chi costruisce modelli. Un modello linguistico valutato su un testo di test produce una cross-entropy media — diciamo 2,0 bit per token (la meccanica del calcolo è in Entropia, cross-entropy, KL divergence). La sua perplexity è semplicemente

\text{PPL} = 2^{2{,}0} = 4.

In parole povere: il modello è incerto sul prossimo token “come se” dovesse sceglierlo uniformemente tra 4 alternative. Se un anno prima, sullo stesso testo, la cross-entropy era 3,3 bit (perplexity $2^{3{,}3} \approx 10$ ), il calo da 10 a 4 misura quanta incertezza in più il modello riesce ora a risolvere usando il contesto.

La perplexity è $2^{\text{entropia}}$ per definizione — non è un’analogia, è la stessa quantità di Shannon riscritta in un’unità più leggibile. La metrica con cui valutiamo i modelli linguistici è, alla lettera, entropia esponenziata.

Applicazioni pratiche

La teoria dell’informazione non è invecchiata: è diventata infrastruttura invisibile. Quattro aree dove i due limiti di Shannon governano scelte concrete.

Telecomunicazioni e storage. Ogni standard moderno è progettato attorno ai due limiti. La compressione (ZIP, JPEG, MP3, codec video) punta verso l’entropia; i codici a correzione d’errore (Reed-Solomon su CD e QR code, LDPC e turbo code su 4G/5G e Wi-Fi, i codici delle sonde NASA verso lo spazio profondo) spendono ridondanza per avvicinarsi alla capacità del canale nonostante il rumore.

Quando un QR code resta leggibile con un angolo strappato, stai vedendo il secondo teorema di Shannon all’opera: la ridondanza aggiunta in fase di codifica permette di ricostruire i dati persi, esattamente come il codice a ripetizione dell’esempio precedente, ma con uno schema enormemente più efficiente.

Crittografia. Shannon stesso, l’anno dopo, fondò la teoria matematica della segretezza con Communication Theory of Secrecy Systems (1949), nato da lavoro bellico classificato.

L’entropia è oggi la misura standard della forza di una password o di una chiave crittografica: una chiave con poca entropia è prevedibile, quindi attaccabile. Quando un gestore di password stima la “robustezza” di una passphrase, sta calcolando una quantità di Shannon — quanti bit di incertezza dovrebbe affrontare un attaccante per indovinarla.

Machine learning e language modeling. È il ponte più rilevante per chi lavora con l’AI oggi. La loss che ogni LLM minimizza durante il pre-training è la cross-entropy, una quantità di Shannon (dettaglio in Entropia, cross-entropy, KL divergence). La metrica di valutazione è la perplexity, cioè $2^{\text{entropia}}$ .

Il minimum description length (MDL) usa la lunghezza di compressione come criterio per scegliere fra modelli: il modello migliore è quello che, sommato ai dati che non riesce a spiegare, dà la descrizione più corta — l’argomento di compressione-mdl (in preparazione). L’informazione mutua, che misura quanto due variabili sono dipendenti, è uno strumento ricorrente in interpretabilità e in representation learning, ed è il tema di mutual-information (in preparazione).

Altre discipline. Il vocabolario informazionale è stato adottato in biologia (il DNA visto come canale, l’ipotesi della codifica efficiente nei sistemi sensoriali), in neuroscienza, in ecologia.

È bene marcare la classe di questo legame: si tratta di adozione di un linguaggio e di strumenti, non di una filiazione causale dalla teoria di Shannon verso quelle discipline. La matematica è la stessa; le storie sono indipendenti, e leggerle come “applicazioni dirette di Shannon” sarebbe un errore storiografico.

Dove si rompe

La teoria dell’informazione è robusta e i suoi teoremi sono dimostrati. Ciò che si rompe è l’intuizione del lettore quando proietta sulla teoria significati che non le appartengono. Questa sezione raccoglie i fraintendimenti che fanno più danni.

Informazione non è significato. È l’errore numero uno, e Shannon lo previde. “Più informazione” nel senso di Shannon non vuol dire “più contenuto utile”. Una sequenza di caratteri casuali ha entropia massima — è informativa al grado più alto — e significato nullo. La teoria misura il costo di trasmissione e l’incertezza, non il valore.

Quando un articolo divulgativo dice “il rumore bianco contiene più informazione di una sinfonia”, sta usando “informazione” nel senso tecnico di Shannon, e la frase è vera in quel senso e fuorviante in ogni altro. Tenere separati i due sensi è metà del lavoro.

Entropia alta non vuol dire “interessante”. Strettamente legato al punto precedente. Alta entropia significa sorgente imprevedibile, ogni simbolo molto sorprendente, costo di trasmissione alto. Una sorgente di puro rumore massimizza l’entropia ed è inutile.

“Informativo” nel senso colloquiale — utile, sorprendente in modo significativo — è un concetto diverso che la teoria di Shannon non cattura, e non pretende di catturare. La teoria è onesta sui propri limiti: misura il costo, non il pregio.

Non si comprime sotto l’entropia. La tentazione di credere che con abbastanza ingegno si comprima sempre di più è naturale e sbagliata. Il primo teorema è un limite invalicabile per la compressione lossless.

Sotto l’entropia si entra necessariamente nel territorio lossy: si butta via informazione, e il problema diventa “quanta perdita è accettabile per quanto guadagno”, che è il tema di rate-distortion (in preparazione). I compressori che millantano rapporti impossibili su dati arbitrari violano un teorema, e i teoremi non si violano.

La capacità non è la velocità fisica del cavo. La capacità di Shannon non è “quanti bit ci stanno nel cavo”, ma il massimo rate al quale l’errore può essere reso arbitrariamente piccolo.

Sopra la capacità si possono ancora spingere bit, ma l’errore non scenderà mai sotto una certa soglia, per quanto sofisticato sia il codice. È un limite sull’affidabilità, non sulla quantità grezza.

Il bit di Shannon non è la cella di memoria. Il “bit” come unità di informazione è una quantità astratta e può essere frazionaria: una sorgente può avere entropia di 0,503 bit per simbolo. Il “bit” come cella di memoria fisica vale 0 o 1 e non si frantuma.

Confondere i due porta a domande senza senso come “come faccio a memorizzare mezzo bit”: non lo memorizzi, lo medi su molti simboli. È la stessa differenza che c’è tra “questa famiglia ha 2,3 figli in media” e l’idea assurda di un terzo di bambino.

Comprimere uguale capire è una tesi, non un teorema. L’idea che un buon compressore sia un buon “comprenditore” è seducente e merita una sezione a parte (sotto). Ma va marcata con onestà: una metà è quasi tautologica, l’altra metà è una scommessa filosofica aperta.

Trattarla come un risultato dimostrato è un abuso che si vede spesso nei testi divulgativi sull’AI. Il salto da “questo modello comprime bene” a “questo modello capisce” attraversa un confine che la teoria di Shannon, da sola, non autorizza.

Le ipotesi del modello. L’entropia di una sorgente è ben definita solo rispetto a un modello probabilistico della sorgente. Cambia il modello, cambia l’entropia stimata.

Quando si parla di “entropia dell’inglese” si intende sempre “entropia secondo un certo modello del linguaggio”, e modelli diversi danno stime diverse (Shannon stesso ne propose più di una). Non esiste un’entropia “vera” e indipendente dal modello per una sorgente reale: esiste la migliore stima dato il miglior modello che abbiamo. È una delle ragioni per cui i confronti di perplexity tra modelli con tokenizer diversi vanno presi con le molle: stanno misurando l’incertezza rispetto a unità diverse.

Comprimere è capire? (una tesi, marcata come tale)

Vale la pena isolare l’idea più carica del capitolo, perché è quella che attira di più e confonde di più. Il terzo angolo dell’intuizione lo anticipava: un codice ottimale assegna codici corti a ciò che è probabile, e per sapere cosa è probabile devi predire. Quindi comprimere bene equivale a predire bene.

Questa parte è quasi una tautologia: la lunghezza media ottimale di codifica è proprio l’entropia, e l’entropia è la qualità della predizione. Su questo non c’è scommessa.

La scommessa è l’altro passo: predire bene equivale a capire. Qui la classe dell’affermazione cambia da quasi-teorema a tesi filosofica aperta. Il Hutter Prize, lanciato nel 2006 da Marcus Hutter (ricercatore in intelligenza artificiale), mette in palio un premio per chi comprime meglio i primi 100 MB di Wikipedia inglese, partendo dall’idea esplicita che “comprimere bene è strettamente legato all’agire intelligentemente”. L’argomento è che predire il prossimo carattere di un testo richiede conoscenza del mondo, quindi un ottimo compressore di testo deve in qualche misura “sapere” come va il mondo. Per comprimere ottimamente un articolo di fisica devi, in qualche senso, “sapere la fisica” che permette di anticipare la parola successiva.

Sul versante empirico, Language Modeling Is Compression (Delétang et al., DeepMind, 2023) mostra che un grande modello linguistico, addestrato solo su testo, comprime immagini e audio meglio di compressori dedicati come PNG e FLAC, pur non avendone mai visti durante l’addestramento — un’evidenza forte che la cross-entropy minimizzata dagli LLM è esattamente una misura di compressione, e che la compressione che ne emerge è general-purpose.

Tutto questo è materiale di argomento, non di prova. “Comprimere bene questo testo” e “capire questo testo” potrebbero coincidere, potrebbero coincidere solo in parte, potrebbero divergere su ciò che chiamiamo comprensione genuina.

Il capitolo ponte-informazione-llm (in preparazione) e quello su kolmogorov-complessita (in preparazione) entrano nel merito. Qui basta piantare la bandierina con il colore giusto: tesi, non teorema.

Collegamenti

Entropia, cross-entropy, KL divergence: la meccanica operativa delle stesse quantità in chiave machine learning — gradiente, log-sum-exp, cross-entropy come loss, perplexity calcolata. Questo capitolo è la cornice storica e concettuale; quello è la macchina. Rimando obbligatorio per non duplicare.
canali-rumore-capacita (in preparazione): il secondo teorema di Shannon in dettaglio, capacità di canale, casi discreti e continui.
codifica-ridondanza-errori (in preparazione): la ridondanza usata in direzione opposta alla compressione, error correction, robustezza.
compressione-mdl (in preparazione): il primo teorema portato fino al minimum description length come criterio di apprendimento.
kolmogorov-complessita (in preparazione): l’informazione di un singolo oggetto invece che di una sorgente, e il ponte rigoroso verso “compressione e intelligenza”.
mutual-information (in preparazione): quanto due variabili sono dipendenti, misura usata in ML e interpretabilità.
rate-distortion (in preparazione): cosa succede quando si comprime sotto l’entropia accettando una perdita.
informazione-apprendimento (in preparazione): l’apprendimento visto come estrazione di struttura, cioè come compressione.
ponte-informazione-llm (in preparazione): token prediction, compressione e rappresentazioni negli LLM, dove la tesi “comprimere = capire” si fa concreta.
Rumore, signal-to-noise ratio, filtraggio: il rapporto segnale-rumore e Shannon-Hartley dal lato dei segnali.
Campionamento, aliasing, teorema di Nyquist: Nyquist come precursore di Shannon e il suo teorema di campionamento.

Per andare oltre

Shannon, C. E. (1948). A Mathematical Theory of Communication, Bell System Technical Journal, vol. 27. Il paper fondante. Sorprendentemente leggibile per un testo che ha aperto una disciplina: vale la pena leggerne almeno l’introduzione, dove Shannon separa esplicitamente informazione e significato.
Cover, T. M. & Thomas, J. A. (2006). Elements of Information Theory, 2a ed., Wiley. Il riferimento formale standard: entropia, source coding, channel coding, Shannon-Hartley, rate-distortion, con tutte le dimostrazioni.
MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms, Cambridge University Press. Disponibile gratuitamente online. Taglio bayesiano e orientato all’apprendimento: il libro giusto per chi arriva alla teoria dell’informazione dal machine learning.
Hutter Prize — prize.hutter1.net. Il premio per la compressione di Wikipedia e il manifesto dell’idea “compressione = intelligenza”. Da leggere come tesi argomentata, con spirito critico.
Delétang, G. et al. (2023). Language Modeling Is Compression, arXiv:2309.10668. Evidenza empirica che gli LLM sono compressori general-purpose e che la cross-entropy ne misura la capacità di compressione.