Informazione mutua e dipendenza

Due variabili possono essere legate a doppio filo e avere correlazione zero. L’informazione mutua è la quantità che vede quel legame quando la correlazione resta cieca: misura quanta incertezza su una si dissolve conoscendo l’altra, indipendentemente dalla forma — lineare, curva, periodica — della relazione che le unisce.

Perché questo capitolo

C’è un esperimento mentale che mette in crisi chiunque sia cresciuto a pane e correlazione. Prendi una variabile $X$ che assume con uguale probabilità i valori $-2, -1, 0, 1, 2$ , e definisci $Y = X^2$ . Conoscere $X$ ti dà $Y$ con certezza assoluta: non c’è dipendenza più forte di così. Eppure la correlazione lineare tra $X$ e $Y$ è esattamente zero, perché la relazione è simmetrica e la retta di regressione migliore è piatta. Uno strumento standard di analisi dati, applicato qui, concluderebbe che le due variabili non hanno nulla a che fare l’una con l’altra. Sbaglierebbe in pieno.

L’informazione mutua — la quantità $I(X;Y)$ che misura quanta informazione due variabili condividono — non si lascia ingannare. Su questo esempio dà un valore positivo, perché coglie il fatto vero: sapere $X$ azzera l’incertezza su $Y$ .

La ragione è che l’informazione mutua non guarda come le variabili sono legate, ma solo quanto conoscere una riduce l’incertezza sull’altra. Cattura qualsiasi dipendenza, non solo quella che si dispone lungo una retta. È questa generalità che la rende uno strumento di lavoro in machine learning, in statistica e nell’analisi delle rappresentazioni interne dei modelli — e, allo stesso tempo, una quantità infida da stimare dai dati, come vedremo.

Per chi costruisce sistemi AI l’informazione mutua è una bussola che riappare in posti lontani tra loro: nella selezione delle feature, nell’apprendimento di rappresentazioni self-supervised (dove obiettivi come InfoNCE massimizzano un limite inferiore sull’informazione mutua tra viste diverse dello stesso dato), nel disentanglement, nel misurare quanto una rappresentazione interna codifica un concetto.

In tutti questi casi l’idea è la stessa di Shannon, applicata non a un cavo ma a due variabili statistiche: quanta informazione l’una porta sull’altra.

Conviene quindi conoscerla a fondo — incluso il punto dolente, che questo capitolo non nasconde: stimarla dai dati è difficile, e diverse affermazioni che la riguardano nel deep learning sono dibattiti aperti, non fatti acquisiti. Saper distinguere ciò che dell’informazione mutua è teorema da ciò che è interpretazione contestata è metà del valore di conoscerla.

Contesto

L’informazione mutua nasce dove nasce tutta la teoria dell’informazione: nel paper di Claude Shannon (1916-2001, matematico e ingegnere americano dei Bell Telephone Laboratories) A Mathematical Theory of Communication, pubblicato sul Bell System Technical Journal nel 1948. Lì compare come la quantità di informazione che l’uscita di un canale rivela sul suo ingresso, ed è il mattone con cui Shannon definisce la capacità del canale, il massimo dell’informazione mutua sulle possibili statistiche di input.

Quel lato — l’informazione mutua al servizio della capacità — è già stato sviluppato in Canali, rumore, capacità, dove $I(X;Y)$ misura quanta informazione sopravvive al passaggio attraverso un mezzo rumoroso e il termine $H(Y \mid X)$ è il rumore del canale.

Questo capitolo prende la stessa quantità e la guarda da un’angolazione diversa e più ampia: l’informazione mutua come misura di dipendenza tra due variabili qualsiasi, scollegata dal contesto della trasmissione. Niente più cavo, niente più capacità: solo due variabili e la domanda di quanto siano legate. Per questo motivo qui non rideriviamo la capacità del canale; chi vuole quel filo lo trova nel capitolo dedicato.

Il concetto si è poi ramificato ben oltre le telecomunicazioni. Negli anni ‘50 William McGill (psicologo e statistico americano) prova a estenderlo a più di due variabili, scoprendo che la generalizzazione si comporta in modo sorprendente — può diventare negativa, un punto a cui torneremo.

Negli anni ‘80 Ralph Linsker (ricercatore IBM) formula il principio infomax: costruire rappresentazioni che massimizzano l’informazione mutua tra ingresso e uscita di una rete. È la prima volta che l’informazione mutua diventa un obiettivo da ottimizzare, non solo una grandezza da misurare.

E dagli anni 2010 l’informazione mutua diventa centrale in una famiglia di metodi di representation learning, fino al contrastive learning che oggi è uno standard del self-supervised. È un concetto che attraversa quasi ottant’anni e cambia mestiere più volte senza mai cambiare definizione.

I capitoli vicini della Parte XIII forniscono il contesto: Informazione come riduzione di incertezza fissa entropia e informazione; Canali, rumore, capacità usa l’informazione mutua per la capacità; rate-distortion (in preparazione) e informazione-apprendimento (in preparazione) ne raccolgono gli usi in compressione lossy e apprendimento.

Fuori dalla Parte, il legame più stretto è con due capitoli. Con Entropia, cross-entropy, KL divergence, perché l’informazione mutua è un caso particolare di divergenza KL — il punto da cui discendono le sue proprietà. E con Correlazione, confondenti, causalità, perché l’informazione mutua è il modo giusto di misurare una dipendenza che la correlazione non vede, ma resta — come la correlazione — muta sulla causalità.

L’intuizione

Tre modi di guardare la stessa quantità, prima di scrivere la formula generale. Il primo è la riduzione di incertezza; il secondo è l’informazione condivisa, che si visualizza con un diagramma di Venn; il terzo, il più profondo, è la distanza dall’indipendenza.

Angolo 1: quanta incertezza su una variabile si scioglie conoscendo l’altra

Parti da una variabile $X$ su cui hai un’incertezza, misurata dall’entropia $H(X)$ (l’incertezza media, in bit, definita in Informazione come riduzione di incertezza). Ora ti viene rivelato il valore di una seconda variabile $Y$ . Quanta della tua incertezza su $X$ si scioglie?

Se $Y$ non ha nulla a che vedere con $X$ , non si scioglie nulla: dopo aver visto $Y$ sei incerto su $X$ esattamente come prima. Se invece $Y$ determina completamente $X$ , l’incertezza crolla a zero: vista $Y$ , sai $X$ .

In mezzo c’è tutto lo spettro delle dipendenze parziali, dove conoscere $Y$ aiuta ma non risolve del tutto. L’informazione mutua è il numero che colloca una coppia di variabili su questo spettro, da zero (nessun aiuto) fino al massimo (determinazione completa).

L’informazione mutua $I(X;Y)$ è esattamente la quantità di incertezza su $X$ che l’osservazione di $Y$ fa sparire, mediata su tutti i possibili valori di $Y$ . È la misura del “quanto aiuta”, in bit. In simboli, l’incertezza iniziale meno quella residua:

I(X;Y) = H(X) - H(X \mid Y),

dove $H(X \mid Y)$ è l’entropia condizionata, l’incertezza media che resta su $X$ una volta noto $Y$ . La differenza tra incertezza prima e incertezza dopo è ciò che $Y$ ha insegnato su $X$ . È la stessa idea della capacità di canale, ma qui $X$ e $Y$ sono due variabili qualsiasi, non ingresso e uscita di un cavo.

Una sottigliezza che vale la pena fissare subito: l’entropia condizionata $H(X \mid Y)$ è una media su tutti i valori di $Y$ . Per un singolo valore osservato di $Y$ l’incertezza su $X$ potrebbe persino aumentare rispetto a $H(X)$ — capita che un’osservazione particolare ci confonda più di quanto sapessimo prima.

Ma mediando su tutti i possibili $Y$ , pesati con la loro probabilità, l’incertezza residua non può mai superare quella iniziale. È il motivo profondo per cui l’informazione mutua, che è questa media, resta non negativa: caso per caso si può essere ingannati, in media no. Questa distinzione tra “un’osservazione singola” e “la media” è facile da perdere e fonte di confusioni.

Angolo 2: l’informazione condivisa, vista come due cerchi che si sovrappongono

C’è un modo di disegnare l’informazione mutua che la rende immediata: il diagramma di Venn dell’informazione. Disegna l’entropia di $X$ come un cerchio e l’entropia di $Y$ come un secondo cerchio che lo interseca. Ogni regione del disegno corrisponde a una quantità informazionale precisa.

L’intersezione dei due cerchi è l’informazione mutua $I(X;Y)$ : l’incertezza che le due variabili condividono. La mezzaluna del cerchio di $X$ che resta fuori dall’intersezione è $H(X \mid Y)$ , l’incertezza su $X$ che $Y$ non spiega; simmetricamente, la mezzaluna di $Y$ è $H(Y \mid X)$ . L’unione completa dei due cerchi è l’entropia congiunta $H(X,Y)$ , l’incertezza della coppia presa insieme.

Da questo disegno si leggono a colpo d’occhio tutte le identità. L’area di un cerchio è la somma della sua mezzaluna e dell’intersezione: $H(X) = H(X \mid Y) + I(X;Y)$ , che è l’angolo 1 riscritto. L’area dell’unione è la somma dei due cerchi meno l’intersezione contata due volte: $H(X,Y) = H(X) + H(Y) - I(X;Y)$ , da cui la terza forma equivalente dell’informazione mutua.

Il diagramma rende anche ovvia la simmetria: l’intersezione di due cerchi non ha un “lato preferito”, quindi $I(X;Y) = I(Y;X)$ . È una di quelle figure che, una volta vista, rende le identità algebriche quasi superflue: invece di ricordare le formule, si guarda il disegno e si rileggono le aree.

Una nota di cautela che pagheremo più avanti: questo quadretto insiemistico funziona perfettamente per due variabili, ma si rompe appena se ne aggiunge una terza. L’analogo dell’intersezione per tre cerchi può risultare negativo, e un’area negativa non esiste. Per ora teniamo il disegno, sapendo che ha un confine.

Angolo 3: quanto la coppia si discosta dall’indipendenza

Il terzo angolo è il più astratto ma anche il più potente, perché collega l’informazione mutua a un concetto già incontrato: la divergenza di Kullback-Leibler (KL), la misura di quanto una distribuzione di probabilità differisce da un’altra, definita in Entropia, cross-entropy, KL divergence.

Considera due variabili $X$ e $Y$ con la loro distribuzione congiunta $p(x,y)$ , cioè la probabilità di osservare ciascuna coppia di valori insieme. Se le due variabili fossero indipendenti, la congiunta sarebbe semplicemente il prodotto delle due marginali, $p(x)\,p(y)$ : sapere una non direbbe nulla sull’altra.

Quel prodotto $p(x)\,p(y)$ è dunque il “mondo controfattuale” dell’indipendenza — come starebbero insieme le variabili se non avessero alcun legame. L’informazione mutua misura esattamente quanto la congiunta vera si discosta da questo mondo indipendente:

I(X;Y) = D_{\mathrm{KL}}\big(\,p(x,y)\ \|\ p(x)\,p(y)\,\big).

In parole povere, questo dice che l’informazione mutua è la divergenza KL tra “come le variabili stanno insieme davvero” e “come starebbero se fossero indipendenti”. Se sono indipendenti, le due distribuzioni coincidono, la KL è zero e l’informazione mutua è zero.

Più la dipendenza è marcata, più la congiunta vera si allontana dal prodotto delle marginali, più alta la KL, più alta l’informazione mutua. È una distanza dall’indipendenza, e questa lettura — lo vedremo nella meccanica — spiega di colpo perché l’informazione mutua è sempre non negativa e perché si annulla esattamente quando le variabili sono indipendenti. Le proprietà che altrove vanno dimostrate, da qui cadono come conseguenze.

La meccanica

Ora i simboli, introdotti uno alla volta. Restiamo leggeri sulle dimostrazioni: la macchina di calcolo di entropia, entropia condizionata e divergenza KL vive in Entropia, cross-entropy, KL divergence. Qui mettiamo a fuoco la definizione, le tre forme e le proprietà che fanno dell’informazione mutua una misura di dipendenza.

La definizione e le tre forme equivalenti

La definizione canonica dell’informazione mutua, per due variabili discrete, è il valore atteso del logaritmo del rapporto tra congiunta e prodotto delle marginali:

I(X;Y) = \sum_{x,y} p(x,y)\,\log_2 \frac{p(x,y)}{p(x)\,p(y)}.

Si legge così: per ogni coppia di valori $(x,y)$ , guarda quanto la loro probabilità congiunta $p(x,y)$ supera (o no) quella che avrebbero se fossero indipendenti, $p(x)\,p(y)$ ; prendi il logaritmo di quel rapporto, e fanne la media pesata sulla probabilità con cui ciascuna coppia capita davvero.

Coppie che capitano insieme più spesso del previsto sotto indipendenza ( $p(x,y) > p(x)p(y)$ , logaritmo positivo) contribuiscono positivamente; coppie più rare del previsto contribuiscono negativamente, ma la media complessiva — lo garantisce la non-negatività che vedremo — non scende mai sotto zero. La base 2 del logaritmo fissa l’unità in bit. È la stessa espressione dell’angolo 3, scritta esplicitamente: una somma è il modo concreto di calcolare quella divergenza KL.

Una nota pratica prima di proseguire: questa somma si calcola direttamente quando si conoscono le probabilità, ma nei problemi reali le probabilità non si conoscono e vanno stimate dai dati — è il nodo che affronteremo nella sottosezione dedicata alla stima, ed è ciò che separa l’eleganza della formula dalla fatica del calcolo reale.

Da questa definizione discendono tre scritture equivalenti, ciascuna utile in un contesto diverso. La prima, già vista nell’intuizione:

I(X;Y) = H(X) - H(X \mid Y).

Incertezza iniziale su $X$ meno incertezza residua noto $Y$ . La seconda è la stessa cosa con i ruoli scambiati:

I(X;Y) = H(Y) - H(Y \mid X).

Il fatto che queste due diano lo stesso numero è precisamente la simmetria: l’informazione che $Y$ porta su $X$ uguaglia quella che $X$ porta su $Y$ . La terza forma le inquadra entrambe come overlap:

I(X;Y) = H(X) + H(Y) - H(X,Y),

dove $H(X,Y)$ è l’entropia congiunta. In parole povere, somma le incertezze separate e sottrai l’incertezza della coppia: ciò che avanza è l’incertezza contata due volte, cioè quella condivisa. Le tre forme sono algebricamente la stessa cosa, perché l’entropia congiunta si decompone come $H(X,Y) = H(X) + H(Y \mid X) = H(Y) + H(X \mid Y)$ (la chain rule dell’entropia); sostituendo si passa dall’una all’altra. Averle tutte in testa evita di restare prigionieri di un solo modo di vedere.

Le proprietà che ne fanno una misura di dipendenza

Tre proprietà, tutte conseguenze della lettura come divergenza KL, trasformano l’informazione mutua in un misuratore di dipendenza affidabile.

Non-negatività. $I(X;Y) \geq 0$ , sempre. Discende direttamente dal fatto che la divergenza KL è sempre non negativa (è la disuguaglianza di Gibbs, a sua volta una conseguenza della disuguaglianza di Jensen, viste in Entropia, cross-entropy, KL divergence).

Tradotto: osservare una variabile non può mai aumentare, in media, l’incertezza sull’altra. Al peggio non impari nulla; non puoi “disimparare”. È la versione informazionale dell’idea che un’informazione, in media, non fa danno.

Zero se e solo se indipendenti. $I(X;Y) = 0$ precisamente quando $X$ e $Y$ sono statisticamente indipendenti, cioè quando $p(x,y) = p(x)\,p(y)$ per ogni coppia. È il cuore della faccenda: la divergenza KL vale zero solo quando le due distribuzioni coincidono, e la congiunta coincide con il prodotto delle marginali esattamente sotto indipendenza. Questa è la proprietà che la correlazione lineare non possiede, ed è ciò che rende l’informazione mutua una misura di dipendenza generale.

Le prime due proprietà sono in realtà la stessa cosa vista due volte, e la lettura come divergenza KL le unifica in una riga. La divergenza KL è non negativa e si annulla solo quando le sue due distribuzioni coincidono (è un teorema, la disuguaglianza di Gibbs).

Applicalo a $D_{\mathrm{KL}}(p(x,y) \,\|\, p(x)p(y))$ : è $\geq 0$ sempre, da cui $I(X;Y) \geq 0$ ; ed è $= 0$ solo quando $p(x,y) = p(x)p(y)$ , cioè sotto indipendenza, da cui lo zero-sse-indipendenti. Una proprietà generale della KL, calata sul caso congiunta-contro-marginali, regala entrambe le proprietà dell’informazione mutua senza fatica aggiuntiva. È il vantaggio di vedere l’informazione mutua come un caso particolare di una quantità più generale già studiata.

Simmetria. $I(X;Y) = I(Y;X)$ , come si legge dal diagramma di Venn e dalla forma di overlap. L’informazione che $Y$ porta su $X$ è esattamente quella che $X$ porta su $Y$ .

Va sottolineato un punto che genera errori: la simmetria non implica nulla sulla direzione causale. È $X$ a determinare $Y$ nell’esempio $Y = X^2$ , non viceversa, eppure l’informazione mutua è la stessa nelle due direzioni. L’informazione mutua misura dipendenza, non causa. Per la causa servono strumenti diversi, discussi in Correlazione, confondenti, causalità.

A queste si aggiungono due proprietà strutturali utili più avanti. La chain rule dell’informazione mutua, $I(X; Y, Z) = I(X;Y) + I(X; Z \mid Y)$ , dice che l’informazione che la coppia $(Y,Z)$ porta su $X$ si decompone in quella di $Y$ più quella aggiuntiva di $Z$ una volta noto $Y$ . Aggiungere una variabile non rende mai meno informativa la collezione: al più $Z$ non aggiunge nulla di nuovo oltre $Y$ .

E la data processing inequality: se $X \to Y \to Z$ formano una catena (cioè $Z$ dipende da $X$ solo attraverso $Y$ ), allora $I(X;Z) \leq I(X;Y)$ . Processare un dato non può creare informazione sulla sorgente che non fosse già passata: ogni elaborazione, al più, conserva, e di solito perde. Nessuna trasformazione di $Y$ — per quanto astuta — può recuperare informazione su $X$ che $Y$ non conteneva già. È il principio su cui poggia l’information bottleneck di cui parleremo nel ponte verso l’AI.

Informazione mutua contro correlazione lineare

Vale la pena rendere netto il confronto, perché è il motivo per cui l’informazione mutua esiste come strumento separato. La correlazione di Pearson misura quanto due variabili tendono a crescere (o decrescere) insieme lungo una retta. È cieca a tutto ciò che non è lineare: una relazione a U, a campana, periodica, a soglia, può avere correlazione esattamente zero pur essendo una dipendenza perfetta.

L’esempio di apertura, $Y = X^2$ con $X$ simmetrica intorno a zero, lo mostra al limite: correlazione zero, dipendenza totale. L’informazione mutua, che non assume nessuna forma per la relazione e guarda solo la riduzione di incertezza, restituisce il valore corretto e positivo.

Lo stesso accade per dati disposti lungo un cerchio rumoroso: nessuna tendenza lineare, ma conoscere una coordinata vincola fortemente l’altra (a un valore dato di $x$ corrispondono solo due archi possibili per $y$ ), e l’informazione mutua lo registra come dipendenza alta. Ovunque la relazione esista ma non sia una retta, la correlazione la sottostima o la perde del tutto, mentre l’informazione mutua la coglie.

Questa generalità ha un prezzo, che la sezione sulla stima renderà esplicito: l’informazione mutua è più difficile da stimare dai dati della correlazione, soprattutto in alta dimensione. La correlazione si calcola da due momenti e basta; l’informazione mutua richiede, in qualche forma, di stimare densità di probabilità, e questo è terreno scivoloso.

Informazione mutua condizionata e il salto a tre variabili

L’informazione mutua si estende naturalmente alla presenza di una terza variabile. L’informazione mutua condizionata $I(X;Y \mid Z)$ misura quanta informazione $X$ e $Y$ condividono una volta noto $Z$ :

I(X;Y \mid Z) = H(X \mid Z) - H(X \mid Y, Z).

In parole povere, è la riduzione di incertezza su $X$ portata da $Y$ quando $Z$ è già stato osservato. Come l’informazione mutua semplice, è sempre non negativa. È una quantità sottile e importante, perché condizionare può cambiare radicalmente la dipendenza, in entrambe le direzioni.

Due esempi rendono concreta questa instabilità. Il primo è il confondente comune: l’altezza dei bambini ( $X$ ) e la loro abilità di lettura ( $Y$ ) hanno informazione mutua alta — i bambini più alti leggono meglio. Ma è un artefatto dell’età ( $Z$ ): condizionando sull’età, $I(X;Y \mid Z)$ crolla quasi a zero, perché a parità di età altezza e lettura non hanno più nulla da dirsi. La dipendenza marginale era tutta spiegata dal terzo fattore.

Il secondo è il collider (effetto comune): due variabili indipendenti possono diventare dipendenti condizionando su un terzo. Pensa a due cause indipendenti di uno stesso effetto: sapere che l’effetto si è verificato e che una causa era assente rende l’altra più probabile. Qui $I(X;Y) = 0$ ma $I(X;Y \mid Z) > 0$ : condizionare crea dipendenza dove non ce n’era. È il filo che porta verso le reti bayesiane e il concetto di d-separation, trattati in reti bayesiane (in preparazione).

Quando si prova a riassumere l’interazione tra tre variabili in un solo numero, però, la matematica si comporta in modo controintuitivo. Una grandezza proposta a questo scopo è l’interaction information, introdotta da William McGill (1954, psicologo e statistico americano) nel paper Multivariate information transmission.

L’idea è confrontare l’informazione mutua tra $X$ e $Y$ con e senza il condizionamento su $Z$ . Se conoscere $Z$ aumenta la dipendenza apparente tra $X$ e $Y$ c’è sinergia: il classico esempio è lo XOR, dove $X$ e $Y$ sono indipendenti a coppie, ma noto $Z = X \oplus Y$ diventano perfettamente legate (sapere due dei tre determina il terzo).

Se invece conoscere $Z$ diminuisce la dipendenza tra $X$ e $Y$ c’è ridondanza: parte di ciò che li legava era in realtà spiegato da $Z$ , come nell’esempio del confondente comune visto sopra. Sinergia e ridondanza sono fenomeni opposti, e una singola quantità che li deve catturare entrambi è costretta a cambiare segno.

Il fatto sorprendente è che, a differenza dell’informazione mutua tra due variabili, l’interaction information può essere negativa. È precisamente questo che rompe il diagramma di Venn: l’analogo dell’intersezione a tre cerchi può risultare negativo, e nessuna area di un insieme è negativa.

Va aggiunta una cautela importante: la convenzione di segno (quale caso è positivo e quale negativo) non è uniforme in letteratura, quindi qui ne diamo solo l’idea — a tre variabili la decomposizione si complica e può “andare in negativo” — senza appoggiarci a una formula di segno come se fosse uno standard. La separazione pulita di redundant, unique e synergistic information tra più variabili è un’area di ricerca aperta (la partial information decomposition), oltre lo scopo di questo capitolo.

Stimare l’informazione mutua dai dati

C’è un divario che separa la teoria dalla pratica, e per l’informazione mutua è particolarmente largo. La definizione presuppone di conoscere la distribuzione congiunta $p(x,y)$ . Nel lavoro reale quella distribuzione non si conosce: si hanno solo campioni, coppie di valori osservati, e da quei campioni si deve stimare l’informazione mutua. Tre famiglie di stimatori, con compromessi diversi.

La prima, e la più ingenua, è il binning: si discretizza lo spazio delle due variabili in celle, si contano le coppie cadute in ciascuna cella per stimare le probabilità, e si applica la formula. È intuitiva e si calcola in poche righe.

Ma soffre di un difetto sistematico che vedremo all’opera nell’esempio in codice: con campioni finiti, il rumore di campionamento crea per caso piccole dipendenze nelle celle, e la formula le scambia per segnale, producendo un bias positivo — informazione mutua apparente anche tra variabili indipendenti. Il bias peggiora stringendo i bin e in alta dimensione, dove le celle si svuotano per la maledizione della dimensionalità.

La seconda famiglia abbandona la discretizzazione. Lo stimatore di Kraskov, Stögbauer e Grassberger (KSG), introdotto nel paper Estimating mutual information (Physical Review E, 2004), stima le densità localmente dalle distanze di ogni punto al suo $k$ -esimo vicino più prossimo (tipicamente $k$ tra 2 e 4), adattando la risoluzione a dove i dati sono densi. È data-efficient e a bias ridotto, ed è l’opzione di riferimento per variabili continue. Resta comunque sensibile alla dimensione: in spazi a molte dimensioni anche le distanze ai vicini perdono potere discriminante.

La terza famiglia, recente, usa reti neurali. MINE (Mutual Information Neural Estimation, Belghazi et al., ICML 2018) sfrutta una riscrittura variazionale della divergenza KL — la rappresentazione di Donsker-Varadhan — per addestrare una rete che massimizza un limite inferiore sull’informazione mutua tramite discesa del gradiente. Il vantaggio è la scalabilità: funziona dove binning e KSG arrancano, in alta dimensione e con molti campioni.

Lo svantaggio, cruciale, è che questi stimatori neurali (MINE, e InfoNCE che vedremo) sono limiti inferiori, e i limiti inferiori basati su campioni hanno un tetto teorico: nessuno di essi può riportare un valore molto più grande del logaritmo del numero di campioni usati. Una stima “alta” può quindi essere il bound saturo, non la quantità vera.

Il principio da portare via: l’informazione mutua è oggettiva solo se conosci le distribuzioni; stimata dai dati, il numero che leggi dipende dal metodo, dai campioni e dalla dimensione, e va trattato come una stima rumorosa, non come una misura definitiva.

Esempi

Cinque esempi eterogenei: due numerici (un dado con la sua parità, e la parabola contro la correlazione), uno in codice (la stima ingenua che inganna), uno scenario reale (le parole che vanno insieme nel testo) e uno come ponte verso l’AI (il contrastive learning). I primi quattro stanno dove l’informazione mutua è solida e calcolabile; l’ultimo la trasporta nel deep learning, dove serve maggiore cautela.

Esempio 1: un dado e la sua parità

Lancia un dado equo: $X \in \{1,2,3,4,5,6\}$ , ciascun valore con probabilità $1/6$ . L’entropia di $X$ è $H(X) = \log_2 6 \approx 2{,}585$ bit. Definisci $Y$ come la parità del risultato: pari o dispari, ciascuna con probabilità $1/2$ , quindi $H(Y) = 1$ bit. Quanta informazione condividono?

Calcoliamola con la prima forma, $I(X;Y) = H(Y) - H(Y \mid X)$ , perché è la più rapida qui. Una volta noto $X$ , la parità $Y$ è completamente determinata: non c’è alcuna incertezza residua, $H(Y \mid X) = 0$ . Quindi:

I(X;Y) = H(Y) - H(Y \mid X) = 1 - 0 = 1 \text{ bit}.

Verifichiamo con la forma simmetrica, $I(X;Y) = H(X) - H(X \mid Y)$ , che deve dare lo stesso numero. Noto che $Y$ è “pari”, $X$ può essere $2, 4$ o $6$ con uguale probabilità: l’incertezza residua è $\log_2 3 \approx 1{,}585$ bit, e lo stesso vale per “dispari”. Quindi $H(X \mid Y) = \log_2 3 \approx 1{,}585$ bit, e:

I(X;Y) = 2{,}585 - 1{,}585 = 1 \text{ bit}.

Le due strade convergono sullo stesso valore, come la simmetria garantisce: non importa se parti dall’incertezza sul dado o da quella sulla parità, l’informazione condivisa è la stessa.

La lettura è pulita: conoscere la parità del dado ti dà esattamente 1 bit di informazione sul risultato — dimezza il numero di possibilità da sei a tre — ma non di più, perché restano tre valori indistinguibili. L’informazione mutua quantifica esattamente quel “dimezzamento”. Nota anche che $I(X;Y) = 1 = H(Y)$ : tutta l’incertezza di $Y$ è condivisa con $X$ , perché $Y$ è una funzione di $X$ . Quando una variabile è completamente determinata dall’altra, la loro informazione mutua è l’intera entropia della variabile determinata.

Esempio 2: la parabola che la correlazione non vede

Riprendiamo l’esempio di apertura con i numeri. $X$ assume i valori $\{-2,-1,0,1,2\}$ , ciascuno con probabilità $1/5$ , e $Y = X^2$ , quindi $Y \in \{0,1,4\}$ . La distribuzione di $Y$ : il valore $0$ capita una volta su cinque (da $X=0$ ), il valore $1$ due volte su cinque (da $X = \pm 1$ ), il valore $4$ due volte su cinque (da $X = \pm 2$ ).

La correlazione lineare è zero. La relazione è simmetrica rispetto a $X=0$ : per ogni valore positivo di $X$ ce n’è uno negativo che dà lo stesso $Y$ , così la tendenza lineare media si annulla. La nuvola di punti $(X, X^2)$ è una parabola, e la retta di regressione migliore che la attraversa è orizzontale. Uno strumento che si fermi alla correlazione dichiarerebbe $X$ e $Y$ scorrelate e, implicitamente, non informative l’una sull’altra.

L’informazione mutua racconta la verità. Noto $X$ , il valore di $Y$ è determinato senza residui, quindi $H(Y \mid X) = 0$ e:

I(X;Y) = H(Y) - H(Y \mid X) = H(Y) - 0 = H(Y).

Resta da calcolare $H(Y)$ con la distribuzione $\{1/5, 2/5, 2/5\}$ :

H(Y) = -\tfrac{1}{5}\log_2\tfrac{1}{5} - \tfrac{2}{5}\log_2\tfrac{2}{5} - \tfrac{2}{5}\log_2\tfrac{2}{5} \approx 0{,}464 + 0{,}529 + 0{,}529 \approx 1{,}522 \text{ bit}.

Quindi $I(X;Y) \approx 1{,}522$ bit, ben lontano da zero. La differenza tra le due misure è netta: la correlazione dice “nessun legame”, l’informazione mutua dice “circa un bit e mezzo di legame”.

L’informazione mutua ha ragione, perché $X$ determina $Y$ . È l’esempio minimo del perché, quando la relazione può non essere lineare, l’informazione mutua è lo strumento giusto e la correlazione una trappola. Su dati reali, dove le relazioni non lineari sono la norma, questa differenza non è un caso di scuola ma un rischio quotidiano di scartare per sbaglio variabili informative.

Esempio 3: la stima ingenua che inganna

L’informazione mutua è facile da definire e infida da stimare. Il modo più ingenuo — discretizzare le variabili in celle (binning), contare le frequenze e applicare la formula — soffre di un difetto sistematico: tende a riportare informazione mutua positiva anche tra variabili indipendenti, e il falso valore cresce stringendo i bin. La ragione è che, con campioni finiti, il rumore di campionamento crea per caso piccole dipendenze nelle celle, e la formula le scambia per segnale.

import numpy as np
from sklearn.metrics import mutual_info_score

rng = np.random.default_rng(0)
# Due variabili COMPLETAMENTE indipendenti: la MI vera vale 0.
x = rng.normal(size=2000)
y = rng.normal(size=2000)

for n_bin in (5, 20, 100):
    bx = np.digitize(x, np.linspace(-3, 3, n_bin))
    by = np.digitize(y, np.linspace(-3, 3, n_bin))
    # mutual_info_score lavora in nat: converti in bit dividendo per ln(2)
    mi_bit = mutual_info_score(bx, by) / np.log(2)
    print(f"bin={n_bin:3d}  MI stimata = {mi_bit:.3f} bit  (vera = 0)")

L’output mostra il problema: con pochi bin la stima è vicina a zero, ma stringendo le celle sale visibilmente sopra zero — pura illusione, perché le variabili sono indipendenti per costruzione e la vera informazione mutua è esattamente zero. È il bias positivo del binning: più celle ci sono, più è probabile che il rumore di campionamento riempia alcune celle e ne svuoti altre creando dipendenze fantasma.

Le contromisure sono due. La prima: usare più dati, perché il bias si attenua al crescere dei campioni.

La seconda, più robusta: abbandonare il binning per uno stimatore non parametrico. Il più usato è quello di Kraskov, Stögbauer e Grassberger (KSG), introdotto nel paper Estimating mutual information (Physical Review E, 2004): invece di discretizzare, stima le densità localmente dalle distanze di ogni punto al suo $k$ -esimo vicino più prossimo, adattando la risoluzione a dove i dati sono densi. È data-efficient e a bias ridotto, ed è l’opzione di riferimento per variabili continue — anche se degrada anch’esso quando la dimensione cresce molto.

Esempio 4: le parole che vanno insieme

Uno scenario concreto dalla linguistica computazionale mostra l’informazione mutua come strumento quotidiano, ben prima del deep learning. Vuoi scoprire quali parole formano espressioni fisse — New York, machine learning, carbon dioxide — distinguendole da coppie che capitano vicine solo per caso, come the seguito da un sostantivo qualsiasi. Il criterio è la pointwise mutual information (PMI) tra due parole, cioè il singolo termine $\log_2 \frac{p(x,y)}{p(x)\,p(y)}$ valutato per quella coppia specifica (l’informazione mutua è la media di questi termini su tutte le coppie).

Per una coppia di parole, $p(x,y)$ è la probabilità di vederle adiacenti, $p(x)$ e $p(y)$ le probabilità delle due parole prese da sole.

Se York segue New molto più spesso di quanto le due frequenze separate prevederebbero, il rapporto è grande, il logaritmo è positivo e alto: forte associazione. Se due parole capitano vicine esattamente alla frequenza attesa sotto indipendenza, il rapporto è 1, il logaritmo è zero: nessuna associazione oltre il caso. È la stessa lettura dell’informazione mutua come distanza dall’indipendenza (angolo 3), applicata a una singola coppia invece che mediata su tutte.

Questo uso è classico nell’elaborazione del linguaggio. La PMI è stata per anni il modo standard di estrarre collocazioni ed espressioni multi-parola dai corpora, perché separa le associazioni genuine dalle coincidenze di frequenza.

Una sua variante (la PMI positiva, che azzera i valori negativi) è alla base di rappresentazioni vettoriali di parole costruite prima degli embedding neurali — costruisci una matrice parola-per-parola riempita di PMI e la fattorizzi per ottenere vettori densi.

È informazione mutua nuda e cruda, calcolata da semplici conteggi di frequenza, che fa un lavoro utile su dati reali — un promemoria che la quantità di Shannon serve molto oltre i canali e le reti profonde, e che non servono reti neurali per metterla all’opera.

Esempio 5 (ponte AI): il contrastive learning come massimizzazione di un limite inferiore

L’ultimo esempio porta l’informazione mutua nel cuore del self-supervised learning, e va etichettato con cura per classe di affermazione.

Il contrastive learning addestra un modello a riconoscere quali coppie di dati sono “viste” dello stesso oggetto. Da un’immagine si generano due versioni alterate (ritaglio, cambio di colore, le augmentation); il modello impara una rappresentazione in cui le due viste della stessa immagine sono vicine, e lontane da quelle di immagini diverse, dette negativi. L’idea: se due viste vengono dalla stessa origine, devono condividere molta informazione, e una buona rappresentazione deve renderla esplicita.

L’obiettivo standard è la loss InfoNCE, introdotta da Aaron van den Oord, Yazhe Li e Oriol Vinyals (ricercatori di DeepMind) nel paper Representation Learning with Contrastive Predictive Coding (arXiv, 2018). Il punto teorico, e qui la classe dell’affermazione è uso documentato, non analogia: minimizzare la loss InfoNCE massimizza un limite inferiore sull’informazione mutua tra le due viste. Gli autori dimostrano il legame esplicito

I(x; c) \geq \log N - \mathcal{L}_N,

dove $N$ è il numero di campioni considerati (un positivo più $N-1$ negativi) e $\mathcal{L}_N$ è la loss InfoNCE.

Si legge così: abbassando la loss si alza il limite inferiore, quindi spingere giù $\mathcal{L}_N$ con la discesa del gradiente significa garantire che l’informazione mutua tra le viste sia almeno un certo valore. E poiché il limite cresce con $\log N$ , più negativi rendono possibile un bound più alto — è il motivo pratico per cui questi metodi usano batch grandi, pieni di negativi. Lo stesso impianto è alla base di metodi come SimCLR (Chen et al., 2020). Questi obiettivi sono letteralmente la quantità di Shannon, ottimizzata in modo approssimato.

Qui scatta la cautela, ed è una cautela forte, perché è un dibattito aperto in letteratura. Sarebbe naturale concludere “il contrastive learning funziona perché massimizza l’informazione mutua”. Michael Tschannen e colleghi, nel paper On Mutual Information Maximization for Representation Learning (ICLR 2020), mostrano che questa spiegazione non regge: il successo di questi metodi non è attribuibile alla massimizzazione dell’informazione mutua di per sé, ma dipende fortemente dalle scelte architetturali del modello e dalla forma dello stimatore usato.

Anzi, l’argomento più affilato sfrutta una proprietà vista nella meccanica: l’informazione mutua è invariante per trasformazioni invertibili. Se massimizzare l’informazione mutua fosse davvero l’obiettivo, una rappresentazione che si limitasse a copiare l’input in modo invertibile la massimizzerebbe perfettamente — e sarebbe inutile, perché non ha estratto nulla.

Che i metodi contrastivi diano invece rappresentazioni utili segnala che a fare il lavoro è qualcos’altro: l’inductive bias dell’architettura, e una struttura che somiglia più al deep metric learning che alla massimizzazione di una quantità informazionale. La conclusione onesta: InfoNCE è un limite inferiore sull’informazione mutua (fatto), ma “funziona perché massimizza l’informazione mutua” è una spiegazione contestata (dibattito).

Applicazioni pratiche

L’informazione mutua compare nel lavoro quotidiano con l’AI in più punti, alcuni come strumento esatto, altri come obiettivo di ottimizzazione, altri ancora come quadro concettuale dibattuto.

Feature selection. Quando si hanno molte variabili candidate e si vogliono tenere solo le utili a predire un target, un criterio diretto è scegliere quelle con la più alta informazione mutua $I(\text{feature}; \text{target})$ . È un uso esatto e documentato: misura quanto conoscere una feature riduce, in media, l’incertezza sul target, catturando anche dipendenze non lineari che la correlazione mancherebbe.

Una raffinatezza nota è il criterio mRMR (minimum redundancy maximum relevance, Peng et al., 2005), che massimizza la rilevanza $I(\text{feature}; \text{target})$ minimizzando contemporaneamente la ridondanza $I(\text{feature}_j; \text{feature}_k)$ tra le feature scelte: non basta che ogni feature sia informativa, devono anche dire cose diverse tra loro, altrimenti se ne tengono dieci copie della stessa informazione. Il dettaglio dell’uso in selezione è già nell’esempio di Canali, rumore, capacità, che non ripetiamo.

Representation learning e self-supervised. Come nell’esempio del contrastive learning sopra, gli obiettivi contrastivi (InfoNCE e parenti) massimizzano un limite inferiore sull’informazione mutua tra viste diverse dello stesso dato. È la quantità di Shannon usata come funzione obiettivo di apprendimento, non solo come misura a posteriori.

La riserva di Tschannen et al. (2020) resta valida e va ripetuta ogni volta: il bound è reale (fatto), l’attribuzione causale del successo alla massimizzazione dell’informazione mutua è dibattuta (interpretazione contestata). Il quadro più ampio — imparare rappresentazioni utili e self-supervised — è il tema di representation learning (in preparazione) e contrastive learning (in preparazione).

Disentanglement. Imparare rappresentazioni in cui fattori di variazione distinti (per un volto: posa, illuminazione, identità) finiscono in dimensioni separate e indipendenti passa per misure basate sull’informazione mutua. L’idea: dimensioni che catturano fattori diversi dovrebbero avere bassa informazione mutua tra loro (sono indipendenti) e alta informazione mutua ciascuna con il proprio fattore. È la nozione di indipendenza di questo capitolo — $I = 0$ se e solo se indipendenti — usata come obiettivo di progettazione.

Modelli come il beta-VAE (Higgins et al., 2017) penalizzano termini legati all’informazione mutua tra dimensioni latenti per favorire la fattorizzazione. Con la solita cautela: misurare quelle informazioni mutue è difficile, e molti metodi usano surrogati, non la quantità esatta. Il dettaglio sta nel capitolo sul variational autoencoder (in preparazione).

Interpretabilità e probing. Per chiedersi “quanto una rappresentazione interna codifica un concetto” — per esempio, quanto le attivazioni di un layer codificano “il testo è in inglese” — una formulazione naturale è l’informazione mutua tra l’attivazione e la presenza del concetto. Alta informazione mutua significa che il concetto è leggibile da quelle attivazioni; bassa, che non lo è (o non in quel punto della rete).

Nella pratica si stima quasi sempre con un probing classifier, un piccolo modello addestrato a predire il concetto dalle attivazioni, usando la sua accuratezza come proxy dell’informazione mutua, proprio perché stimarla esattamente è arduo. La sostituzione non è gratis — l’accuratezza di un probe dipende dalla sua capacità, non solo dall’informazione presente — ma è il compromesso pratico più diffuso. Il tema vive in probing (in preparazione) e interpretabilità (in preparazione).

Information bottleneck. Il metodo dell’information bottleneck (Tishby, Pereira, Bialek, The Information Bottleneck Method, Allerton 1999) cerca una rappresentazione compressa $T$ di un input $X$ che minimizzi $I(X;T)$ — butta via i dettagli — mantenendo alta $I(T;Y)$ , l’informazione utile a predire il target $Y$ . Entrambi i termini sono informazione mutua: comprimere senza perdere ciò che conta è, letteralmente, abbassare una informazione mutua tenendo alta l’altra.

La data processing inequality di questo capitolo è ciò che dà senso al “collo di bottiglia”: poiché $T$ è ottenuto da $X$ , $I(T;Y)$ non può superare $I(X;Y)$ , e il gioco è avvicinarsi a quel tetto comprimendo il più possibile. L’idea concettuale è feconda; la sua applicazione specifica a leggere il deep learning è invece dibattuta, come la prossima sezione dettaglia.

Dove si rompe

L’informazione mutua è una quantità ben definita e con proprietà solide. Ciò che si rompe è l’intuizione di chi la usa: quando le si attribuiscono significati che non ha, quando se ne confonde la stima con il valore vero, o quando si dimentica quanto sia fragile in alta dimensione. Questa è la sezione che evita gli errori più costosi.

Informazione mutua alta non vuol dire correlazione alta, né viceversa. Sono due misure diverse di due cose diverse. La correlazione vede solo la dipendenza lineare; l’informazione mutua vede qualsiasi dipendenza.

Una coppia può avere correlazione zero e informazione mutua alta (la parabola dell’esempio numerico). Può anche avere correlazione moderata e informazione mutua che racconta una storia più ricca, perché coglie struttura oltre la retta. Usare l’una al posto dell’altra senza saperlo porta a conclusioni opposte sullo stesso dato — ed è il tipo di errore che resta invisibile finché qualcuno non lo cerca.

Informazione mutua non è causalità. È simmetrica: $I(X;Y) = I(Y;X)$ . Misura quanto due variabili sono legate, non chi causa chi. Una feature con alta informazione mutua col target non è per ciò stesso una causa del target: è solo informativa su di esso.

Potrebbe essere un effetto del target, o entrambi effetti di una terza causa comune (il caso del confondente). Trattare “alta informazione mutua” come “relazione causale” è un errore frequente e costoso; per la causa servono gli strumenti di Correlazione, confondenti, causalità e dell’inferenza causale, non l’informazione mutua, che resta — proprio come la correlazione — muta sulla direzione.

La stima dell’informazione mutua non è l’informazione mutua. Questa è forse la confusione più insidiosa nel deep learning. L’informazione mutua è una quantità oggettiva — come una lunghezza — solo se conosci le distribuzioni. Stimata da dati, il numero che leggi dipende fortemente dal metodo (binning, KSG, stimatori neurali), dal numero di campioni e dalla dimensione. Il binning ingenuo ha bias positivo, come mostra l’esempio in codice.

E c’è un limite più profondo. David McAllester e Karl Stratos, in Formal Limitations on the Measurement of Mutual Information (AISTATS 2020), mostrano che qualsiasi limite inferiore basato su campioni è esso stesso limitato, dell’ordine del logaritmo del numero di campioni.

Il bound InfoNCE, per esempio, non può superare $\log N$ : se la vera informazione mutua è più grande, la stima si satura al tetto del bound e non al valore reale. Quando un lavoro afferma “questa rappresentazione ha alta informazione mutua col target”, la stima va guardata con sospetto sano: potrebbe essere il bound saturo che riporti il suo massimo, non la quantità vera.

Il diagramma di Venn dell’informazione regge solo per due variabili. Per due cerchi l’intersezione è sempre non negativa e tutto torna: aree, mezzelune, unione, ogni regione ha un significato informazionale coerente.

Per tre o più variabili, l’analogo dell’intersezione — l’interaction information — può essere negativo, e un’area negativa non esiste. Chi si fida del disegno con tre cerchi finisce per cercare un’intuizione insiemistica che la matematica non concede. A più di due variabili la decomposizione dell’informazione condivisa è genuinamente più complicata, ed è tuttora ricerca aperta.

Massimizzare l’informazione mutua non spiega da solo il successo del self-supervised. È il dibattito dell’esempio sul contrastive learning, e merita di stare tra i fraintendimenti perché è la tentazione più naturale per chi arriva qui con in mano i metodi moderni.

Gli obiettivi contrastivi sono limiti inferiori sull’informazione mutua (fatto), ma l’idea che funzionino perché massimizzano l’informazione mutua è contestata. Tschannen et al. (2020) mostrano che contano di più l’architettura del feature extractor e la forma dello stimatore, e che la sola massimizzazione dell’informazione mutua — invariante per trasformazioni invertibili — potrebbe dare rappresentazioni inutili.

Presentare “il contrastive learning massimizza la MI” come spiegazione completa del suo funzionamento è scivolare da un fatto a un’interpretazione dibattuta, esattamente il tipo di salto che la disciplina delle classi di affermazioni serve a evitare.

La teoria dell’information bottleneck del deep learning è dibattuta, non un fatto. Il metodo dell’information bottleneck è un’idea concettuale feconda. Ma la proposta specifica di leggere le reti profonde come una catena di information bottleneck con una “fase di fitting” seguita da una “fase di compressione” (Tishby & Zaslavsky, 2015) è stata contestata empiricamente.

Andrew Saxe e colleghi, in On the Information Bottleneck Theory of Deep Learning (ICLR 2018), hanno mostrato che le affermazioni centrali non valgono in generale: la “compressione” osservata dipende dalla nonlinearità usata (le funzioni tanh, che saturano da entrambi i lati, comprimono; le ReLU no), e non è una proprietà universale del deep learning.

L’information bottleneck come quadro concettuale: interessante. La specifica teoria del deep learning come spiegazione di come le reti imparano: prospettiva aperta, mai risultato consolidato. (Lo stesso dibattito è marcato in Canali, rumore, capacità.)

Informazione mutua alta non vuol dire utile in senso pratico. Come l’entropia, l’informazione mutua misura quanta incertezza si risolve, non quanto la cosa risolta sia interessante o azionabile.

Una feature può avere informazione mutua altissima con il target ed essere inutilizzabile, perché disponibile solo dopo che il target è noto — un caso di leakage (per esempio “il cliente ha ricevuto la mail di disdetta” come predittore di “il cliente ha disdetto”). La quantità di Shannon è onesta sul proprio significato (riduzione di incertezza) e non promette rilevanza operativa: quella va giudicata a parte.

L’informazione mutua per variabili continue richiede attenzione. Per variabili continue la somma diventa un integrale e l’entropia diventa entropia differenziale, che — a differenza di quella discreta — può essere negativa e dipende dall’unità di misura scelta.

L’informazione mutua resta ben definita e non negativa anche nel continuo, perché è una differenza in cui le dipendenze dall’unità di misura si cancellano. Ma il calcolo passa per densità di probabilità che vanno stimate, ed è qui che rientrano tutte le difficoltà di stima già viste. Applicare meccanicamente formule pensate per il caso discreto — per esempio discretizzando senza pensarci — a dati continui è una fonte silenziosa di errori.

Collegamenti

Informazione come riduzione di incertezza: fissa entropia e informazione come sorpresa, i prerequisiti su cui l’informazione mutua è costruita. L’entropia $H(X)$ e l’idea di incertezza media vengono da lì.
Canali, rumore, capacità: l’altra faccia dell’informazione mutua, al servizio della capacità del canale, dove $H(Y \mid X)$ è il rumore e la capacità è il massimo di $I(X;Y)$ . Qui la stessa quantità è misura di dipendenza; lì è strumento di trasmissione.
Entropia, cross-entropy, KL divergence: la macchina di calcolo di entropia condizionata e divergenza KL. Il legame chiave del capitolo — l’informazione mutua è la KL tra congiunta e prodotto delle marginali — vive qui, e da lì discendono non-negatività e zero-sse-indipendenti.
Correlazione, confondenti, causalità: il confronto centrale del capitolo. L’informazione mutua cattura dipendenze non lineari che la correlazione manca, ma resta — come la correlazione — incapace di dire chi causa chi.
La maledizione della dimensionalità: perché stimare l’informazione mutua in alta dimensione è così difficile. Le celle del binning si svuotano e le distanze perdono significato esattamente per le ragioni discusse lì.
Distribuzioni, valore atteso, varianza: distribuzione congiunta, marginali e indipendenza, i mattoni di probabilità su cui poggia l’intera definizione.
rate-distortion (in preparazione): la compressione lossy, dove l’informazione mutua compare nel compromesso tra quanto si comprime e quanta informazione rilevante si perde.
informazione-apprendimento (in preparazione): l’apprendimento come estrazione di struttura, dove l’information bottleneck e l’informazione mutua tra dati e rappresentazione tornano centrali.
reti bayesiane (in preparazione): l’informazione mutua condizionata e la d-separation, dove condizionare su una terza variabile cambia la dipendenza tra due.

Per andare oltre

Shannon, C. E. (1948). A Mathematical Theory of Communication, Bell System Technical Journal, vol. 27. Il paper fondante. L’informazione mutua nasce qui come informazione condivisa tra ingresso e uscita di un canale, in una prosa sorprendentemente leggibile.
Cover, T. M. & Thomas, J. A. (2006). Elements of Information Theory, 2a ed., Wiley. Il riferimento didattico standard: capitolo 2 con entropia condizionata, informazione mutua, chain rule, data processing inequality e relazione con la divergenza KL, con dimostrazioni complete.
Kraskov, A., Stögbauer, H. & Grassberger, P. (2004). Estimating mutual information, Physical Review E 69, 066138. Lo stimatore non parametrico di riferimento per variabili continue, basato sulle distanze al $k$ -esimo vicino più prossimo. Da leggere se si stima davvero l’informazione mutua dai dati.
van den Oord, A., Li, Y. & Vinyals, O. (2018). Representation Learning with Contrastive Predictive Coding, arXiv:1807.03748. Introduce la loss InfoNCE e il limite inferiore $I(x;c) \geq \log N - \mathcal{L}_N$ , base teorica del contrastive self-supervised. Da leggere insieme a Tschannen et al. (2020), On Mutual Information Maximization for Representation Learning (ICLR 2020), per la classe corretta dell’affermazione: il bound è reale, la spiegazione del successo è dibattuta.
Belghazi, M. I. et al. (2018). MINE: Mutual Information Neural Estimation, ICML 2018, arXiv:1801.04062. Lo stimatore neurale della informazione mutua basato sulla rappresentazione di Donsker-Varadhan della divergenza KL, scalabile in alta dimensione — con i limiti di stima discussi in McAllester & Stratos, Formal Limitations on the Measurement of Mutual Information (AISTATS 2020).