Salta ai contenuti

Legge dei grandi numeri e teorema del limite centrale

Due teoremi che la pratica confonde di continuo: uno dice che la media converge al valore vero, l’altro dice che forma ha l’errore mentre converge. Tenerli distinti è la differenza tra capire un’error bar e inventarsela.

Un dado equo ha valore atteso 3,5. Lancialo dieci volte e fai la media: potresti ottenere 2,9, oppure 4,1, raramente esattamente 3,5. Lancialo diecimila volte e la media sarà quasi certamente tra 3,46 e 3,54.

Questo fatto — la media empirica si avvicina al valore atteso al crescere del numero di prove — è così familiare da sembrare ovvio. Non lo è. Per dimostrarlo in modo rigoroso, anche solo nel caso più semplice di una moneta, a Jacob Bernoulli servirono oltre vent’anni di lavoro. Il risultato, la legge dei grandi numeri, è uno dei due pilastri su cui poggia tutta l’inferenza statistica.

Il secondo pilastro è meno intuitivo e più sorprendente. Non riguarda dove la media va a finire, ma come fluttua attorno a quel punto di arrivo. Se ripeti l’esperimento “lancia il dado trenta volte e calcola la media” molte volte, e disegni l’istogramma di tutte quelle medie, ottieni una campana gaussiana — una curva a campana liscia e simmetrica.

Questo accade nonostante la distribuzione di un singolo dado sia piatta, niente affatto a campana. E accade quasi sempre, quale che sia la distribuzione di partenza. Questo è il teorema del limite centrale, e la sua universalità è il motivo per cui la curva gaussiana compare ovunque nei dati.

I due teoremi rispondono a due domande diverse e vanno tenuti separati con disciplina, perché la confusione tra loro è uno degli errori concettuali più diffusi. La legge dei grandi numeri dice che la media campionaria converge al valore atteso. Il teorema del limite centrale dice qual è la forma della distribuzione di quella media mentre converge — una Normale di ampiezza calcolabile. Il primo dà il punto d’arrivo; il secondo dà il profilo dello scarto residuo.

Per chi costruisce sistemi AI questo non è folklore matematico. Ogni metrica calcolata su un test set — accuratezza, tasso di errore, win rate — è una media campionaria. Il primo teorema garantisce che, con abbastanza esempi, quella metrica si avvicina al valore vero. Il secondo dice quanto è larga la barra di incertezza attorno ad essa, e da dove vengono le error bar che separano un miglioramento reale dal rumore. Chi riporta una metrica senza la sua incertezza sta usando solo metà dei due teoremi.

L’errore che ne deriva è concreto e quotidiano. Un modello che segna il 91,3% contro un altro al 90,8% su un benchmark da poche centinaia di esempi viene proclamato “migliore”, si scrive un post, si cambia il modello in produzione — e quel mezzo punto era rumore di campionamento, sparito alla valutazione successiva. I due teoremi di questo capitolo sono lo strumento per non cadere in questa trappola: dicono, con un conto di poche righe, quando una differenza è segnale e quando è rumore. Senza di loro ogni confronto di numeri è una scommessa travestita da misura.

La legge dei grandi numeri nasce da un problema concreto e antico: stimare una probabilità ignota a partire da osservazioni. Quando l’esito di un fenomeno è incerto — un gioco d’azzardo, la mortalità di una popolazione, la qualità di una merce — quanto possiamo fidarci della frequenza osservata come stima della probabilità reale?

Jacob Bernoulli (matematico svizzero di Basilea, 1655-1705) affrontò la domanda e la trasformò in un teorema. La sua opera, Ars Conjectandi (L’arte di congetturare), fu scritta tra il 1684 e il 1689 circa ma pubblicata postuma solo nel 1713, a cura del nipote Nicolaus I Bernoulli, otto anni dopo la morte dell’autore. È considerata l’opera fondativa della probabilità matematica.

Al suo interno c’è il risultato che Bernoulli chiamava theorema aureum, il teorema d’oro: in una serie di prove indipendenti con due soli esiti possibili, la frequenza relativa di un esito converge alla sua probabilità vera. Vent’anni di lavoro per dimostrare in modo rigoroso ciò che oggi sembra ovvio — segno che l’intuizione “più prove, più affidabilità” non è affatto banale da rendere precisa.

Il nome con cui lo conosciamo oggi arrivò più di un secolo dopo. Fu Siméon Denis Poisson (matematico francese, 1781-1840) a coniare nel 1837 l’espressione la loi des grands nombres, la legge dei grandi numeri. La versione di Bernoulli era limitata alle variabili binarie — sì o no, testa o croce; generalizzarla a qualsiasi tipo di variabile e renderla rigorosa nel senso moderno richiese altri due secoli.

I passi decisivi sono opera della scuola probabilistica sovietica. Aleksandr Khinchin (matematico sovietico, 1894-1959) dimostrò nel 1929 la forma debole nel caso generale, mostrando che basta l’esistenza del valore atteso. Andrey Kolmogorov (matematico sovietico, 1903-1987, lo stesso che nel 1933 diede alla probabilità la sua assiomatizzazione moderna) dimostrò nel 1930 la forma forte, e nel 1933 chiuse il cerchio provando che la condizione del valore atteso finito è anche necessaria — senza di essa, la media non converge.

Il teorema del limite centrale ha una storia parallela e altrettanto lunga. Il primo nucleo è del 1733: Abraham de Moivre (matematico francese ugonotto, emigrato a Londra per sfuggire alle persecuzioni religiose, 1667-1754) scoprì che il numero di teste in molti lanci di una moneta equa si distribuisce approssimativamente secondo una curva a campana.

Il risultato di de Moivre rimase quasi dimenticato fino al 1812, quando Pierre-Simon Laplace (matematico e astronomo francese, 1749-1827) lo recuperò e generalizzò nella sua Théorie analytique des probabilités, approssimando la distribuzione binomiale con la Normale. Il caso binomiale porta ancora il nome di teorema di de Moivre-Laplace.

La forma generale e rigorosa arrivò ancora con la scuola matematica russa. Aleksandr Lyapunov (matematico russo, 1857-1918) diede nel 1901 la prima dimostrazione valida in un contesto generale, per somme di variabili indipendenti anche non identicamente distribuite, sotto una condizione tecnica che porta il suo nome.

Negli anni 1920 il quadro si completò. Jarl Lindeberg (matematico finlandese, 1876-1932) trovò nel 1922 una condizione più debole e quindi più potente di quella di Lyapunov, e Paul Lévy (matematico francese, 1886-1971) formulò la versione per variabili identicamente distribuite che oggi si insegna ovunque. Per questo l’enunciato classico si chiama teorema del limite centrale di Lindeberg-Lévy. Il nome stesso “teorema del limite centrale” — in tedesco zentraler Grenzwertsatz — fu introdotto da George Pólya nel 1920.

Nel grafo di questa wiki, questo capitolo poggia su quanto costruito prima nella Parte V. Il capitolo Popolazione, campione, stimatore ha fissato il vocabolario di base — popolazione, campione, parametro, stimatore. Il capitolo Le distribuzioni comuni ha presentato la Bernoulliana, la binomiale e la Normale, che qui ritornano come protagoniste. Il capitolo Campionamento ha mostrato come si estrae un campione e perché l’estrazione casuale conta.

Sul versante della Parte IV, il capitolo Distribuzioni, valore atteso, varianza ha definito valore atteso e varianza, i due numeri attorno a cui ruota tutto questo capitolo. Quanto segue userà liberamente quei concetti. Una osservazione di metodo, prima di iniziare: i due teoremi sono stati raffinati per tre secoli, ma le loro versioni elementari — quella di Bernoulli per la legge dei grandi numeri, quella di de Moivre-Laplace per il limite centrale — bastano per capire ogni applicazione pratica trattata qui.

Prima di qualsiasi formula, due modi distinti di vedere cosa dicono i due teoremi — e perché sono due teoremi e non uno.

Primo angolo: il punto d’arrivo e la forma dello scarto

Sezione intitolata “Primo angolo: il punto d’arrivo e la forma dello scarto”

Immagina di voler conoscere l’altezza media degli adulti di una città. Non puoi misurarli tutti, così ne misuri un campione e fai la media. Quella media è un numero che dipende dal caso: se avessi pescato altre persone, sarebbe venuto un valore leggermente diverso.

La legge dei grandi numeri risponde a una prima domanda: se il campione è grande, dove va a finire questa media? Risposta: si avvicina all’altezza media vera della popolazione. Più persone misuri, più la media campionaria si incolla al valore vero. È una promessa sul punto d’arrivo. Non dice nulla su come la media si muove mentre il campione cresce — dice solo che, alla fine, arriva dove deve.

Il teorema del limite centrale risponde a una seconda domanda, diversa. Fissa una dimensione del campione, diciamo trenta persone, e immagina di ripetere l’intero esperimento mille volte: mille campioni da trenta persone, mille medie. Quelle mille medie non saranno tutte uguali — sono sparse attorno al valore vero. Che forma ha questa nuvola di medie? Risposta: una campana gaussiana. Il teorema del limite centrale descrive il profilo dello scarto: come le medie si distribuiscono attorno al loro punto d’arrivo.

La distinzione è netta e va memorizzata. La legge dei grandi numeri dice che la media converge — dà la destinazione. Il teorema del limite centrale dice come fluttua attorno alla destinazione mentre ci arriva — dà la forma dell’errore. Un teorema senza l’altro è incompleto: sapere dove si arriva senza sapere quanto si può sbagliare strada facendo non basta per costruire una barra di incertezza, e una barra di incertezza è ciò che separa un risultato da un’opinione.

C’è un’immagine che li tiene insieme. Pensa a un arciere che tira frecce a un bersaglio. La legge dei grandi numeri dice che, mediando le posizioni di tante frecce, il punto medio si avvicina al centro del bersaglio. Il teorema del limite centrale descrive la nuvola dei punti medi: se l’arciere ripete molte serie di tiri e segna il baricentro di ogni serie, quei baricentri formano una campana attorno al centro. Il primo teorema dice che la nuvola è centrata sul bersaglio; il secondo dice che la nuvola ha forma gaussiana e quanto è larga.

Secondo angolo: perché le irregolarità si annullano a vicenda

Sezione intitolata “Secondo angolo: perché le irregolarità si annullano a vicenda”

Perché mediare dovrebbe produrre proprio una campana gaussiana, e non una qualunque altra forma? Ecco un’intuizione, non una dimostrazione.

Pensa a una singola estrazione da una distribuzione storta — per esempio il tempo che impiega una richiesta di rete: spesso breve, ogni tanto lunghissima, mai negativa. La distribuzione è asimmetrica, con una lunga coda a destra. Un singolo valore può cadere ovunque, anche molto lontano nella coda.

Ora prendi la media di due estrazioni. Perché la media sia molto alta, entrambe devono essere alte: un evento più raro che averne una sola alta. Le code si ammorbidiscono.

Prendi ora la media di trenta estrazioni. Perché la media finisca lontano dal centro, trenta valori indipendenti devono cospirare quasi tutti nella stessa direzione — sempre più improbabile. I valori alti di alcune estrazioni vengono compensati dai valori bassi di altre. Le irregolarità della distribuzione di partenza — l’asimmetria, i picchi, le code — si elidono a vicenda nel processo di media.

Quello che resta, una volta che le irregolarità si sono cancellate, è una forma universale: la campana gaussiana. È universale perché non porta più traccia della distribuzione originale; porta solo traccia del fatto di essere una media di molti contributi indipendenti. Tutte le distorsioni specifiche sono state lavate via dalla media. La Normale è ciò che rimane quando si toglie tutto il resto.

Questo spiega perché la curva gaussiana compare così spesso nei dati reali. L’altezza di una persona è la somma di moltissimi piccoli contributi indipendenti — tanti geni, tante condizioni di crescita; l’errore di uno strumento di misura è la somma di tante piccole perturbazioni.

Ogni volta che una quantità è la somma o la media di molti fattori indipendenti, nessuno dei quali domina, il teorema del limite centrale prevede una campana. La Normale non è comune per magia: è comune perché molte cose nel mondo sono somme. La campana è meno una forma “naturale” che la firma di un processo additivo con molti termini.

C’è un avvertimento già qui, che la sezione “Dove si rompe” riprenderà: questo argomento intuitivo ha un punto debole nascosto, ed è la parola “nessuno dei quali domina”. Se un singolo contributo può essere così grande da dominare la somma — code molto pesanti — le irregolarità non si annullano, e la campana non si forma. Ma per la stragrande maggioranza dei casi pratici l’intuizione regge.

Terzo angolo: la radice quadrata che governa tutto

Sezione intitolata “Terzo angolo: la radice quadrata che governa tutto”

C’è un terzo modo di guardare i due teoremi, più quantitativo, e fa emergere il numero che domina ogni applicazione pratica: la radice quadrata.

Riprendi la nuvola di medie del primo angolo. La legge dei grandi numeri dice che la nuvola si restringe sempre più attorno al valore vero. Ma a che velocità si restringe? Se raddoppi la dimensione del campione, la nuvola si dimezza?

La risposta, sorprendente la prima volta che la si incontra, è no: raddoppiando i dati la larghezza della nuvola si riduce solo di un fattore 2\sqrt 2, circa 1,41. Per dimezzarla davvero servono quattro volte tanti dati.

Il motivo intuitivo sta in come si combinano le dispersioni. Quando sommi nn valori indipendenti, ciascuno con la sua dispersione, le dispersioni non si sommano direttamente: si sommano le varianze, e la varianza è una dispersione al quadrato.

La somma di nn termini ha quindi varianza nn volte quella di uno solo, e dispersione n\sqrt n volte quella di uno solo. La media — la somma divisa per nn — ha allora dispersione n/n=1/n\sqrt n / n = 1/\sqrt n volte quella di partenza. La radice quadrata entra perché si sommano quadrati, non lunghezze. È lo stesso motivo per cui, nel teorema di Pitagora, due cateti uguali a 1 danno un’ipotenusa di 2\sqrt 2 e non 2.

Tieni a mente l’immagine del cammino casuale. Un ubriaco parte da un lampione e fa nn passi, ognuno avanti o indietro a caso. Dove si trova dopo nn passi? Non a nn passi di distanza — i passi avanti e indietro si compensano in larga parte. La distanza tipica dal lampione cresce come n\sqrt n: dopo 100 passi è a una decina di passi, dopo 10.000 passi a un centinaio.

È lo stesso n\sqrt n dell’errore standard, visto da un’altra angolazione. La somma di tante deviazioni indipendenti non cresce linearmente, cresce con la radice quadrata, perché le deviazioni si annullano parzialmente fra loro. Questa radice quadrata è il filo rosso che lega ogni esempio e ogni applicazione di questo capitolo: ricompare nell’errore standard di una metrica, nel rumore del gradiente di mini-batch, nel costo dei metodi Monte Carlo.

Ora il formalismo, introdotto un simbolo alla volta. Lo scenario è sempre lo stesso: hai una sequenza di osservazioni X1,X2,X3,X_1, X_2, X_3, \dots che sono variabili aleatorie indipendenti e identicamente distribuite — abbreviato i.i.d. Indipendenti significa che il valore di una non influenza le altre; identicamente distribuite significa che provengono tutte dalla stessa distribuzione. Di quella distribuzione chiamiamo μ\mu il valore atteso (la media teorica, E[Xi]=μE[X_i]=\mu) e σ2\sigma^2 la varianza (la dispersione teorica, Var[Xi]=σ2\text{Var}[X_i]=\sigma^2).

L’oggetto centrale è la media campionaria, la media dei primi nn valori:

Xˉn=1ni=1nXi\bar X_n = \frac{1}{n}\sum_{i=1}^{n} X_i

In parole povere: somma le prime nn osservazioni e dividi per nn. La barra sopra la XX è la notazione standard per “media”. Il punto da tenere presente è che Xˉn\bar X_n è essa stessa una variabile aleatoria: dipende da quali valori sono stati estratti, quindi ha un suo valore atteso e una sua varianza. Un calcolo diretto dà:

E[Xˉn]=μeVar[Xˉn]=σ2nE[\bar X_n] = \mu \qquad \text{e} \qquad \text{Var}[\bar X_n] = \frac{\sigma^2}{n}

La prima uguaglianza dice che, in media, la media campionaria coglie il bersaglio: non è sistematicamente troppo alta né troppo bassa. La seconda è il cuore di tutto: la varianza della media campionaria è quella delle singole osservazioni divisa per n. Più osservazioni, più la media campionaria è concentrata. È da qui che discendono entrambi i teoremi.

La legge dei grandi numeri esiste in due versioni, una più forte dell’altra. La differenza è tecnica ma vale la pena vederla, perché chiarisce in che senso “la media converge”.

La legge debole afferma la convergenza in probabilità:

limnP(Xˉnμε)=0per ogni ε>0\lim_{n\to\infty} P\big(|\bar X_n - \mu| \ge \varepsilon\big) = 0 \qquad \text{per ogni } \varepsilon > 0

In parole povere: scegli una tolleranza ε\varepsilon piccola a piacere. La probabilità che la media campionaria, a un nn fissato e grande, si discosti da μ\mu di più di ε\varepsilon diventa piccola quanto vuoi pur di prendere nn abbastanza grande. È un’affermazione “un nn alla volta”: per ogni dimensione grande del campione, la media è probabilmente vicina al valore vero.

La legge forte afferma qualcosa di più, la convergenza quasi certa:

P(limnXˉn=μ)=1P\Big(\lim_{n\to\infty} \bar X_n = \mu\Big) = 1

In parole povere: se segui l’intera successione delle medie Xˉ1,Xˉ2,Xˉ3,\bar X_1, \bar X_2, \bar X_3, \dots come una sequenza numerica, quella sequenza converge davvero a μ\mu, e questo accade con probabilità 1.

La differenza con la debole è sottile. La debole lascia aperta la possibilità che la media, ogni tanto, torni a scostarsi parecchio da μ\mu, purché sempre più di rado; la forte esclude che questo accada — da un certo punto in poi la media resta vicina a μ\mu e non se ne allontana più. La legge forte implica la debole; non vale il contrario. Per il lavoro quotidiano la distinzione raramente cambia qualcosa: entrambe dicono “più dati, media più affidabile”. Vale la pena conoscerla soprattutto per non confondere i due tipi di convergenza quando si legge un testo formale.

Vale la pena vedere perché la legge debole è vera, perché la dimostrazione è corta e illuminante. Si usa la disuguaglianza di Chebyshev (da Pafnuty Chebyshev, matematico russo, 1821-1894, maestro di Lyapunov e Markov), uno strumento generale che limita la probabilità che una variabile aleatoria si discosti dalla sua media. Applicata alla media campionaria, dice:

P(Xˉnμε)Var[Xˉn]ε2=σ2nε2P\big(|\bar X_n - \mu| \ge \varepsilon\big) \le \frac{\text{Var}[\bar X_n]}{\varepsilon^2} = \frac{\sigma^2}{n\,\varepsilon^2}

Leggiamola con calma. A sinistra c’è la probabilità che la media campionaria sbagli di più di ε\varepsilon. A destra c’è una quantità che, fissati σ\sigma ed ε\varepsilon, va a zero come 1/n1/n.

Quindi la probabilità a sinistra, schiacciata da sopra da qualcosa che tende a zero, tende a zero. La media campionaria deve concentrarsi attorno a μ\mu. Il motore è la formula Var[Xˉn]=σ2/n\text{Var}[\bar X_n]=\sigma^2/n: è la varianza della media che si schiaccia, e la massa di probabilità con essa.

Un numero rende tangibile il meccanismo. Torna alla moneta equa, dove μ=0,5\mu = 0{,}5 e σ2=0,25\sigma^2 = 0{,}25. Quanto vale la probabilità che la frequenza di teste si discosti dal 50% di più di 5 punti, cioè ε=0,05\varepsilon = 0{,}05? La disuguaglianza di Chebyshev dà un limite superiore 0,25/(n0,0025)=100/n0{,}25/(n \cdot 0{,}0025) = 100/n.

Con n=100n=100 lanci il limite è 1, inutile — Chebyshev non promette nulla. Con n=10000n=10\,000 lanci scende a 0,01: la frequenza è entro 50%±5%50\% \pm 5\% con probabilità almeno del 99%. Con n=1000000n=1\,000\,000 scende a 0,0001. Il limite è grossolano — la probabilità vera è molto più piccola — ma cattura la cosa essenziale: la garanzia si stringe al crescere di nn, e si stringe come 1/n1/n.

Questa è, in forma moderna, la stessa affermazione che Bernoulli faticò vent’anni a dimostrare per il caso binario: data una qualunque tolleranza e una qualunque soglia di confidenza, esiste un numero di prove abbastanza grande da rispettarle entrambe.

C’è un dettaglio che la dimostrazione di Chebyshev mette in ombra. La disuguaglianza richiede varianza finita, ma la legge debole vale anche senza: Khinchin nel 1929 dimostrò che basta l’esistenza del valore atteso μ\mu.

La dimostrazione di Khinchin non passa per Chebyshev — usa le funzioni caratteristiche, uno strumento più avanzato — ma la conclusione è più generale. Per gli scopi di questo capitolo la versione con varianza finita basta e ha il pregio di una dimostrazione di tre righe; la versione di Khinchin è citata solo per onestà: la legge debole è più robusta di quanto la dimostrazione elementare lasci intuire.

La legge dei grandi numeri dice che Xˉn\bar X_n collassa su μ\mu. Ma se collassa su un punto, come può avere una “forma”? Il trucco è guardare la media con una lente d’ingrandimento che cresce insieme a nn. Si centra la media sottraendo μ\mu, e la si riscala moltiplicando per n\sqrt n. L’enunciato classico di Lindeberg-Lévy dice che questa quantità riscalata converge a una Normale:

n(Xˉnμ)  d  N(0,σ2)\sqrt{n}\,(\bar X_n - \mu) \xrightarrow{\;d\;} \mathcal{N}(0,\, \sigma^2)

La freccia con la dd significa “converge in distribuzione”: non è un numero che si avvicina a un altro numero, è una forma che si avvicina a un’altra forma. Il simbolo N(0,σ2)\mathcal{N}(0,\sigma^2) è la Normale con media 0 e varianza σ2\sigma^2. In parole povere: lo scarto tra la media campionaria e il valore vero, ingrandito del fattore giusto, ha la forma di una campana gaussiana.

Perché proprio n\sqrt n e non un altro fattore? È l’unico riscalamento che dà un limite interessante. Lo scarto Xˉnμ\bar X_n - \mu da solo tende a zero — è la legge dei grandi numeri — quindi guardarlo nudo non rivela nulla: si schiaccia su un punto. Moltiplicarlo per nn lo farebbe esplodere all’infinito. Il fattore n\sqrt n è la calibrazione esatta tra i due estremi: abbastanza da non far collassare lo scarto, non così tanto da farlo divergere. È la lente con l’ingrandimento giusto, e non è un caso che sia la stessa radice quadrata dell’errore standard.

Una forma più maneggevole, equivalente, dice che la media campionaria stessa è approssimativamente Normale:

Xˉn    N ⁣(μ,  σ2n)\bar X_n \;\approx\; \mathcal{N}\!\left(\mu,\; \frac{\sigma^2}{n}\right)

Cioè: per nn grande, la distribuzione campionaria della media è una campana centrata sul valore vero μ\mu e con varianza σ2/n\sigma^2/n. E la versione standardizzata, la più usata in pratica:

Zn=Xˉnμσ/n  d  N(0,1)Z_n = \frac{\bar X_n - \mu}{\sigma/\sqrt n} \xrightarrow{\;d\;} \mathcal{N}(0,1)

dove N(0,1)\mathcal{N}(0,1) è la Normale standard, media 0 e varianza 1.

Il punto che rende questo teorema notevole è una sola parola: indipendentemente. La distribuzione limite è una Normale qualunque sia la distribuzione di partenza delle XiX_i — uniforme come un dado, asimmetrica come un tempo di attesa, a due picchi, a un solo valore con probabilità diverse. L’unica condizione è che la varianza σ2\sigma^2 sia finita. La forma della campana limite non porta traccia della distribuzione originale: dipende solo da μ\mu e σ2\sigma^2. È questa universalità che spiega l’onnipresenza della Normale nei dati.

I due teoremi parlano entrambi di convergenza, ma di tipi diversi, e la differenza non è pedanteria: è esattamente ciò che li distingue. Vale la pena nominare i tre sensi in gioco.

La convergenza quasi certa è la più forte: la successione delle medie, vista come sequenza numerica, converge davvero a μ\mu, con probabilità 1. È quella della legge forte dei grandi numeri.

La convergenza in probabilità è più debole: per ogni nn grande la media è probabilmente vicina a μ\mu, ma la sequenza, come oggetto, non è garantito che si stabilizzi una volta per tutte. È quella della legge debole.

La convergenza in distribuzione è di natura completamente diversa dalle prime due. Non dice che un numero aleatorio si avvicina a un numero fisso; dice che la forma di una distribuzione si avvicina a un’altra forma. È quella del teorema del limite centrale: non è n(Xˉnμ)\sqrt n(\bar X_n - \mu) a stabilizzarsi su un valore — quella quantità continua a fluttuare per sempre — è il suo istogramma a stabilizzarsi sulla campana gaussiana.

Qui sta la chiave per non confondere i due teoremi. La legge dei grandi numeri è una convergenza di un numero verso un numero: Xˉn\bar X_n verso μ\mu. Il teorema del limite centrale è una convergenza di una forma verso una forma: la distribuzione di n(Xˉnμ)\sqrt n(\bar X_n-\mu) verso la gaussiana.

La prima fa collassare la media su un punto; il secondo guarda quella stessa media attraverso una lente che ingrandisce n\sqrt n volte, e in quella lente la media non collassa affatto: rivela una campana stabile. Sono due affermazioni che non si contraddicono perché parlano di due scale diverse dello stesso fenomeno.

Vale la pena guardare da vicino il caso particolare da cui tutto cominciò, perché è il più concreto. Lancia una moneta equa nn volte e conta le teste. Il numero di teste segue una distribuzione binomiale: per nn piccolo è un istogramma di barre discrete, calcolabile con la formula del coefficiente binomiale.

de Moivre nel 1733 notò che, per nn grande, quell’istogramma di barre si lascia ricalcare quasi perfettamente da una curva continua a campana — la Normale. È il teorema di de Moivre-Laplace, e non è altro che il teorema del limite centrale applicato a variabili di Bernoulli: ogni lancio è uno 0 o un 1, il numero di teste è la loro somma, e la somma di tante variabili identiche e indipendenti tende alla Normale.

Concretamente: su nn lanci di moneta equa, il numero di teste è approssimativamente N(n/2,n/4)\mathcal{N}(n/2,\, n/4). Con n=10000n=10\,000 lanci, la Normale predice 50005000 teste con deviazione standard 2500=50\sqrt{2500}=50. Quindi è quasi certo — il 95% delle volte — osservare tra 4900 e 5100 teste. Sapere questo senza calcolare un solo coefficiente binomiale è esattamente il guadagno pratico che de Moivre regalò: una formula ingombrante sostituita da una campana.

Il motivo per cui questo caso particolare meritò tre secoli di attenzione è che mostra il teorema del limite centrale al lavoro nella sua forma più nuda. Niente distribuzione esotica: solo 0 e 1, eppure la loro somma diventa una campana. Se funziona per l’oggetto più semplice immaginabile, l’idea che funzioni in generale smette di sembrare miracolosa.

Mettiamo un nome alle cose. La distribuzione campionaria della media è la distribuzione di Xˉn\bar X_n vista come variabile aleatoria: l’istogramma che otterresti se ripetessi molte volte l’esperimento “estrai nn valori e calcola la media”. La legge dei grandi numeri dice che si stringe attorno a μ\mu; il teorema del limite centrale dice che, mentre si stringe, ha forma di campana.

L’errore standard (in inglese standard error, abbreviato SE) è la deviazione standard di questa distribuzione campionaria:

SE=σnSE = \frac{\sigma}{\sqrt n}

Attenzione a non confonderlo con σ\sigma. La quantità σ\sigma è la dispersione dei dati grezzi — quanto variano le singole osservazioni. L’errore standard è la dispersione della stima — quanto varia la media campionaria da un campione all’altro. Sono numeri diversi: σ\sigma non dipende da nn, l’errore standard sì, e va a zero al crescere di nn.

Questa confusione è una delle più diffuse nei report di esperimenti. Capita di leggere “accuratezza media 90%±4%90\% \pm 4\%” dove il 4%4\% è la deviazione standard tra le run — cioè un σ\sigma — spacciata per incertezza sulla media. Le due quantità rispondono a domande diverse: σ\sigma dice quanto varia una singola run, l’errore standard dice quanto è affidabile la media di tutte le run. Riportare l’una al posto dell’altra gonfia o sgonfia l’incertezza a seconda dei casi, e rende il numero non confrontabile con quello di chi ha fatto il calcolo giusto.

Come va a zero è la nota più importante e più scomoda. L’errore standard decresce come 1/n1/\sqrt n, non come 1/n1/n. La radice quadrata cambia tutto. Per dimezzare l’incertezza su una stima non bastano il doppio dei dati: ne servono quattro volte tanti. Per guadagnare un fattore dieci di precisione servono cento volte più dati. Questa convergenza lenta non è un dettaglio: è il prezzo strutturale di stimare per campione, e ritornerà in ogni applicazione pratica.

Esempio 1 — il dado: legge dei grandi numeri e limite centrale insieme

Sezione intitolata “Esempio 1 — il dado: legge dei grandi numeri e limite centrale insieme”

Un dado equo a sei facce. La distribuzione di un singolo lancio è uniforme: ogni valore da 1 a 6 ha probabilità 1/61/6. Il valore atteso è μ=(1+2+3+4+5+6)/6=3,5\mu = (1+2+3+4+5+6)/6 = 3{,}5 e la varianza si calcola come σ22,92\sigma^2 \approx 2{,}92.

Primo fatto, la legge dei grandi numeri. Simula i lanci e tieni traccia della media corrente:

Numero di lanciMedia empirica tipicaScarto da 3,5
104,200,70
1003,610,11
1.0003,520,02
10.0003,4980,002

La media empirica si incolla a 3,5, e lo scarto si comprime in modo regolare. Non accade perché “il dado si ricordi” dei lanci passati — ogni lancio è indipendente — ma perché i nuovi valori, mediati con la massa di quelli già accumulati, spostano la media sempre meno. Un singolo 6 dopo 10 lanci pesa per un decimo; dopo 10.000 lanci pesa per un decimillesimo. La massa accumulata fa da zavorra.

Secondo fatto, il teorema del limite centrale. Cambia esperimento: lancia il dado 30 volte, calcola la media di quei 30 lanci, e annota quel singolo numero. Ripeti l’intero esperimento 10.000 volte: ottieni 10.000 medie. Disegna l’istogramma.

L’istogramma non è affatto piatto come la distribuzione di un singolo dado: è una campana gaussiana, centrata su 3,5, con deviazione standard pari all’errore standard σ/301,71/5,480,31\sigma/\sqrt{30} \approx 1{,}71/5{,}48 \approx 0{,}31. La distribuzione di un singolo dado è piatta; la distribuzione della media di 30 dadi è una campana. Lo stesso dado, due forme diverse, perché si stanno guardando due oggetti diversi: il valore di un lancio e la media di trenta.

Esempio 2 — simulazione: una distribuzione storta diventa una campana, e una no

Sezione intitolata “Esempio 2 — simulazione: una distribuzione storta diventa una campana, e una no”

Il modo più convincente di vedere i due teoremi è simularli. Il codice seguente prende una distribuzione esponenziale — fortemente asimmetrica, con una lunga coda a destra, niente affatto a campana — e mostra che le medie campionarie diventano comunque gaussiane.

import numpy as np
def medie_campionarie(estrai, n, ripetizioni=20000):
"""Restituisce 'ripetizioni' medie, ciascuna su n estrazioni."""
return np.array([estrai(n).mean() for _ in range(ripetizioni)])
rng = np.random.default_rng(0)
# Distribuzione esponenziale: media = 1, fortemente asimmetrica.
esponenziale = lambda n: rng.exponential(scale=1.0, size=n)
for n in (1, 5, 30, 200):
medie = medie_campionarie(esponenziale, n)
se_teorico = 1.0 / np.sqrt(n) # sigma = 1 per questa esponenziale
print(f"n={n:3d} media={medie.mean():.3f} "
f"dev.st.={medie.std():.3f} SE teorico={se_teorico:.3f}")

L’output mostra due cose insieme. La colonna media resta inchiodata vicino a 1,0 per ogni nn: è la legge dei grandi numeri, la media campionaria è centrata sul valore vero a qualsiasi dimensione del campione.

La colonna dev.st. scende — circa 1,0 per n=1n=1, circa 0,45 per n=5n=5, circa 0,18 per n=30n=30, circa 0,07 per n=200n=200 — e segue da vicino la colonna SE teorico, cioè 1/n1/\sqrt n. È il teorema del limite centrale che predice l’ampiezza. Nota che da n=5n=5 a n=200n=200 il campione è 40 volte più grande ma la dispersione cala solo di circa 6 volte: 406,3\sqrt{40} \approx 6{,}3, la radice quadrata al lavoro.

Se disegni gli istogrammi delle medie, la trasformazione si vede a occhio. Per n=1n=1 l’istogramma è la coda asimmetrica dell’esponenziale, con il picco a sinistra e una lunga scia a destra. Per n=5n=5 l’asimmetria è già attenuata. A n=30n=30 la forma è una campana simmetrica pulita, indistinguibile da una gaussiana: la distribuzione di partenza, storta, ha lasciato il posto alla forma universale.

Ora il contrasto che insegna di più. Sostituisci la distribuzione esponenziale con una di Cauchy (la incontreremo tra poco nella sezione sui limiti; per ora basta sapere che è una campana dalle code molto più pesanti di una Normale):

cauchy = lambda n: rng.standard_cauchy(size=n)
for n in (1, 30, 1000, 100000):
medie = medie_campionarie(cauchy, n, ripetizioni=20000)
print(f"n={n:6d} mediana_delle_medie={np.median(medie):.3f} "
f"95-esimo percentile in valore assoluto={np.percentile(np.abs(medie),95):.1f}")

Qui succede qualcosa di inquietante. Il 95-esimo percentile delle medie in valore assoluto non scende al crescere di nn: resta grande, dell’ordine di una decina, per n=1n=1 come per n=100000n=100\,000. Mediare centomila valori di Cauchy non dà una stima più precisa di mediarne uno.

Il contrasto con l’esponenziale è totale. Lì, da n=1n=1 a n=200n=200, la dispersione delle medie era crollata di un fattore 200\sqrt{200}; qui, da n=1n=1 a n=100000n=100\,000, non si muove affatto. La legge dei grandi numeri non vale, e il teorema del limite centrale neppure. È il controesempio che chiarisce una cosa importante: i due teoremi sono teoremi con ipotesi, non leggi di natura assolute. Quando le ipotesi cadono — qui, varianza e media infinite — anche l’intuizione più solida sul “mediare migliora la stima” smette di funzionare. Il perché è nella prossima sezione.

Esempio 3 — accuratezza di un modello: il gap che non c’è

Sezione intitolata “Esempio 3 — accuratezza di un modello: il gap che non c’è”

Lo scenario quotidiano per chi valuta sistemi di machine learning. Hai due modelli e un test set di 1.000 esempi. Il modello A ne indovina 902, accuratezza 90,2%. Il modello B ne indovina 907, accuratezza 90,7%. B sembra mezzo punto migliore. Lo è?

L’accuratezza su un test set è una media campionaria: per ogni esempio una variabile vale 1 se il modello indovina, 0 se sbaglia — una variabile di Bernoulli (da Jacob Bernoulli; è il modello probabilistico più semplice, una singola prova sì/no). L’accuratezza è la media di 1.000 di queste variabili. Il teorema del limite centrale le dà una distribuzione campionaria approssimativamente Normale, e l’errore standard di una proporzione pp stimata su nn esempi è:

SE=p(1p)nSE = \sqrt{\frac{p(1-p)}{n}}

Per il modello B, SE=0,9070,093/10000,0092SE = \sqrt{0{,}907 \cdot 0{,}093 / 1000} \approx 0{,}0092, cioè circa 0,9 punti percentuali. La regola pratica del teorema del limite centrale — l’intervallo “valore ±\pm 2 errori standard” copre circa il 95% dei casi — dà una barra di incertezza di circa ±1,8\pm 1{,}8 punti attorno al 90,7%. Lo stesso vale per il modello A.

Conclusione: le barre di incertezza dei due modelli, larghe quasi due punti ciascuna, si sovrappongono ampiamente. Un gap di mezzo punto su 1.000 esempi è dentro il rumore di campionamento. Non è evidenza che B sia migliore di A: è esattamente la fluttuazione che il teorema del limite centrale prevede tra due campioni dello stesso fenomeno.

Per distinguere un vero gap di mezzo punto servirebbe un test set molto più grande — e per la convergenza 1/n1/\sqrt n, molto più grande. Volere un errore standard di 0,1 punti, cinque volte più piccolo di quello attuale, significa moltiplicare nn per 25: serve un test set da 25.000 esempi. Solo a quel punto un gap di mezzo punto emerge in modo affidabile dal rumore.

Questo esempio è il ponte verso i capitoli intervalli-confidenza e test-ipotesi, che formalizzano “le barre si sovrappongono” in una procedura statistica precisa, con p-value e potenza. La morale operativa, intanto, è semplice: una classifica di modelli senza error bar non è una classifica, è una lista di numeri, e i gap piccoli al suo interno vanno trattati come rumore finché non si dimostra il contrario.

Esempio 4 — il gradiente di mini-batch come stima rumorosa

Sezione intitolata “Esempio 4 — il gradiente di mini-batch come stima rumorosa”

Un quarto esempio, dal cuore del training delle reti neurali. Per aggiornare i pesi di un modello, la discesa del gradiente ha bisogno del gradiente della loss calcolato su tutto il dataset — il “gradiente vero”. Su milioni di esempi è troppo costoso da calcolare a ogni passo. La soluzione pratica, il mini-batch, calcola il gradiente solo su un piccolo sottoinsieme di BB esempi estratti a caso.

Il gradiente di mini-batch è una media campionaria: la media dei gradienti dei singoli BB esempi. Per la legge dei grandi numeri è una stima non distorta del gradiente vero — in media punta nella direzione giusta. Per il teorema del limite centrale è una stima rumorosa, e l’ampiezza del rumore è governata dall’errore standard: proporzionale a 1/B1/\sqrt B.

Da qui una conseguenza pratica che molti scoprono per tentativi. Raddoppiare la dimensione del batch non dimezza il rumore del gradiente: lo riduce solo di un fattore 21,41\sqrt 2 \approx 1{,}41. Per dimezzare davvero il rumore servono batch quattro volte più grandi, a quattro volte il costo di calcolo per passo. È la stessa convergenza 1/n1/\sqrt n dell’esempio dell’accuratezza, vista dall’altro lato: spiega perché, oltre una certa soglia, ingrandire il batch dà rendimenti sempre più magri.

Va aggiunto che qui il rumore non è solo un costo da minimizzare. Le piccole perturbazioni casuali del gradiente di mini-batch aiutano l’ottimizzatore a non incastrarsi in minimi stretti — il rumore è in parte una funzionalità, non solo un difetto. Ma la sua ampiezza resta governata dalla radice quadrata, e questo è il punto del capitolo. Il legame con l’ottimizzazione è sviluppato nel capitolo Discesa del gradiente.

Esempio 5 — l’assicuratore: perché un business intero poggia sulla legge dei grandi numeri

Sezione intitolata “Esempio 5 — l’assicuratore: perché un business intero poggia sulla legge dei grandi numeri”

Un esempio dal mondo reale, lontano dal codice, che mostra la legge dei grandi numeri come fondamento di un modello economico. Una compagnia di assicurazioni vende mille polizze contro un evento raro — un incidente che, per ogni singolo cliente, ha probabilità 1% in un anno e costa 100.000 euro quando si verifica.

Per il singolo cliente la situazione è imprevedibile: o non succede nulla (99% dei casi), o un danno enorme (1%). Il costo atteso per cliente è 0,01×100000=10000{,}01 \times 100\,000 = 1000 euro, ma quel numero non descrive nessun cliente reale: nessuno paga “in media” 1000 euro di danno, paga 0 oppure 100.000. La varianza per singolo cliente è enorme.

Per la compagnia, però, il quadro cambia radicalmente. Il costo totale è la somma di mille variabili indipendenti; il costo medio per polizza è la loro media campionaria. La legge dei grandi numeri dice che quella media si concentra attorno a 1000 euro.

Il teorema del limite centrale quantifica la concentrazione. La deviazione standard del costo per singola polizza è circa 9950 euro (la radice di 0,01×0,99×10000020{,}01 \times 0{,}99 \times 100\,000^2), quindi l’errore standard della media su mille polizze è 9950/10003159950/\sqrt{1000} \approx 315 euro. Il costo medio per polizza sarà quasi certamente entro 1000±6301000 \pm 630 euro, cioè entro due errori standard.

È questo che rende l’assicurazione un business e non una scommessa. Fissando il premio a, diciamo, 1300 euro per polizza, la compagnia copre il costo atteso più un margine che il teorema del limite centrale dice essere ampiamente sufficiente ad assorbire la fluttuazione casuale. Con mille polizze l’incertezza relativa è già piccola; con un milione di polizze l’errore standard scende a una decina di euro e il costo medio diventa praticamente deterministico.

L’imprevedibilità del singolo cliente non sparisce — sparisce la sua rilevanza, diluita nella massa. Lo stesso meccanismo spiega perché un casinò con un piccolo vantaggio sulla casa guadagna in modo prevedibile su milioni di giocate, pur perdendo ogni singola scommessa col 49% di probabilità: il banco non vince ogni mano, vince la legge dei grandi numeri. È lo stesso principio dell’esempio dell’accuratezza, visto dal lato di chi progetta attorno alla convergenza invece di subirla.

Il filo conduttore: ogni volta che in un sistema AI compare una media di campioni casuali, i due teoremi di questo capitolo sono al lavoro, riconosciuti o no.

Error bar su qualunque metrica di valutazione. Accuratezza, F1, BLEU, perplexity, win rate di un modello su un set di prompt: sono tutte medie campionarie. Riportare la metrica senza il suo errore standard σ/n\sigma/\sqrt n è riportare metà del risultato. Una tabella di benchmark con quattro cifre decimali e nessuna barra di incertezza invita a leggere come significativi gap che sono rumore. La regola minima: accanto a ogni numero, l’errore standard o un intervallo; e prima di dichiarare un modello migliore di un altro, controllare che il gap superi il rumore.

Metodi Monte Carlo. Stimare un integrale, un’aspettazione, una probabilità mediando estrazioni casuali è la tecnica di base dietro moltissime cose — dalla stima di incertezza nei modelli probabilistici al rendering grafico, dalla valutazione di policy nel reinforcement learning all’inferenza approssimata.

Il teorema del limite centrale garantisce che l’errore della stima Monte Carlo decresce come σ/n\sigma/\sqrt n indipendentemente dalla dimensione del problema. È il motivo per cui Monte Carlo resta praticabile in spazi ad altissima dimensione, dove i metodi deterministici di integrazione esplodono. Il prezzo è sempre lo stesso: una cifra decimale di precisione in più costa cento volte più estrazioni.

Dimensionamento di test set ed esperimenti. “Quanti esempi servono nel test set?” e “quanti utenti servono in un A/B test?” sono la stessa domanda, e la risposta esce dalla formula dell’errore standard. Se vuoi distinguere un effetto di una certa ampiezza, l’errore standard deve essere più piccolo di quell’ampiezza.

Poiché SE=σ/nSE = \sigma/\sqrt n, il numero richiesto cresce con il quadrato della precisione voluta: voler distinguere un gap dieci volte più piccolo costa cento volte più dati. Sottodimensionare il test set significa non poter mai concludere nulla; il calcolo va fatto prima di raccogliere i dati. Il capitolo Campionamento ha trattato il lato qualitativo di questa scelta; qui c’è il lato quantitativo.

Training con mini-batch. Come nell’esempio 4: il rumore del gradiente scala con 1/B1/\sqrt B. Questo informa la scelta della batch size, l’interazione con il learning rate, e la decisione di quanto spingere il batch grande prima che i rendimenti decrescenti lo rendano antieconomico.

Aggregazione di valutazioni rumorose. Quando si valuta un sistema con un giudice automatico — un altro modello che assegna punteggi — ogni singolo giudizio è rumoroso. Mediare su molti esempi fa convergere la stima per la legge dei grandi numeri, e il teorema del limite centrale dice quanto è larga l’incertezza residua. È la base statistica delle pipeline di valutazione su larga scala.

Lettura delle curve di training. Una loss che scende non in modo liscio ma a zig-zag è quasi sempre rumore di campionamento, non instabilità del modello: ogni punto della curva è una loss misurata su un batch, cioè una media campionaria con il suo errore standard. Sapere che lo zig-zag ha ampiezza 1/B\propto 1/\sqrt B aiuta a distinguere il rumore atteso — da ignorare — da un problema reale di ottimizzazione. Lo stesso vale per due run dello stesso esperimento con seed diversi: una differenza piccola nella metrica finale può essere interamente fluttuazione, e va trattata come tale finché non supera l’errore standard.

I due teoremi hanno ipotesi precise. Quando le ipotesi cadono, le conclusioni cadono con loro — e l’errore di applicarli fuori dalle loro condizioni è tra i più insidiosi, perché le formule continuano a produrre numeri dall’apparenza ragionevoli.

Questo è il punto da interiorizzare prima di leggere il resto della sezione: una error bar calcolata con σ/n\sigma/\sqrt n non è sbagliata in modo visibile. Esce un numero plausibile, lo si scrive in tabella, nessuno strumento segnala nulla. Il difetto sta a monte, nell’aver applicato un teorema dove le sue ipotesi non valgono. Per questo i casi che seguono vanno conosciuti uno per uno: sono i modi concreti in cui i due teoremi tradiscono chi li usa senza controllarne le condizioni.

Code pesanti: il controesempio di Cauchy. L’ipotesi cruciale del teorema del limite centrale è la varianza finita; quella della legge dei grandi numeri è il valore atteso finito. Esistono distribuzioni che non le soddisfano, e la più famosa è la distribuzione di Cauchy (da Augustin-Louis Cauchy, matematico francese, 1789-1857), che ha la densità 1π(1+x2)\frac{1}{\pi(1+x^2)} nella forma standard.

La Cauchy sembra innocua — è simmetrica, a campana — ma le sue code sono così pesanti che l’integrale che definisce il valore atteso non converge: la Cauchy non ha né media né varianza. Le conseguenze sono drastiche.

La legge dei grandi numeri fallisce: la media di nn estrazioni di Cauchy non converge a nulla, per nessun nn. Anzi, vale un fatto sorprendente: la media campionaria di nn valori di Cauchy è essa stessa una Cauchy con gli stessi identici parametri. Mediare 100.000 valori dà la stessa distribuzione di un singolo valore — mediare non serve a niente. E il teorema del limite centrale fallisce con essa: senza varianza finita non c’è convergenza alla Normale. È esattamente ciò che la simulazione dell’esempio 2 mostrava.

La lezione non è “attenti alla Cauchy”, che è una curiosità matematica. È che le code pesanti sono ovunque nei dati reali e violano l’intuizione “la media è quasi Normale”. Tempi di latenza di rete, dimensioni dei file, distribuzione della ricchezza, dimensione delle città, valori di loss dominati da pochi outlier estremi: molte di queste quantità hanno code abbastanza pesanti da rendere la convergenza alla Normale lentissima o assente.

Quando la distribuzione ha code pesanti, la media campionaria può essere dominata da un singolo valore estremo, e non concentrarsi affatto. Per code molto pesanti la somma riscalata converge sì a una distribuzione limite, ma non gaussiana — una distribuzione stabile a code pesanti. In quei casi la mediana, robusta agli outlier, racconta una storia più affidabile della media. Il riflesso pratico: prima di mettere una error bar su una metrica, guarda l’istogramma dei dati grezzi; se ha una coda lunga e grossa, l’approssimazione normale va usata con cautela o sostituita.

Dipendenza tra le osservazioni. Tutto il capitolo assume osservazioni indipendenti. Se le osservazioni sono correlate, la formula Var[Xˉn]=σ2/n\text{Var}[\bar X_n]=\sigma^2/n è sbagliata — la varianza vera può essere molto più grande. Esempi concreti: misure prese su utenti della stessa famiglia o azienda; token consecutivi dello stesso documento usati come esempi separati; valutazioni di esempi che provengono dallo stesso cluster tematico.

La media converge comunque, sotto ipotesi più deboli, ma l’errore standard ingenuo σ/n\sigma/\sqrt n sottostima l’incertezza, a volte di parecchio. Il “numero effettivo di osservazioni indipendenti” è inferiore a nn, e le barre di incertezza calcolate ignorando la correlazione sono troppo strette. È un errore comune nel valutare modelli: contare 10.000 esempi come 10.000 osservazioni indipendenti quando in realtà sono mille gruppi da dieci esempi simili.

Convergenza lenta per distribuzioni molto storte. Il teorema del limite centrale è asintotico: dice cosa succede per nn\to\infty, non quanto grande deve essere nn perché l’approssimazione sia buona. La regola pratica ”n30n \ge 30 basta”, insegnata in molti corsi introduttivi, vale per distribuzioni ragionevolmente simmetriche, ma non è una legge.

Per distribuzioni fortemente asimmetriche, o con eventi rari ad alto impatto, n=30n=30 può essere lontanissimo dal sufficiente — la distribuzione campionaria della media è ancora visibilmente storta. Il caso estremo è la stima di una proporzione molto piccola: l’accuratezza di un classificatore su una classe rara, un tasso di errore dello 0,1%. Lì l’approssimazione normale è cattiva anche con nn nell’ordine delle migliaia, e servono correzioni apposite — intervalli per proporzioni che non assumono la Normale.

Il teorema di Berry-Esseen (da Andrew Berry e Carl-Gustav Esseen, che lo dimostrarono indipendentemente tra il 1941 e il 1942) quantifica la cosa: lo scarto tra la distribuzione campionaria standardizzata e la Normale è limitato da una costante per ρ/(σ3n)\rho/(\sigma^3\sqrt n), dove ρ\rho è il terzo momento assoluto centrato. Tradotto: l’approssimazione migliora sì come 1/n1/\sqrt n, ma il suo punto di partenza è tanto peggiore quanto più la distribuzione è asimmetrica. Asimmetria forte significa che servono molti più dati prima che la campana sia un’approssimazione onesta.

Confondere la legge dei grandi numeri con il teorema del limite centrale. L’errore concettuale più comune, e il motivo per cui questo capitolo li tratta insieme. Tre formulazioni sbagliate che si sentono spesso meritano di essere smontate una per una.

“Con tanti dati tutto diventa Normale”: falso. Il teorema del limite centrale riguarda le medie e le somme, non i dati grezzi; un dataset di altezze resta distribuito come le altezze, non diventa una campana perché è grande.

“La legge dei grandi numeri dice che la media è Normale”: falso. La legge dei grandi numeri dice solo che la media converge a μ\mu, non dice nulla sulla sua forma; la forma è competenza del teorema del limite centrale.

“Il teorema del limite centrale garantisce che la media è corretta”: falso. Quello è il lavoro della legge dei grandi numeri; il teorema del limite centrale assume di sapere già dove la media converge e ne descrive le fluttuazioni attorno a quel punto.

La distinzione operativa da fissare una volta per tutte: la legge dei grandi numeri dà il punto d’arrivo, il teorema del limite centrale dà la forma e l’ampiezza dello scarto. Sono complementari, non intercambiabili.

La fallacia del giocatore d’azzardo. Un fraintendimento popolare della legge dei grandi numeri: “sono uscite dieci teste di fila, ora è più probabile croce, perché la media deve tornare verso 0,5”. Falso. Le prove sono indipendenti: la moneta non ha memoria, la prossima testa ha sempre probabilità 0,5.

La legge dei grandi numeri non funziona compensando gli scarti passati con scarti opposti futuri. Funziona diluendo gli scarti passati: lo squilibrio di dieci teste, su un milione di lanci successivi, diventa trascurabile rispetto alla massa totale. Lo scarto assoluto non si riassorbe — anzi, in valore assoluto tende perfino a crescere come n\sqrt n, come nel cammino dell’ubriaco; è lo scarto relativo, diviso per nn, a svanire. Confondere i due meccanismi porta a previsioni sbagliate ovunque ci sia una sequenza di eventi indipendenti.

Applicare i teoremi a una singola osservazione. Entrambi i teoremi parlano di medie di tante osservazioni. Non dicono nulla su una singola estrazione. Un errore sottile è leggere l’error bar σ/n\sigma/\sqrt n come se descrivesse quanto può variare un singolo nuovo dato: descrive invece quanto può variare la media di nn dati. La dispersione di una singola futura osservazione resta σ\sigma, non σ/n\sigma/\sqrt n, e non si restringe con nn. Confondere i due porta a intervalli di previsione assurdamente stretti: l’incertezza su “quanto vale la media” e l’incertezza su “quanto varrà il prossimo caso” sono numeri diversi, e solo il primo gode della convergenza 1/n1/\sqrt n.

Bias di campionamento: un errore che nessun teorema corregge. Entrambi i teoremi assumono che le osservazioni provengano davvero dalla distribuzione di interesse. Se il campione è distorto — estratto in modo che favorisce sistematicamente certi valori — la media converge, per la legge dei grandi numeri, ma converge al valore atteso della distribuzione distorta, non a quello che interessa.

Il teorema del limite centrale, applicato a quel campione, darà error bar strettissime attorno al numero sbagliato, regalando una falsa fiducia. Nessuna quantità di dati corregge un campione distorto: è il messaggio centrale del capitolo Campionamento, e va tenuto presente ogni volta che si applica questo capitolo. I due teoremi domano l’errore casuale; contro l’errore sistematico non possono nulla.

  • Popolazione, campione, stimatore — fissa il vocabolario di popolazione, campione e stimatore che questo capitolo usa ovunque; la media campionaria è lo stimatore per eccellenza.
  • Le distribuzioni comuni — definisce la Bernoulliana (alla base dell’esempio sull’accuratezza) e la Normale (la forma limite del teorema del limite centrale).
  • Campionamento — tratta il lato qualitativo dell’incertezza, il bias di campionamento; questo capitolo aggiunge il lato quantitativo, l’errore casuale e il suo tasso di decrescita.
  • Distribuzioni, valore atteso, varianza — definisce valore atteso e varianza, i due numeri attorno a cui ruotano entrambi i teoremi.
  • Discesa del gradiente: SGD, momentum, Adam — il gradiente di mini-batch come media campionaria rumorosa, con rumore che scala come 1/B1/\sqrt B.
  • Bias e varianza: il trade-off che non muore mai — la stessa decomposizione errore sistematico contro errore casuale, applicata all’errore di un modello invece che a quello di una stima.
  • stima-puntuale (in preparazione) — formalizza le proprietà di uno stimatore (bias, consistenza); la legge dei grandi numeri è il teorema che garantisce la consistenza della media campionaria.
  • intervalli-confidenza (in preparazione) — costruisce le barre di incertezza degli esempi di questo capitolo in una procedura formale, basata direttamente sul teorema del limite centrale.
  • test-ipotesi (in preparazione) — trasforma “le barre si sovrappongono” dell’esempio sull’accuratezza in una decisione statistica con p-value e potenza.
  • bootstrap (in preparazione) — stima la distribuzione campionaria ricampionando i dati osservati, utile quando σ\sigma è ignota o lo stimatore è complesso; poggia sugli stessi due teoremi.
  • Jacob Bernoulli, Ars Conjectandi (1713) — l’opera fondativa della probabilità matematica e la prima dimostrazione della legge dei grandi numeri. La parte sulla legge è disponibile in traduzione inglese commentata (Oscar Sheynin, Jakob Bernoulli On the Law of Large Numbers), utile per vedere come il problema fu posto all’origine.
  • Voci Law of large numbers e Central limit theorem di Wikipedia — punto di partenza solido per gli enunciati precisi, le varianti (Khinchin, Kolmogorov, Lyapunov, Lindeberg-Lévy) e i riferimenti storici; entrambe ben curate e con bibliografia.
  • Statlect, Law of Large Numbers e Central Limit Theorem (statlect.com) — trattazione didattica con dimostrazioni svolte passo passo, adatta a chi vuole vedere i dettagli senza un libro di testo completo.
  • MIT OpenCourseWare 16.90, Error Estimates for the Monte Carlo Method — collega il teorema del limite centrale al tasso di convergenza 1/n1/\sqrt n dei metodi Monte Carlo, con esempi numerici.
  • MLPR, Error bars (Machine Learning and Pattern Recognition, Università di Edinburgh) — note di corso brevi e centrate sull’uso pratico dell’errore standard per le barre di incertezza sulle metriche di un modello.