Le distribuzioni comuni: Bernoulli, binomiale, normale, Poisson, esponenziale

Poche famiglie di distribuzioni descrivono quasi tutti i fenomeni aleatori che incontri in un sistema AI. Riconoscere quale famiglia genera i tuoi dati significa sapere in anticipo come si comporteranno.

Perché questo capitolo

Apri la documentazione di una qualunque libreria di deep learning e cerca le funzioni di inizializzazione dei pesi. Ne troverai una manciata, e quasi tutte hanno un nome di distribuzione nel titolo: normal_, uniform_, xavier_normal_, kaiming_normal_. Apri il codice di un classificatore: l’ultimo strato produce un numero che passa per una sigmoid, e quel numero è il parametro di una distribuzione di Bernoulli. Apri il monitoraggio di un servizio di inferenza: il numero di richieste al secondo oscilla, e quell’oscillazione ha una forma precisa, quella di una distribuzione di Poisson. Le distribuzioni di probabilità non sono un argomento accademico che vive nei manuali di statistica: sono già dentro ogni sistema che costruisci, esplicite o nascoste.

La domanda che questo capitolo affronta non è “come è fatta la formula della binomiale”. È più interessante: perché esistono poche famiglie ricorrenti, e non infinite distribuzioni costruite a mano caso per caso? La risposta è che una distribuzione comune non è una scelta estetica. È la conseguenza matematica di un meccanismo. Se conti i successi su un numero fisso di prove indipendenti, ottieni una binomiale — non per convenzione, ma per costruzione. Se sommi tanti contributi piccoli e indipendenti, ottieni una normale — per via di un teorema. La famiglia segue dal processo che genera i dati. Questo ribalta l’uso pratico del capitolo: non si tratta di memorizzare cinque formule, ma di imparare a riconoscere cinque meccanismi, e a leggere da essi quale distribuzione hai davanti.

C’è un guadagno concreto in questo. Quando sai che il numero di risposte corrette in un eval segue una binomiale, sai anche — gratis, senza ulteriore lavoro — quanto può ballare quel numero da un test set all’altro, e quindi quanto è largo il margine di errore del tuo benchmark. Quando sai che le latenze di un servizio sono esponenziali, sai che la latenza media non ti dice quasi nulla sulle code lunghe. La distribuzione non è una descrizione passiva: è un modello predittivo del comportamento dei dati. Sceglierla bene è metà del lavoro di un’analisi statistica onesta. Sceglierla male — assumere una normale dove i dati hanno code pesanti, una Poisson dove c’è sovradispersione — è una delle radici silenziose dell’overclaim.

Questo capitolo costruisce, una per una, le distribuzioni che incontrerai più spesso. Per ciascuna: il meccanismo che la genera, i parametri che la governano, la forma, la media e la varianza, e i casi d’uso reali in AI e ML. Poi mostra che non sono isolate — formano un grafo, e i collegamenti del grafo sono operazioni elementari come “sommare” e “contare”. Niente prerequisiti oltre le basi di probabilità della Parte IV: ogni concetto arriva con un’intuizione prima della formula.

Contesto

Le distribuzioni comuni non sono nate insieme, e non sono nate in accademia. Sono nate come risposte a problemi pratici concreti, sparse su tre secoli.

La più antica è la binomiale, e con lei la Bernoulli che ne è il mattone. Jacob Bernoulli (1655-1705), matematico svizzero della famiglia di matematici più prolifica della storia, studiò le prove ripetute a due esiti nell’opera Ars Conjectandi, pubblicata postuma nel 1713. Il problema che lo occupava era il gioco d’azzardo e l’assicurazione: dato un evento che capita con una certa probabilità, cosa succede se lo ripeti molte volte? È in quell’opera che compare la prima versione della legge dei grandi numeri, e con essa l’idea di trattare la frequenza osservata come una stima di una probabilità sottostante.

La normale ha una doppia paternità. La sua forma a campana appare già nel 1733 in Abraham de Moivre (1667-1754), matematico francese rifugiato a Londra, come approssimazione della binomiale quando il numero di prove è grande. Ma è Carl Friedrich Gauss (1777-1855), matematico e astronomo tedesco, a darle il ruolo che ancora oggi le riconosciamo: nel 1809, lavorando sul calcolo delle orbite dei corpi celesti, la usa come modello degli errori di misura. Da qui il nome che molti usano, gaussiana, e l’idea che gli errori piccoli e numerosi si distribuiscano a campana attorno al valore vero. Pierre-Simon Laplace (1749-1827) generalizzò il risultato di de Moivre verso quello che oggi chiamiamo teorema del limite centrale.

La Poisson prende il nome da Siméon-Denis Poisson (1781-1840), matematico francese, che la introdusse nel 1837 in un lavoro sulla probabilità delle decisioni giudiziarie. Per decenni rimase una curiosità matematica. Trovò la sua applicazione famosa solo nel 1898, quando l’economista e statistico Ladislaus Bortkiewicz la usò in un libro intitolato Das Gesetz der kleinen Zahlen — “la legge dei piccoli numeri” — per modellare un dato bizzarro: il numero di soldati dell’esercito prussiano uccisi ogni anno da calci di cavallo. Quei conteggi rari, sparsi su molte unità e molti anni, seguivano una Poisson con sorprendente fedeltà.

La più recente del gruppo principale è la t di Student. La introdusse nel 1908 William Sealy Gosset, un chimico che lavorava per la birreria Guinness di Dublino. Gosset doveva trarre conclusioni dalla qualità di piccoli lotti di orzo e luppolo, con pochissime misure a disposizione, e scoprì che la normale non descriveva correttamente l’incertezza su campioni piccoli. La Guinness gli vietava di pubblicare con il suo nome per ragioni di riservatezza aziendale, e lui firmò “Student”. Il movente, anche qui, non era teorico: era una fabbrica di birra che doveva decidere con pochi dati.

Il filo che lega queste storie è uno solo: ogni distribuzione comune è la risposta matematica a un tipo di domanda ricorrente. Quanti successi su tante prove. Quale errore attorno a una misura. Quanti eventi rari in un intervallo. Quanta incertezza con pochi dati. Le domande si ripetono — nel gioco d’azzardo del Seicento come nei benchmark di un modello del 2026 — e per questo le risposte sono poche e riusabili. Il capitolo precedente, statistica-intro, ha fissato il vocabolario di popolazione, campione, parametro e stimatore. Questo capitolo riempie quel vocabolario di forme concrete: i parametri di cui si parlava lì sono i parametri delle distribuzioni di cui si parla qui.

L’intuizione

Prima delle formule, tre modi distinti di vedere cos’è una distribuzione e perché ne bastano poche.

Primo angolo: la distribuzione come dizionario degli esiti

Immagina un fenomeno aleatorio — un lancio di dado, la latenza di una richiesta, il numero di errori in un’ora di log. Il fenomeno può finire in molti modi diversi. Una distribuzione di probabilità è semplicemente il dizionario che, a ciascun esito possibile, associa un peso: quanto è plausibile quell’esito.

Questo dizionario non è la stessa cosa di un singolo numero riassuntivo. La media di una distribuzione dice dove i risultati si centrano; la varianza dice quanto si disperdono; ma la distribuzione intera dice molto di più — dice quali esiti sono possibili e con quale peso ciascuno. Due fenomeni possono avere la stessa media e comportarsi in modo radicalmente diverso: una latenza che sta quasi sempre vicino a 50 millisecondi e una che alterna risposte istantanee e risposte lentissime possono entrambe avere media 50, ma sono distribuzioni diverse, e per chi progetta un sistema fanno una differenza enorme. Tenere a mente che la distribuzione è la forma intera, non un suo riassunto, è la premessa per non farsi ingannare dalle medie — un punto su cui torneremo nella sezione sui limiti.

Per un fenomeno discreto — esiti contabili, come i conteggi — il dizionario è una lista vera e propria: esito 0, peso tot; esito 1, peso tot; e così via. Questa lista si chiama funzione di massa di probabilità, in sigla PMF (probability mass function). I pesi sono probabilità vere, numeri fra 0 e 1, e sommano esattamente a 1: qualcosa deve pur succedere.

Per un fenomeno continuo — esiti su un intervallo di numeri reali, come una latenza in millisecondi — il dizionario non può essere una lista, perché gli esiti sono infiniti e fittissimi. La probabilità di ottenere esattamente 12.7 millisecondi è zero: c’è sempre un valore più vicino al vero. Quello che ha senso è la probabilità di cadere in un intervallo. Lo strumento allora è una curva, la funzione di densità di probabilità, in sigla PDF (probability density function). L’altezza della curva in un punto non è una probabilità: è una densità. È l’area sotto la curva fra due valori a darti la probabilità di cadere fra a e b. L’area totale sotto la curva è 1.

Vale la pena fissare questa differenza, perché è una delle confusioni più comuni: in una PMF leggi le probabilità direttamente sull’asse verticale; in una PDF l’asse verticale è una densità, e devi pensare ad aree, non ad altezze. Conteggi e categorie vivono nelle PMF; le misure vivono nelle PDF.

Secondo angolo: la distribuzione come conseguenza di un meccanismo

Il primo angolo descrive cosa è una distribuzione. Il secondo spiega perché ne bastano poche, ed è l’angolo che rende il capitolo utile invece che enciclopedico.

Pensa a un meccanismo generativo come a un piccolo programma che produce un numero casuale. Ci sono pochi meccanismi davvero elementari, e ciascuno genera, necessariamente, una distribuzione precisa.

Meccanismo “lancia una moneta una volta”: genera una Bernoulli. Meccanismo “lancia la stessa moneta n volte e conta le teste”: genera una binomiale. Non puoi ottenere altro: contare successi su prove indipendenti produce quella forma. Meccanismo “conta gli eventi rari in un intervallo di tempo”: genera una Poisson. Meccanismo “somma tanti piccoli contributi indipendenti”: genera una normale, e qui c’è un teorema, non un’analogia, a garantirlo — il teorema del limite centrale, di cui parleremo. Meccanismo “misura il tempo di attesa fino al prossimo evento”: genera un’esponenziale.

Questo è il punto che cambia il modo di lavorare. Quando guardi dei dati, la domanda giusta non è “che forma hanno”. È “quale meccanismo li ha prodotti”. Se identifichi il meccanismo, la distribuzione viene gratis, e con lei tutto ciò che ti serve sapere: la media attesa, quanto i dati possono ballare, quali valori estremi sono plausibili. Una libreria di software ha pochi tipi di base — interi, stringhe, liste — perché pochi tipi coprono quasi tutto. La statistica ha poche distribuzioni di base per la stessa ragione: pochi meccanismi generano quasi tutto ciò che misuri.

Tieni le due immagini insieme. La distribuzione è un dizionario di pesi sugli esiti, e quel dizionario non è arbitrario: è la firma di un meccanismo.

Terzo angolo: i parametri come manopole di una macchina

C’è una terza immagine, utile per chi pensa in termini di codice. Una distribuzione comune si comporta come una funzione configurabile: ha un nome — Bernoulli, Poisson, Normale — e accetta alcuni argomenti, i parametri. Cambiare il nome cambia il tipo di comportamento; cambiare i parametri cambia il dettaglio di quel comportamento, senza cambiarne la natura.

I parametri sono poche manopole, di solito una o due. La Bernoulli ne ha una, $p$ : la giri verso 0.5 e ottieni il massimo dell’incertezza, la giri verso gli estremi e ottieni quasi-certezza. La normale ne ha due, $\mu$ e $\sigma$ : la prima trasla la campana a sinistra o a destra, la seconda la allarga o la stringe. La Poisson ne ha una, $\lambda$ , che è insieme posizione del picco e larghezza. Il punto è che, fissato il nome, non c’è altro da decidere: due monete diverse sono la stessa distribuzione di Bernoulli con la manopola $p$ regolata in modo diverso, non due distribuzioni diverse.

Questa immagine ha una conseguenza pratica diretta. “Modellare un fenomeno con una distribuzione” si scompone allora in due decisioni nettamente separate. La prima — qual è il nome, quale famiglia — è una scelta di modello: la decidi guardando il meccanismo, come dice il secondo angolo. La seconda — quali valori dare alle manopole — è un problema di stima: i valori si calcolano dai dati. Il capitolo statistica-intro chiama “parametro” esattamente il valore vero della manopola nella popolazione, e “stima” il valore che ricavi dal campione. Tenere separate le due decisioni — la famiglia prima, i parametri poi — evita un errore comune: cercare nei dati la conferma di una forma che il meccanismo già escludeva.

Tieni le tre immagini insieme. La distribuzione è un dizionario di pesi sugli esiti; quel dizionario è la firma di un meccanismo; e il meccanismo, una volta scelto, lascia solo poche manopole da regolare sui dati. Tutto il resto del capitolo è la traduzione precisa di queste tre idee, una distribuzione alla volta.

La meccanica

Adesso le distribuzioni, nel dettaglio. Prima le discrete — quelle che descrivono conteggi e categorie — poi le continue — quelle che descrivono misure. Per ciascuna troverai lo stesso schema: il meccanismo, i parametri, la formula con ogni simbolo spiegato, la media e la varianza, la forma.

Una nota di notazione che vale per tutte. La scrittura $X \sim D(\theta)$ si legge “la variabile aleatoria $X$ è distribuita secondo la distribuzione $D$ con parametro $\theta$ ”. La tilde $\sim$ vuol dire “è distribuita come”. $E[X]$ indica la media, o valore atteso, di $X$ : il valore attorno a cui i risultati si centrano sul lungo periodo. $\mathrm{Var}[X]$ indica la varianza: quanto i risultati si disperdono attorno alla media. Questi due strumenti — valore atteso e varianza — sono introdotti nel capitolo probabilità di base della Parte IV; qui li usiamo come mattoni noti.

Distribuzioni discrete

Bernoulli

La distribuzione di Bernoulli è la più semplice di tutte: descrive un singolo esperimento con due soli esiti. Per convenzione, “successo” vale 1 e “insuccesso” vale 0. Un lancio di moneta, un click o non-click su un annuncio, un test che passa o fallisce, una risposta del modello corretta o sbagliata: ogni evento sì/no è una Bernoulli.

Ha un solo parametro: $p$ , la probabilità di successo, un numero fra 0 e 1. La probabilità di insuccesso è quel che resta, $1 - p$ . La funzione di massa si scrive:

$P(X = 1) = p \qquad P(X = 0) = 1 - p$

Le due righe si possono compattare in una formula sola, comoda per i conti ma che dice esattamente le stesse due cose:

$P(X = k) = p^k (1-p)^{1-k}, \quad k \in \{0, 1\}$

In parole povere: se $k = 1$ l’esponente di $p$ è 1 e quello di $(1-p)$ è 0, quindi resta $p$ ; se $k = 0$ è il contrario, resta $1 - p$ . La formula compatta è solo un modo di scrivere le due probabilità con un’unica espressione.

Media e varianza:

$E[X] = p \qquad \mathrm{Var}[X] = p(1-p)$

La media è $p$ e ha senso: se ripeti l’esperimento tante volte, la frazione di successi tende a $p$ , quindi il valore medio della variabile (che vale 1 sui successi e 0 sugli insuccessi) è $p$ . La varianza $p(1-p)$ merita un secondo sguardo. È zero quando $p = 0$ o $p = 1$ — se l’esito è certo non c’è niente di aleatorio, niente da disperdere — ed è massima, pari a 0.25, quando $p = 0.5$ . Questo cattura un’intuizione precisa: una moneta truccata che esce quasi sempre testa è “prevedibile”, poco rumorosa; una moneta equa è il caso di massima incertezza.

La categorica: Bernoulli con più di due esiti

Prima di salire alla binomiale, una distribuzione che il lettore di ML incontra ogni giorno: la categorica, ossia la generalizzazione della Bernoulli a $K$ esiti mutuamente esclusivi invece di 2. Pensa a un dado: sei esiti, ciascuno con la sua probabilità. I parametri sono $p_1, p_2, \dots, p_K$ , le probabilità dei singoli esiti, vincolate a sommare a 1.

La citiamo qui perché è esattamente la distribuzione dell’output di un classificatore multiclasse. Il softmax — la funzione che trasforma un vettore di numeri reali in un vettore di probabilità, trattata nel capitolo softmax e sigmoid — produce proprio i $p_1, \dots, p_K$ di una categorica. L’etichetta vera di un esempio è un campione estratto da quella categorica. La dettaglieremo poco, perché meccanicamente è “la Bernoulli con più caselle”, ma il legame con i classificatori conviene fissarlo subito.

Vale la pena anche notare un caso che il lettore di modelli linguistici incontra costantemente: la generazione di un token. A ogni passo, un modello linguistico produce un vettore di probabilità su tutto il vocabolario — decine di migliaia di esiti possibili — e il token successivo è un campione estratto da quella categorica. Tutte le strategie di decoding (campionamento con temperatura, top-k, top-p) sono modi di modificare quella distribuzione categorica prima di estrarne un campione. La categorica non è quindi un dettaglio dei classificatori: è la distribuzione che governa ogni singola parola prodotta da un LLM.

Binomiale

La distribuzione binomiale nasce da un meccanismo composto: ripeti $n$ volte, in modo indipendente, la stessa prova di Bernoulli con la stessa $p$ , e conti quanti successi ottieni in totale. Lancia 20 volte una moneta e conta le teste; ispeziona 100 pezzi e conta i difettosi; sottoponi 500 esempi al modello e conta le risposte corrette.

Ha due parametri: $n$ , il numero di prove (un intero $\geq 1$ ), e $p$ , la probabilità di successo di ciascuna prova. La funzione di massa è:

$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \dots, n$

Spieghiamola pezzo per pezzo. Vogliamo la probabilità di ottenere esattamente $k$ successi su $n$ prove. Una specifica sequenza con $k$ successi e $n-k$ insuccessi — per esempio successo, insuccesso, successo, successo, … — ha probabilità $p^k (1-p)^{n-k}$ , perché le prove sono indipendenti e le probabilità si moltiplicano. Ma le sequenze con $k$ successi sono molte: i $k$ successi possono cadere in posizioni diverse. Quante? Esattamente $\binom{n}{k}$ , il coefficiente binomiale, che si legge ” $n$ su $k$ ” ed è il numero di modi di scegliere $k$ posizioni fra $n$ . La formula moltiplica la probabilità di una sequenza per il numero di sequenze: ecco la probabilità totale di ” $k$ successi, in qualunque ordine”.

Media e varianza:

$E[X] = np \qquad \mathrm{Var}[X] = np(1-p)$

Entrambe si capiscono ricordando che la binomiale è la somma di $n$ Bernoulli indipendenti. La media di una somma è la somma delle medie: $n$ volte $p$ . La varianza di una somma di variabili indipendenti è la somma delle varianze: $n$ volte $p(1-p)$ . Non c’è niente da memorizzare: se hai capito che la binomiale è ” $n$ Bernoulli sommate”, media e varianza seguono.

Questo legame è il primo nodo del grafo delle distribuzioni: la Bernoulli è semplicemente una binomiale con $n = 1$ . La binomiale non è una distribuzione nuova: è la Bernoulli, ripetuta e sommata.

Un conto concreto rende viva la formula. Lanci una moneta equa 10 volte ( $n = 10$ , $p = 0.5$ ): qual è la probabilità di esattamente 5 teste? Il coefficiente binomiale $\binom{10}{5}$ vale 252 (i modi di scegliere 5 posizioni su 10); la probabilità di una specifica sequenza con 5 teste e 5 croci è $0.5^5 \cdot 0.5^5 = 0.5^{10} \approx 0.000977$ . Il prodotto è $252 \cdot 0.000977 \approx 0.246$ . Quindi anche l’esito “perfettamente bilanciato” — quello che l’intuizione si aspetta — capita solo circa una volta su quattro. È un risultato istruttivo: il valore medio di una distribuzione (qui $np = 5$ ) non è affatto un esito garantito, è solo il baricentro di una nuvola di esiti possibili. Confondere “il valore atteso” con “il valore che mi aspetto di vedere” è un errore comune, e la binomiale lo smaschera con un conto di una riga.

Sulla forma: per $p = 0.5$ la binomiale è simmetrica attorno a $n/2$ ; per $p$ lontano da 0.5 è sbilanciata verso un lato; e al crescere di $n$ , qualunque sia $p$ , assume sempre più la forma di una campana. Su quest’ultimo fatto torneremo: è il teorema del limite centrale che fa la sua comparsa.

Poisson

La distribuzione di Poisson descrive un meccanismo diverso: conti quanti eventi capitano in un intervallo fisso — di tempo o di spazio — quando gli eventi sono indipendenti e arrivano a un tasso medio costante. Quante chiamate riceve un call center in un’ora. Quanti errori di battitura ci sono in una pagina. Quanti accessi arrivano a un server in un secondo.

Ha un solo parametro: $\lambda$ (lambda, lettera greca), il numero medio di eventi nell’intervallo considerato, un numero positivo. La funzione di massa è:

$P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad k = 0, 1, 2, \dots$

Dove $e$ è la costante di Eulero (circa 2.718) e $k!$ è il fattoriale di $k$ (il prodotto $1 \cdot 2 \cdots k$ ). Non serve ricostruire la formula da zero; serve sapere cosa fa. Il termine $\lambda^k / k!$ cresce con $k$ finché $k$ è sotto $\lambda$ e poi cala; il fattore $e^{-\lambda}$ è una costante di normalizzazione che assicura che tutte le probabilità sommino a 1. Il risultato è una distribuzione che mette il suo picco vicino a $\lambda$ e ha una coda che si allunga verso i valori alti.

A differenza della binomiale, la Poisson non ha un limite superiore: $k$ può essere in linea di principio qualunque intero, anche se le probabilità dei valori molto grandi diventano trascurabili. È la distribuzione giusta quando conti eventi e non c’è un numero fisso di “prove”: non sai quante chiamate avrebbero potuto arrivare, sai solo quante ne sono arrivate.

Un esempio numerico chiarisce la forma. Un servizio riceve in media $\lambda = 2$ richieste al secondo. La probabilità di un secondo con zero richieste è $P(X=0) = e^{-2} \cdot 2^0 / 0! = e^{-2} \approx 0.135$ ; con una richiesta, $P(X=1) = e^{-2} \cdot 2 \approx 0.271$ ; con due, $P(X=2) = e^{-2} \cdot 4/2 \approx 0.271$ . I valori 1 e 2 sono i più probabili e hanno la stessa probabilità — un effetto tipico della Poisson quando $\lambda$ è intero. La probabilità di cinque o più richieste in un secondo è poco sopra il 5%. Già da questi pochi numeri si legge il comportamento del traffico: i secondi “vuoti” non sono affatto rari, e i secondi affollati capitano abbastanza spesso da non poter essere ignorati nel dimensionamento.

Media e varianza:

$E[X] = \lambda \qquad \mathrm{Var}[X] = \lambda$

Media e varianza coincidono, entrambe pari a $\lambda$ . Questo non è un dettaglio: è la firma diagnostica della Poisson. Se hai dei dati di conteggio e osservi che la loro varianza è molto più grande della loro media, quei dati non sono Poisson — è il fenomeno della sovradispersione, e segnala che il tasso non è costante o che gli eventi non sono indipendenti. La diagnosi “varianza contro media” è uno strumento pratico per capire se la Poisson è il modello giusto.

Geometrica

L’ultima discreta è la geometrica. Cambia ancora il meccanismo: ripeti prove di Bernoulli indipendenti finché non arriva il primo successo, e conti quante prove sono servite. Quanti tentativi di login prima del primo riuscito. Quanti campioni devi generare prima del primo che supera un filtro di qualità.

Ha un solo parametro, $p$ , la probabilità di successo di ciascuna prova. Adottando la convenzione che conta le prove fino al primo successo incluso, la funzione di massa è:

$P(X = k) = (1-p)^{k-1} p, \quad k = 1, 2, 3, \dots$

La formula è intuitiva: per avere il primo successo esattamente alla prova $k$ , devi avere $k-1$ insuccessi consecutivi — probabilità $(1-p)^{k-1}$ — seguiti da un successo — probabilità $p$ .

Media e varianza:

$E[X] = \frac{1}{p} \qquad \mathrm{Var}[X] = \frac{1-p}{p^2}$

La media $1/p$ è leggibile a colpo d’occhio: se ogni prova riesce con probabilità $p = 0.1$ , in media servono 10 prove per il primo successo.

La geometrica ha una proprietà particolare, l’assenza di memoria (in inglese memoryless): se hai già fatto un certo numero di prove senza successo, la distribuzione del numero di prove che ancora ti restano è identica a quella di partenza. Le prove passate non “accumulano” nulla. È l’unica distribuzione discreta con questa proprietà, e la ritroveremo nella sua versione continua, l’esponenziale.

Un piccolo conto rende concreta l’assenza di memoria. Supponi di chiamare un’API che risponde correttamente con probabilità $p = 0.2$ a ogni tentativo. Hai già fatto cinque tentativi falliti. Qual è la probabilità che il prossimo riesca? Esattamente $0.2$ — la stessa del primo tentativo. I cinque fallimenti non hanno “caricato” niente, non hai “pagato in anticipo” il successo. Questo è un risultato che contraddice l’intuizione del giocatore d’azzardo, secondo cui “dopo tanti rossi deve uscire nero”: per prove indipendenti, quella intuizione è semplicemente falsa, e la geometrica lo rende preciso. La conseguenza pratica per chi progetta una logica di retry: il numero atteso di tentativi residui non scende man mano che fallisci, resta sempre $1/p$ . Per limitare l’attesa nel caso peggiore serve un tetto esplicito al numero di retry, non la speranza che “ormai il successo è vicino”.

Distribuzioni continue

Le quattro distribuzioni discrete viste finora descrivono conteggi e categorie. Le distribuzioni continue descrivono misure: grandezze che vivono su un intervallo di numeri reali. Cambia lo strumento — densità, non massa — ma la logica “il meccanismo determina la forma” resta identica.

Uniforme

La distribuzione uniforme continua descrive il meccanismo più semplice possibile: ogni valore in un intervallo $[a, b]$ è ugualmente plausibile, nessuno è privilegiato. I parametri sono i due estremi, $a$ e $b$ . La densità è una costante:

$f(x) = \frac{1}{b - a} \quad \text{per } x \in [a, b], \qquad 0 \text{ altrove}$

L’altezza costante $1/(b-a)$ è scelta proprio perché l’area del rettangolo sotto la curva — base $(b-a)$ per altezza $1/(b-a)$ — faccia esattamente 1.

Media e varianza:

$E[X] = \frac{a + b}{2} \qquad \mathrm{Var}[X] = \frac{(b - a)^2}{12}$

La media è il punto medio dell’intervallo, senza sorprese. La varianza cresce con il quadrato della larghezza dell’intervallo: un intervallo più largo significa più incertezza.

L’uniforme è il modello della massima ignoranza informata: sai solo che il valore sta fra $a$ e $b$ , e niente di più. Ma il suo ruolo pratico più importante è un altro, e lo vedremo fra poco: è la sorgente di casualità primitiva da cui si costruiscono, per trasformazione, quasi tutte le altre distribuzioni.

Esiste anche una versione discreta dell’uniforme — l’uniforme discreta — in cui un numero finito di esiti hanno tutti la stessa probabilità. Il dado equo a sei facce è l’esempio canonico: ciascuna faccia ha probabilità $1/6$ . Pesca casuale di un elemento da una lista, scelta di un seed, selezione di un batch a caso da un dataset: ogni volta che “tutti gli esiti contano uguale” e gli esiti sono contabili, l’uniforme discreta è il modello. È la più semplice di tutte le distribuzioni, e proprio per questo è il punto di partenza implicito di moltissime procedure di campionamento.

Normale (Gaussiana)

La distribuzione normale, detta anche gaussiana, è la curva a campana, ed è la distribuzione più importante della statistica. Non per moda, ma per un motivo strutturale che chiariremo subito.

Ha due parametri: $\mu$ (mu), la media, che dice dove è centrata la campana, e $\sigma^2$ (sigma quadro), la varianza, che dice quanto è larga. La radice della varianza, $\sigma$ , è la deviazione standard. La densità è:

$f(x) = \frac{1}{\sigma \sqrt{2\pi}} \, \exp\!\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)$

La formula spaventa, ma il pezzo che conta è dentro l’esponenziale: $-(x-\mu)^2 / (2\sigma^2)$ . Il termine $(x - \mu)^2$ misura quanto $x$ è lontano dal centro $\mu$ ; è al quadrato, quindi cresce in fretta; ha il segno meno davanti, quindi più ti allontani dal centro più l’esponenziale schiaccia la densità verso zero. Il $\sigma^2$ al denominatore regola la velocità di questo schiacciamento: $\sigma$ grande, campana larga e bassa; $\sigma$ piccolo, campana stretta e alta. Tutto il resto — il $\sqrt{2\pi}$ , la frazione davanti — è normalizzazione, serve solo a far sì che l’area totale sia 1.

Media e varianza sono, per costruzione, i due parametri stessi: $E[X] = \mu$ , $\mathrm{Var}[X] = \sigma^2$ .

Una regola pratica vale la pena memorizzarla, la regola 68-95-99.7: circa il 68% della massa di probabilità cade entro una deviazione standard dalla media, circa il 95% entro due, circa il 99.7% entro tre. È lo strumento mentale per leggere a occhio una gaussiana: se una grandezza è normale con media 100 e $\sigma = 5$ , allora due valori su tre staranno fra 95 e 105, e un valore fuori dall’intervallo 85-115 è raro, circa tre su mille.

Quando $\mu = 0$ e $\sigma = 1$ si parla di normale standard, denotata $N(0,1)$ . Qualunque normale si riconduce a quella standard con un’operazione di standardizzazione: $z = (x - \mu)/\sigma$ . Sottrarre la media sposta il centro a zero, dividere per la deviazione standard porta la larghezza a uno. Lo $z$ risultante dice “a quante deviazioni standard dal centro mi trovo” — una misura universale, indipendente dalle unità.

La standardizzazione non è un tecnicismo: è ciò che rende confrontabili grandezze nate da scale diverse. Un tempo di risposta di 240 millisecondi e un punteggio di qualità di 7.2 vivono in unità incommensurabili, ma una volta standardizzati — trasformati nei rispettivi $z$ — diventano numeri sulla stessa scala, “deviazioni standard dal centro”, e si possono confrontare direttamente. È la stessa operazione che, sotto il nome di normalizzazione delle feature, si fa di routine prima di addestrare un modello: portare ogni variabile a media zero e varianza uno perché l’ottimizzatore non sia dominato da quella che capita di avere i numeri più grandi. Standardizzare è l’atto di smettere di guardare il valore grezzo e iniziare a guardare la sua posizione relativa dentro la propria distribuzione.

Resta la domanda: perché la normale è la distribuzione centrale? La risposta è il teorema del limite centrale (in inglese central limit theorem, CLT). Enunciato in modo intuitivo: se prendi tante variabili aleatorie indipendenti — quasi di qualunque forma, purché abbiano varianza finita — e le sommi, o ne fai la media, il risultato tende ad avere distribuzione normale, e la tendenza è tanto più precisa quanto più variabili sommi. È un teorema, una relazione dimostrata, non un’analogia: la classe dell’affermazione qui è la più forte possibile. La conseguenza è enorme. Qualunque grandezza che sia la somma di tante piccole cause indipendenti — gli errori di misura di Gauss, l’altezza di una persona come somma di tanti fattori genetici e ambientali, il rumore di un sensore — sarà approssimativamente normale, qualunque sia la forma delle singole cause. La normale è ovunque perché “sommare tante cose” è un meccanismo ovunque. Il teorema del limite centrale ha un capitolo dedicato, legge-grandi-numeri-clt (in preparazione).

Esponenziale

La distribuzione esponenziale descrive un tempo di attesa: il tempo, misurato in modo continuo, fino al prossimo evento di un processo in cui gli eventi arrivano in modo indipendente a tasso costante. Tempo fino al guasto di un componente, tempo fra due arrivi di clienti, durata di una telefonata.

Ha un solo parametro, $\lambda$ , il tasso a cui arrivano gli eventi (eventi per unità di tempo). La densità è:

$f(x) = \lambda \, e^{-\lambda x} \quad \text{per } x \geq 0, \qquad 0 \text{ altrove}$

La forma è una curva che parte alta a $x = 0$ e cala esponenzialmente: i tempi di attesa brevi sono i più probabili, i tempi lunghi diventano via via più rari, ma la coda non si annulla mai del tutto.

Media e varianza:

$E[X] = \frac{1}{\lambda} \qquad \mathrm{Var}[X] = \frac{1}{\lambda^2}$

La media $1/\lambda$ è leggibile: se gli eventi arrivano al tasso di $\lambda = 2$ al minuto, il tempo medio di attesa fra un evento e l’altro è mezzo minuto. Una curiosità con conseguenze pratiche: nell’esponenziale la deviazione standard è uguale alla media (entrambe $1/\lambda$ ). I tempi di attesa esponenziali sono molto dispersi: la “tipica” attesa varia di un’intera media attorno alla media stessa.

L’esponenziale è la versione continua della geometrica e, come la geometrica, è senza memoria. Formalmente: $P(T > s + t \mid T > s) = P(T > t)$ . In parole: se hai già aspettato un tempo $s$ senza che l’evento sia accaduto, la probabilità di aspettare ancora almeno $t$ è la stessa che avevi all’inizio. L’attesa già trascorsa non “consuma” nulla. È una proprietà comoda per i conti, e — come vedremo nella sezione sui limiti — anche una trappola, perché spesso i sistemi reali hanno memoria.

Due cenni: la t di Student e la chi-quadro

Due distribuzioni continue vanno almeno nominate, perché reggono l’inferenza classica, anche se il loro dettaglio appartiene ai capitoli su stima e test.

La t di Student assomiglia alla normale — campana simmetrica centrata in zero — ma ha le code più pesanti: i valori estremi sono un po’ più probabili. È governata da un parametro chiamato gradi di libertà: con pochi gradi di libertà le code sono spesse, con molti la t diventa indistinguibile da una normale. Serve esattamente nella situazione che Gosset affrontava alla Guinness: fare inferenza sulla media quando la varianza della popolazione non è nota ma va stimata dai dati. Quell’incertezza in più sulla varianza è ciò che ingrossa le code rispetto alla normale.

La chi-quadro è la distribuzione che ottieni sommando i quadrati di tante normali standard indipendenti. Ha un solo parametro, ancora i gradi di libertà (quante normali hai sommato). È asimmetrica e definita solo sui valori positivi — naturale, visto che è una somma di quadrati. Serve come distribuzione di riferimento per la varianza campionaria e per i test di adattamento e di indipendenza. Insieme alla normale e alla t, la chi-quadro completa il terzetto su cui poggiano gli intervalli di confidenza e i test di ipotesi dei capitoli successivi.

Il grafo delle distribuzioni

Le distribuzioni viste non sono isole. Sono nodi di un grafo, collegati da operazioni elementari. Vale la pena vedere il grafo intero, perché è la mappa che permette di non memorizzare nulla a freddo.

Bernoulli verso binomiale. Somma $n$ Bernoulli indipendenti con la stessa $p$ : ottieni una binomiale. La Bernoulli è la binomiale con $n = 1$ .
Bernoulli verso categorica. Stessa idea, ma con $K$ esiti invece di 2.
Binomiale verso Poisson. Se in una binomiale il numero di prove $n$ è grande, la probabilità $p$ è piccola, e il loro prodotto $np$ resta moderato e pari a $\lambda$ , la binomiale converge alla Poisson( $\lambda$ ). È il teorema del limite di Poisson: la Poisson è il limite della binomiale per “eventi rari su molte prove”. Pensa al call center: ogni secondo è una “prova” in cui una specifica persona può chiamare (probabilità piccolissima), le prove sono tantissime, e il numero di chiamate effettive è una Poisson.
Binomiale verso normale. Se $n$ è grande e $p$ non è troppo vicino agli estremi — la regola pratica chiede $np \geq 5$ e $n(1-p) \geq 5$ — la binomiale è ben approssimata da una normale con media $np$ e varianza $np(1-p)$ . È il risultato di de Moivre-Laplace, un caso particolare del CLT.
Qualunque distribuzione verso normale. La media (o la somma) di tante variabili indipendenti con varianza finita tende a una normale. È il teorema del limite centrale, ed è il motivo per cui la normale è ovunque.
Poisson e esponenziale, due facce dello stesso processo. In un processo dove gli eventi arrivano a tasso costante, il numero di eventi in un intervallo è una Poisson, e il tempo fra due eventi consecutivi è un’esponenziale. Stesso processo, due domande diverse.
Geometrica ed esponenziale. La geometrica è l’analogo discreto dell’esponenziale; entrambe sono senza memoria, ciascuna unica nella propria classe.
Normali standard verso chi-quadro verso t. Somma di quadrati di $N(0,1)$ dà una chi-quadro; il rapporto fra una $N(0,1)$ e la radice di una chi-quadro normalizzata dà una t di Student.

Il messaggio del grafo: poche distribuzioni, collegate da operazioni che conosci già — sommare, contare, prendere un limite, elevare al quadrato. Riconoscere l’operazione che agisce sui tuoi dati è la chiave per scegliere la distribuzione giusta.

Una tabella di riferimento

Le sette distribuzioni principali del capitolo, raccolte in un’unica tabella che si legge a colpo d’occhio. Le sigle: PMF per le discrete (funzione di massa), PDF per le continue (funzione di densità). Il “tipo” indica se la variabile è discreta o continua.

Distribuzione	Tipo	Parametri	Media	Varianza	Meccanismo in una frase
Bernoulli	discreta	$p$	$p$	$p(1-p)$	un singolo esito sì/no
Binomiale	discreta	$n$ , $p$	$np$	$np(1-p)$	successi su $n$ prove indipendenti
Poisson	discreta	$\lambda$	$\lambda$	$\lambda$	eventi rari in un intervallo fisso
Geometrica	discreta	$p$	$1/p$	$(1-p)/p^2$	prove fino al primo successo
Uniforme	continua	$a$ , $b$	$(a+b)/2$	$(b-a)^2/12$	ogni valore in $[a,b]$ equiprobabile
Normale	continua	$\mu$ , $\sigma^2$	$\mu$	$\sigma^2$	somma di tante cause piccole indipendenti
Esponenziale	continua	$\lambda$	$1/\lambda$	$1/\lambda^2$	tempo di attesa fino al prossimo evento

Tre osservazioni che la tabella rende visibili. Primo: nella Poisson media e varianza sono la stessa colonna — la firma diagnostica già vista. Secondo: nell’esponenziale la varianza è il quadrato della media, quindi deviazione standard e media coincidono — i tempi di attesa sono molto dispersi. Terzo: quasi tutte le distribuzioni si reggono su uno o due parametri soltanto; la complessità di un fenomeno aleatorio, una volta scelta la famiglia giusta, si comprime in pochissimi numeri. È questa compressione a rendere le distribuzioni comuni uno strumento di modellazione, non solo di descrizione.

Esempi

Tre esempi eterogenei: uno numerico fatto a mano, uno in codice, uno scenario reale di un sistema in produzione.

Esempio 1 — il margine di un benchmark, con carta e penna

Hai valutato un modello su un test set di $n = 400$ esempi indipendenti e hai ottenuto 360 risposte corrette. L’accuratezza misurata è $360/400 = 0.90$ . La domanda onesta non è “quanto vale l’accuratezza” — quella la sai — ma “quanto può ballare questo numero se cambio test set”.

Il meccanismo è chiaro: ogni esempio è una prova di Bernoulli (corretto/sbagliato), le prove sono indipendenti, e tu conti i successi. Quindi il numero di risposte corrette segue una binomiale con $n = 400$ e $p$ ignota, stimata da $\hat{p} = 0.90$ .

La varianza del conteggio è $np(1-p) = 400 \cdot 0.90 \cdot 0.10 = 36$ . Ma a te interessa la dispersione dell’accuratezza, cioè del conteggio diviso per $n$ . Dividere per $n$ una variabile ne divide la deviazione standard per $n$ , e la varianza per $n^2$ . La varianza dell’accuratezza è quindi $p(1-p)/n = 0.90 \cdot 0.10 / 400 = 0.000225$ , e la sua deviazione standard — l’errore standard — è $\sqrt{0.000225} = 0.015$ , cioè 1.5 punti percentuali.

Ora il pezzo che usa la normale. Per $n = 400$ con $p$ attorno a 0.9 la regola $np \geq 5$ e $n(1-p) \geq 5$ è ampiamente soddisfatta ( $np = 360$ , $n(1-p) = 40$ ), quindi l’accuratezza misurata è approssimativamente normale attorno al vero $p$ . Per la regola 68-95-99.7, circa il 95% delle volte l’accuratezza misurata cade entro due errori standard dal vero valore: $\pm 2 \cdot 1.5 = \pm 3$ punti. Il benchmark non andrebbe riportato come “90%”, ma come “90% $\pm$ 3% circa”. Un secondo modello che segna 91% non è distinguibile dal primo: la differenza di un punto è dentro il rumore. Tre distribuzioni — Bernoulli, binomiale, normale — collaborano in questo singolo calcolo, e il risultato è una frase più onesta di un numero secco.

Vale la pena vedere come cambia il margine al variare di $n$ , perché smonta un’illusione comune. L’errore standard è $\sqrt{p(1-p)/n}$ : cresce e cala con la radice di $n$ , non con $n$ . Con $p = 0.9$ fisso, un test set di 100 esempi dà un errore standard di 3 punti (margine $\pm 6$ ); 400 esempi lo portano a 1.5 punti (margine $\pm 3$ ); per dimezzarlo di nuovo, fino a $\pm 1.5$ , non bastano altri 400 esempi: ne servono 1600 in totale. Quadruplicare il test set dimezza il margine. Questa è la ragione strutturale per cui i benchmark piccoli sono rumorosi e per cui aggiungere “qualche centinaio” di esempi a un test set già grande sposta pochissimo il margine: il rendimento dei dati, sull’incertezza, è decrescente.

Esempio 2 — campionare distribuzioni a partire dall’uniforme, in codice

Un fatto che sorprende chi lo incontra la prima volta: il generatore di numeri casuali del tuo linguaggio produce, alla base, solo una cosa — un campione da una uniforme su $[0, 1]$ . Ogni altra distribuzione si ottiene trasformando quel campione uniforme. Il codice qui sotto, in pseudocodice Python, mostra il caso più semplice, il campionamento di una Bernoulli e di una binomiale a partire dall’uniforme.

import random

def campiona_bernoulli(p):
    # un campione uniforme in [0,1); successo se cade sotto la soglia p
    return 1 if random.random() < p else 0

def campiona_binomiale(n, p):
    # la binomiale e' la somma di n Bernoulli indipendenti;
    # campionarla in questo modo rispecchia il meccanismo diretto
    return sum(campiona_bernoulli(p) for _ in range(n))

# stima empirica di media e varianza su molte repliche
campioni = [campiona_binomiale(20, 0.3) for _ in range(100_000)]
media = sum(campioni) / len(campioni)
var = sum((x - media) ** 2 for x in campioni) / len(campioni)

print(media, var)   # vicino a n*p = 6.0 e n*p*(1-p) = 4.2

Due cose da notare. La prima: campiona_bernoulli è la traduzione diretta della definizione — prendi un uniforme, confrontalo con $p$ . Questa tecnica, applicata in generale, si chiama inverse transform sampling, e funziona per qualunque distribuzione di cui sai invertire la funzione di ripartizione. La seconda: campiona_binomiale non usa la formula del coefficiente binomiale; somma $n$ Bernoulli, esattamente come dice il meccanismo. Il codice è la definizione. E il risultato numerico — media vicina a $np = 6$ , varianza vicina a $np(1-p) = 4.2$ — conferma le formule della sezione precedente. Per la normale la trasformazione è meno ovvia (il metodo classico si chiama Box-Muller, e combina due uniformi in due gaussiane), ma il principio è identico: l’uniforme è il mattone, tutto il resto è trasformazione.

Esempio 3 — dimensionare un servizio di inferenza

Gestisci un endpoint di inferenza di un modello. Da settimane di log sai che arrivano in media 180 richieste al minuto, distribuite in modo abbastanza irregolare nel tempo. Devi rispondere a due domande pratiche: quanto può “spuntare” il traffico in un secondo cattivo, e quanto tempo passa tipicamente fra due richieste.

Per il numero di richieste in un intervallo, il meccanismo è quello della Poisson: eventi (le richieste) che arrivano indipendentemente a tasso costante. 180 al minuto sono 3 al secondo, quindi il conteggio al secondo è Poisson con $\lambda = 3$ . La media è 3, e — firma della Poisson — anche la varianza è 3, quindi la deviazione standard è $\sqrt{3} \approx 1.7$ . Un secondo “cattivo” a due deviazioni standard sopra la media porta circa $3 + 2 \cdot 1.7 \approx 6.4$ richieste: se dimensioni la capacità sui 3 al secondo medi, andrai in coda regolarmente. Vale la pena anche calcolare la probabilità di un secondo con zero richieste: $P(X = 0) = e^{-3} \approx 0.05$ , cioè un secondo su venti il servizio è inattivo.

Per il tempo fra due richieste consecutive, il meccanismo è lo stesso processo visto dall’altro lato: i tempi di interarrivo seguono una esponenziale con lo stesso $\lambda = 3$ al secondo. Il tempo medio fra due richieste è $1/\lambda = 0.33$ secondi. Ma — e qui la deviazione standard uguale alla media morde — questi intertempi sono molto dispersi: capiteranno spesso due richieste quasi simultanee e altrettanto spesso pause lunghe. Se un componente del sistema assume di avere sempre 0.33 secondi di respiro fra una richiesta e l’altra, andrà in difficoltà sui burst. Poisson per i conteggi, esponenziale per i tempi: due distribuzioni, un solo processo, e due decisioni di capacity planning che ne discendono direttamente.

Applicazioni pratiche

Le distribuzioni comuni non sono uno sfondo teorico del machine learning: ne sono parte attiva. Vale la pena raccoglierle per punto di contatto.

L’output dei classificatori è una distribuzione. Un classificatore binario non produce “0 o 1”: produce un $p$ , e quel $p$ è il parametro di una Bernoulli. Un classificatore multiclasse produce un vettore di probabilità, i parametri di una categorica. Questo non è un dettaglio interpretativo: è il motivo per cui la loss giusta per addestrarli è la cross-entropy. La cross-entropy è, matematicamente, il negativo della log-verosimiglianza dei dati sotto un modello di Bernoulli (caso binario) o categorico (caso multiclasse). Addestrare un classificatore con la cross-entropy è stimare i parametri di queste distribuzioni con il metodo della massima verosimiglianza. Il legame fra cross-entropy e distribuzioni è approfondito in entropia, cross-entropy e KL divergence, e la stima per verosimiglianza in maximum-likelihood (in preparazione).

L’inizializzazione dei pesi è un campionamento da una distribuzione. Quando una rete neurale nasce, i suoi pesi vengono estratti da una distribuzione, tipicamente una normale o un’uniforme, con varianza calibrata. Le due ricette standard sono nate per risolvere un problema concreto: se la varianza dei pesi è sbagliata, i segnali si spengono o esplodono strato dopo strato. L’inizializzazione di Glorot/Xavier — dal paper di Xavier Glorot e Yoshua Bengio, Understanding the difficulty of training deep feedforward neural networks (AISTATS 2010) — campiona i pesi con varianza $2/(n_{in} + n_{out})$ , dove $n_{in}$ e $n_{out}$ sono il numero di ingressi e di uscite dello strato. L’inizializzazione di He/Kaiming — dal paper di Kaiming He e colleghi, Delving Deep into Rectifiers (ICCV 2015) — usa varianza $2/n_{in}$ , tarata sul comportamento delle attivazioni ReLU, che azzerano metà dei segnali. In entrambi i casi la scelta della distribuzione e della sua varianza è una decisione ingegneristica con effetti misurabili sull’addestramento.

Il rumore della generazione è gaussiano. I modelli generativi moderni sono costruiti attorno alla normale. Un autoencoder variazionale (VAE) modella il suo spazio latente come una gaussiana e, per poter addestrare la rete con la discesa del gradiente, usa il reparameterization trick: invece di campionare direttamente da $N(\mu, \sigma^2)$ — operazione non differenziabile — scrive il campione come $z = \mu + \sigma \cdot \varepsilon$ , con $\varepsilon$ estratto da una normale standard $N(0,1)$ . La casualità è confinata in $\varepsilon$ , e $\mu$ e $\sigma$ restano differenziabili. I modelli di diffusione spingono l’idea oltre: aggiungono rumore gaussiano a un dato passo dopo passo, fino a renderlo rumore puro, e addestrano una rete a invertire il processo. Senza la normale, questi modelli non esisterebbero nella forma attuale.

I conteggi e i tempi vivono in produzione. Fuori dal modello, nel sistema che lo serve, la Poisson e l’esponenziale governano il comportamento osservabile. Numero di richieste al secondo, conteggi di token rari in un corpus, eventi di errore per ora: Poisson. Latenze, intertempi fra richieste, tempo fino al fallimento di un job di training in un cluster: esponenziale (almeno in prima approssimazione). La geometrica modella i retry: quanti tentativi prima che una chiamata a un’API instabile vada a buon fine, quanti campioni da un modello prima del primo che supera un filtro di qualità in un ciclo di rejection sampling. E l’uniforme è la sorgente di casualità di tutto: dagli split casuali train/test al sampling delle azioni $\varepsilon$ -greedy nel reinforcement learning.

L’incertezza delle metriche si misura con le distribuzioni. Ogni volta che riporti un numero su un sistema — accuratezza, tasso di conversione di un A/B test, punteggio su un benchmark — quel numero ha un margine, e il margine si calcola sapendo quale distribuzione lo genera. Il conteggio di risposte corrette è binomiale; l’errore standard dell’accuratezza ne discende; l’intervallo di confidenza usa la normale (o la t per campioni piccoli). Le distribuzioni sono lo strumento che trasforma “il modello fa 90%” in “il modello fa 90% $\pm$ 3%” — la differenza, come ricordava statistica-intro, fra una descrizione e un’affermazione difendibile.

Una procedura per scegliere

Mettendo insieme i tre angoli intuitivi e il grafo, si ottiene una procedura concreta. Davanti a un fenomeno aleatorio da modellare, queste domande, nell’ordine, restringono il campo fino a una distribuzione.

Prima domanda: i valori sono contabili o sono misure? Se conti cose — successi, eventi, occorrenze — sei nel mondo discreto, e la candidata è una fra Bernoulli, binomiale, Poisson, geometrica. Se misuri una grandezza su una scala continua — tempo, lunghezza, peso, un punteggio reale — sei nel mondo continuo, e la candidata è fra uniforme, normale, esponenziale.

Seconda domanda, ramo discreto: c’è un numero fisso di prove? Se sì e la prova è una sola, è una Bernoulli; se le prove fisse sono $n$ e conti i successi, è una binomiale. Se non c’è un numero fisso di prove ma conti eventi in un intervallo, è una Poisson. Se invece aspetti il primo successo e conti i tentativi, è una geometrica.

Seconda domanda, ramo continuo: che cosa stai misurando? Se è un tempo di attesa fino a un evento, l’esponenziale è la prima candidata. Se è una grandezza che nasce dalla somma di tante piccole cause indipendenti — un errore, una media, una misura fisica — il teorema del limite centrale suggerisce la normale. Se sai solo che il valore vive in un intervallo e non hai motivo di preferire una zona, è un’uniforme.

Terza domanda, di verifica: il meccanismo regge i controlli diagnostici? Per una Poisson, media e varianza dei dati devono essere vicine; per una normale, le code non devono essere troppo pesanti; per un’esponenziale o una geometrica, il fenomeno non deve avere memoria (un componente che invecchia ce l’ha). Se un controllo fallisce, la famiglia scelta è sbagliata, e la sezione seguente spiega cosa succede quando la si usa lo stesso.

Questa procedura non è un algoritmo infallibile — i fenomeni reali sono spesso misture di meccanismi — ma è il punto di partenza giusto. Sceglie la famiglia prima di guardare i dati in dettaglio, dal meccanismo, e usa i dati solo per confermare e per stimare i parametri. È l’ordine corretto: la famiglia dal processo, le manopole dal campione.

C’è un motivo per cui questo ordine conta. Se scegli la famiglia guardando la forma dei dati, rischi di adattare il modello al rumore del campione invece che al meccanismo: un test set sfortunato può sembrare a campana anche quando il processo sottostante non lo è. Partire dal meccanismo è una difesa contro questo. Il meccanismo è una proprietà del fenomeno, non del particolare campione che ti è capitato, e quindi una famiglia scelta dal meccanismo regge anche su dati nuovi. I dati restano indispensabili — per stimare i parametri e per i controlli diagnostici — ma il loro ruolo è confermare e calibrare, non decidere da soli la forma. Questo è anche il filo che lega questo capitolo al resto della Parte V: una volta scelta la famiglia, i capitoli su stima e test mostrano come ricavarne i parametri e come quantificare quanto fidarsi delle stime.

Dove si rompe

Le distribuzioni comuni sono modelli, e ogni modello è una semplificazione che in certe condizioni inganna. Conoscere i modi tipici in cui si rompono conta quanto conoscere le formule.

Il primo errore è assumere l’indipendenza quando non c’è. Quasi tutte le distribuzioni di questo capitolo poggiano su un’ipotesi nascosta: le prove, o gli eventi, sono indipendenti. La binomiale conta successi su prove indipendenti; la Poisson conta eventi indipendenti; il CLT vale per somme di variabili indipendenti. Quando l’indipendenza salta, le formule restano scritte ma diventano false. Un test set in cui molti esempi sono quasi-duplicati — frammenti dello stesso documento, foto della stessa scena — non ha $n$ esempi indipendenti: ne ha molti meno. L’errore standard $\sqrt{p(1-p)/n}$ calcolato con l’ $n$ nominale sarà troppo ottimistico, il margine del benchmark troppo stretto, e due modelli appariranno distinguibili quando non lo sono. La dimensione del campione che conta è il numero di unità indipendenti, non il numero di righe nel file.

Il secondo è la sovradispersione dei conteggi. La Poisson impone che media e varianza siano uguali. I dati di conteggio reali quasi mai rispettano questo vincolo: il traffico verso un servizio ha picchi correlati (un articolo virale, un cron job), gli errori arrivano a raffiche, le richieste degli utenti hanno cicli giornalieri. La varianza osservata è allora molto maggiore della media — sovradispersione — e modellare quei dati con una Poisson sottostima drammaticamente la frequenza degli eventi estremi. Il controllo diagnostico è immediato: calcola media e varianza dei tuoi conteggi; se la seconda è molto più grande della prima, la Poisson è il modello sbagliato, e servono alternative (la binomiale negativa è la più comune).

Il terzo è la trappola della normale: code troppo leggere. La normale ha code che calano molto in fretta — il $99.7\%$ entro tre deviazioni standard. Molti fenomeni reali hanno code molto più pesanti: gli eventi estremi capitano con frequenza ben maggiore di quanto una gaussiana preveda. Le latenze in coda di un sistema, i ritorni finanziari, le dimensioni dei file, la frequenza delle parole in un testo: tutti fenomeni dove i valori estremi non sono rari quanto la normale vorrebbe. Assumere la normalità in questi casi porta a sottostimare sistematicamente il rischio degli eventi rari — e gli eventi rari, in un sistema in produzione, sono esattamente quelli che causano gli incidenti. Quando si tratta di code, la t di Student (code più pesanti) o modelli a coda esplicita sono scelte più prudenti della gaussiana.

Il quarto è prendere il CLT come una garanzia incondizionata. Il teorema del limite centrale dice che la media di tante variabili indipendenti tende a una normale. Tre parole vanno lette con attenzione. “Tende”: è un limite, e per campioni piccoli o per distribuzioni di partenza molto asimmetriche la convergenza è lenta — la media di 10 valori da una distribuzione fortemente sbilanciata non è ancora normale. “Indipendenti”: vale la trappola del primo punto. E il CLT richiede varianza finita: per distribuzioni a coda così pesante da avere varianza infinita, il teorema semplicemente non si applica, e la media campionaria non si normalizza per quanti dati tu raccolga. Il CLT è potente ma ha un dominio di validità, e applicarlo fuori da quel dominio è un errore silenzioso.

Il quinto è l’assenza di memoria dove la memoria c’è. L’esponenziale e la geometrica sono memoryless: assumono che l’attesa già trascorsa non cambi l’attesa residua. Per molti sistemi reali questo è falso in modo importante. Un componente hardware invecchia: più è vecchio, più è probabile che si guasti presto — la memoria c’è, ed è esattamente l’usura. Un job di training che gira da molte ore può essere più vicino al completamento, non equidistante. Modellare con un’esponenziale un tempo di vita che ha memoria sottostima i guasti tardivi e sovrastima quelli precoci. Quando il tasso di un evento cambia nel tempo, servono distribuzioni che lo permettano (la Weibull è la generalizzazione standard dell’esponenziale con tasso variabile).

Il sesto, più sottile, è confondere la distribuzione dei dati con la distribuzione della statistica. Il CLT garantisce che la media campionaria tende a essere normale; non dice nulla sul fatto che i dati grezzi siano normali. Sono affermazioni diverse. I tempi di latenza grezzi possono essere fortemente asimmetrici (esponenziali, o peggio), eppure la loro media calcolata su molti campioni è approssimativamente normale. Verificare la normalità sulla cosa sbagliata — sui dati invece che sulla statistica — porta a conclusioni errate in entrambe le direzioni: a rifiutare la normale dove il CLT la garantisce, o ad assumerla dove non vale.

Il settimo è scambiare la media per il riassunto del fenomeno. Una distribuzione è descritta da una forma intera, non da un singolo numero. Quando un fenomeno è asimmetrico o ha code pesanti, la media può essere fuorviante in modo grave. Le latenze di un servizio ne sono l’esempio canonico: la latenza media può essere 80 millisecondi, ma se la distribuzione ha una coda lunga, il percentile 99 — l’esperienza dell’utente più sfortunato su cento — può valere 600 millisecondi. Riportare solo la media nasconde esattamente la parte della distribuzione che fa danno. Il rimedio non è statistico ma di disciplina: quando il fenomeno non è simmetrico, riporta percentili, non solo la media; e prima ancora, chiediti se la forma che hai assunto ha davvero la coda che i dati mostrano.

Un caso concreto: la Poisson dove non andava

Vale la pena chiudere con un caso che intreccia più di uno di questi errori, perché è il modo in cui si presentano nella pratica. Una squadra vuole capacità di un servizio di moderazione: conta quanti contenuti problematici arrivano ogni ora, osserva una media di circa 12 all’ora, e — vista la parola “conteggio di eventi” — assume una Poisson con $\lambda = 12$ . Sotto quel modello, un’ora con più di 25 eventi sarebbe rarissima, ben oltre quattro deviazioni standard. La squadra dimensiona la capacità di revisione su quella previsione.

In produzione, le ore con 40 o 50 eventi capitano ogni settimana. Il modello aveva due crepe, entrambe già viste sopra. La prima: i contenuti problematici non sono indipendenti — arrivano a campagne, a ondate coordinate — quindi l’ipotesi di indipendenza della Poisson era falsa. La seconda, conseguenza della prima: la varianza osservata dei conteggi era molte volte la media, una sovradispersione netta che il controllo diagnostico “varianza contro media” avrebbe rivelato in cinque minuti. La Poisson, con la sua varianza incollata alla media, non poteva rappresentare quei picchi. Il modello non era sbagliato nei calcoli — i calcoli erano corretti — era sbagliato nella scelta della famiglia, fatta dalla parola “conteggio” invece che dal meccanismo reale. È la lezione di tutto il capitolo, vista dal lato del fallimento: la distribuzione segue dal meccanismo, e saltare la verifica del meccanismo è un errore che nessuna correttezza di calcolo recupera.

Il filo di tutta la sezione: una distribuzione è un’ipotesi, non un dato di fatto. Prima di usarla, vale la pena chiedersi se il meccanismo che la genera è davvero quello dei tuoi dati — indipendenza, tasso costante, code leggere, assenza di memoria — e fare i controlli diagnostici che il capitolo ha indicato (varianza contro media per la Poisson, peso delle code per la normale). Una distribuzione scelta senza questa verifica è un modello che sembra rigoroso e non lo è.

Collegamenti

Popolazione, campione, stimatore: la logica dell’incertezza — il capitolo che apre la Parte V e fissa il vocabolario di parametro e statistica; i parametri di cui parla quel capitolo sono i parametri delle distribuzioni di questo.
Distribuzioni, valore atteso, varianza — introduce i mattoni usati qui senza spiegarli di nuovo: valore atteso, varianza, l’idea di variabile aleatoria.
Entropia, cross-entropy, KL divergence — la cross-entropy con cui si addestrano i classificatori è la log-verosimiglianza negativa sotto un modello di Bernoulli o categorica.
Softmax e sigmoid: dalla somma alla probabilità — sigmoid e softmax producono i parametri rispettivamente di una Bernoulli e di una categorica: l’output dei classificatori è una distribuzione.
Teorema di Bayes e ragionamento bayesiano — il punto di vista bayesiano tratta i parametri delle distribuzioni come incerti, assegnando loro a loro volta una distribuzione.
legge-grandi-numeri-clt (in preparazione) — il teorema del limite centrale, qui solo enunciato, riceve lì la trattazione completa: è il motore che rende la normale onnipresente.
campionamento (in preparazione) — come si estrae un campione e quali bias minano l’ipotesi di indipendenza su cui poggiano queste distribuzioni.
maximum-likelihood (in preparazione) — stimare i parametri $p$ , $\lambda$ , $\mu$ di una distribuzione massimizzando la verosimiglianza dei dati osservati.
intervalli-confidenza (in preparazione) e test-ipotesi (in preparazione) — usano la normale, la t di Student e la chi-quadro per quantificare l’incertezza di una stima e per decidere fra ipotesi.

Per andare oltre

Xavier Glorot, Yoshua Bengio, Understanding the difficulty of training deep feedforward neural networks (AISTATS 2010). Il paper che lega esplicitamente la scelta di una distribuzione (normale o uniforme) e della sua varianza alla stabilità dell’addestramento di una rete profonda.
Kaiming He et al., Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification (ICCV 2015, arXiv:1502.01852). Introduce l’inizializzazione He e mostra come la distribuzione dei pesi vada tarata sulla funzione di attivazione.
Larry Wasserman, All of Statistics: A Concise Course in Statistical Inference (Springer, 2004). Un capitolo iniziale denso e rigoroso sulle distribuzioni comuni e sulle loro relazioni, scritto per chi viene da informatica e matematica applicata.
Voce Poisson limit theorem e voce Exponential distribution su Wikipedia. Enunciati precisi del limite di Poisson della binomiale e delle proprietà dell’esponenziale (assenza di memoria, legame con il processo di Poisson), con riferimenti alle fonti originali.
Christopher Bishop, Pattern Recognition and Machine Learning (Springer, 2006), capitolo 2. La trattazione delle distribuzioni di probabilità orientata esplicitamente al machine learning: famiglie esponenziali, distribuzioni coniugate, ruolo nella modellazione.