Salta ai contenuti

Stima puntuale: dare un numero al parametro ignoto

Un campione produce un singolo numero come ipotesi sul mondo. Questo capitolo costruisce gli strumenti per giudicare quel numero: quanto sbaglia in media, quanto oscilla, e perché “non distorto” non significa “il migliore”.

Dividi per nn oppure per n1n-1? Chiunque abbia calcolato una varianza in un foglio di calcolo o letto la documentazione di una libreria statistica ha incontrato questa biforcazione, di solito senza una risposta. NumPy con numpy.var divide per nn di default; il metodo var() di pandas divide per n1n-1. Stesso dato, due numeri diversi, e nessuna delle due librerie sbaglia. La discrepanza non è un dettaglio di implementazione: è la punta visibile di una domanda profonda su cosa renda buona una stima.

Questo capitolo risponde a quella domanda. Un campione di dati produce, attraverso una formula, un singolo numero — la media osservata, la varianza osservata, una frequenza. Quel numero è un’ipotesi su una quantità del mondo che non possiamo misurare direttamente. La domanda non è solo “qual è il numero”, ma “quanto è buono come ipotesi”. E “buono” si decompone in due proprietà distinte: sbagliare poco in media, e oscillare poco da un campione all’altro. Le due non coincidono, e tenerle separate è metà del lavoro.

C’è un secondo motivo, più diretto per chi costruisce sistemi AI. Ogni numero che descrive un modello — l’accuratezza su un test set, il win rate contro un baseline, la loss media — è una stima puntuale calcolata su una parte dei dati. E i pesi stessi di una rete, i milioni di parametri appresi durante il training, sono anch’essi stimatori: minimizzano una loss su un campione di training, non sulla distribuzione vera che genererà i dati futuri. Capire cosa rende uno stimatore affidabile o fragile è capire quando fidarsi dei numeri di un modello e quando sospettarli. Il punto di arrivo del capitolo, la decomposizione dell’errore in una componente sistematica e una rumorosa, è lo stesso scheletro su cui poggia il bias-varianza trade-off del machine learning.

Il capitolo Popolazione, campione, stimatore ha già introdotto i termini di base. Vale la pena ricordarli, perché tutto il resto vi si appoggia. La popolazione è l’insieme di tutti i casi che ci interessano — tutti gli adulti di una città, tutti i possibili prompt che un modello riceverà. Il parametro è un numero che descrive la popolazione: la sua media, la sua varianza, una proporzione. È fisso ma ignoto. Il campione è la parte che riusciamo a osservare. Lo stimatore è la ricetta che trasforma il campione in un’ipotesi sul parametro.

Quel capitolo aveva presentato lo stimatore come oggetto. Questo lo mette sotto esame. La domanda non è più “che cos’è uno stimatore” ma “come si confrontano due stimatori dello stesso parametro, e su quale base se ne preferisce uno”.

La risposta moderna ha una storia precisa. Per buona parte dell’Ottocento e del primo Novecento la non distorsione — l’idea che uno stimatore debba colpire il bersaglio in media — era considerata la proprietà desiderabile per eccellenza. Carl Friedrich Gauss (matematico tedesco, 1777-1855) e Pierre-Simon Laplace (matematico e astronomo francese, 1749-1827) avevano costruito la teoria dei minimi quadrati attorno a stimatori non distorti. Ronald Fisher (statistico e genetista britannico, 1890-1962), nei primi anni Venti, aggiunse i concetti di consistenza, efficienza e informazione, dando alla teoria della stima la sua forma riconoscibile.

Il quadro sembrava chiuso. Poi, nel 1956, arrivò una sorpresa. Charles Stein (statistico americano, 1920-2016) dimostrò che lo stimatore più sacro di tutti, la media campionaria, smette di essere ottimo non appena si stimano tre o più medie contemporaneamente: esiste qualcosa di sistematicamente migliore. Il risultato, noto come paradosso di Stein, mostrò che la non distorsione non è un imperativo ma una scelta — e a volte una scelta perdente. La parte finale del capitolo lo affronta in dettaglio.

Vale la pena notare che questa svolta non è solo storia statistica. La logica dello shrinkage che Stein rese rigorosa — accettare un po’ di errore sistematico per guadagnare molta stabilità — è la stessa che, decenni dopo, giustifica la regolarizzazione nei modelli di machine learning. Il capitolo tiene insieme i due piani: la teoria classica della stima, nata per problemi di astronomia e di assicurazioni nell’Ottocento, e il suo riuso contemporaneo nell’addestramento di modelli con milioni di parametri. Lo strumento concettuale — la decomposizione dell’errore — è lo stesso; cambia solo la scala dell’oggetto a cui si applica.

Nel grafo di questa wiki, questo capitolo è il quinto della Parte V. Poggia su Le distribuzioni comuni per la Bernoulliana e la Normale, su Campionamento per il modo in cui il campione viene estratto, e soprattutto su Legge dei grandi numeri e teorema del limite centrale: la legge dei grandi numeri, vista dal lato dello stimatore, è esattamente l’enunciato di consistenza che incontreremo qui. Sul versante della Parte IV, userà liberamente valore atteso e varianza, definiti in Distribuzioni, valore atteso, varianza.

Prima di qualsiasi formula, tre modi distinti di vedere cosa rende buono uno stimatore: un’immagine fisica, una definizione formale, e una lettura in termini di costo.

Immagina uno stimatore come un arciere che tira a un bersaglio. Il centro del bersaglio è il parametro vero θ\theta — il numero che vorremmo conoscere. Ogni volta che estrai un campione e applichi la formula, l’arciere tira una freccia: la stima è il punto in cui la freccia atterra. Estrarre molti campioni significa guardare molte frecce.

Due cose possono andare storte, e sono indipendenti.

La prima: le frecce, mediate, possono cadere lontano dal centro. L’arciere ha una mira sbilanciata — tira sistematicamente troppo a destra. Anche con infinite frecce, il loro baricentro non è il centro del bersaglio. Questo è il bias, la distorsione: un errore sistematico, che non si cancella ripetendo.

La seconda: le frecce possono essere sparpagliate. Anche un arciere con la mira perfettamente centrata, se ha la mano che trema, pianta frecce in ogni direzione attorno al centro. Le singole frecce sono lontane dal centro, anche se il loro baricentro lo colpisce. Questo è la varianza: un errore di instabilità, di rumore.

Quattro scenari, e solo uno è desiderabile. Mira centrata e mano ferma: tutte le frecce vicino al centro — bias basso, varianza bassa. Mira centrata e mano tremante: frecce sparse ma centrate in media — bias basso, varianza alta. Mira sbilanciata e mano ferma: tutte le frecce raggruppate, ma nel posto sbagliato — bias alto, varianza bassa. Mira sbilanciata e mano tremante: il disastro completo.

L’immagine chiarisce subito una trappola. Se guardi una sola freccia — un solo campione, una sola stima — non puoi distinguere i quattro casi. Una freccia vicino al centro può venire da un arciere ottimo o da un arciere pessimo che ha avuto fortuna. Bias e varianza sono proprietà dell’arciere, cioè dello stimatore come ricetta, non della singola stima. Per giudicarli devi immaginare l’esperimento ripetuto.

Secondo angolo: lo stimatore è una variabile aleatoria

Sezione intitolata “Secondo angolo: lo stimatore è una variabile aleatoria”

Il secondo angolo è più formale e spiega da dove vengano bias e varianza. Lo stimatore θ^\hat\theta è una funzione del campione: θ^=h(X1,,Xn)\hat\theta = h(X_1, \dots, X_n). Ma il campione è casuale — è un’estrazione dalla popolazione. Quindi θ^\hat\theta, essendo una funzione di quantità casuali, è esso stesso una variabile aleatoria.

Questo è il punto che ribalta l’intuizione ingenua. Prima di estrarre il campione, lo stimatore non ha un valore: ha una distribuzione di probabilità. Quella distribuzione si chiama distribuzione campionaria, ed era il cuore del capitolo Legge dei grandi numeri e teorema del limite centrale. La stima — il numero concreto, 0,873 o quel che sia — è il valore che lo stimatore assume su un campione particolare. Una sola estrazione dalla sua distribuzione.

La distinzione tra stimatore e stima merita di essere fissata con una formula esplicita, perché la lingua comune le confonde. Lo stimatore è la ricetta: “prendi i dati e fanne la media”. La stima è il piatto: “su questi 200 esempi, la media è 0,873”. La ricetta ha proprietà statistiche — un valore atteso, una varianza; il piatto è solo un numero.

Una volta accettato che θ^\hat\theta è una variabile aleatoria, bias e varianza diventano due dei suoi descrittori naturali. Il bias è la differenza tra il valore atteso di θ^\hat\theta e il bersaglio θ\theta: dove cade il baricentro della distribuzione campionaria rispetto al vero. La varianza è la varianza di θ^\hat\theta: quanto la distribuzione campionaria è larga. L’arciere del primo angolo e la variabile aleatoria del secondo descrivono lo stesso oggetto. Il resto del capitolo lo rende preciso.

Un terzo modo di vedere la cosa, più vicino al lavoro di chi deve decidere dove investire risorse. Pensa all’errore totale di una stima come a una somma di denaro che vorresti minimizzare — un budget di errore. La decomposizione che il capitolo deriverà più avanti dice che questo budget si spende in due voci separate: una voce “errore sistematico” e una voce “errore di rumore”.

Le due voci rispondono a leve diverse. La voce rumore si abbatte raccogliendo più dati: con un campione più grande, la stima oscilla meno. La voce errore sistematico, invece, non si tocca con più dati — se la formula sbaglia in modo strutturale, sbaglia allo stesso modo su mille o su un milione di osservazioni. Per ridurre quella voce serve cambiare lo stimatore, non ingrandire il campione.

Questa lettura chiarisce perché bias e varianza vanno tenuti separati anche in pratica. Davanti a una stima insoddisfacente, la prima domanda da farsi è: quale delle due voci domina il budget? Se domina il rumore, la cura è più dati. Se domina l’errore sistematico, più dati non servono a niente e bisogna ripensare la formula. Confondere le due diagnosi porta a sprecare risorse: raccogliere dati a oltranza per un problema di bias, o cambiare modello per un problema che era solo di varianza. La decomposizione MSE è lo strumento che rende questa diagnosi un calcolo invece che un’intuizione.

I tre angoli descrivono lo stesso oggetto da prospettive diverse: l’arciere lo rende visibile, la variabile aleatoria lo rende formale, il budget lo rende azionabile. La sezione che segue li traduce in formule.

Dato un campione X1,X2,,XnX_1, X_2, \dots, X_n di nn osservazioni, uno stimatore puntuale del parametro θ\theta è una funzione del campione:

θ^=h(X1,X2,,Xn)\hat\theta = h(X_1, X_2, \dots, X_n)

Il cappello su θ\theta è la notazione standard per “stima di”: θ^\hat\theta si legge “theta cappello”. La funzione hh non dipende da θ\theta — non potrebbe, θ\theta è ignoto — ma solo dai dati. Si chiama “puntuale” perché produce un singolo punto, un numero, in contrapposizione alla stima per intervallo, che produce un intervallo di valori plausibili e sarà l’oggetto di intervalli-confidenza (in preparazione).

Un punto da fissare subito: per lo stesso parametro θ\theta esistono di solito molti stimatori possibili, tutti formule legittime del campione. Per stimare il centro di una distribuzione si può usare la media, la mediana, la semisomma di minimo e massimo, o perfino la prima osservazione. Sono tutte funzioni hh valide. La teoria che segue serve esattamente a questo: dato un ventaglio di stimatori candidati per lo stesso parametro, fornire i criteri — bias, varianza, MSE, consistenza, efficienza — con cui sceglierne uno. Senza quei criteri, “stimare θ\theta” è una richiesta sotto-specificata.

Lo stimatore più usato è la media campionaria, lo stimatore della media vera μ\mu della popolazione:

Xˉ=1ni=1nXi\bar X = \frac{1}{n}\sum_{i=1}^n X_i

La barra sopra la XX è la notazione standard. In parole: somma tutte le osservazioni e dividi per quante sono. Sotto l’ipotesi che le XiX_i siano un campione i.i.d. — indipendenti e identicamente distribuite, cioè estratte tutte dalla stessa distribuzione e senza influenzarsi a vicenda — la media campionaria ha tre proprietà che la rendono lo stimatore di riferimento.

La prima: il suo valore atteso è esattamente μ\mu.

E[Xˉ]=E ⁣[1ni=1nXi]=1ni=1nE[Xi]=1nnμ=μE[\bar X] = E\!\left[\frac{1}{n}\sum_{i=1}^n X_i\right] = \frac{1}{n}\sum_{i=1}^n E[X_i] = \frac{1}{n}\cdot n\mu = \mu

Il passaggio centrale usa la linearità del valore atteso (il valore atteso di una somma è la somma dei valori attesi) e il fatto che ogni XiX_i ha valore atteso μ\mu. In parole povere: in media, la media campionaria colpisce il bersaglio. Esattamente, per ogni nn, anche per n=2n=2.

La seconda: la sua varianza è σ2/n\sigma^2/n, dove σ2\sigma^2 è la varianza della popolazione.

Var(Xˉ)=Var ⁣(1ni=1nXi)=1n2i=1nVar(Xi)=1n2nσ2=σ2n\mathrm{Var}(\bar X) = \mathrm{Var}\!\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n^2}\sum_{i=1}^n \mathrm{Var}(X_i) = \frac{1}{n^2}\cdot n\sigma^2 = \frac{\sigma^2}{n}

Qui serve l’indipendenza: la varianza di una somma è la somma delle varianze solo se i termini sono indipendenti. La costante 1/n1/n esce dalla varianza al quadrato, da cui 1/n21/n^2. In parole povere: più grande è il campione, più la media campionaria è stabile. La sua deviazione standard, la radice della varianza, è σ/n\sigma/\sqrt n e si chiama errore standard della media. Cala come 1/n1/\sqrt n: per dimezzare l’errore standard servono quattro volte i dati.

La terza proprietà, la consistenza, la formalizziamo più avanti, ma l’intuizione è già qui: poiché la varianza σ2/n\sigma^2/n tende a zero al crescere di nn, e il valore atteso è già giusto, la media campionaria si stringe sempre più attorno a μ\mu. Questo è il contenuto della legge dei grandi numeri, riletto dal lato dello stimatore.

Stimare la varianza vera σ2\sigma^2 della popolazione è meno innocente. La definizione di σ2\sigma^2 è E[(Xμ)2]E[(X-\mu)^2], la media dei quadrati degli scarti dalla media vera. La traduzione campionaria ovvia sarebbe sostituire μ\mu con Xˉ\bar X e fare la media:

Sn2=1ni=1n(XiXˉ)2S_n^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar X)^2

Questo stimatore, con divisore nn, sembra naturale. Ed è sbagliato — non concettualmente, ma nel senso preciso che è distorto. Si può dimostrare che:

E[Sn2]=n1nσ2E[S_n^2] = \frac{n-1}{n}\,\sigma^2

Il fattore (n1)/n(n-1)/n è minore di 1, quindi Sn2S_n^2 sottostima sistematicamente la varianza vera. Per n=10n=10, in media restituisce il 90% di σ2\sigma^2. La cura è dividere per n1n-1 invece che per nn:

S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar X)^2

Questo stimatore, la varianza campionaria corretta, è non distorto: E[S2]=σ2E[S^2] = \sigma^2. Il passaggio da Sn2S_n^2 a S2S^2 è la moltiplicazione per n/(n1)n/(n-1), e prende il nome di correzione di Bessel, dal nome dell’astronomo e matematico tedesco Friedrich Bessel (1784-1846). È questa la ragione per cui pandas divide per n1n-1: restituisce una stima non distorta della varianza della popolazione.

Perché serve la correzione? Tre spiegazioni, ciascuna illumina un lato diverso.

Le deviazioni dalla media campionaria sono troppo piccole. Ogni osservazione XiX_i è, per costruzione, più vicina a Xˉ\bar X che a μ\mu. Il motivo è che Xˉ\bar X è calcolata a partire dagli stessi dati: è il punto che minimizza la somma dei quadrati degli scarti. Qualsiasi altro punto, incluso il vero μ\mu, dà una somma di quadrati maggiore o uguale. Quindi (XiXˉ)2(Xiμ)2\sum(X_i - \bar X)^2 \le \sum(X_i - \mu)^2 sempre. Misurare la dispersione rispetto a Xˉ\bar X la sottostima, e dividere per nn eredita la sottostima. Il fattore n/(n1)n/(n-1) la compensa esattamente.

I gradi di libertà. Un campione di nn punti porta nn pezzi di informazione indipendenti — nn gradi di libertà. Quando calcoli S2S^2, però, usi Xˉ\bar X dentro la formula, e Xˉ\bar X è a sua volta stimata dagli stessi dati. Questo crea un vincolo: i residui XiXˉX_i - \bar X sommano a zero per costruzione (è una proprietà algebrica della media). Se conosci n1n-1 residui, l’nn-esimo è determinato. Solo n1n-1 residui sono davvero liberi. La stima della media ha “consumato” un grado di libertà, e la varianza si calcola correttamente spalmandola sui n1n-1 gradi rimasti.

Il conto. La derivazione esplicita conferma il fattore, e vale la pena seguirla un passo alla volta perché chiarisce da dove esce il 1-1. Il trucco è non confrontare gli XiX_i con Xˉ\bar X direttamente, ma passare per il vero μ\mu. Si riscrive lo scarto inserendo e togliendo μ\mu:

XiXˉ=(Xiμ)(Xˉμ)X_i - \bar X = (X_i - \mu) - (\bar X - \mu)

Si eleva al quadrato il secondo membro. Sviluppando il quadrato di una differenza e sommando su tutti gli ii, il doppio prodotto si semplifica — perché (Xiμ)=n(Xˉμ)\sum (X_i - \mu) = n(\bar X - \mu) — e resta:

i=1n(XiXˉ)2=i=1n(Xiμ)2n(Xˉμ)2\sum_{i=1}^n (X_i - \bar X)^2 = \sum_{i=1}^n (X_i - \mu)^2 - n\,(\bar X - \mu)^2

Questa identità ha già la forma giusta: la somma dei quadrati attorno a Xˉ\bar X è la somma dei quadrati attorno a μ\mu, meno un termine positivo. Ecco resa esplicita la sottostima. Ora si prende il valore atteso di entrambi i membri. Il primo termine: E[(Xiμ)2]=σ2E[(X_i-\mu)^2] = \sigma^2 per definizione di varianza, e sommato nn volte dà nσ2n\sigma^2. Il secondo termine: E[(Xˉμ)2]=Var(Xˉ)=σ2/nE[(\bar X - \mu)^2] = \mathrm{Var}(\bar X) = \sigma^2/n, moltiplicato per nnσ2\sigma^2. Mettendo insieme:

E ⁣[i=1n(XiXˉ)2]=nσ2σ2=(n1)σ2E\!\left[\sum_{i=1}^n (X_i - \bar X)^2\right] = n\sigma^2 - \sigma^2 = (n-1)\sigma^2

Dividere per n1n-1 restituisce σ2\sigma^2 esatto. Dividere per nn restituisce (n1)/nσ2(n-1)/n \cdot \sigma^2, da cui il bias.

Un avvertimento che anticipa il resto del capitolo. La correzione di Bessel rende non distorta la varianza S2S^2. Non rende non distorta la deviazione standard S=S2S = \sqrt{S^2}: in generale E[S]σE[S] \neq \sigma. La ragione è che la radice quadrata è una funzione non lineare, e il valore atteso di una funzione non lineare non è la funzione del valore atteso (E[Y]E[Y]E[\sqrt Y] \neq \sqrt{E[Y]}, un caso della disuguaglianza di Jensen). Correggere il bias di una quantità non corregge automaticamente il bias di una sua trasformazione. E c’è di più: per dati normali, lo stimatore Sn2S_n^2 con divisore nn — quello “sbagliato”, distorto — ha in realtà un MSE minore di S2S^2. È distorto ma meno rumoroso. Quale dei due preferire dipende da cosa si vuole minimizzare. La convenzione n1n-1 ottimizza la non distorsione, non l’errore totale. Tenere questo a mente prepara il terreno alla decomposizione che segue.

Formalizziamo ora i descrittori di uno stimatore.

Il bias (distorsione) è la differenza tra il valore atteso dello stimatore e il parametro vero:

Bias(θ^)=E[θ^]θ\mathrm{Bias}(\hat\theta) = E[\hat\theta] - \theta

È l’errore sistematico: di quanto lo stimatore sbaglia in media, immaginando di ripetere l’estrazione del campione infinite volte. Bias zero — E[θ^]=θE[\hat\theta] = \theta — definisce uno stimatore non distorto (in inglese unbiased): in media colpisce il bersaglio. Un bias positivo è una sovrastima sistematica, uno negativo una sottostima. La media campionaria Xˉ\bar X ha bias zero per μ\mu. Lo stimatore Sn2S_n^2 ha bias σ2/n-\sigma^2/n per σ2\sigma^2. La varianza corretta S2S^2 ha bias zero.

La varianza dello stimatore è la varianza della variabile aleatoria θ^\hat\theta:

Var(θ^)=E[(θ^E[θ^])2]\mathrm{Var}(\hat\theta) = E\big[(\hat\theta - E[\hat\theta])^2\big]

Misura quanto la stima oscilla da campione a campione attorno al suo valore medio. Attenzione: non misura la distanza dal vero θ\theta, misura la distanza dalla propria media. Uno stimatore con varianza alta è instabile: dà risposte molto diverse su campioni diversi, anche se in media potrebbe essere centrato.

Le due proprietà sono ortogonali — indipendenti l’una dall’altra. Un orologio fermo è precisissimo (varianza zero, segna sempre la stessa ora) e completamente sbagliato (bias enorme). Un orologio che oscilla a caso simmetricamente attorno all’ora giusta ha bias zero e varianza alta. Nessuno dei due è affidabile per una singola occhiata. Servono entrambe le proprietà buone.

La misura che le combina è l’errore quadratico medio, l’MSE (dall’inglese mean squared error), la distanza quadratica attesa dello stimatore dal vero:

MSE(θ^)=E[(θ^θ)2]\mathrm{MSE}(\hat\theta) = E\big[(\hat\theta - \theta)^2\big]

A differenza della varianza, l’MSE misura la distanza dal bersaglio vero θ\theta, non dalla media dello stimatore. È il candidato naturale per “quanto è buono uno stimatore nel complesso”: penalizza sia gli errori sistematici sia l’instabilità, e li penalizza al quadrato, così gli errori grandi pesano sproporzionatamente.

Ed ecco il risultato centrale del capitolo, il ponte verso tutto il machine learning. L’MSE si spezza esattamente in due pezzi:

MSE(θ^)=Var(θ^)+Bias(θ^)2\mathrm{MSE}(\hat\theta) = \mathrm{Var}(\hat\theta) + \mathrm{Bias}(\hat\theta)^2

L’errore totale di uno stimatore è la somma di quanto è instabile (varianza) e di quanto sbaglia sistematicamente, al quadrato (bias²). Due sorgenti distinte di errore, additive.

La derivazione è breve e vale la pena seguirla riga per riga, perché la stessa identità tornerà nel ML. Poniamo Y=θ^θY = \hat\theta - \theta, la differenza tra stima e vero. Allora per definizione MSE(θ^)=E[Y2]\mathrm{MSE}(\hat\theta) = E[Y^2].

Il punto di leva è un’identità generale, valida per qualsiasi variabile aleatoria: E[Y2]=Var(Y)+(E[Y])2E[Y^2] = \mathrm{Var}(Y) + (E[Y])^2. È solo la definizione di varianza riarrangiata — Var(Y)=E[Y2](E[Y])2\mathrm{Var}(Y) = E[Y^2] - (E[Y])^2, portata dall’altra parte. Applichiamola.

Il primo pezzo, Var(Y)\mathrm{Var}(Y). La varianza non cambia se si somma o si sottrae una costante, e θ\theta è una costante (è fisso, anche se ignoto). Quindi Var(Y)=Var(θ^θ)=Var(θ^)\mathrm{Var}(Y) = \mathrm{Var}(\hat\theta - \theta) = \mathrm{Var}(\hat\theta).

Il secondo pezzo, E[Y]E[Y]. Per la linearità, E[Y]=E[θ^θ]=E[θ^]θE[Y] = E[\hat\theta - \theta] = E[\hat\theta] - \theta, che è esattamente la definizione di Bias(θ^)\mathrm{Bias}(\hat\theta).

Mettendo insieme: MSE(θ^)=E[Y2]=Var(Y)+(E[Y])2=Var(θ^)+Bias(θ^)2\mathrm{MSE}(\hat\theta) = E[Y^2] = \mathrm{Var}(Y) + (E[Y])^2 = \mathrm{Var}(\hat\theta) + \mathrm{Bias}(\hat\theta)^2. Fine della dimostrazione.

In parole povere, questa formula dice che hai due manopole da girare per ridurre l’errore di una stima, e sono diverse. Una riduce la distorsione sistematica, l’altra riduce il rumore. Ridurre una può gonfiare l’altra. Per uno stimatore non distorto il termine di bias è zero e l’MSE coincide con la varianza — è il caso di Xˉ\bar X. Ma rinunciare alla non distorsione, accettando un po’ di bias, può abbassare tanto la varianza che l’MSE complessivo scende. È un’opzione legittima, e gli esempi sullo shrinkage, più avanti, la spingono fino in fondo.

Conviene fissare bene quale termine pesa di più, perché la diagnosi orienta l’azione. Quando il bias domina l’MSE, lo stimatore sbaglia in modo strutturale e nessuna quantità di dati lo salva: bisogna cambiare formula. Quando domina la varianza, lo stimatore è giusto in media ma rumoroso, e la cura è più dati o un po’ di shrinkage. Leggere la decomposizione non è un esercizio algebrico fine a sé stesso: è il modo per sapere, davanti a una stima insoddisfacente, dove conviene spendere lo sforzo successivo.

Questa è la stessa decomposizione che il capitolo Bias e varianza: il trade-off che non muore mai applica all’errore di previsione di un modello. Là l’oggetto stimato non è uno scalare ma una funzione — la predizione del modello su input non visti — e compare un terzo termine, l’errore irriducibile dovuto al rumore intrinseco dei dati. Lo scheletro algebrico, però, è identico a quello appena derivato. Il bias-varianza trade-off del ML non è un’analogia con la stima statistica: è letteralmente la stessa decomposizione, applicata a un oggetto più complesso. Una volta fissata la classe del legame — equivalenza strutturale, non semplice somiglianza didattica — il resto del capitolo si concentra sul caso scalare, dove tutto è visibile a occhio nudo.

Le proprietà viste finora valgono a nn fissato. La consistenza è invece una garanzia su cosa succede quando il campione cresce. Uno stimatore θ^n\hat\theta_n — l’indice nn ricorda che dipende dalla dimensione del campione — è consistente se converge al parametro vero al crescere di nn:

limnP(θ^nθϵ)=0per ogni ϵ>0\lim_{n\to\infty} P\big(|\hat\theta_n - \theta| \ge \epsilon\big) = 0 \quad\text{per ogni } \epsilon > 0

In parole: per quanto piccola scegli una tolleranza ϵ\epsilon, la probabilità che la stima sbagli di più di ϵ\epsilon va a zero quando il campione diventa abbastanza grande. È il tipo di convergenza che il capitolo Legge dei grandi numeri e teorema del limite centrale chiama convergenza in probabilità.

Verificare la consistenza dalla definizione è scomodo. C’è una scorciatoia molto comoda: se MSE(θ^n)0\mathrm{MSE}(\hat\theta_n) \to 0 quando nn \to \infty, allora θ^n\hat\theta_n è consistente. E poiché MSE=Var+Bias2\mathrm{MSE} = \mathrm{Var} + \mathrm{Bias}^2, basta controllare che entrambi i termini vadano a zero. Per la media campionaria: il bias è già zero, la varianza è σ2/n0\sigma^2/n \to 0, dunque MSE0\mathrm{MSE} \to 0, dunque Xˉ\bar X è consistente. È esattamente la legge dei grandi numeri.

Due avvertimenti, perché la consistenza è spesso fraintesa.

Primo: uno stimatore può essere distorto a nn finito ma consistente. L’esempio è Sn2S_n^2, la varianza con divisore nn. Ha bias σ2/n-\sigma^2/n, diverso da zero per ogni nn finito. Ma quel bias tende a zero quando nn cresce: lo stimatore è asintoticamente non distorto. La sua varianza tende a zero, quindi il suo MSE tende a zero, quindi è consistente. Non distorto e consistente sono proprietà diverse: la prima vale subito, la seconda vale al limite.

Secondo: la consistenza è una promessa asintotica, e le promesse asintotiche non dicono nulla sui campioni piccoli. Uno stimatore consistente può comportarsi malissimo su 30 dati e benissimo su 30 milioni. Sapere che uno stimatore è consistente è rassicurante per il lungo periodo, ma non sostituisce il calcolo della sua varianza nel regime di dati che hai davvero.

C’è anche il rovescio della medaglia, ed è istruttivo: uno stimatore può essere non distorto e inconsistente. Un esempio è lo stimatore che ignora tutto il campione tranne la prima osservazione, e restituisce X1X_1. Il suo valore atteso è μ\mu, quindi è non distorto, esatto per ogni nn. Ma la sua varianza è σ2\sigma^2 — costante, non scende con nn — quindi non converge mai a μ\mu per quanti dati raccogli. Non distorsione e consistenza non solo sono proprietà diverse: non c’è implicazione né in un verso né nell’altro. Una stima può colpire il bersaglio in media e restare comunque inutilmente rumorosa per sempre.

L’ultima proprietà confronta stimatori non distorti tra loro. Se due stimatori sono entrambi non distorti per lo stesso θ\theta, è ragionevole preferire quello con varianza minore: a parità di centratura, vince il più stabile. Tra stimatori non distorti, quello a varianza minore è il più efficiente.

Un caso concreto rende l’idea tangibile. Per stimare il centro di una distribuzione simmetrica, hai a disposizione almeno due stimatori entrambi non distorti: la media campionaria Xˉ\bar X e la mediana campionaria (il valore centrale, una volta ordinati i dati). Quale scegliere? Dipende dalla distribuzione. Se i dati sono normali, la media è più efficiente: la sua varianza è circa il 64% di quella della mediana — usare la mediana spreca informazione, come se buttassi via un terzo del campione. Ma se la distribuzione ha code pesanti, con valori estremi frequenti, la mediana diventa più efficiente, perché un singolo valore aberrante sposta molto la media e quasi niente la mediana. L’efficienza non è una proprietà assoluta dello stimatore: è una proprietà dello stimatore rispetto a una distribuzione. Non esiste lo stimatore più efficiente in generale; esiste il più efficiente per i dati che hai.

Sorge una domanda: quanto si può spingere in basso la varianza? Esiste un pavimento. Il limite inferiore di Cramer-Rao — dai matematici Harald Cramer (svedese, 1893-1985) e Calyampudi Radhakrishna Rao (indiano, 1920-2023), che lo derivarono indipendentemente intorno al 1945-46 — stabilisce che nessuno stimatore non distorto può avere varianza sotto una certa soglia, determinata dalla quantità di informazione che i dati contengono sul parametro (l’informazione di Fisher). Non importa quanto sei astuto nel disegnare la formula: sotto quel pavimento non si scende, restando non distorti.

Uno stimatore non distorto che raggiunge il pavimento si dice efficiente, o MVUE (dall’inglese minimum variance unbiased estimator, stimatore non distorto a varianza minima). L’efficienza di uno stimatore è il rapporto tra il pavimento e la sua varianza effettiva: vale 1 per uno stimatore efficiente, meno di 1 per gli altri. La derivazione del limite di Cramer-Rao richiede l’apparato della massima verosimiglianza ed è rimandata a maximum-likelihood (in preparazione); qui basta l’idea che un pavimento esiste.

Un caveat fondamentale, che la prossima sezione raccoglie: il limite di Cramer-Rao vale solo dentro il recinto degli stimatori non distorti. Uscendo da quel recinto, accettando un po’ di bias, si può ottenere un MSE inferiore alla varianza del miglior stimatore non distorto. Il pavimento non è un pavimento per l’MSE: è un pavimento per la varianza, e solo a bias zero.

Esempio 1 — calcolo a mano su un campione piccolo

Sezione intitolata “Esempio 1 — calcolo a mano su un campione piccolo”

Cinque misure del tempo di risposta di un servizio, in millisecondi: 120, 135, 110, 150, 125. Calcoliamo le tre quantità di base.

La media campionaria:

Xˉ=120+135+110+150+1255=6405=128\bar X = \frac{120 + 135 + 110 + 150 + 125}{5} = \frac{640}{5} = 128

Gli scarti dalla media: 8, 7, 18, 22, 3-8,\ 7,\ -18,\ 22,\ -3. La loro somma è zero, come deve essere — è il vincolo che consuma un grado di libertà. La somma dei quadrati degli scarti:

(XiXˉ)2=64+49+324+484+9=930\sum (X_i - \bar X)^2 = 64 + 49 + 324 + 484 + 9 = 930

Adesso la biforcazione. La varianza con divisore nn:

Sn2=9305=186S_n^2 = \frac{930}{5} = 186

La varianza con divisore n1n-1, corretta di Bessel:

S2=9304=232,5S^2 = \frac{930}{4} = 232{,}5

Due numeri diversi dallo stesso dato. La differenza è il fattore n/(n1)=5/4=1,25n/(n-1) = 5/4 = 1{,}25: la seconda è del 25% più grande. Con n=5n=5 la correzione pesa parecchio. Su un campione da 1000 punti il fattore 1000/9991000/999 sposterebbe il risultato dello 0,1%, irrilevante in pratica. La correzione di Bessel è una questione seria solo sui campioni piccoli — che sono esattamente quelli su cui si calcola spesso una varianza a mano o per pochi run di un esperimento.

Quale dei due è “giusto”? Se S2S^2 serve come stima della varianza vera σ2\sigma^2 di una popolazione, allora 232,5 è la scelta non distorta. Se il campione è l’intera popolazione di interesse — sono questi cinque tempi e basta, non un campione di qualcos’altro — allora la domanda della correzione non si pone: 186 è la varianza esatta di quei cinque numeri, non una stima.

La media campionaria, invece, non soffre di questa biforcazione: Xˉ=128\bar X = 128 è la stima non distorta di μ\mu, e resta 128 quale che sia l’interpretazione. La differenza è che la formula della media non contiene altre quantità stimate dagli stessi dati, mentre la formula della varianza contiene Xˉ\bar X — ed è proprio quella dipendenza, come visto nella sezione sui gradi di libertà, a generare il bisogno della correzione. Ogni volta che uno stimatore usa al suo interno un’altra stima ricavata dagli stessi dati, vale la pena chiedersi se quella dipendenza introduca un bias.

Le parole “in media sottostima” sono astratte finché non le si vede. Il modo per vederle è simulare: generare migliaia di campioni da una distribuzione di cui conosciamo la varianza vera, calcolare entrambi gli stimatori su ciascuno, e confrontare la media dei risultati con il valore vero.

import numpy as np
rng = np.random.default_rng(0)
sigma2_vero = 4.0 # varianza vera della popolazione
n = 5 # campioni piccoli: il bias si vede meglio
n_simulazioni = 100_000
stime_div_n = [] # stimatore S_n^2, divisore n
stime_div_n1 = [] # stimatore S^2, divisore n-1
for _ in range(n_simulazioni):
campione = rng.normal(loc=0.0, scale=np.sqrt(sigma2_vero), size=n)
scarti2 = (campione - campione.mean())**2
stime_div_n.append(scarti2.sum() / n)
stime_div_n1.append(scarti2.sum() / (n - 1))
print(f"varianza vera: {sigma2_vero:.4f}")
print(f"media di S_n^2 (div n): {np.mean(stime_div_n):.4f}")
print(f"media di S^2 (div n-1): {np.mean(stime_div_n1):.4f}")

L’output, a meno di rumore di simulazione, è vicino a:

varianza vera: 4.0000
media di S_n^2 (div n): 3.2014
media di S^2 (div n-1): 4.0018

Lo stimatore con divisore nn restituisce in media circa 3,2, non 4 — sottostima di un fattore vicino a (n1)/n=4/5=0,8(n-1)/n = 4/5 = 0{,}8, esattamente come prevede la teoria. Lo stimatore con divisore n1n-1 centra il bersaglio. Il bias non è un’opinione: è un numero che esce da centomila ripetizioni.

C’è una seconda lettura della stessa simulazione, e introduce il trade-off. Calcola la varianza dei due elenchi di stime — quanto oscillano i due stimatori — e poi l’MSE di ciascuno rispetto al vero valore 4,0. La tabella riassume cosa esce, a meno di rumore di simulazione:

stimatorebiasvarianzaMSE = var + bias²
Sn2S_n^2 (divisore nn)0,80-0{,}805,1\approx 5{,}15,7\approx 5{,}7
S2S^2 (divisore n1n-1)0,000{,}008,0\approx 8{,}08,0\approx 8{,}0

Lo stimatore con divisore nn è distorto ma più stabile: la sua varianza è sensibilmente minore. La somma Var+Bias2\mathrm{Var} + \mathrm{Bias}^2 lo premia — il suo MSE è inferiore. La convenzione n1n-1 vince sul bias e perde sull’MSE. Non c’è uno stimatore “giusto” in assoluto: c’è uno stimatore giusto per ogni criterio, e i criteri non coincidono. La decomposizione MSE non risolve la scelta al posto tuo; rende esplicito cosa stai scegliendo quando preferisci un divisore all’altro.

Esempio 3 — l’accuratezza di un modello è una stima puntuale

Sezione intitolata “Esempio 3 — l’accuratezza di un modello è una stima puntuale”

Uno scenario quotidiano per chi lavora con sistemi AI. Hai due modelli e li valuti su un test set di 300 esempi. Il modello A ne indovina 264, il modello B ne indovina 258. Le accuratezze osservate:

p^A=264300=0,880p^B=258300=0,860\hat p_A = \frac{264}{300} = 0{,}880 \qquad \hat p_B = \frac{258}{300} = 0{,}860

Il modello A è meglio del modello B? La risposta ingenua è sì, di due punti. La risposta statistica è: dipende da quanto sono rumorose quelle due stime.

L’accuratezza su un test set è una stima puntuale. Ogni esempio del test set è una prova che dà esito 1 (indovinato) o 0 (sbagliato) — una variabile di Bernoulli, definita nel capitolo Le distribuzioni comuni. L’accuratezza osservata è la media campionaria di 300 di queste variabili: uno stimatore p^\hat p della probabilità vera pp di indovinare sulla distribuzione. È non distorto, se il test set è estratto bene. Ma ha una varianza, e per una proporzione la varianza vale p(1p)/np(1-p)/n. L’errore standard, la sua radice, per il modello A:

SE(p^A)=0,880,123000,0003520,019\text{SE}(\hat p_A) = \sqrt{\frac{0{,}88 \cdot 0{,}12}{300}} \approx \sqrt{0{,}000352} \approx 0{,}019

Circa 1,9 punti percentuali. L’errore standard del modello B è quasi identico. Il gap osservato tra i due modelli è di 2 punti — dello stesso ordine di grandezza dell’errore standard di ciascuna delle due stime. Tradotto: ripetendo la valutazione su un altro test set da 300 esempi, le due accuratezze potrebbero facilmente invertirsi. Il gap di 2 punti è dentro il rumore di campionamento.

La lezione non è che il modello A sia uguale al modello B. È che con 300 esempi non si può sapere. Per distinguere un gap di 2 punti dal rumore servirebbe un test set molto più grande — la varianza scala come 1/n1/n, quindi per dimezzare l’errore standard servono quattro volte gli esempi. Riportare “88,0% contro 86,0%” senza l’errore standard accanto è riportare metà del dato, e la metà mancante è quella che dice se la differenza è reale. La trasformazione di questo confronto in una decisione formale — con un p-value e una potenza — è il mestiere di test-ipotesi (in preparazione).

Conviene rendere concreto cosa servirebbe. Per portare l’errore standard da 1,9 punti a circa 0,5 punti — abbastanza stretto perché un gap di 2 punti emerga dal rumore — bisogna ridurlo di un fattore quasi 4. Poiché l’errore standard scala come 1/n1/\sqrt n, ridurlo di 4 richiede 42=164^2 = 16 volte gli esempi: non 300, ma circa 4800. È un conto diretto, che si fa prima di lanciare la valutazione, non dopo: dato l’errore standard che si vuole ottenere, la formula della varianza dello stimatore dice quanti esempi raccogliere. Pianificare la dimensione di un test set è un calcolo, non un’intuizione, e questo capitolo ne fornisce gli ingredienti.

Esempio 4 — i pesi di un modello sono stimatori, e lo shrinkage paga

Sezione intitolata “Esempio 4 — i pesi di un modello sono stimatori, e lo shrinkage paga”

Questo esempio porta la decomposizione MSE dove conta di più: dentro l’addestramento di un modello.

Immagina di dover stimare l’effetto di 500 feature su un risultato — 500 coefficienti, uno per feature. Hai pochi dati. Lo stimatore non distorto naturale, la regressione ai minimi quadrati, restituisce 500 coefficienti, ciascuno centrato sul valore vero ma ciascuno rumoroso: con pochi dati, la varianza di ogni coefficiente è alta. Molti dei 500 coefficienti stimati saranno grandi solo per rumore di campionamento.

Lo shrinkage — letteralmente “restringimento” — propone una mossa controintuitiva: tira tutti i coefficienti stimati verso zero, moltiplicandoli per un fattore minore di 1. La stima ristretta è ora distorta: in media non colpisce più il coefficiente vero, lo sottostima verso zero. Ma è molto più stabile, perché restringere verso una costante riduce la varianza. Bias che cresce, varianza che cala. Per la decomposizione MSE=Var+Bias2\mathrm{MSE} = \mathrm{Var} + \mathrm{Bias}^2, se il calo di varianza supera la crescita di bias², l’MSE complessivo scende.

Questo è esattamente ciò che fa la regolarizzazione L2 (ridge) nel machine learning: aggiunge alla loss un termine che penalizza i pesi grandi, il che equivale a tirare i pesi verso zero. I pesi di un modello regolarizzato sono stimatori distorti — e con MSE più basso di quelli non regolarizzati, quando i dati sono pochi rispetto al numero di parametri. La regolarizzazione non è un trucco ingegneristico senza fondamento statistico: è la decisione deliberata di spostarsi lungo il trade-off bias-varianza, comprando riduzione di varianza al prezzo di un po’ di bias.

Il punto generale: i pesi appresi da una rete neurale sono stimatori. Sono funzioni del campione di training — riaddestra lo stesso modello su un altro campione e ottieni pesi diversi, e quella differenza è la varianza dello stimatore-pesi. Hanno bias e varianza come qualsiasi altra stima. Vedere i parametri di un modello come stimatori, e non come “i numeri giusti”, è ciò che rende decidibili scelte come quanta regolarizzazione applicare. La sezione “Dove si rompe” mostra il caso storico in cui lo shrinkage smise di essere un trucco e divenne un teorema.

Esempio 5 — due stimatori della stessa media, e quale scegliere

Sezione intitolata “Esempio 5 — due stimatori della stessa media, e quale scegliere”

Un esempio che mette il trade-off in forma di scelta concreta. Vuoi stimare la temperatura media di esercizio di un componente. Hai un sensore che produce letture rumorose. Due stimatori plausibili della media vera μ\mu.

Il primo è la solita media campionaria Xˉ\bar X di nn letture: non distorto, varianza σ2/n\sigma^2/n. Il secondo è uno stimatore “pigro”: ignora i dati e restituisce sempre una costante fissa cc — per esempio il valore nominale da scheda tecnica del componente. Lo stimatore costante ha varianza zero (non dipende dai dati, non oscilla mai) e bias cμc - \mu (sbaglia esattamente della distanza tra il valore nominale e quello vero).

Confrontiamoli con l’MSE. Per la media campionaria: MSE(Xˉ)=σ2/n+0=σ2/n\mathrm{MSE}(\bar X) = \sigma^2/n + 0 = \sigma^2/n. Per lo stimatore costante: MSE(c)=0+(cμ)2=(cμ)2\mathrm{MSE}(c) = 0 + (c-\mu)^2 = (c-\mu)^2.

Quale vince? Dipende da due numeri. Se il valore nominale cc è molto vicino alla temperatura vera μ\mu, il termine (cμ)2(c-\mu)^2 è minuscolo, e lo stimatore costante — distorto, ma a varianza zero — può battere la media campionaria, soprattutto quando nn è piccolo e σ2/n\sigma^2/n è grande. Se invece cc è lontano da μ\mu, lo stimatore costante è un disastro: il suo MSE è grande e non scende mai, per quanti dati raccogli.

Questo esempio elementare contiene già tutta la logica dello shrinkage. Lo stimatore di James-Stein, e la regolarizzazione che ne discende, non fanno altro che interpolare tra questi due estremi: né la media campionaria pura, né la costante pura, ma una via di mezzo λXˉ+(1λ)c\lambda \bar X + (1-\lambda)c che eredita un po’ di bias dalla costante e un po’ di varianza dalla media. Quando il fattore λ\lambda è scelto bene, l’MSE della via di mezzo è inferiore a entrambi gli estremi. La morale: la media campionaria non è sacra, è solo lo stimatore a varianza minima fra i non distorti. Aprendosi al bias, lo spazio degli stimatori possibili — e degli MSE raggiungibili — diventa più grande.

La stima puntuale non è un capitolo di teoria che si chiude su sé stesso: è lo strato sotto a buona parte del lavoro quotidiano con i dati e con i modelli.

Ogni metrica di valutazione è una stima puntuale. Accuratezza, precision, recall, F1, win rate, BLEU, perplexity: ognuna di queste è un numero calcolato su un campione finito di esempi. Ognuna ha una varianza che scala come 1/n1/n. Trattarle come verità esatte invece che come stime rumorose è la radice di buona parte dell’overclaim nei report di valutazione dei modelli — il filo conduttore di tutta la Parte V. La prima domanda da fare davanti a una metrica non è “quanto vale” ma “su quanti esempi è calcolata, e qual è il suo errore standard”.

La scelta del divisore conta nelle pipeline. Quando normalizzi feature, calcoli z-score, o standardizzi attivazioni in una batch norm, stai dividendo per una deviazione standard stimata. Su batch piccoli, la differenza tra divisore nn e n1n-1 non è trascurabile, e librerie diverse fanno scelte diverse di default. Sapere quale convenzione usa il tuo strumento — e che entrambe sono difendibili, perché ottimizzano criteri diversi — evita bug silenziosi e discrepanze inspiegabili tra implementazioni.

La regolarizzazione è shrinkage. Ridge, weight decay, early stopping, dropout: meccanismi diversi che condividono lo stesso effetto statistico, comprare riduzione di varianza al prezzo di un po’ di bias. Vederli sotto la lente della decomposizione MSE chiarisce quando aiutano — quando i dati sono pochi rispetto alla capacità del modello, cioè quando la varianza domina l’errore — e quando invece danneggiano, perché aggiungono bias dove non c’era varianza da tagliare.

Il gradiente di un mini-batch è uno stimatore. Durante l’addestramento di una rete, a ogni passo si calcola il gradiente della loss non su tutti i dati, ma su un mini-batch di BB esempi. Quel gradiente è uno stimatore del gradiente vero: non distorto, se il batch è estratto a caso, ma rumoroso, con varianza che scala come 1/B1/B. Batch piccoli danno passi più rumorosi, batch grandi passi più stabili — è la stessa logica della media campionaria, applicata a un vettore di derivate invece che a un numero. La scelta della dimensione del batch è, sotto la superficie, una scelta su quanta varianza dello stimatore-gradiente accettare. Il capitolo Discesa del gradiente sviluppa questo legame.

Stimare metriche rare richiede campioni grandi. Se una failure mode di un agente capita una volta su 200 richieste, stimarne la frequenza da 100 richieste è quasi impossibile: la stima sarà 0% o 1% con un’incertezza enorme. La varianza di una proporzione piccola, p(1p)/np(1-p)/n, è dominata da pp quando pp è minuscola, e servono molte osservazioni prima che la stima sia stabile. Pianificare quanti dati raccogliere per stimare una quantità con la precisione voluta è un calcolo diretto a partire dalla formula della varianza dello stimatore.

La teoria della stima puntuale è solida, ma le sue conclusioni hanno confini precisi, e oltrepassarli senza accorgersene è la fonte di errori concreti.

“Non distorto” non significa “il migliore”. È il fraintendimento centrale, e merita di essere smontato del tutto. La non distorsione è una sola proprietà, e per giunta non quella che misura l’errore complessivo. Lo stimatore che minimizza l’MSE — la distanza attesa dal vero — è spesso distorto. La correzione di Bessel ne è un esempio domestico: S2S^2 con divisore n1n-1 è non distorto, ma Sn2S_n^2 con divisore nn ha MSE minore per dati normali. Scegliere uno stimatore solo perché è non distorto, ignorando la varianza, è ottimizzare la metrica sbagliata. La non distorsione è una preferenza estetica e a volte interpretativa, non un teorema di ottimalità.

Il paradosso di Stein: la media campionaria multivariata è inammissibile. Il caso più clamoroso del punto precedente. Per stimare la media di una singola variabile gaussiana, la media campionaria Xˉ\bar X è ottima — nessuno stimatore la batte uniformemente. Lo stesso vale per due variabili. Ma Charles Stein dimostrò nel 1956 che a partire da tre variabili gaussiane indipendenti stimate simultaneamente, la media campionaria componente per componente diventa inammissibile: esiste uno stimatore con MSE totale strettamente minore per ogni possibile valore del parametro. Non “in certi casi”: sempre.

Uno stimatore è inammissibile quando ne esiste un altro mai peggiore e qualche volta strettamente migliore. Willard James e Charles Stein nel 1961 esibirono lo stimatore migliore in forma esplicita, lo stimatore di James-Stein:

θ^JS=(1(p2)σ2Y2)Y\hat\theta_{JS} = \left(1 - \frac{(p-2)\,\sigma^2}{\|Y\|^2}\right) Y

dove YY è il vettore delle pp medie campionarie e Y2\|Y\|^2 è la somma dei loro quadrati. Il fattore tra parentesi è minore di 1: è shrinkage automatico verso l’origine, tanto più aggressivo quanto più YY è vicino a zero. Per p3p \ge 3 questo stimatore distorto domina la media campionaria non distorta in MSE totale.

L’aspetto che fece scalpore: lo stimatore di James-Stein migliora la stima congiunta anche quando le pp quantità non hanno nulla a che vedere tra loro. L’esempio classico, dovuto a Bradley Efron e Carl Morris (statistici americani, in un articolo divulgativo su Scientific American del 1977), usa le medie di battuta di giocatori di baseball: tirare ogni media osservata verso la media globale del gruppo migliora la previsione complessiva delle medie di fine stagione, anche se le prestazioni dei giocatori sono indipendenti. Il guadagno è sull’MSE totale; una singola componente può anche peggiorare. È un risultato profondo e ancora discusso nelle sue implicazioni interpretative, ma il messaggio operativo è netto: quando si stimano molti parametri insieme con pochi dati, lo shrinkage paga. È la giustificazione teorica della regolarizzazione, ed è un teorema, non un’analogia.

Un dettaglio che chiude il cerchio sull’idea di inammissibilità: lo stesso stimatore di James-Stein, nella forma scritta sopra, può produrre un fattore di shrinkage negativo quando Y2\|Y\|^2 è molto piccolo, e ribaltare il segno della stima — un comportamento privo di senso. La versione “a parte positiva”, che azzera il fattore invece di lasciarlo diventare negativo, è migliore. Ma anche quella, a sua volta, è inammissibile per p4p \ge 4: esiste qualcosa di ancora migliore. La catena non si chiude con uno stimatore “definitivo”. È la lezione di fondo del capitolo, portata all’estremo: in problemi multidimensionali non esiste lo stimatore ottimo in assoluto, esiste solo una sequenza di miglioramenti, e la scelta resta un compromesso ragionato tra bias e varianza.

La consistenza non dice nulla sui campioni piccoli. Uno stimatore consistente ha la garanzia di convergere al vero — al limite. Su 20 o 50 osservazioni quella garanzia è muta. Citare la consistenza di uno stimatore per giustificarne l’uso su un campione piccolo è un errore: la proprietà che conta a nn piccolo è l’MSE a quel nn, non il comportamento a nn infinito. Stimatori consistenti possono avere bias e varianza pessimi nel regime di dati reale.

Il limite di Cramer-Rao vale solo a bias zero. È un pavimento per la varianza degli stimatori non distorti. Non è un pavimento per l’MSE. James-Stein scende sotto la varianza del miglior stimatore non distorto proprio perché esce dal recinto della non distorsione. Citare il limite di Cramer-Rao come se fosse un limite invalicabile all’accuratezza tout court è un fraintendimento: è invalicabile solo se ci si vieta il bias.

Confondere la dispersione dei dati con la dispersione della stima. Un errore sottile e frequentissimo. Quando misuri nn valori, hai due deviazioni standard diverse, e vanno tenute separate. La prima è la deviazione standard dei dati, vicino a σ\sigma: dice quanto sono sparse le singole osservazioni, e non si restringe raccogliendo più dati — se le altezze degli adulti variano di 10 cm, variano di 10 cm sia su un campione di 30 sia su uno di 30 000. La seconda è l’errore standard della media, σ/n\sigma/\sqrt n: dice quanto è incerta la stima della media, e si restringe come 1/n1/\sqrt n. Usare la prima dove serve la seconda gonfia le barre di incertezza; usare la seconda dove serve la prima le sgonfia in modo assurdo, facendo credere che un singolo nuovo dato cadrà entro un intervallo strettissimo. La domanda da farsi sempre: sto descrivendo quanto varia un dato o quanto è incerta una stima?

Le assunzioni dietro le formule. Le proprietà pulite di Xˉ\bar X — non distorsione, varianza σ2/n\sigma^2/n — poggiano sull’ipotesi i.i.d.: osservazioni indipendenti ed estratte dalla stessa distribuzione. Se i dati sono correlati (serie temporali, esempi vicini nel test set che si somigliano), la formula σ2/n\sigma^2/n sottostima la varianza vera dello stimatore, e l’errore standard calcolato è troppo ottimistico. Se le code della distribuzione sono troppo pesanti — il caso della distribuzione di Cauchy visto in Legge dei grandi numeri e teorema del limite centrale — la varianza non esiste affatto, e con essa crollano errore standard e consistenza della media. Le formule non si lamentano: restituiscono numeri anche quando le assunzioni sono violate. La responsabilità di verificarle è di chi le usa.

Nessuno stimatore corregge un campione distorto. È il limite che chiude la Parte sul campionamento e va ripetuto qui. Bias e varianza, come definiti in questo capitolo, misurano l’errore dato un campione estratto correttamente dalla popolazione di interesse. Se il campione è distorto alla fonte — raccolto in modo che certi casi sono sistematicamente sovra- o sotto-rappresentati — uno stimatore non distorto produrrà una stima non distorta della popolazione sbagliata. La parola “non distorto” in statistica si riferisce allo stimatore, non al campione. Nessuna proprietà dello stimatore ripara un campione raccolto male: è il messaggio del capitolo Campionamento.

Una stima puntuale, da sola, nasconde la sua incertezza. Il limite più strutturale di tutti, e quello che motiva il capitolo successivo. Una stima puntuale è un singolo numero: 0,873, oppure 232,5. Quel numero non porta con sé, scritto sulla sua faccia, quanto è incerto. Due stime entrambe pari a 0,873 — una calcolata su 30 esempi, l’altra su 30 000 — sono numeri identici ma con incertezze diversissime. Riportare solo il numero, senza l’errore standard, getta via metà dell’informazione che il campione conteneva. La stima puntuale è un punto di partenza necessario, ma incompleto: il passo successivo è circondarla con un intervallo che ne dichiari l’incertezza, ed è il mestiere di intervalli-confidenza (in preparazione). Trattare una stima puntuale come una verità esatta, dimenticando che è l’estrazione di una variabile aleatoria, è l’errore che tutta la Parte V cerca di disinnescare.

  • Popolazione, campione, stimatore: la logica dell’incertezza — introduce lo stimatore come oggetto; questo capitolo lo mette sotto esame, definendo le proprietà che ne misurano la qualità.
  • Le distribuzioni comuni — la variabile di Bernoulli è il modello dietro l’accuratezza come stima puntuale; la Normale è la distribuzione su cui valgono i risultati più puliti, da Bessel a James-Stein.
  • Campionamento: come si sceglie la parte che racconta il tutto — bias e varianza dello stimatore presuppongono un campione estratto correttamente; il bias di campionamento è un errore che nessuno stimatore corregge.
  • Legge dei grandi numeri e teorema del limite centrale — la legge dei grandi numeri è l’enunciato di consistenza della media campionaria; il teorema del limite centrale dà la forma della distribuzione campionaria su cui poggiano errore standard ed efficienza.
  • Distribuzioni, valore atteso, varianza — valore atteso e varianza sono i mattoni con cui sono costruiti bias, varianza dello stimatore e MSE.
  • Bias e varianza: il trade-off che non muore mai — la decomposizione MSE=Var+Bias2\mathrm{MSE} = \mathrm{Var} + \mathrm{Bias}^2 derivata qui è la stessa che governa l’errore di previsione di un modello; il legame è un’equivalenza strutturale, non un’analogia.
  • Discesa del gradiente: SGD, momentum, Adam — il gradiente di un mini-batch è uno stimatore non distorto e rumoroso del gradiente vero, con varianza che scala come 1/B1/B: la stessa logica della media campionaria.
  • intervalli-confidenza (in preparazione) — passa dalla stima puntuale alla stima per intervallo, costruendo le barre di incertezza attorno al singolo numero prodotto qui.
  • test-ipotesi (in preparazione) — trasforma il confronto tra due stime puntuali (l’esempio dei due modelli) in una decisione formale con p-value e potenza.
  • maximum-likelihood (in preparazione) — fornisce un metodo generale per costruire stimatori e l’apparato (informazione di Fisher) dietro il limite di Cramer-Rao citato qui.
  • map-bayesiano (in preparazione) — la stima MAP è uno stimatore distorto per costruzione; lo shrinkage di questo capitolo è il suo cugino frequentista.
  • Hossein Pishro-Nik, Introduction to Probability, Statistics, and Random Processes, capitolo 8 (probabilitycourse.com) — trattazione didattica gratuita di stima puntuale, con la derivazione esplicita della decomposizione MSE e numerosi esempi svolti; il livello matematico è accessibile al lettore target.
  • Voci Bessel’s correction e Consistent estimator di Wikipedia — punto di partenza solido per la dimostrazione del fattore (n1)/n(n-1)/n, la lettura via gradi di libertà, e la distinzione precisa tra non distorsione e consistenza.
  • Bradley Efron e Carl Morris, Stein’s Paradox in Statistics, Scientific American, 1977 — l’esposizione divulgativa del paradosso di Stein con l’esempio delle medie di battuta nel baseball; un classico che rende intuitivo un risultato profondo, leggibile senza prerequisiti.
  • Willard James e Charles Stein, Estimation with Quadratic Loss (Proceedings of the Fourth Berkeley Symposium, 1961) — la fonte primaria dello stimatore di James-Stein, per chi vuole vedere il risultato nella sua forma originale.
  • Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning (2009), capitoli 2 e 7 — collega la stima puntuale al machine learning, sviluppando la decomposizione bias-varianza per il prediction error e il ruolo dello shrinkage nei modelli regolarizzati.
  • Jason Brownlee, Statistics for Evaluating Machine Learning Models (machinelearningmastery.com) — taglio operativo sull’idea che ogni metrica di un modello è una stima puntuale rumorosa; mostra come l’accuratezza segua una binomiale e come ricavarne l’errore standard, utile per applicare subito il capitolo alla valutazione dei modelli.