Intervalli di confidenza: cosa dicono davvero e cosa no

Un numero da solo non dichiara quanto è affidabile. L’intervallo di confidenza gli attacca un margine di incertezza. Ma il modo in cui quasi tutti lo leggono è sbagliato, e questo capitolo passa metà del suo tempo a smontare l’errore prima di costruire lo strumento.

Perché questo capitolo

Un modello ottiene l’87,3% di accuratezza su un benchmark. È un buon risultato? La domanda, così posta, non ha risposta — e non perché manchi un metro di paragone, ma perché manca un pezzo del numero. L’87,3% è stato misurato su una parte dei dati: cento esempi, mille, diecimila. Su un altro campione di test estratto dalla stessa distribuzione il numero sarebbe stato diverso. Quanto diverso? Senza quella informazione, l’87,3% è una fotografia senza scala: non sai se stai guardando un risultato solido o il prodotto di un campione fortunato.

L’intervallo di confidenza è lo strumento che aggiunge la scala. Invece di “87,3%” produce “87,3%, con un intervallo che plausibilmente va dall’85,1% all’89,2% al 95%”. Quel secondo numero — l’ampiezza dell’intervallo — è la dichiarazione di incertezza che la stima puntuale, da sola, nasconde. Un’accuratezza misurata su cento esempi e una misurata su centomila sono entrambe “87,3%”, ma la prima viene con un intervallo largo dodici punti e la seconda con uno largo mezzo punto. La differenza tra le due è tutto, e la stima puntuale la cancella.

C’è però un secondo motivo per questo capitolo, ed è più scomodo del primo. L’intervallo di confidenza è uno degli strumenti statistici più usati e, contemporaneamente, uno dei più fraintesi. La frase che quasi tutti dicono quando leggono un intervallo al 95% — “c’è il 95% di probabilità che il valore vero stia qui dentro” — è falsa. Non è un’imprecisione veniale: è un errore che cambia la natura di ciò che lo strumento afferma, e lo commettono anche ricercatori che usano gli intervalli ogni settimana. Questo capitolo dedica una sezione intera a quella frase: da dove nasce, perché è sbagliata, e cosa si può dire al suo posto. Senza quella sezione, useresti uno strumento credendo che dica una cosa mentre ne dice un’altra.

Contesto

Il capitolo Stima puntuale ha costruito gli strumenti per produrre un singolo numero come ipotesi su un parametro ignoto: la media osservata, una frequenza, un’accuratezza. E ha mostrato come giudicare quel numero — bias, varianza, errore quadratico medio. Ma quel capitolo si fermava un passo prima di una conseguenza: lo stimatore è una variabile aleatoria, oscilla da campione a campione, e quindi il singolo numero che produce è solo uno dei valori che avrebbe potuto assumere. La stima puntuale riconosce questa oscillazione ma non la mette nella risposta. L’intervallo di confidenza fa esattamente quello: incorpora la variabilità campionaria nell’output, trasformando “il parametro vale circa $x$ ” in “il parametro sta plausibilmente tra $L$ e $U$ ”.

Per inquadrare i termini, vale la pena richiamarli, perché tutto il capitolo vi si appoggia. La popolazione è l’insieme di tutti i casi che ci interessano — tutti i prompt che un modello riceverà, tutti gli elettori di un paese. Il parametro è un numero che descrive la popolazione: la sua media, una proporzione. È fisso ma ignoto. Il campione è la parte che riusciamo a osservare. Lo stimatore è la ricetta che trasforma il campione in un’ipotesi sul parametro. Questi quattro termini vengono dal capitolo Popolazione, campione, stimatore; se uno suona poco familiare, quel capitolo è il posto dove fissarlo.

Il concetto di intervallo di confidenza ha una data di nascita precisa e un solo padre. Jerzy Neyman, statistico polacco poi attivo a Londra e in California, lo introdusse in un lavoro del 1937 intitolato Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability, pubblicato sulle Philosophical Transactions of the Royal Society of London (Series A, vol. 237).

Neyman voleva una teoria della stima per intervalli che restasse interamente dentro la probabilità frequentista — la probabilità intesa come frequenza di lungo periodo — senza ricorrere a probabilità “inverse” (quelle che oggi chiamiamo bayesiane) e, sono parole sue, senza alcun elemento di giudizio soggettivo. Scelse di proposito la parola “confidence”, confidenza, per il suo strumento, proprio per non chiamarlo “probability”: voleva marcare che ciò che stava definendo non era una probabilità nel senso che il lettore si aspettava.

Quella scelta terminologica è il primo indizio del fraintendimento che attraversa tutto il capitolo. Neyman vide il problema novant’anni fa e provò a disinnescarlo con il vocabolario; non bastò.

Prima di Neyman, il problema di “dare un intervallo invece di un punto” non era nuovo, ma mancava di una teoria pulita. C’era la tradizione della probabilità inversa, risalente a Laplace, che ragionava direttamente sulla distribuzione del parametro — l’approccio che oggi chiamiamo bayesiano — ma che molti statistici del primo Novecento giudicavano fondato su prior arbitrari. E c’era il lavoro di Gosset sulla distribuzione t, del 1908, che dava la matematica per intervallare una media con campioni piccoli senza però chiarire del tutto cosa l’intervallo significasse.

Il contributo di Neyman fu esattamente la chiarificazione: definire la copertura come una proprietà di frequenza del metodo, e mostrare come costruire intervalli con quella proprietà invertendo una famiglia di test. La sua costruzione — nota oggi come “costruzione di Neyman” — è il fondamento di tutto ciò che questo capitolo presenta.

Nel grafo di questa wiki, questo è il sesto capitolo della Parte V. Poggia in modo diretto su Legge dei grandi numeri e teorema del limite centrale: il teorema del limite centrale è ciò che rende normale la distribuzione della media campionaria, e quella normalità è il motore della formula più semplice di intervallo. Usa la binomiale e la normale di Le distribuzioni comuni, e il modo in cui il campione viene estratto di Campionamento.

Sul versante della Parte IV, il confronto con l’approccio bayesiano rimanda a Teorema di Bayes e ragionamento bayesiano. Guarda avanti verso test-ipotesi (in preparazione), con cui condivide l’impalcatura matematica, e verso bootstrap (in preparazione), che costruisce intervalli senza formule analitiche.

L’intuizione

Prima di qualsiasi formula, tre modi distinti di vedere cosa sia un intervallo di confidenza. Il primo è una simulazione: l’angolo che, più di ogni spiegazione, fissa l’interpretazione corretta. Il secondo è la rete da pesca. Il terzo è la procedura di costruzione vista dall’interno.

Primo angolo: la danza degli intervalli

Immagina di voler conoscere un parametro vero — diciamo l’accuratezza reale di un modello sulla popolazione di tutti i possibili input. Quel numero esiste, è fisso, ma non lo puoi misurare direttamente: dovresti testare il modello su infiniti esempi. Quello che puoi fare è estrarre un campione di test — mille esempi — misurare l’accuratezza su quelli, e costruire un intervallo attorno alla misura.

Ora fai mentalmente una cosa che nella realtà fai una volta sola, ma che la simulazione permette di fare mille volte: ripeti l’intero esperimento. Estrai un nuovo campione di mille esempi, misuri, costruisci un nuovo intervallo. Poi un altro. Poi un altro ancora. Ogni volta ottieni un intervallo diverso — diverso centro, diversa ampiezza — perché ogni campione è diverso.

Immagina di disegnare questi intervalli uno sotto l’altro, come segmenti orizzontali, e di tracciare una linea verticale in corrispondenza del valore vero del parametro. Ecco cosa vedi: la maggior parte dei segmenti attraversa la linea verticale. Alcuni no — stanno tutti a sinistra o tutti a destra, mancano il bersaglio. Se gli intervalli sono al 95%, e ne hai disegnati cento, circa novantacinque attraversano la linea e circa cinque la mancano.

Questo è l’intervallo di confidenza, ed è tutto qui. Il “95%” non descrive un singolo segmento: descrive la procedura che genera i segmenti. La procedura ha un tasso di successo del 95% — su lungo periodo, novantacinque intervalli su cento centrano il bersaglio. Quando nella realtà estrai un campione e ottieni un intervallo, quell’intervallo è uno dei segmenti della figura. Non sai quale: potrebbe essere uno dei novantacinque buoni o uno dei cinque cattivi. Non c’è modo di saperlo guardandolo, perché il parametro vero — la linea verticale — ti è ignoto.

Tieni stretta questa immagine, perché è il fulcro di tutto il capitolo. L’errore di interpretazione che smonteremo tra poco nasce esattamente dal dimenticarla: dal guardare un singolo segmento e attribuirgli una probabilità che appartiene invece all’intero mazzo di segmenti.

Secondo angolo: la rete da pesca

Un secondo modo di vederla, complementare al primo. Pensa al parametro vero come a un pesce fermo in un punto preciso del fondale. Non si muove: i parametri sono costanti, non variabili aleatorie. Tu non vedi il pesce — l’acqua è torbida — ma vuoi catturarlo.

L’intervallo di confidenza è una rete. Ogni volta che estrai un campione, lanci una rete: cade in una posizione e ha un’apertura, entrambe determinate dal campione, quindi entrambe casuali. La rete a volte cattura il pesce, a volte cade accanto e lo manca. Costruire una “procedura di intervalli al 95%” significa progettare la rete in modo che, sui suoi infiniti lanci possibili, ne catturi il pesce nel 95% dei casi.

L’asimmetria è il punto. Ciò che è casuale è la rete — dove cade, quanto è larga. Il pesce è fermo. Quando hai lanciato la tua rete e l’hai tirata su, il pesce o c’è o non c’è: non ha senso dire “c’è il 95% di probabilità che il pesce sia nella rete che ho in mano”, perché né la rete né il pesce sono più in movimento. Il 95% era la probabilità prima del lancio, quando la posizione della rete era ancora incerta. Dopo il lancio resta solo un fatto, ignoto a te ma determinato: dentro o fuori.

Questa è esattamente la posizione di Neyman nel 1937. Il parametro è una costante ignota; prima di estrarre il campione, l’evento “l’intervallo conterrà il parametro” ha probabilità $1-\alpha$ ; dopo, l’intervallo è un paio di numeri fissi e il parametro è un numero fisso, e la frase “probabilità $1-\alpha$ ” non ha più un oggetto a cui riferirsi.

Terzo angolo: invertire una domanda

Il terzo angolo anticipa la meccanica. Da dove viene, concretamente, un intervallo? Da una domanda rovesciata.

La domanda diretta è: “dato un valore candidato del parametro, quali campioni sono compatibili con esso?”. Se il parametro vale $\theta_0$ , il teorema del limite centrale ci dice che la media campionaria cadrà, nel 95% dei casi, dentro una certa fascia attorno a $\theta_0$ . Quella fascia è facile da calcolare.

L’intervallo di confidenza inverte la domanda: “dato il campione che ho osservato, quali valori del parametro sono compatibili con esso?”. La risposta è l’insieme di tutti i $\theta_0$ per cui il campione osservato cade dentro la loro fascia di compatibilità. Quell’insieme è l’intervallo di confidenza. Costruirlo significa, in sostanza, prendere ogni possibile valore del parametro, chiedersi “se fosse questo, il mio campione sarebbe plausibile?”, e tenere tutti i valori che superano il test.

Un esempio per rendere concreto il rovesciamento. Hai misurato una media campionaria di 240. Provi il candidato $\theta_0 = 200$ : se il vero valore fosse 200, una media campionaria di 240 sarebbe molto in coda, troppo lontana — il candidato 200 non sopravvive. Provi $\theta_0 = 235$ : una media di 240 è del tutto plausibile se il vero valore è 235 — il candidato sopravvive, entra nell’intervallo. Provi $\theta_0 = 290$ : di nuovo troppo lontano, scartato.

L’intervallo di confidenza è la frontiera tra i candidati che sopravvivono e quelli che vengono scartati: tutti i valori abbastanza vicini alla media osservata da renderla credibile. È il punto di contatto con i test di ipotesi: un intervallo al $1-\alpha$ è esattamente l’insieme dei valori che un test al livello $\alpha$ non rifiuterebbe. Lo riprenderà test-ipotesi (in preparazione).

L’errore di interpretazione: il cuore del capitolo

Ora la sezione per cui questo capitolo esiste. C’è una frase, sull’intervallo di confidenza, che quasi tutti dicono e che è sbagliata. Eccola:

“L’intervallo è [0,851; 0,892] al 95%, quindi c’è il 95% di probabilità che il valore vero stia tra 0,851 e 0,892.”

Questa frase è falsa. Non “imprecisa”, non “da formulare meglio”: falsa, sotto qualsiasi definizione standard di probabilità nel quadro frequentista. E non è un errore da principianti distratti.

Quanto è diffuso l’errore

Nel 2014 Rink Hoekstra, Richard Morey, Jeffrey Rouder ed Eric-Jan Wagenmakers — un gruppo di metodologi della statistica — pubblicarono su Psychonomic Bulletin & Review uno studio intitolato Robust misinterpretation of confidence intervals. Costruirono un questionario semplice: presentavano un intervallo di confidenza al 95% e sei affermazioni su di esso, tutte e sei false. Chiedevano quali fossero corrette. Lo somministrarono a 442 studenti di psicologia e a 120 ricercatori — persone che pubblicano articoli scientifici e usano intervalli di confidenza regolarmente.

Il risultato: in media, sia gli studenti sia i ricercatori approvarono più di tre affermazioni false su sei. E i ricercatori non fecero meglio degli studenti — gli studenti, che non avevano ancora seguito alcun corso di inferenza statistica. L’errore non si corregge con l’esperienza, perché chi lo commette non sa di commetterlo: la frase sbagliata “suona giusta”.

Suona giusta per un motivo linguistico preciso. Le parole “confidenza” e “probabilità” hanno un significato quotidiano che non coincide con quello tecnico. Nel linguaggio comune “ho il 95% di confidenza che X” e “c’è il 95% di probabilità che X” sono sinonimi, entrambi un grado di fiducia in un’affermazione. Nel quadro frequentista “confidenza” è una cosa molto più ristretta: la frequenza di copertura di una procedura. Il salto dal senso comune al senso tecnico avviene senza che il parlante se ne accorga.

Vale la pena fermarsi su un dettaglio storico, perché illumina quanto l’errore sia strutturale e non accidentale. Neyman scelse la parola “confidence” nel 1937 proprio per evitare “probability”: sapeva che il termine “probabilità” avrebbe spinto i lettori verso l’interpretazione che lui considerava illegittima — l’affermazione diretta sul parametro — e cercò un vocabolo nuovo per marcare la differenza.

La storia ha mostrato che il vocabolo non è bastato. “Confidenza” è stato riassorbito dal linguaggio comune, dove significa esattamente “grado di fiducia”, e il fraintendimento che Neyman voleva prevenire è oggi la lettura di default.

Quando uno strumento richiede novant’anni di insegnamento e ancora viene frainteso dalla maggioranza di chi lo usa, il problema non è la disattenzione dei singoli: è che lo strumento risponde a una domanda diversa da quella che la gente vorrebbe porre. La domanda che la gente vorrebbe porre — “qual è la probabilità che il parametro sia in questo intervallo” — ha una risposta, ma è bayesiana, e la dà l’intervallo credibile della sezione finale.

Perché è sbagliata

Riprendi la danza degli intervalli del primo angolo, o la rete del secondo. Il parametro vero $\theta$ è una costante — fissa, anche se ignota. L’intervallo che hai calcolato, $[0,851; 0,892]$ , è una coppia di numeri fissi: li hai già calcolati, non oscillano più.

Mettendo insieme due cose fisse, una di queste due affermazioni è vera: o $\theta$ sta tra 0,851 e 0,892, oppure non ci sta. Non c’è una terza possibilità, e non c’è incertezza nel mondo — l’incertezza è solo nella tua testa, perché non conosci $\theta$ . Una probabilità del 95% richiederebbe qualcosa di aleatorio. Ma qui non c’è più niente di aleatorio: il campione è stato estratto, l’intervallo è stato calcolato, il parametro non è mai stato casuale. La frase “c’è il 95% di probabilità che $\theta$ stia tra 0,851 e 0,892” attribuisce una probabilità a un evento che, sotto il quadro frequentista, ha già un valore di verità definito — vero o falso — solo a te ignoto.

L’analogia che chiarisce: hai lanciato una moneta e l’hai coperta con la mano. Prima del lancio, “testa” aveva probabilità 1/2. Dopo il lancio, sotto la mano c’è già o testa o croce: il risultato è determinato. Dire “c’è il 50% di probabilità che sotto la mano ci sia testa” è, a rigore frequentista, una descrizione della tua ignoranza, non una proprietà della moneta. L’intervallo di confidenza calcolato è la moneta sotto la mano. Il 95% era la probabilità prima del lancio — prima di estrarre il campione, quando l’intervallo era ancora aleatorio.

Cosa si può dire, allora

Se non posso dire “95% di probabilità che $\theta$ sia qui dentro”, cosa posso dire del mio intervallo? Tre affermazioni, tutte corrette:

La prima, sulla procedura: “questo intervallo è stato prodotto da una procedura che, ripetuta su molti campioni, cattura il vero parametro nel 95% dei casi”. Questa è la formulazione pulita. Trasferisce la fiducia dal risultato al metodo: non ho fiducia in questo intervallo, ho fiducia nel processo che lo ha generato, e quel processo ha un curriculum del 95%.

La seconda, modale invece che probabilistica: “i valori dentro l’intervallo sono quelli compatibili con i dati osservati; i valori fuori sono quelli che i dati renderebbero implausibili”. È la lettura del terzo angolo — l’intervallo come insieme di candidati sopravvissuti.

La terza, onesta sull’ignoranza: “questo specifico intervallo o contiene $\theta$ o non lo contiene, e non so quale dei due; ma so che ho usato un metodo che sbaglia solo una volta su venti”. È la rete tirata su: dentro o fuori, fatto compiuto, ma rete di buona fattura.

Quello che accomuna le tre: nessuna mette una percentuale davanti a ” $\theta$ sta qui”. La percentuale sta sempre davanti a “la procedura funziona”. Sposta il 95% dal singolo intervallo al metodo, e l’affermazione diventa vera.

Altri fraintendimenti, più rapidi

L’errore principale ne trascina altri. Tutti falsi sotto il quadro frequentista:

“Il 95% dei dati cade nell’intervallo.” No: l’intervallo di confidenza è sul parametro, non sui dati. L’intervallo che contiene il 95% dei valori individuali è un’altra cosa — un intervallo di predizione o di tolleranza — ed è tipicamente molto più largo.

“Un intervallo più largo significa che ho meno confidenza.” No: il livello di confidenza è scelto da te a priori, è 95% sia che l’intervallo sia largo sia che sia stretto. L’ampiezza riflette l’incertezza dovuta ai dati — quanti sono, quanto variano — non il livello.

“Se due intervalli al 95% si sovrappongono, le due quantità non sono significativamente diverse.” No: dalla sovrapposizione di due intervalli non si può leggere direttamente la significatività della differenza. Per giudicare una differenza si costruisce un intervallo sulla differenza. Lo riprenderemo negli esempi.

“L’intervallo mi dice la probabilità che la mia ipotesi sia vera.” Questa è un’affermazione bayesiana, e richiede di aver specificato un prior. L’intervallo di confidenza frequentista non lo fa. La sezione sul confronto con l’intervallo credibile chiarisce la differenza.

La meccanica

Costruiamo gli intervalli concreti. Tre casi: la media con varianza nota, la media con varianza ignota, la proporzione. Ogni simbolo viene introdotto alla sua prima comparsa.

La ricetta generale

Prima dei casi specifici, vale la pena isolare lo schema comune, perché si ripete identico. Quasi ogni intervallo di confidenza si costruisce in tre mosse. Primo: si parte da uno stimatore puntuale del parametro — la media campionaria, la proporzione osservata. Secondo: si calcola l’errore standard di quello stimatore, cioè la deviazione standard della sua distribuzione campionaria; è il numero che dice di quanto lo stimatore oscilla da un campione all’altro. Terzo: si circonda la stima puntuale di un margine pari a un quantile moltiplicato per l’errore standard, dove il quantile viene dalla distribuzione campionaria dello stimatore — normale, t, o altro — e dipende dal livello di confidenza scelto.

In formula compatta, lo schema è: $\text{stima} \pm \text{quantile} \times \text{errore standard}$ . I tre casi che seguono — media a varianza nota, media a varianza ignota, proporzione — differiscono solo in quale errore standard si usa e quale distribuzione fornisce il quantile. Lo scheletro non cambia. Riconoscere lo scheletro aiuta anche a leggere intervalli che questo capitolo non tratta esplicitamente (per una differenza di medie, per un coefficiente di regressione): sono varianti della stessa ricetta. L’unico caso che si discosta è l’intervallo “esatto” alla Clopper-Pearson, che salta l’approssimazione normale e lavora direttamente sulla distribuzione del conteggio; lo vedremo tra poco.

IC per la media, varianza nota

Partiamo dal caso più semplice — didatticamente utile anche se raro in pratica. Vogliamo un intervallo per la media $\mu$ di una popolazione, e supponiamo di conoscere la sua deviazione standard $\sigma$ (la misura di quanto i valori individuali si disperdono attorno alla media).

Il teorema del limite centrale, dimostrato in Legge dei grandi numeri e teorema del limite centrale, dice che la media campionaria $\bar X$ — la media calcolata sugli $n$ dati osservati — ha, per $n$ abbastanza grande, una distribuzione approssimativamente normale, centrata sul vero $\mu$ , con deviazione standard $\sigma/\sqrt n$ . Quel $\sigma/\sqrt n$ ha un nome: errore standard, la deviazione standard dello stimatore (non dei dati). In parole povere: l’errore standard misura quanto la media campionaria oscilla da un campione all’altro.

Da qui l’intervallo. Una variabile normale standard sta tra $-z$ e $+z$ con una probabilità che dipende da $z$ . Per il 95% serve $z = 1{,}96$ ; per il 99% serve $z = 2{,}576$ . Questi numeri si chiamano quantili della normale standard: il quantile $z_{1-\alpha/2}$ è il punto che lascia alla sua destra una coda di area $\alpha/2$ . Dato che $(\bar X - \mu)/(\sigma/\sqrt n)$ è normale standard, vale:

$P\left(-z_{1-\alpha/2} \le \frac{\bar X - \mu}{\sigma/\sqrt n} \le z_{1-\alpha/2}\right) = 1-\alpha$

In parole: l’evento “la media campionaria standardizzata cade tra $-z$ e $+z$ ” ha probabilità $1-\alpha$ . Ora isoliamo $\mu$ dentro la disuguaglianza — algebra elementare, si moltiplica per $\sigma/\sqrt n$ e si sposta $\bar X$ — e si ottiene:

$\bar X - z_{1-\alpha/2}\,\frac{\sigma}{\sqrt n} \;\le\; \mu \;\le\; \bar X + z_{1-\alpha/2}\,\frac{\sigma}{\sqrt n}$

L’intervallo di confidenza al livello $1-\alpha$ per la media è quindi:

$\bar X \pm z_{1-\alpha/2}\,\frac{\sigma}{\sqrt n}$

Riga per riga: $\bar X$ è il centro, la stima puntuale della media. Il termine $\pm z_{1-\alpha/2}\,\sigma/\sqrt n$ è il margine di errore: la metà-larghezza dell’intervallo. Il quantile $z$ controlla quanto vuoi essere “coperto” — più alto il livello, più largo. L’errore standard $\sigma/\sqrt n$ controlla quanto i dati sono informativi. Nota il punto sottile dell’interpretazione: la disuguaglianza con la probabilità $1-\alpha$ vale prima di estrarre il campione, quando $\bar X$ è ancora aleatoria. Dopo, $\bar X$ è un numero e l’intervallo è fisso — siamo tornati alla rete tirata su.

Un passaggio di numeri rende tangibile la formula. Un processo di produzione riempie confezioni che dovrebbero pesare in media un certo valore; per esperienza storica si sa che la deviazione standard del processo è $\sigma = 6$ grammi. Pesi 100 confezioni e ottieni una media campionaria $\bar X = 502$ grammi.

L’intervallo al 95% per il peso medio vero: l’errore standard è $\sigma/\sqrt n = 6/\sqrt{100} = 6/10 = 0{,}6$ grammi; il margine di errore è $1{,}96 \times 0{,}6 = 1{,}18$ grammi; l’intervallo è $502 \pm 1{,}18$ , cioè $[500{,}8;\ 503{,}2]$ . Se volessi dimezzare quel margine portandolo a circa $0{,}6$ grammi, la legge della radice dice che dovresti pesare non 200 ma 400 confezioni.

Questo è il caso “varianza nota”: comodo per la derivazione, ma raro, perché di solito $\sigma$ va stimata dai dati. È il problema della sottosezione successiva.

IC per la media, varianza ignota: la t di Student

Nella realtà $\sigma$ non si conosce quasi mai. La stimiamo dai dati con la deviazione standard campionaria $s$ — la stessa che divide per $n-1$ , vista in Stima puntuale. Sembra innocuo sostituire $s$ a $\sigma$ nella formula. Non lo è.

Il problema lo scoprì William Sealy Gosset, chimico e statistico inglese impiegato alla birreria Guinness di Dublino all’inizio del Novecento. Gosset lavorava con campioni minuscoli — poche misurazioni su lotti di orzo e luppolo — e si accorse che usare $s$ al posto di $\sigma$ con la formula della normale produceva intervalli troppo stretti: la copertura reale era sotto il nominale. La ragione: $s$ è esso stesso una stima, oscilla da campione a campione, e quell’oscillazione extra va pagata. Gosset derivò la distribuzione corretta della quantità $(\bar X - \mu)/(s/\sqrt n)$ e la pubblicò nel 1908 sulla rivista Biometrika, sotto lo pseudonimo “Student” — la Guinness vietava ai dipendenti di pubblicare con il proprio nome. Da qui il nome t di Student.

La t di Student è una distribuzione a campana, simmetrica come la normale, ma con le code più spesse — assegna più probabilità ai valori estremi. Quanto più spesse dipende da un parametro, i gradi di libertà: per la media, i gradi di libertà sono $n-1$ . L’idea dietro al nome: dei tuoi $n$ scarti dalla media campionaria, uno è vincolato (gli scarti sommano a zero per costruzione), quindi solo $n-1$ sono “liberi”.

Con pochi gradi di libertà le code della t sono molto spesse — molta incertezza extra; man mano che $n$ cresce, le code si assottigliano, e per gradi di libertà grandi la t è indistinguibile dalla normale.

Perché proprio code più spesse, e non un altro tipo di correzione? L’intuizione è questa. Con $\sigma$ nota, l’unica fonte di oscillazione della quantità standardizzata è il numeratore, $\bar X$ . Con $\sigma$ ignota, oscilla anche il denominatore, $s$ . Quando per puro caso un campione produce un $s$ piccolo, il rapporto $(\bar X - \mu)/(s/\sqrt n)$ si gonfia — un denominatore piccolo amplifica.

Sono proprio quei casi a popolare le code: la t mette più probabilità lontano dal centro perché la divisione per una stima rumorosa, ogni tanto, produce valori estremi che la normale non prevederebbe. Usare un quantile più grande — la t invece della $z$ — è il modo di tenere conto di questi episodi e non sottostimare l’incertezza. Più piccolo il campione, più rumoroso $s$ , più spesse le code, più grande il quantile da usare.

L’intervallo per la media a varianza ignota è identico nella forma a quello precedente, ma con $s$ al posto di $\sigma$ e il quantile della t al posto di quello della normale:

$\bar X \pm t_{n-1,\,1-\alpha/2}\,\frac{s}{\sqrt n}$

Il quantile $t_{n-1,1-\alpha/2}$ è sempre maggiore del corrispondente $z$ . Per il 95% con $n = 10$ — quindi 9 gradi di libertà — vale $t = 2{,}262$ contro $z = 1{,}96$ : l’intervallo t è circa il 15% più largo. Quel di più non è uno spreco, è correttezza: stiamo pagando in larghezza l’ignoranza di $\sigma$ . Per $n = 100$ il quantile t scende a circa $1{,}98$ , quasi identico a $z$ : con campioni grandi la distinzione t/z diventa irrilevante.

Vale la pena percorrere un calcolo numerico completo, perché vedere ogni passo toglie alla formula la sua aria di astrazione. Supponi di aver misurato la latenza di risposta di un servizio su 16 richieste e di aver ottenuto una media campionaria $\bar X = 240$ millisecondi con una deviazione standard campionaria $s = 32$ millisecondi. Vuoi un intervallo al 95% per la latenza media vera.

I gradi di libertà sono $n - 1 = 15$ . Il quantile della t a 15 gradi di libertà per il 95% è $t_{15,\,0{,}975} = 2{,}131$ . L’errore standard è $s/\sqrt n = 32/\sqrt{16} = 32/4 = 8$ millisecondi. Il margine di errore è $2{,}131 \times 8 = 17{,}05$ millisecondi. L’intervallo è quindi $240 \pm 17$ , cioè $[223;\ 257]$ millisecondi.

La lettura corretta: la procedura che ha prodotto questo intervallo cattura la latenza media vera nel 95% delle sue applicazioni ripetute; questo specifico intervallo o la contiene o no. Nota che con la normale al posto della t — quantile $1{,}96$ invece di $2{,}131$ — il margine sarebbe stato $15{,}7$ invece di $17{,}05$ : usare $z$ con un campione piccolo avrebbe prodotto un intervallo artificialmente stretto, con copertura reale sotto il 95%.

IC per una proporzione: tre metodi

Moltissime quantità di interesse pratico sono proporzioni: un tasso di click, una frequenza di errore, l’accuratezza di un classificatore. Una proporzione è la media di variabili che valgono 0 o 1 (insuccesso/successo), e il conteggio dei successi segue la distribuzione binomiale di Le distribuzioni comuni. Costruire un intervallo per una proporzione $p$ ha tre soluzioni standard, di qualità molto diversa. Vale la pena vederle tutte e tre, perché il metodo “di default” insegnato ovunque è il peggiore.

Metodo di Wald (approssimazione normale). Si applica la stessa logica della media: $\hat p$ (la proporzione osservata) è approssimativamente normale, con errore standard stimato $\sqrt{\hat p(1-\hat p)/n}$ . L’intervallo:

$\hat p \pm z_{1-\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}{n}}$

È semplice, intuitivo, ed è quello che quasi ogni corso introduttivo insegna. Ed è difettoso. Quando $\hat p$ è vicino a 0 o a 1, l’errore standard $\sqrt{\hat p(1-\hat p)/n}$ si schiaccia verso zero — se osservi 0 successi su 100, l’intervallo di Wald è $[0; 0]$ , una certezza assoluta palesemente falsa. Inoltre gli estremi possono uscire dall’intervallo $[0,1]$ , producendo “probabilità” negative o sopra 1. Lawrence Brown, Tony Cai e Anirban DasGupta, in un lavoro di confronto sistematico del 2001 su Statistical Science (Interval Estimation for a Binomial Proportion), mostrarono che la copertura reale del Wald oscilla in modo erratico — la definirono “persistently chaotic” — anche per $n$ grande, e ne sconsigliarono apertamente l’uso.

Metodo di Wilson (score). Edwin Wilson propose nel 1927 un intervallo derivato invertendo un test diverso (il test score invece del test di Wald). La formula è più ingombrante:

$\frac{\hat p + \dfrac{z^2}{2n} \;\pm\; z\sqrt{\dfrac{\hat p(1-\hat p)}{n}+\dfrac{z^2}{4n^2}}}{1 + \dfrac{z^2}{n}}$

dove $z$ è il quantile $z_{1-\alpha/2}$ . Si legge come la proporzione osservata “tirata” leggermente verso 1/2, con una correzione che dipende da $n$ . I suoi pregi compensano l’ingombro: l’intervallo di Wilson resta sempre dentro $[0,1]$ , non degenera agli estremi, e ha copertura mediamente prossima al nominale anche per $n$ piccolo. Brown, Cai e DasGupta lo raccomandano come scelta di default.

Metodo di Clopper-Pearson (esatto). Charles Clopper ed Egon Pearson, nel 1934, costruirono un intervallo basato direttamente sui quantili della distribuzione binomiale, senza approssimazione normale. La parola “esatto” qui va capita bene, perché trae in inganno: non significa “più preciso” ma “non approssimato” — la costruzione usa la binomiale vera invece della normale che la approssima.

Si chiama esatto perché garantisce una copertura almeno pari al livello nominale, per qualunque valore di $p$ : non scende mai sotto il 95%. Il prezzo di questa garanzia è la conservatività: l’intervallo è più largo del necessario, e la copertura reale spesso supera il nominale — al 95% nominale può coprire al 97-98%.

La ragione della conservatività è tecnica ma intuibile: la binomiale è discreta — il conteggio dei successi salta di unità in unità, non c’è un valore di copertura esattamente 95% raggiungibile per ogni $p$ — e per non scendere mai sotto il nominale, Clopper-Pearson è costretto a stare un po’ sopra. Si sceglie quando “non scendere mai sotto il livello dichiarato” è un requisito rigido — contesti regolatori, applicazioni di sicurezza, certificazione — e si accetta in cambio un intervallo più largo. In tutti gli altri casi la larghezza extra è uno spreco di precisione.

La regola pratica da portare a casa: Wilson come scelta di default; Clopper-Pearson quando serve una garanzia di copertura; Wald da evitare, salvo $n$ molto grande e $\hat p$ lontana da 0 e 1.

Scegliere il livello di confidenza

Una domanda ricorrente: perché 95%? Il livello di confidenza $1-\alpha$ non è dettato dai dati — lo scegli tu, prima di guardarli. I valori convenzionali sono 95% ( $\alpha = 0{,}05$ ) e 99% ( $\alpha = 0{,}01$ ); il 90% si incontra ma è più raro. Il 95% è diventato uno standard di fatto più per inerzia storica — la soglia che Ronald Fisher rese popolare negli anni Venti — che per una ragione matematica profonda: non c’è nulla di sacro nel numero 95.

La scelta è un compromesso. Un livello più alto — passare dal 95% al 99% — significa una procedura che sbaglia meno spesso: cattura il parametro nel 99% dei campioni invece che nel 95%. Ma quella maggiore affidabilità si paga con un intervallo più largo, perché il quantile cresce: $z$ passa da $1{,}96$ a $2{,}576$ , l’intervallo si allarga di circa il 31%.

Un intervallo più largo è meno informativo — dice “il parametro sta da qualche parte in questa fascia ampia”. Al limite, un intervallo al 100% sarebbe l’intera retta reale: copertura perfetta, informazione zero. La scelta del livello, quindi, bilancia due cose opposte: quanto raramente vuoi che la procedura sbagli, e quanto stretta — quindi utile — vuoi la risposta. Per applicazioni dove un errore costa caro (decisioni mediche, regolatorie) si tende al 99%; per il monitoraggio ordinario di una metrica il 95% è la norma.

Intervalli a una coda

Gli intervalli visti finora sono bilaterali: hanno un estremo inferiore e uno superiore, e la probabilità di errore $\alpha$ è divisa equamente tra le due code ( $\alpha/2$ per lato — da qui il pedice $1-\alpha/2$ nei quantili). Ma a volte interessa una sola direzione. Se vuoi garantire che l’accuratezza di un modello sia almeno un certo valore, ti serve solo un estremo inferiore: l’estremo superiore non aggiunge informazione utile alla decisione.

In quel caso si costruisce un intervallo unilaterale, della forma $[L,\ 1]$ oppure $(-\infty,\ U]$ , e tutta la probabilità di errore $\alpha$ va in una sola coda. Il quantile diventa $z_{1-\alpha}$ invece di $z_{1-\alpha/2}$ : per il 95%, $1{,}645$ invece di $1{,}96$ . L’estremo unilaterale è quindi più vicino alla stima puntuale di quanto sia il corrispondente estremo bilaterale — concentrare tutto il rischio da un lato permette di essere meno conservativi su quel lato.

La scelta tra unilaterale e bilaterale, come quella del livello, va fatta prima di vedere i dati e in base alla domanda: “il modello è abbastanza buono?” è unilaterale, “dove sta l’accuratezza?” è bilaterale.

Margine di errore e la legge della radice

Il margine di errore è la metà-larghezza dell’intervallo: il termine dopo il $\pm$ . Per la media a varianza nota è $z\,\sigma/\sqrt n$ . Tre fattori lo determinano, e vale la pena isolarli.

Il livello di confidenza: il quantile $z$ o $t$ cresce con il livello, quindi un intervallo al 99% è più largo di uno al 95%. Vuoi sbagliare meno spesso? Paghi con un intervallo più vago.

La variabilità dei dati: più i dati si disperdono — $\sigma$ grande, o per una proporzione $\hat p$ vicina a 0,5 dove $\hat p(1-\hat p)$ è massimo — più largo l’intervallo. Dati rumorosi danno intervalli larghi.

La dimensione del campione: il margine contiene $\sqrt n$ al denominatore. È la legge più importante della sezione, e merita di essere enunciata da sola.

Il margine di errore scala come $1/\sqrt n$ . Conseguenza: per dimezzare il margine devi quadruplicare il campione. Passare da 100 a 400 osservazioni dimezza il margine; passare da 400 a 1600 lo dimezza di nuovo. È un rendimento decrescente brutale: i primi dati comprano molta precisione, gli ultimi pochissima.

Da questa legge viene il famoso " $\pm 3\%$ " dei sondaggi elettorali. Per una proporzione, il caso peggiore è $\hat p = 0{,}5$ , dove $\hat p(1-\hat p) = 0{,}25$ è massimo. Il margine al 95% diventa $1{,}96 \cdot 0{,}5/\sqrt n \approx 0{,}98/\sqrt n$ . Con $n \approx 1000$ questo dà circa $\pm 3\%$ . Ecco perché i sondaggi intervistano attorno a mille persone: è il punto in cui il margine scende sotto i tre punti senza che il costo di raccolta esploda.

Esempi

Tre esempi eterogenei: una simulazione che rende visibile l’interpretazione, una valutazione di un modello, un sondaggio. Più un quarto sul confronto, che è l’errore pratico più frequente.

Esempio 1: simulare la danza degli intervalli

Il modo più diretto per fissare l’interpretazione corretta è non spiegarla ma simularla. Fissiamo un parametro vero — diciamo una media $\mu = 100$ — e simuliamo l’esperimento ripetuto.

import numpy as np
from scipy import stats

mu_vero = 100      # il parametro, noto solo a noi che simuliamo
sigma = 15
n = 30
n_esperimenti = 1000

coperti = 0
for _ in range(n_esperimenti):
    campione = np.random.normal(mu_vero, sigma, n)
    media = campione.mean()
    s = campione.std(ddof=1)              # divisore n-1
    t = stats.t.ppf(0.975, df=n - 1)      # quantile t, 95%
    margine = t * s / np.sqrt(n)
    L, U = media - margine, media + margine
    if L <= mu_vero <= U:                 # l'intervallo cattura mu?
        coperti += 1

print(coperti / n_esperimenti)   # circa 0.95

Il risultato gira attorno a 0,95. Su mille intervalli costruiti, circa novecentocinquanta contengono il vero $\mu = 100$ e circa cinquanta lo mancano. Questo è il significato operativo del “95%”: una proprietà di frequenza della procedura, misurabile contando.

Il risultato non sarà esattamente 0,95: con mille esperimenti aspettati qualcosa come 0,94 o 0,96 — il conteggio dei successi è esso stesso una proporzione con la sua incertezza campionaria. Aumentando n_esperimenti a centomila, il valore si stringe attorno a 0,95. C’è una ricorsione istruttiva qui: per stimare con precisione il tasso di copertura della procedura, servono molti esperimenti, esattamente come per stimare con precisione un parametro servono molti dati. L’incertezza non scompare mai del tutto; si sposta soltanto di livello.

Il punto cruciale è cosa la simulazione non può dire. Prendi un singolo intervallo, per esempio il primo della lista, $[94{,}2; 105{,}1]$ . Contiene $\mu = 100$ ? Sì — ma solo perché noi, che abbiamo scritto la simulazione, conosciamo $\mu$ . Nella realtà non lo conosci: hai in mano $[94{,}2; 105{,}1]$ e basta. Non puoi dire “c’è il 95% di probabilità che $\mu$ sia qui dentro”. Puoi solo dire: “questo intervallo viene da una procedura che, come la simulazione conferma, cattura il bersaglio nel 95% dei casi”. La simulazione misura la proprietà della procedura. Sul singolo intervallo resta solo il fatto, dentro o fuori.

Cambia una riga della simulazione e ottieni una verifica utile: sostituisci il quantile della t con quello della normale (stats.norm.ppf(0.975), cioè $1{,}96$ , indipendente da $n$ ). Con $n = 30$ il tasso di copertura misurato scende leggermente sotto 0,95 — l’intervallo costruito con $z$ invece che con $t$ è troppo stretto, e la procedura sbaglia un po’ più spesso del nominale. È la conferma sperimentale di ciò che la sezione sulla t aveva spiegato in teoria: ignorare che $\sigma$ è stimata, e usare la normale come se fosse nota, erode la copertura. La simulazione non è solo un’illustrazione didattica; è anche il modo più diretto per controllare se una procedura di intervallo mantiene la promessa che fa.

Esempio 2: l’accuratezza di un modello sul test set

Hai un classificatore. Lo valuti su un test set di $n = 500$ esempi e ottiene 430 risposte corrette: accuratezza osservata $\hat p = 430/500 = 0{,}86$ . Qual è l’intervallo di confidenza al 95%?

L’accuratezza è una proporzione, quindi usiamo Wilson. Conviene seguire il calcolo passo passo. Con $z = 1{,}96$ , $\hat p = 0{,}86$ , $n = 500$ : il termine $z^2/n = 3{,}84/500 = 0{,}0077$ è piccolo, quindi il denominatore $1 + z^2/n$ vale circa $1{,}0077$ . Il centro dell’intervallo di Wilson è $(\hat p + z^2/2n)/(1 + z^2/n) = (0{,}86 + 0{,}0038)/1{,}0077 \approx 0{,}857$ — leggermente tirato verso 1/2 rispetto a $\hat p = 0{,}86$ .

La parte sotto radice, $\hat p(1-\hat p)/n + z^2/4n^2 = 0{,}86 \cdot 0{,}14/500 + \text{trascurabile} \approx 0{,}000241$ , dà una radice di circa $0{,}0155$ ; moltiplicata per $z$ e divisa per il denominatore, produce una metà-larghezza di circa $0{,}030$ . L’intervallo finale è approssimativamente $[0{,}827;\ 0{,}888]$ . In numeri tondi: l’accuratezza vera del modello, sulla popolazione di tutti i possibili input, sta plausibilmente tra l’82,7% e l’88,8%.

Due osservazioni. La prima: l’intervallo è largo circa sei punti. “86%” da solo suggeriva una precisione che non c’è; il modello potrebbe avere un’accuratezza reale dell’83% o dell’89%, e cinquecento esempi non bastano a distinguere i due casi. La seconda: se invece di 500 esempi ne avessi avuti 50, con la stessa accuratezza dell’86%, l’intervallo di Wilson sarebbe stato circa $[0{,}737; 0{,}932]$ — largo venti punti. La legge $1/\sqrt n$ in azione: dieci volte meno dati, intervallo circa tre volte più largo ( $\sqrt{10} \approx 3{,}16$ ).

La pratica corretta nella valutazione di un modello segue da qui: non riportare mai un’accuratezza senza l’intervallo, e dimensionare il test set in base alla precisione che ti serve. Se vuoi distinguere un modello all’85% da uno all’87%, ti serve un margine ben sotto i due punti, e quindi — dalla legge della radice — diverse migliaia di esempi di test.

C’è un caso limite che mostra perché il metodo conta. Supponi che il modello passi tutti i 50 esempi di test: accuratezza osservata $\hat p = 50/50 = 1{,}0$ . Il metodo di Wald dà l’intervallo $[1{,}0;\ 1{,}0]$ — accuratezza perfetta, certezza assoluta. È palesemente assurdo: cinquanta esempi non possono garantire che il modello non sbagli mai sui milioni di input che non hai testato. Il metodo di Wilson, sugli stessi dati, dà circa $[0{,}929;\ 1{,}0]$ : riconosce che con cinquanta successi su cinquanta l’accuratezza vera potrebbe ancora essere del 93%. La differenza non è cosmetica — è la differenza tra uno strumento che mente e uno che dice la verità. È il motivo concreto per cui la meccanica raccomandava Wilson e sconsigliava Wald.

Esempio 3: il sondaggio e il margine di tre punti

Un sondaggio intervista 1.067 persone e trova che il 47% sostiene una certa opzione. Il giornale scrive “47%, margine di errore $\pm 3\%$ ”. Da dove esce quel $\pm 3\%$ ?

È il margine di Wald nel caso peggiore. Per una proporzione, $\hat p(1-\hat p)$ è massimo a $\hat p = 0{,}5$ , dove vale 0,25. Il margine al 95% è allora $1{,}96\sqrt{0{,}25/1067} = 1{,}96 \cdot 0{,}0153 \approx 0{,}030$ , cioè 3 punti percentuali. I sondaggi riportano sempre il caso peggiore: con $\hat p = 0{,}47$ il margine vero sarebbe leggermente più stretto, ma annunciare il margine massimo è una scelta prudente e standardizzata.

L’interpretazione corretta del titolo: l’intervallo è $[44\%; 50\%]$ , e va letto come “la procedura del sondaggio cattura la vera percentuale nel 95% delle sue applicazioni ripetute” — non “c’è il 95% di probabilità che il vero consenso sia tra 44% e 50%”. La distinzione, su un sondaggio, ha una conseguenza concreta: se un secondo candidato è dato al 50%, i due intervalli si sovrappongono, e il sondaggio non autorizza a dire chi è in testa. È il problema dell’esempio successivo.

C’è un dettaglio del numero $n = 1067$ che vale la pena notare, perché non è casuale. Per portare il margine del caso peggiore sotto i 3 punti serve $1{,}96 \cdot 0{,}5/\sqrt n \le 0{,}03$ , che risolto dà $n \ge 1068$ circa. I sondaggi convergono attorno a mille intervistati perché è esattamente il punto in cui la legge $1/\sqrt n$ rende il margine accettabile senza che il costo di raccolta esploda: raddoppiare la precisione richiederebbe quadruplicare il campione, cioè quattromila interviste, con un costo quattro volte maggiore per un guadagno che raramente cambia la sostanza del risultato.

Il " $\pm 3\%$ " non è una convenzione arbitraria: è il punto di equilibrio economico della legge della radice. E spiega anche perché i sondaggi non possono semplicemente “diventare più precisi”: la fisica del campionamento impone un costo crescente in modo quadratico per ogni punto di margine guadagnato.

Esempio 4: confrontare due modelli senza sbagliare

Hai due modelli. Il modello A ottiene l’87,3% su un benchmark di 1.000 esempi, il modello B l’88,1% sugli stessi 1.000 esempi. B è migliore?

L’istinto dice di sì: 88,1 è più di 87,3. Ma costruiamo gli intervalli. Con Wilson, $n = 1000$ : il modello A ha circa $[0{,}851; 0{,}892]$ , il modello B circa $[0{,}860; 0{,}900]$ . I due intervalli si sovrappongono ampiamente. La differenza di 0,8 punti è dentro il rumore campionario: con mille esempi non è possibile distinguere i due modelli con sicurezza.

Attenzione però a come si fa il confronto. La regola “gli intervalli si sovrappongono, quindi nessuna differenza” è una scorciatoia imprecisa — può portare a concludere “nessuna differenza” anche quando una c’è. Il modo corretto è costruire un intervallo sulla differenza. Se i due modelli sono valutati sugli stessi esempi, ogni esempio dà una coppia di esiti, e si può costruire un intervallo per la differenza appaiata di accuratezza. Se quell’intervallo contiene lo zero, la differenza non è distinguibile dal rumore; se lo esclude, lo è. Nel nostro caso, con una differenza di 0,8 punti su mille esempi, l’intervallo sulla differenza conterrebbe comodamente lo zero.

Questa è la ragione per cui un leaderboard va letto con sospetto. Le classifiche di benchmark ordinano i modelli su distacchi che sono spesso inferiori al margine di errore di ciascuna misura. Le prime cinque posizioni di una classifica possono essere, statisticamente, indistinguibili: l’ordine esatto è in buona parte rumore campionario. Un leaderboard onesto riporta gli intervalli accanto ai punteggi; molti non lo fanno.

Esempio 5: il test A/B che non conclude nulla

Un ultimo esempio, da un dominio diverso dai benchmark, per mostrare la stessa logica al lavoro su una decisione di prodotto. Stai testando due versioni del prompt di sistema di un assistente. La versione A viene mostrata a 800 utenti e 96 completano l’azione obiettivo: tasso di conversione $96/800 = 12{,}0\%$ . La versione B viene mostrata ad altri 800 utenti e 112 completano: tasso $112/800 = 14{,}0\%$ . La versione B converte due punti meglio. La spedisci?

Calcola l’intervallo sulla differenza. Le due conversioni sono misurate su gruppi distinti, quindi la differenza $\hat p_B - \hat p_A = 0{,}020$ ha errore standard $\sqrt{\hat p_A(1-\hat p_A)/n_A + \hat p_B(1-\hat p_B)/n_B}$ . Sostituendo: $\sqrt{0{,}12 \cdot 0{,}88/800 + 0{,}14 \cdot 0{,}86/800} = \sqrt{0{,}000132 + 0{,}000151} \approx 0{,}0168$ . Il margine al 95% è $1{,}96 \times 0{,}0168 \approx 0{,}033$ . L’intervallo sulla differenza è $0{,}020 \pm 0{,}033$ , cioè $[-0{,}013;\ +0{,}053]$ .

L’intervallo contiene lo zero. Il dato è compatibile sia con “B converte 1,3 punti peggio” sia con “B converte 5,3 punti meglio”. Con 800 utenti per gruppo, il test non distingue le due versioni: il vantaggio osservato di due punti è dentro il rumore. Spedire B sarebbe una decisione presa sul caso. La conclusione operativa non è “B vince” ma “servono più utenti”: per restringere il margine sotto i due punti — e poter così rilevare un effetto di quella taglia — la legge $1/\sqrt n$ impone di portare ogni gruppo a qualche migliaio di utenti. È lo stesso meccanismo dell’Esempio 4, applicato a una conversione invece che a un’accuratezza: ogni volta che si confrontano due numeri, l’oggetto da intervallare è la loro differenza.

Applicazioni pratiche

Per chi costruisce e valuta sistemi AI, l’intervallo di confidenza non è un ornamento statistico: è la differenza tra una metrica che informa e una che inganna.

Ogni numero di un benchmark è una stima su un campione finito. Un’accuratezza su MMLU, un punteggio su un eval interno, un win rate contro un baseline: tutti calcolati su un test set di dimensione $n$ , tutti soggetti a variabilità campionaria. Riportare il solo punto — “87,3%” — butta via $n$ , che è metà dell’informazione. Lo stesso 87,3% su cento esempi e su centomila sono affermazioni di forza completamente diversa, e solo l’intervallo le distingue. La pratica minima: ogni accuratezza riportata con il suo intervallo di Wilson al 95%.

Il confronto fra modelli è dove l’errore costa di più. Un team che deploya il modello B perché segna 0,8 punti più del modello A, quando quella differenza è dentro il margine di errore, sta prendendo una decisione su rumore. La regola operativa: prima di dichiarare un modello migliore di un altro, costruisci l’intervallo sulla differenza e verifica che escluda lo zero. Se non lo esclude, la risposta corretta non è “B è migliore” ma “servono più dati di test, oppure i due modelli sono equivalenti per quel che il benchmark può vedere”.

Il dimensionamento del test set segue dalla legge $1/\sqrt n$ . Se devi poter rilevare una differenza di accuratezza di due punti, ti serve un margine ben sotto i due punti, e quindi diverse migliaia di esempi etichettati. Sapere questo prima di costruire il test set evita la situazione frustrante di un eval che, una volta finito, non ha la risoluzione per rispondere alla domanda che doveva rispondere.

Lo stesso ragionamento si estende oltre l’accuratezza. Il tasso di successo di un agente su una suite di task, la frazione di risposte che passano un controllo automatico, la percentuale di richieste sotto una certa latenza: tutte proporzioni, tutte da accompagnare con un intervallo. E nei test A/B di una funzionalità — la nuova versione del prompt converte meglio della vecchia? — l’intervallo sulla differenza di conversione è esattamente lo strumento che dice se il miglioramento osservato è segnale o rumore.

C’è infine un uso difensivo dell’intervallo che vale come abitudine mentale. Quando leggi il claim di qualcun altro — il post di un laboratorio che annuncia un modello “migliore del 2%”, la slide di un fornitore con un punteggio di benchmark — la prima domanda da farsi è “su quanti esempi” e la seconda è “con quale intervallo”. Se il claim non riporta $n$ né un margine di errore, il numero non è ancora valutabile: potrebbe essere solido o potrebbe essere rumore travestito da risultato. L’intervallo di confidenza, da questo lato, non serve a produrre i propri numeri ma a interrogare quelli altrui. È lo stesso scetticismo che un buon ingegnere applica a un benchmark di performance senza deviazione standard: un numero senza la sua incertezza è un’opinione con la cravatta.

Dove si rompe

L’intervallo di confidenza è uno strumento solido, ma poggia su assunzioni, e quando le assunzioni saltano l’intervallo mente — con l’aggravante che mente con un’aria di precisione numerica.

Il campione non è rappresentativo. Tutta la teoria assume che il campione sia estratto in modo casuale dalla popolazione di interesse. Se il test set è stato raccolto male — esempi facili sovra-rappresentati, distribuzione diversa da quella di produzione — l’intervallo è centrato sul posto sbagliato.

La copertura del 95% vale rispetto al parametro della popolazione da cui il campione è stato estratto, che potrebbe non essere la popolazione che ti interessa. L’intervallo quantifica l’incertezza campionaria, non il bias di campionamento: un test set distorto produce un intervallo stretto e fiducioso attorno al numero sbagliato. Il capitolo Campionamento è dedicato a questo rischio.

Le osservazioni non sono indipendenti. Le formule assumono che i dati siano indipendenti tra loro. Se gli esempi di test sono correlati — più domande sullo stesso documento, più task generati dalla stessa template, valutazioni dello stesso annotatore — la dimensione effettiva del campione è minore di $n$ , l’errore standard reale è più grande di quello calcolato, e l’intervallo è troppo stretto. È un errore insidioso perché il numero $n$ sembra grande e rassicurante mentre l’informazione vera è molto meno.

Il campione è troppo piccolo per l’approssimazione. Gli intervalli per la media basati sulla normale o sulla t assumono che il teorema del limite centrale abbia “fatto effetto”. Con $n$ molto piccolo e dati fortemente asimmetrici, la distribuzione della media campionaria non è ancora abbastanza normale, e la copertura reale si scosta dal nominale. Per le proporzioni, il problema del metodo di Wald visto nella meccanica è esattamente questo: con $n$ piccolo o $\hat p$ vicino agli estremi l’approssimazione normale crolla. È una delle ragioni per preferire Wilson.

L’intervallo non copre l’errore sistematico. L’intervallo di confidenza cattura l’incertezza dovuta al campionamento — al fatto che hai visto una parte e non il tutto. Non cattura il bias di misura. Se il benchmark stesso è difettoso — e i benchmark lo sono spesso: un’analisi del 2024 sul benchmark MMLU trovò circa il 6,5% delle domande con errori di soluzione, etichette sbagliate o domande ambigue — allora esiste un tetto all’accuratezza misurabile che non ha niente a che vedere con $n$ .

Puoi avere un intervallo strettissimo, perché il test set è enorme, attorno a un numero che è sbagliato perché il test set è errato. L’intervallo stretto dà una falsa sensazione di rigore. Restringere l’intervallo aumentando $n$ non corregge un benchmark difettoso: combatte la fonte di errore sbagliata.

La caccia all’intervallo che esclude lo zero. Se costruisci molti intervalli — un modello su venti benchmark diversi, venti varianti di prompt — e tieni solo quelli “interessanti” (l’intervallo sulla differenza che esclude lo zero), stai facendo confronti multipli, e il tasso di errore complessivo non è più il 5%. Con venti confronti indipendenti, anche se nessuna differenza è reale, ti aspetti in media un intervallo “significativo” per puro caso. È lo stesso meccanismo dei test multipli, e lo affronta il capitolo multiple-testing (in preparazione).

Il livello scelto dopo aver visto i dati. Il livello di confidenza va fissato prima di guardare i risultati. Chi calcola un intervallo al 95%, lo trova “scomodo” perché include lo zero o un valore sgradito, e allora passa al 90% per restringerlo fino a ottenere la conclusione desiderata, sta truccando la procedura. La garanzia di copertura del 95% vale solo se il 95% è stato scelto in cieco; sceglierlo a posteriori per inseguire un risultato distrugge esattamente la proprietà che rende l’intervallo affidabile. È una forma di quella che la letteratura chiama flessibilità dei gradi di libertà dell’analista, ed è subdola perché ogni singolo passaggio sembra legittimo.

L’intervallo confuso con la dimensione dell’effetto. Un intervallo stretto dice che la stima è precisa, non che l’effetto sia grande o importante. Con un campione enorme si può ottenere un intervallo strettissimo attorno a una differenza di accuratezza dello 0,1% — una differenza reale ma praticamente irrilevante. Il contrario è altrettanto vero: un intervallo largo che esclude lo zero indica un effetto presente ma misurato male. Leggere un intervallo significa guardare due cose insieme — dove sta e quanto è largo — e non collassare l’una sull’altra. La precisione della misura e la rilevanza pratica di ciò che misura sono domande separate.

L’errore di interpretazione, ancora. Va contato tra i modi in cui lo strumento si rompe, perché è il più frequente di tutti. Un intervallo letto come “95% di probabilità che il parametro sia dentro” non è uno strumento rotto: è uno strumento giusto usato come se fosse un altro. Chi lo legge così sta, di fatto, usando l’intervallo di confidenza come se fosse un intervallo credibile bayesiano — senza averne specificato il prior, e senza saperlo. La sezione che segue chiarisce perché i due non sono la stessa cosa.

Confronto con l’intervallo credibile bayesiano

C’è uno strumento che dice davvero quello che la gente vorrebbe far dire all’intervallo di confidenza. Si chiama intervallo credibile, ed è la versione bayesiana. Vale la pena metterli a confronto, perché distinguerli chiarisce, per contrasto, cosa è e cosa non è l’intervallo di confidenza — ed è una distinzione, non un’equivalenza.

Il punto di partenza è una differenza di visione sul parametro. Per il frequentista, il parametro $\theta$ è una costante ignota: non ha una distribuzione di probabilità, ha un valore e basta. Per il bayesiano, $\theta$ è trattato come una variabile aleatoria, dotata di una distribuzione che rappresenta lo stato di conoscenza su di esso. Il bayesiano parte da una distribuzione prima di vedere i dati — il prior, che codifica ciò che si sa o si assume — la aggiorna con la verosimiglianza dei dati osservati tramite il teorema di Bayes, e ottiene una distribuzione dopo i dati, il posterior. Il meccanismo dell’aggiornamento è il tema di Teorema di Bayes e ragionamento bayesiano.

Un intervallo credibile al 95% è un intervallo che contiene il 95% della massa di probabilità del posterior. E qui sta la differenza che conta: per l’intervallo credibile è corretto dire “dato il prior e i dati osservati, c’è il 95% di probabilità che $\theta$ stia in questo intervallo”. L’affermazione che è falsa per l’intervallo di confidenza — quella su cui questo capitolo ha speso una sezione intera — è esattamente quella vera per l’intervallo credibile. Il bayesiano può fare l’affermazione probabilistica diretta sul parametro perché, nel suo quadro, il parametro ha una distribuzione.

Riassumendo il contrasto in due righe parallele. Intervallo di confidenza: il 95% è la frequenza di copertura della procedura su campioni ripetuti; il parametro è fisso; nessuna probabilità sul singolo intervallo. Intervallo credibile: il 95% è la probabilità del parametro dato i dati osservati e il prior; il parametro è aleatorio; la probabilità sull’intervallo è lecita.

Due avvertenze per non trarne la conclusione sbagliata. La prima: il fatto che l’interpretazione bayesiana sia più intuitiva non la rende “migliore” gratis. Quella comodità interpretativa si paga con il prior — bisogna sceglierlo, e la scelta influenza il risultato, soprattutto con pochi dati. Il frequentista evita il prior; il bayesiano lo rende esplicito. Sono due contratti diversi, non uno corretto e uno sbagliato.

La seconda avvertenza è quella su cui essere precisi per non scivolare di classe di affermazione. In molte situazioni pratiche — campione grande, prior poco informativo — l’intervallo di confidenza e l’intervallo credibile vengono numericamente quasi uguali. Da questa coincidenza numerica si è tentati di concludere che siano la stessa cosa. Non lo sono.

La coincidenza è un’analogia operativa, valida in certe condizioni, non un’equivalenza concettuale: i due intervalli rispondono a due domande diverse, e il fatto che a volte le risposte numeriche collimino non fonde le domande. Trattare l’intervallo di confidenza come se fosse credibile — applicargli l’interpretazione probabilistica diretta — resta un errore anche quando i numeri coincidono, perché l’interpretazione non discende dai numeri ma dal quadro che li ha prodotti.

Collegamenti

Stima puntuale — l’intervallo di confidenza è il passo successivo della stima puntuale: dove quella dava un numero, questo dà un numero con un margine di incertezza. L’errore standard, qui motore della larghezza dell’intervallo, è la deviazione standard dello stimatore vista lì.
Legge dei grandi numeri e teorema del limite centrale — il teorema del limite centrale è ciò che rende (approssimativamente) normale la distribuzione della media campionaria, e quindi ciò che giustifica la formula z e la formula t.
Popolazione, campione, stimatore — fissa i quattro termini di base (popolazione, parametro, campione, stimatore) su cui poggia l’intera costruzione.
Le distribuzioni comuni — la binomiale governa il conteggio dei successi negli intervalli per una proporzione; la normale è l’approssimazione alla base dei metodi z e Wald.
Campionamento — l’intervallo quantifica l’incertezza campionaria ma non il bias di campionamento: un campione non rappresentativo produce un intervallo stretto attorno al numero sbagliato.
Teorema di Bayes e ragionamento bayesiano — il meccanismo prior/posterior che sta dietro all’intervallo credibile, il cugino bayesiano con cui l’intervallo di confidenza va distinto e non confuso.
test-ipotesi (in preparazione) — l’intervallo di confidenza e il test di ipotesi sono due facce della stessa impalcatura: un intervallo al $1-\alpha$ è l’insieme dei valori che un test al livello $\alpha$ non rifiuterebbe.
bootstrap (in preparazione) — costruisce intervalli per ricampionamento, senza bisogno di formule analitiche, utile quando le assunzioni dei metodi visti qui non reggono.
multiple-testing (in preparazione) — costruire molti intervalli e tenere solo quelli “interessanti” gonfia il tasso di errore complessivo; è il problema dei confronti multipli.

Per andare oltre

Jerzy Neyman, Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability, Philosophical Transactions of the Royal Society of London, Series A, vol. 237, 1937. Il paper fondante: definisce l’intervallo di confidenza e, nelle sue stesse parole, chiarisce perché non si può attribuire probabilità al singolo intervallo calcolato.
Lawrence D. Brown, T. Tony Cai, Anirban DasGupta, Interval Estimation for a Binomial Proportion, Statistical Science, vol. 16, n. 2, 2001. Il confronto sistematico tra Wald, Wilson, Clopper-Pearson e altri metodi per la proporzione, con la raccomandazione di abbandonare il Wald.
Rink Hoekstra, Richard D. Morey, Jeffrey N. Rouder, Eric-Jan Wagenmakers, Robust misinterpretation of confidence intervals, Psychonomic Bulletin & Review, vol. 21, 2014. Lo studio empirico che misura quanto l’errore di interpretazione sia diffuso anche tra i ricercatori.
Geoff Cumming, Understanding the New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis, Routledge, 2012. Un libro che riorganizza la statistica applicata attorno agli intervalli di confidenza invece che ai test, con molta cura per l’interpretazione corretta.
“Student” (William Sealy Gosset), The Probable Error of a Mean, Biometrika, vol. 6, 1908. Il lavoro originale che introduce la distribuzione t, scritto da un dipendente della Guinness sotto pseudonimo.