Stima MAP: il prior come regolarizzatore

Una moneta lanciata tre volte esce tre volte testa. La massima verosimiglianza conclude che quella moneta non darà mai croce. Questo capitolo costruisce lo strumento che corregge quella conclusione assurda — la stima Maximum A Posteriori — e mostra che la stessa correzione, sotto un altro nome, è la regolarizzazione che ogni rete neurale usa per non fittare il rumore.

Perché questo capitolo

Lancia una moneta tre volte. Escono tre teste. Qual è la probabilità che quella moneta dia testa? La massima verosimiglianza — il metodo del capitolo precedente, Massima verosimiglianza — risponde senza esitare: la frequenza osservata, tre su tre, cioè $p = 1$ . La moneta non darà mai croce.

Nessuno ci crede. E la ragione per cui nessuno ci crede è precisa, non vaga: chiunque arriva all’esperimento sapendo già qualcosa sulle monete. Sa che una moneta fisica, per quanto sbilanciata, non è un disco a due teste. Tre lanci sono troppo pochi per cancellare quella conoscenza pregressa. La massima verosimiglianza non ha modo di esprimerla: tratta ogni esperimento come se il mondo nascesse da zero a ogni lancio, e con pochi dati questo la porta a conclusioni ridicole. Il difetto ha un nome — la massima verosimiglianza fitta il rumore quando i dati sono scarsi — ed è il motivo per cui esiste questo capitolo.

La stima Maximum A Posteriori, di solito abbreviata in MAP, è lo strumento che dà voce a quella conoscenza pregressa. L’idea è aggiungere alla verosimiglianza un secondo ingrediente, il prior: una distribuzione di probabilità sui parametri che codifica ciò che si crede prima di guardare i dati. Con un prior che dice “le monete tendono a essere quasi eque”, tre teste su tre non producono più $p = 1$ , ma un valore spostato verso i dati e trattenuto dalla convinzione iniziale — qualcosa come $0{,}8$ .

Il nome stesso, una volta sciolto, dice già tutto. “A posteriori” significa “dopo aver visto i dati”, in opposizione ad “a priori”, “prima”. La quantità che la MAP massimizza è la probabilità del parametro a posteriori: quella aggiornata alla luce dell’evidenza. “Maximum” dice che, di tutta questa distribuzione aggiornata, si prende il punto più alto. La massima verosimiglianza massimizza la verosimiglianza dei dati; la MAP massimizza la probabilità a posteriori del parametro. Una lettera di differenza nel nome, un ingrediente di differenza nella sostanza: il prior.

Questo capitolo serve a tre cose. La prima è dare un nome e una formula a un gesto di buon senso: correggere la stima quando i dati sono pochi usando quello che già si sa. La seconda è chiarire, perché quasi nessun corso lo fa con precisione, in che rapporto stiano MAP e massima verosimiglianza — non sono due metodi rivali, ma due punti di una stessa scala, e la massima verosimiglianza è il caso limite della MAP quando non si porta alcuna convinzione all’esperimento. La terza è la più importante per chi costruisce sistemi: la regolarizzazione. Il termine weight_decay che ogni framework di deep learning offre come opzione dell’optimizer, la ridge e la lasso di ogni libreria di statistica, lo smoothing dei conteggi nei modelli di linguaggio — sono tutti, sotto la superficie, stima MAP. Non sono trucchi di ingegneria: sono la scelta di un prior, scritta in una forma che non lo dichiara. Chi lo sa smette di trattare il coefficiente di regolarizzazione come un numero magico da tunare alla cieca e inizia a leggerlo per quello che è: l’inverso della varianza di una credenza a priori.

C’è infine un confine concettuale che questo capitolo traccia con cura, perché è la sorgente di metà dei fraintendimenti sul tema. La MAP usa il teorema di Bayes — ha un prior, costruisce una distribuzione a posteriori — ma poi ne estrae un solo numero e butta via il resto. Non è inferenza bayesiana completa. È un compromesso pragmatico, e capire cosa viene buttato via è capire perché una rete neurale addestrata in modo standard predice con sicurezza anche dove non ha mai visto un dato.

Il capitolo precedente, Massima verosimiglianza, si chiudeva annunciando un’estensione. Questa è l’estensione: un solo ingrediente aggiunto — il prior — e da quell’ingrediente discendono la correzione delle stime degeneri, la regolarizzazione, e un’intera tradizione statistica che la massima verosimiglianza aveva messo da parte.

Conviene fissare fin da subito la posizione della MAP in una scala, perché è da lì che il capitolo prende il suo filo. A un estremo c’è la massima verosimiglianza: nessun prior dichiarato, solo i dati, una stima puntuale. All’estremo opposto c’è l’inferenza bayesiana completa: un prior esplicito, e come risposta non un numero ma l’intera distribuzione a posteriori, con la sua incertezza. La MAP sta nel mezzo: prende il prior dell’inferenza bayesiana ma restituisce un numero solo come la massima verosimiglianza. Eredita un pregio da ciascun lato — la capacità di incorporare conoscenza pregressa, e il basso costo di calcolo di una semplice ottimizzazione — e un difetto da uno dei due: come la massima verosimiglianza, non sa dire quanto è incerta. Tenere a mente questa scala a tre posizioni è il modo più rapido per non confondere la MAP con ciò che non è.

Contesto

Il modo di ragionare di questo capitolo è, storicamente, più antico della massima verosimiglianza che lo precede nell’ordine della Parte. Per oltre un secolo, da metà Settecento in poi, inferire i parametri di un modello dai dati significava fare quella che si chiamava probabilità inversa: ragionare all’indietro, dagli effetti osservati alle cause ignote.

Il punto di partenza è Thomas Bayes (ministro presbiteriano e matematico inglese, ~1701-1761), il cui saggio “An Essay Towards Solving a Problem in the Doctrine of Chances”, pubblicato postumo nel 1763 nelle Philosophical Transactions, contiene il teorema che porta il suo nome. Ma è Pierre-Simon Laplace (matematico e astronomo francese, 1749-1827) a trasformarlo, indipendentemente, in un metodo di lavoro: formalizza l’aggiornamento di una probabilità a posteriori a partire da una a priori e dall’evidenza, e lo applica a problemi reali di astronomia e demografia. Il suo esempio dell’urna piena di biglietti bianchi e neri e la sua celebre “regola di successione” — la probabilità che il sole sorga domani, dato che è sorto $n$ volte, è $(n+1)/(n+2)$ — sono i primi usi sistematici di un prior uniforme.

Per più di un secolo questa è la statistica. Poi, intorno al 1920, arriva la rottura. Ronald Fisher (statistico e genetista britannico, 1890-1962, figura fondante della statistica moderna), nel paper On the mathematical foundations of theoretical statistics (Philosophical Transactions of the Royal Society A, vol. 222, 1922), attacca la probabilità inversa come concettualmente viziata. La sua obiezione è netta: una conclusione scientifica non può dipendere da un prior scelto per comodità, quasi sempre uniforme e quasi mai dichiarato come un’assunzione. La verosimiglianza pura — l’oggetto del capitolo Massima verosimiglianza — è la sua risposta: una quantità che misura il supporto dei dati a un parametro senza postulare nulla a priori. Per decenni la statistica diventa frequentista e il prior sparisce dal mainstream.

La storia non finisce con un vincitore. La statistica bayesiana è tornata, in forza, a partire dagli anni Ottanta, quando una famiglia di algoritmi — i metodi Markov chain Monte Carlo — ha reso finalmente praticabile il calcolo che prima la rendeva intrattabile. La stima MAP è il punto preciso in cui le due tradizioni si reincontrano. È formalmente bayesiana: usa il teorema di Bayes, richiede un prior esplicito. Ma è operativamente vicina alla massima verosimiglianza: restituisce un singolo numero ottenuto da un’ottimizzazione, non una distribuzione. Sta a metà strada, e proprio questa posizione intermedia la rende il ponte naturale verso il machine learning, dove riapparirà sotto il nome di regolarizzazione.

C’è una nota di cautela storica da fare, perché è facile raccontare questa vicenda come una linea retta. Non lo è. La MAP non “discende” dalla probabilità inversa di Laplace nel senso di una filiazione diretta e cosciente: è piuttosto una ricostruzione moderna, che usa il macchinario bayesiano — prior, teorema di Bayes, posterior — ma lo piega a uno scopo, la stima puntuale, che era proprio l’obiettivo dei frequentisti. Allo stesso modo, il fatto che il weight decay coincida con un prior gaussiano è un’equivalenza matematica, non una filiazione: gli ingegneri che usavano il weight decay negli anni Ottanta non lo derivarono da un prior, lo trovarono per tentativi, e solo dopo MacKay mostrò che le due cose erano la stessa cosa. Distinguere “questa idea nasce da quell’altra” da “queste due idee, sviluppate separatamente, risultano equivalenti” è importante: la seconda è il caso più frequente in questo capitolo.

Vale la pena seguire un filo che parte da qui e arriva al deep learning, perché è meno noto di quanto dovrebbe. Negli anni Novanta, mentre le reti neurali vivevano una prima fase di interesse, il fisico e ricercatore britannico David MacKay (1967-2016) scrisse una serie di lavori — il più citato è “A Practical Bayesian Framework for Backpropagation Networks” (Neural Computation, 1992) — in cui mostrava che il weight decay, già usato in pratica per addestrare reti, non era un’euristica isolata: era stima MAP con un prior gaussiano sui pesi. La regolarizzazione che gli ingegneri avevano scoperto per tentativi aveva una lettura probabilistica esatta. Quel ponte, costruito trent’anni fa, è oggi il modo standard di capire perché la regolarizzazione funziona, e questo capitolo lo ripercorre.

C’è infine un dettaglio che chiude il cerchio storico. La rinascita bayesiana che inizia negli anni Ottanta non fu trainata da un’idea nuova — il teorema di Bayes aveva due secoli — ma da un fatto computazionale: la comparsa dei metodi Markov chain Monte Carlo, algoritmi capaci di campionare una posterior anche quando non ha forma chiusa. Prima di quegli algoritmi, l’inferenza bayesiana completa era spesso un calcolo impossibile, e la stima MAP — che evita l’integrale più difficile — era a volte l’unica cosa bayesiana che si potesse davvero fare. Anche oggi che l’MCMC esiste, per i modelli enormi del deep learning resta troppo costoso, e la MAP rimane la scorciatoia di default. La sua persistenza non è teorica: è la traccia di un vincolo di calcolo.

Nel grafo di questa wiki, questo è il dodicesimo capitolo della Parte V. Poggia sul teorema di Bayes, introdotto in Teorema di Bayes e ragionamento bayesiano; estende direttamente la massima verosimiglianza, di cui è la generalizzazione con prior; usa le distribuzioni comuni — Bernoulli, normale, Beta — come mattoni di prior e likelihood; e dà il fondamento probabilistico alla regolarizzazione vista in Regressione: la retta come modello statistico. Guarda avanti verso bootstrap (in preparazione) e verso calibrazione-statistica (in preparazione), dove il prezzo di buttare via parte della posterior diventa visibile come overconfidence.

L’intuizione

Prima di qualsiasi formula, quattro angoli distinti. Il primo — il testimone con un pregiudizio — dice cosa fa la MAP rispetto alla massima verosimiglianza. Il secondo — il tiro alla fune tra prior e dati — dice come combina le due informazioni e perché il risultato si sposta. Il terzo — il prior come dati immaginari — rende il prior concreto e numerabile. Il quarto — il prior come penalità — riformula la stessa cosa nel linguaggio dell’ottimizzazione, e prepara il ponte con la regolarizzazione del machine learning.

Primo angolo: il testimone con un pregiudizio

Immagina un detective che interroga un testimone su un evento. La massima verosimiglianza è un testimone che riferisce solo ciò che ha visto, e nient’altro: ha osservato tre teste, dichiara “questa moneta dà sempre testa”, senza filtro. È onesto ma ingenuo. Riporta fedelmente un campione minuscolo come se fosse l’intera verità.

La MAP è un testimone diverso. Anche lui ha visto le stesse tre teste, ma ci arriva con un’esperienza pregressa: ha maneggiato migliaia di monete in vita sua e sa che sono quasi sempre eque. Quando il detective gli chiede com’è quella moneta, non risponde “dà sempre testa”. Risponde qualcosa come: “ho visto tre teste, il che mi fa sospettare uno sbilanciamento verso testa, ma tre lanci sono pochi e l’esperienza mi dice che le monete a due teste sono rarissime, quindi direi che è una moneta un po’ sbilanciata, non un disco truccato”.

Questo secondo testimone non è meno rigoroso del primo. Sta facendo una cosa in più, esplicita e difendibile: pesa l’evidenza nuova contro un corpo di conoscenza pregressa. Quel corpo di conoscenza è il prior. E si vede subito la proprietà più importante: più dati arrivano, meno conta il pregiudizio. Se la moneta esce testa trecento volte su trecento, anche il testimone esperto si arrende e dichiara la moneta truccatissima — l’evidenza ha sommerso il prior. Il prior è una stampella per il regime di pochi dati, e si dissolve da solo quando i dati abbondano.

La parola “pregiudizio” qui non è un’accusa, è una descrizione tecnica. Nel vocabolario della statistica un metodo che incorpora un’aspettativa è un metodo biased, e il bias non è sempre un male. La massima verosimiglianza, sui pochi dati, è non distorta ma molto variabile: cambia molto da campione a campione, perché insegue ogni fluttuazione. La MAP introduce di proposito un po’ di distorsione — tira la stima verso il prior — e in cambio ne riduce la variabilità: due campioni diversi danno stime più simili tra loro, perché entrambi sono ancorati alla stessa convinzione iniziale. È lo scambio bias-varianza, e qui lo si vede nella sua forma più pura: il prior è la quantità di bias che si accetta di pagare per comprare stabilità. Quando i dati sono pochi, quel baratto conviene quasi sempre.

Secondo angolo: il tiro alla fune tra prior e dati

Il primo angolo dice che la MAP combina due fonti. Il secondo mostra geometricamente come, e perché il risultato finisce dove finisce.

Disegna l’asse dei valori possibili del parametro — per la moneta, l’intervallo da 0 a 1. Su quest’asse vivono due curve. La prima è il prior: una collina centrata dove la conoscenza pregressa dice che il parametro probabilmente sta. Per le monete, una collina centrata su $0{,}5$ . La seconda è la verosimiglianza: una collina centrata dove i dati osservati spingono. Tre teste su tre tirano la verosimiglianza tutta verso $1$ .

La posterior — la distribuzione che la MAP poi massimizza — è il prodotto punto per punto di queste due curve. E un prodotto di due curve è alto solo dove entrambe sono alte. Dove il prior dice $0{,}5$ la verosimiglianza è bassa; dove la verosimiglianza dice $1$ il prior è basso. Il prodotto raggiunge il massimo in mezzo, in una zona dove nessuna delle due è al suo apice ma nessuna è trascurabile. La stima MAP è il picco di quella collina intermedia.

Da qui si legge tutto il comportamento del metodo. Sposta il prior verso $0{,}5$ e rendilo più stretto e appuntito: la collina-prodotto si sposta più vicino a $0{,}5$ , il prior tira più forte. Allarga il prior fino a renderlo quasi piatto: la collina-prodotto coincide quasi con la verosimiglianza, la MAP collassa sulla massima verosimiglianza. Tieni il prior fisso e accumula dati: la verosimiglianza diventa una guglia sempre più stretta e alta, e nel prodotto domina lei. È un tiro alla fune in cui la forza di ciascun lato è la sua “concentrazione” — quanto è appuntita la sua curva — e la stima MAP è il punto in cui la corda si ferma.

Questa immagine chiarisce anche perché la massima verosimiglianza, da sola, produca conclusioni assurde con pochi dati. Con tre soli lanci la verosimiglianza non è una guglia: è una collina larga e poco decisa, perché tre dati non determinano molto. La massima verosimiglianza ne prende comunque il punto più alto, all’estremo $p = 1$ , anche se la collina è quasi piatta da $0{,}6$ in su — il suo apice non è molto più convincente dei suoi fianchi. La MAP, moltiplicando per il prior, lascia che una verosimiglianza così indecisa venga corretta da una convinzione più ferma. Quando invece i dati sono molti e la verosimiglianza è una guglia stretta, è il prior a essere relativamente indeciso, e a farsi da parte. Il metodo dà più voce, ogni volta, alla curva più sicura di sé — ed è esattamente il comportamento che si vorrebbe da un ragionamento prudente.

Terzo angolo: il prior come dati immaginari

C’è un modo di vedere il prior che lo rende sorprendentemente concreto, e che tornerà letteralmente nei conti dell’esempio della moneta. Un prior può essere riletto come un piccolo insieme di dati immaginari che si aggiungono ai dati reali.

Riprendi il testimone esperto. La sua convinzione “le monete sono quasi eque” non è nata dal nulla: viene dalle migliaia di monete che ha già osservato in vita sua. Quando esprime quel prior, in un certo senso sta dicendo: “ai tuoi tre lanci, aggiungi i miei: io ne ho già visti tanti, equilibrati tra testa e croce”. Per la coppia Beta-Bernoulli questa intuizione è esatta, non metaforica. Scegliere un prior $\text{Beta}(\alpha, \beta)$ equivale, nei conti, ad aver osservato $\alpha-1$ teste e $\beta-1$ croci prima dell’esperimento vero. Quei numeri si chiamano pseudo-conteggi, e la stima MAP finisce per essere una frequenza calcolata sui dati reali più quei conteggi finti.

Questa lettura spiega in un colpo solo due cose. Primo, perché il prior svanisce con tanti dati: tre lanci immaginari contano molto accanto a tre lanci reali, ma nulla accanto a tremila. Secondo, perché un prior “non informativo” è un prior con pochi pseudo-dati: $\text{Beta}(1,1)$ , il prior uniforme, corrisponde a zero pseudo-teste e zero pseudo-croci — nessun dato immaginario aggiunto, e infatti la MAP coincide con la massima verosimiglianza. La forza di un prior si misura in quanti dati immaginari porta in dote.

L’immagine dei dati immaginari ha anche un valore di onestà intellettuale. Rende impossibile fingere che un prior sia “neutro”: un prior è sempre un certo numero di osservazioni che si sono decise a tavolino, e dichiararlo costringe a chiedersi se quelle osservazioni siano giustificate. Un prior $\text{Beta}(50, 50)$ su una moneta significa “faccio come se avessi già visto cento lanci quasi equilibrati”: può essere ragionevole per una moneta da un euro, assurdo per un generatore di numeri casuali di cui non si sa nulla. La scelta del prior non sparisce dietro una formula; resta una decisione, e l’immagine dei pseudo-dati la mette davanti agli occhi.

Quarto angolo: il prior come penalità

Il quarto angolo riformula la stessa operazione nel linguaggio dell’ottimizzazione, ed è il ponte verso il machine learning.

Massimizzare un prodotto di curve è scomodo. Si prende il logaritmo, che trasforma il prodotto in somma: massimizzare la posterior diventa massimizzare la somma di due termini, la log-verosimiglianza e la log-prior. Cambiando segno — perché gli ottimizzatori minimizzano — la cosa diventa: minimizzare la negative log-likelihood più un secondo termine che dipende solo dal parametro.

Quel secondo termine ha un ruolo identificabile. È un costo che si paga per scegliere certi valori del parametro invece di altri. Se il prior dice “i pesi dovrebbero essere piccoli”, il termine vale poco per pesi vicini a zero e molto per pesi grandi: penalizza i pesi grandi. L’ottimizzatore, che cerca di rendere piccola la somma totale, è ora tirato in due direzioni — abbassare la negative log-likelihood (fittare i dati) e abbassare la penalità (rispettare il prior) — e si ferma a un compromesso.

Questo è esattamente il movimento della regolarizzazione. In machine learning si parte da una loss che misura quanto male il modello fitta i dati e le si aggiunge un termine + lambda * (qualcosa che cresce coi pesi grandi). La giustificazione che si trova nei tutorial è di solito operativa: “serve a evitare l’overfitting”. Vero, ma incompleto. La giustificazione profonda è questa: quel termine aggiunto è la log-prior negativa di un prior sui pesi. Regolarizzare non è un trucco. È fare stima MAP invece di massima verosimiglianza, e scegliere la forma della penalità è scegliere la forma del prior. La sezione sulla meccanica rende questa corrispondenza una formula esatta.

I quattro angoli descrivono la stessa operazione da quattro lati. Il testimone con un pregiudizio dice cosa cambia rispetto alla massima verosimiglianza: si aggiunge conoscenza pregressa. Il tiro alla fune dice dove finisce la stima: nel compromesso pesato tra prior e dati. Il prior come dati immaginari rende il pregiudizio una quantità concreta, misurabile in pseudo-conteggi. Il prior come penalità dice come la stima si calcola in pratica e perché coincide con la regolarizzazione. Tenere insieme i quattro rende intuitivi risultati che, dalla sola formula, sembrerebbero arbitrari.

La meccanica

Adesso il formalismo, costruito un pezzo alla volta. Niente in questa sezione va oltre il prodotto, il logaritmo e la derivata.

Il teorema di Bayes applicato ai parametri

Si parte da un modello con un parametro ignoto $\theta$ — può essere un numero (la probabilità di testa di una moneta) o un vettore (i milioni di pesi di una rete). Si osserva un insieme di dati $D$ . Il teorema di Bayes, già visto in Teorema di Bayes e ragionamento bayesiano per gli eventi, si applica identico ai parametri:

$p(\theta \mid D) = \frac{p(D \mid \theta)\, p(\theta)}{p(D)}$

Quattro oggetti, ciascuno con un nome e un ruolo:

$p(\theta)$ è il prior: la distribuzione di probabilità sul parametro prima di vedere $D$ . Codifica la conoscenza pregressa. È l’ingrediente che la massima verosimiglianza non ha.
$p(D \mid \theta)$ è la likelihood (verosimiglianza): quanto bene un dato valore di $\theta$ spiega i dati osservati. È l’oggetto che la massima verosimiglianza massimizza da sola.
$p(\theta \mid D)$ è la posterior: la distribuzione di probabilità sul parametro dopo aver visto $D$ . È il prior corretto alla luce dei dati, ed è ciò che si vuole conoscere.
$p(D)$ è l’evidence (o marginal likelihood): la probabilità dei dati mediata su tutti i possibili valori del parametro, $p(D) = \int p(D \mid \theta)\, p(\theta)\, d\theta$ . È una costante di normalizzazione che fa sì che la posterior integri a 1.

In parole povere, la formula dice: la posterior è proporzionale alla likelihood moltiplicata per il prior. È il “tiro alla fune” del secondo angolo scritto in simboli — la curva-prodotto è $p(D \mid \theta)\, p(\theta)$ , e l’evidence al denominatore si limita a riscalare il tutto perché la collina risultante abbia area 1.

La definizione di stima MAP

La stima MAP è la moda della posterior: il valore di $\theta$ in cui la posterior raggiunge il suo massimo.

$\theta_{\text{MAP}} = \arg\max_{\theta}\; p(\theta \mid D)$

Qui entra in gioco un’osservazione che rende il metodo praticabile. L’evidence $p(D)$ è un integrale su tutto lo spazio dei parametri, e calcolarlo è in generale difficile o impossibile in forma chiusa. Ma per trovare il massimo della posterior non serve. L’evidence non dipende da $\theta$ : è la stessa costante per ogni valore del parametro. Dividere per una costante positiva non sposta la posizione del massimo. Quindi:

$\theta_{\text{MAP}} = \arg\max_{\theta}\; \frac{p(D \mid \theta)\, p(\theta)}{p(D)} = \arg\max_{\theta}\; p(D \mid \theta)\, p(\theta)$

Questa è la prima semplificazione decisiva: la MAP si calcola massimizzando solo il numeratore, likelihood per prior. L’integrale difficile sparisce. È esattamente il motivo per cui la MAP è una stima economica e l’inferenza bayesiana completa — che invece l’evidence la richiede — è costosa.

Dal prodotto alla somma: la log-posterior

Come per la massima verosimiglianza, in pratica non si massimizza mai il prodotto direttamente. Si massimizza il suo logaritmo, perché il logaritmo di un prodotto è la somma dei logaritmi. La log-posterior (a meno della costante $\log p(D)$ , che si ignora) è:

$\log p(D \mid \theta) + \log p(\theta)$

Il logaritmo è una funzione monotona crescente: non sposta la posizione del massimo. Si massimizza una funzione diversa, con lo stesso massimizzatore. Quindi:

$\theta_{\text{MAP}} = \arg\max_{\theta}\; \Big[\, \underbrace{\log p(D \mid \theta)}_{\text{log-likelihood}} + \underbrace{\log p(\theta)}_{\text{log-prior}} \,\Big]$

Questa è la formula chiave del capitolo. La log-posterior da massimizzare è la somma di due termini: la log-likelihood, che è esattamente l’oggetto che la massima verosimiglianza massimizzava da sola, più la log-prior, un termine nuovo che dipende solo dal parametro e non dai dati.

Cambiando segno — perché gli ottimizzatori minimizzano — la stessa cosa diventa una minimizzazione:

$\theta_{\text{MAP}} = \arg\min_{\theta}\; \Big[\, \underbrace{-\log p(D \mid \theta)}_{\text{loss della MLE}} + \underbrace{\big(-\log p(\theta)\big)}_{\text{penalità}} \,\Big]$

Il primo termine è la negative log-likelihood, la loss che la massima verosimiglianza già minimizzava. Il secondo, $-\log p(\theta)$ , è un termine aggiuntivo che dipende solo dal parametro: è una penalità. La MAP è la massima verosimiglianza con una penalità incollata sopra, e quella penalità è la regolarizzazione.

MAP = MLE + prior, e MLE come caso limite

La relazione esatta tra i due metodi si legge ora direttamente dalla formula. La massima verosimiglianza massimizza $\log p(D \mid \theta)$ ; la MAP massimizza $\log p(D \mid \theta) + \log p(\theta)$ . La differenza è il solo termine $\log p(\theta)$ .

Se il prior è uniforme — costante su tutto lo spazio dei parametri — allora $\log p(\theta)$ è una costante. Una costante additiva non sposta il massimo di una funzione. In quel caso $\theta_{\text{MAP}} = \theta_{\text{MLE}}$ , esattamente. La massima verosimiglianza è la MAP con un prior piatto: il caso del testimone che non porta alcun pregiudizio all’interrogatorio.

Questo capovolge un’idea diffusa. La massima verosimiglianza non è “stima senza prior”, è “stima con prior uniforme”. E un prior uniforme non è neutro come sembra. Su un parametro illimitato non è nemmeno una distribuzione di probabilità valida — non integra a 1, si dice un prior improprio — e non è invariante per riparametrizzazione: uniforme su una deviazione standard $\sigma$ non è uniforme su una varianza $\sigma^2$ . La massima verosimiglianza un prior lo ha scelto; semplicemente non lo dichiara.

C’è un secondo limite in cui la MAP converge alla massima verosimiglianza: quando i dati crescono. La log-likelihood è una somma di $n$ termini, uno per dato, e cresce con $n$ . La log-prior è un termine solo e resta fissa. Per $n$ grande la log-likelihood domina la somma e il contributo del prior diventa trascurabile. È la versione formale del “più dati arrivano, meno conta il pregiudizio”: il prior è una correzione per il regime di pochi dati, e si dissolve quando i dati abbondano.

Il prior gaussiano: ridge, L2, weight decay

Ora la corrispondenza prior-penalità diventa una formula. Si consideri un modello con pesi $\theta_1, \dots, \theta_d$ — i coefficienti di una regressione, o i pesi di una rete. Si scelga, su ciascun peso, un prior gaussiano a media zero: $\theta_j \sim \text{Normale}(0, \tau^2)$ . Il prior dichiara una credenza: “mi aspetto pesi piccoli, vicini a zero”.

La densità di una gaussiana a media zero è proporzionale a $\exp\!\big(-\theta_j^2 / (2\tau^2)\big)$ . Prendendone il logaritmo negativo, e sommando su tutti i pesi indipendenti:

$-\log p(\theta) = \text{costante} + \frac{1}{2\tau^2} \sum_{j=1}^{d} \theta_j^2$

A meno di costanti, la penalità $-\log p(\theta)$ è proporzionale alla somma dei quadrati dei pesi, cioè alla norma L2 al quadrato $\lVert\theta\rVert^2$ . La penalità MAP con prior gaussiano è $\lambda \lVert\theta\rVert^2$ , con $\lambda = 1/(2\tau^2)$ .

Questa è, parola per parola, la ridge regression (introdotta in statistica da Arthur Hoerl e Robert Kennard nel 1970, originariamente come rimedio numerico alla multicollinearità) e il weight decay del deep learning. Il risultato più utile da portare via: il coefficiente di regolarizzazione $\lambda$ non è un numero arbitrario, è l’inverso della varianza del prior. Prior stretto, $\tau$ piccolo, $\lambda$ grande, regolarizzazione forte. Prior largo, $\tau$ grande, $\lambda$ piccolo, regolarizzazione debole. Prior infinitamente largo, $\lambda = 0$ : si torna alla massima verosimiglianza. Tunare $\lambda$ è tunare quanto si crede, a priori, che i pesi siano piccoli.

Il prior di Laplace: lasso, L1

Si sostituisca il prior gaussiano con un prior di Laplace (la distribuzione a doppio esponenziale, una curva con una punta acuta nel suo centro), sempre a media zero. La sua densità è proporzionale a $\exp\!\big(-\lvert\theta_j\rvert / b\big)$ . Il logaritmo negativo, sommato sui pesi:

$-\log p(\theta) = \text{costante} + \frac{1}{b} \sum_{j=1}^{d} \lvert\theta_j\rvert$

La penalità è proporzionale alla somma dei valori assoluti dei pesi, la norma L1. Questa è la lasso regression (proposta da Robert Tibshirani nel 1996, nel paper “Regression Shrinkage and Selection via the Lasso”).

La differenza di comportamento tra i due — entrambi spingono i pesi verso zero — discende direttamente dalla forma dei due prior. La gaussiana è liscia e arrotondata nel suo centro; la Laplace ha una punta. Quella punta, matematicamente non differenziabile in zero, fa sì che per la lasso convenga spingere molti pesi a esattamente zero, producendo un modello sparso (una selezione automatica delle variabili). La ridge invece rimpicciolisce tutti i pesi ma non ne azzera nessuno. Sparsità contro shrinkage: due comportamenti diversi, due prior diversi.

La lezione generale è netta. Scegliere una penalità di regolarizzazione è scegliere un prior. Non esistono penalità neutre. Ogni volta che a una loss si aggiunge un termine + lambda * qualcosa, si sta dichiarando una credenza a priori sui parametri — che lo si sappia o no.

La ricetta in pseudocodice

Messa in procedura, la stima MAP per un modello generico è la ricetta della massima verosimiglianza con una sola riga in più:

funzione map(dati, modello, prior):
    funzione neg_log_posterior(theta):
        # primo termine: la loss della massima verosimiglianza
        totale = 0
        per ogni x in dati:
            totale = totale - log(modello.densita(x, theta))
        # secondo termine: la penalità, ovvero la log-prior negativa
        totale = totale - log(prior.densita(theta))
        ritorna totale

    # si cerca il theta che minimizza, con derivata o gradient descent
    ritorna minimizza(neg_log_posterior)

L’unica differenza rispetto alla massima verosimiglianza è la riga totale = totale - log(prior.densita(theta)). Tutto il resto del macchinario — l’ottimizzazione, il gradient descent per modelli complessi, visto in Discesa del gradiente — è identico.

Questa minima differenza di codice spiega un fatto pratico: nelle librerie, MAP e massima verosimiglianza non sono due funzioni separate. Sono la stessa funzione di training, con un parametro in più. Attivare la regolarizzazione non cambia l’algoritmo di ottimizzazione, cambia solo la funzione che ottimizza, aggiungendole un addendo. È il motivo per cui passare dalla massima verosimiglianza alla MAP, nel lavoro quotidiano, costa una riga di configurazione e non una riscrittura — e anche il motivo per cui è così facile farlo senza accorgersi di star cambiando il fondamento statistico di ciò che si sta calcolando.

Il caso multidimensionale e il legame con il gradiente

Negli esempi della moneta il parametro è un solo numero, e il massimo della log-posterior si trova con una derivata posta a zero. Ma il caso che conta nella pratica del machine learning è quello in cui $\theta$ è un vettore di milioni di componenti — i pesi di una rete. Lì non c’è una formula chiusa per il massimo, e la stima MAP si trova esattamente come la massima verosimiglianza: con la discesa del gradiente, partendo da pesi casuali e aggiornandoli nella direzione che fa scendere la log-posterior negativa.

Il punto da notare è quanto poco cambia rispetto alla massima verosimiglianza. La log-posterior negativa è la somma di due termini, e il gradiente di una somma è la somma dei gradienti. Quindi il gradiente che guida l’ottimizzazione è il gradiente della loss usuale più il gradiente della penalità. Per un prior gaussiano, il gradiente della penalità $\lambda \lVert\theta\rVert^2$ rispetto a $\theta$ è semplicemente $2\lambda\theta$ : a ogni passo, oltre allo spostamento dettato dai dati, ogni peso viene tirato un po’ verso zero, di una quantità proporzionale al peso stesso. Da qui il nome “weight decay”, decadimento dei pesi: a ogni step i pesi decadono verso lo zero, e solo i dati possono tenerli lontani. La penalità non è un termine astratto: è una forza concreta che agisce a ogni iterazione del training.

Una derivazione completa: la MAP della moneta

Vale la pena svolgere fino in fondo, una volta, il conto di una stima MAP, perché mostra la formula chiave all’opera. Si stima $p$ , la probabilità di testa di una moneta, con $h$ teste e $t$ croci osservate.

La log-likelihood del modello Bernoulliano è $\log p(D \mid p) = h \log p + t \log(1-p)$ — la somma, su ogni lancio, del logaritmo della probabilità che il modello gli assegna. Si sceglie un prior $\text{Beta}(\alpha, \beta)$ , la cui densità è proporzionale a $p^{\alpha-1}(1-p)^{\beta-1}$ , quindi la log-prior è $\log p(p) = (\alpha-1)\log p + (\beta-1)\log(1-p) + \text{costante}$ . La log-posterior da massimizzare è la somma dei due:

$\ell(p) = (h + \alpha - 1)\log p + (t + \beta - 1)\log(1-p) + \text{costante}$

Per trovare il massimo si calcola la derivata rispetto a $p$ e la si pone a zero. La derivata di $\log p$ è $1/p$ , quella di $\log(1-p)$ è $-1/(1-p)$ :

$\frac{d\ell}{dp} = \frac{h + \alpha - 1}{p} - \frac{t + \beta - 1}{1-p} = 0$

Risolvendo per $p$ — si moltiplica in croce e si isola — si ottiene $p\,(t + \beta - 1) = (1-p)(h + \alpha - 1)$ , da cui:

$p_{\text{MAP}} = \frac{h + \alpha - 1}{h + t + \alpha + \beta - 2}$

È esattamente la moda della $\text{Beta}(\alpha+h, \beta+t)$ annunciata prima, ma ora ottenuta dal basso, dalla formula log-likelihood + log-prior. Si vede in trasparenza il meccanismo: i pseudo-conteggi $\alpha-1$ e $\beta-1$ del prior si sommano ai conteggi reali $h$ e $t$ dei dati, dentro la stessa formula della frequenza. Il prior, qui, è letteralmente aritmetica aggiunta ai dati.

Lo stesso conto svolto con un prior gaussiano al posto della Beta darebbe, al posto dei pseudo-conteggi, un termine quadratico — la penalità L2. Cambia la forma della funzione, non la struttura del procedimento: si scrive la log-likelihood, le si somma la log-prior, si annulla la derivata. Una volta vista questa derivazione su un caso, le altre sono varianti dello stesso gesto, e la formula log-likelihood + log-prior smette di essere un’astrazione e diventa una ricetta che si sa eseguire.

Prior coniugati: quando la posterior è in forma chiusa

Per certe coppie prior-likelihood succede una cosa comoda: la posterior appartiene alla stessa famiglia di distribuzioni del prior. In quel caso il prior si dice coniugato alla likelihood, e la posterior si scrive in forma chiusa, senza bisogno di ottimizzazione numerica. È una comodità algebrica, non un fatto profondo, ma rende gli esempi calcolabili a mano e regala un’intuizione forte.

La coniugazione non è un caso fortunato isolato: esiste una coppia coniugata per ognuna delle distribuzioni più comuni. La Beta è coniugata alla Bernoulli e alla binomiale; la sua generalizzazione multidimensionale, la Dirichlet, è coniugata alla categorica e alla multinomiale; la gaussiana è coniugata a sé stessa per la stima della media; la Gamma è coniugata alla Poisson. Quando si lavora dentro una di queste coppie, aggiornare la credenza alla luce dei dati si riduce a sommare qualche conteggio ai parametri del prior — niente integrali, niente ottimizzazione. Quando invece prior e likelihood non sono coniugati, la posterior in genere non ha forma chiusa, e per l’inferenza completa servono i metodi numerici (MCMC, variational inference). La MAP, però, resta calcolabile per ottimizzazione anche fuori dai casi coniugati: è un altro motivo della sua popolarità.

Il caso paradigmatico è la coppia Beta-Bernoulli, ed è il primo esempio della prossima sezione.

Esempi

Quattro esempi eterogenei: uno completamente numerico con il caso Beta-Bernoulli, uno con la media di una gaussiana, uno in codice che mostra il weight decay come stima MAP, e uno scenario reale con lo smoothing dei conteggi.

Esempio 1: la moneta, in numeri (Beta-Bernoulli)

Torniamo alla moneta. Si vuole stimare $p$ , la probabilità di testa.

La likelihood è Bernoulliana: con $h$ teste e $t$ croci su $n = h + t$ lanci, $p(D \mid p)$ è proporzionale a $p^h (1-p)^t$ . La massima verosimiglianza massimizza questa quantità e dà la frequenza osservata, $p_{\text{MLE}} = h/(h+t)$ .

Il prior coniugato della Bernoulli è la distribuzione Beta, indicizzata da due parametri $\alpha$ e $\beta$ , con densità proporzionale a $p^{\alpha-1}(1-p)^{\beta-1}$ . I due parametri si interpretano come pseudo-conteggi: scegliere un prior $\text{Beta}(\alpha, \beta)$ è come dichiarare di aver già “visto”, prima dell’esperimento, $\alpha-1$ teste e $\beta-1$ croci immaginarie.

La posterior è il prodotto di prior e likelihood:

$p(p \mid D) \;\propto\; \underbrace{p^{\alpha-1}(1-p)^{\beta-1}}_{\text{prior}} \cdot \underbrace{p^h (1-p)^t}_{\text{likelihood}} \;=\; p^{\alpha+h-1}(1-p)^{\beta+t-1}$

Questa è di nuovo una distribuzione Beta: $\text{Beta}(\alpha + h, \beta + t)$ . Ecco la coniugazione — Beta entra, Beta esce. E la regola di aggiornamento è limpida: si sommano i conteggi osservati ai pseudo-conteggi del prior.

La stima MAP è la moda di questa Beta posterior. La moda di $\text{Beta}(a, b)$ , per $a, b > 1$ , è $(a-1)/(a+b-2)$ . Quindi:

$p_{\text{MAP}} = \frac{\alpha + h - 1}{\alpha + \beta + h + t - 2}$

Mettiamo dei numeri. Tre teste su tre lanci: $h = 3$ , $t = 0$ .

MLE: $3/3 = 1{,}0$ . La moneta non darebbe mai croce. Implausibile.
MAP con prior $\text{Beta}(2,2)$ — un prior debole centrato su $0{,}5$ , due pseudo-teste e due pseudo-croci: $p_{\text{MAP}} = (3+1)/(3+0+2) = 4/5 = 0{,}8$ . Spostata verso i dati, trattenuta dal prior.
MAP con prior più forte $\text{Beta}(10,10)$ : $p_{\text{MAP}} = (3+9)/(3+0+18) = 12/21 \approx 0{,}571$ . Il prior forte tira ancora di più verso $0{,}5$ .

Si vede in numeri la regola del tiro alla fune: più il prior è concentrato, più la stima resiste ai dati. E con tanti dati il prior svanisce: trecento teste su trecento, con lo stesso prior forte $\text{Beta}(10,10)$ , danno $(300+9)/(300+18) \approx 0{,}97$ . Il pregiudizio è stato sommerso dall’evidenza.

Un dettaglio che anticipa la sezione sui limiti. Se si sceglie il prior uniforme $\text{Beta}(1,1)$ — $\alpha = \beta = 1$ , “non ho idea” — la formula MAP diventa $(h)/(h+t)$ : di nuovo $p_{\text{MAP}} = p_{\text{MLE}}$ , ora visibile in una formula concreta. Ma la media della stessa posterior $\text{Beta}(1+h, 1+t)$ non è $h/(h+t)$ : è $(h+1)/(h+t+2)$ — esattamente la regola di successione di Laplace. Moda e media della stessa posterior danno due numeri diversi. La MAP sceglie la moda; il fatto che la media dica altro è una prima crepa nell’idea che la MAP “riassuma” la posterior.

Vale la pena guardare anche il caso opposto, quello in cui MAP e massima verosimiglianza vanno d’accordo, perché chiarisce quando il prior conta davvero. Si lanci la moneta mille volte e si ottengano $h = 530$ teste, $t = 470$ croci. La massima verosimiglianza dà $530/1000 = 0{,}530$ . La MAP con un prior $\text{Beta}(2,2)$ dà $(530+1)/(1000+2) \approx 0{,}530$ — la differenza è alla terza cifra decimale. Anche un prior più deciso come $\text{Beta}(10,10)$ darebbe $(530+9)/(1000+18) \approx 0{,}530$ . Con mille dati reali, i due o i diciotto pseudo-conteggi del prior sono rumore di fondo. È la conferma numerica del principio: il prior è una correzione che agisce con pochi dati e svanisce con molti. Chi ha un milione di esempi può ignorare la differenza tra MAP e massima verosimiglianza; chi ne ha quaranta no.

Esempio 2: la media di una gaussiana

Si vuole stimare la media $\mu$ di dati gaussiani con varianza nota $\sigma^2$ . Si osservano $n$ valori con media campionaria $\bar{x}$ . Si sceglie un prior gaussiano su $\mu$ : $\text{Normale}(\mu_0, \tau^2)$ , centrato sul valore $\mu_0$ che si ritiene plausibile a priori.

La gaussiana è coniugata a sé stessa: la posterior è di nuovo gaussiana, e la stima MAP — che per una distribuzione simmetrica come la gaussiana coincide con la media della posterior — è:

$\mu_{\text{MAP}} = \frac{\dfrac{n}{\sigma^2}\,\bar{x} \;+\; \dfrac{1}{\tau^2}\,\mu_0}{\dfrac{n}{\sigma^2} \;+\; \dfrac{1}{\tau^2}}$

La formula sembra ostica ma dice una cosa semplicissima: $\mu_{\text{MAP}}$ è una media pesata tra la media dei dati $\bar{x}$ e la media del prior $\mu_0$ . I pesi sono le rispettive precisioni — la precisione è l’inverso della varianza, una misura di quanto un’informazione è affilata. La precisione dei dati è $n/\sigma^2$ : cresce con il numero di osservazioni e cala col rumore. La precisione del prior è $1/\tau^2$ .

Si rilegga il tiro alla fune in questa formula. Tanti dati, o dati poco rumorosi: $n/\sigma^2$ grande, domina $\bar{x}$ , la MAP si appoggia ai dati. Prior stretto: $1/\tau^2$ grande, domina $\mu_0$ , la MAP si appoggia alla convinzione iniziale. Prior infinitamente largo, $\tau \to \infty$ : la sua precisione va a zero, $\mu_{\text{MAP}} \to \bar{x}$ , e $\bar{x}$ è proprio la stima di massima verosimiglianza della media. Di nuovo, MLE come caso limite della MAP.

Un set di numeri rende la cosa tangibile. Si misura il tempo di risposta di un servizio: il prior, da esperienza passata, dice $\mu_0 = 100$ millisecondi con $\tau^2 = 100$ (deviazione standard del prior 10 ms). Si raccolgono $n = 4$ misure con media campionaria $\bar{x} = 130$ ms, e si sa che le misure hanno rumore $\sigma^2 = 400$ . La precisione dei dati è $n/\sigma^2 = 4/400 = 0{,}01$ ; la precisione del prior è $1/\tau^2 = 1/100 = 0{,}01$ . Le due precisioni sono uguali, quindi la MAP è esattamente a metà: $\mu_{\text{MAP}} = (0{,}01 \cdot 130 + 0{,}01 \cdot 100)/(0{,}01 + 0{,}01) = 115$ ms. Con poche misure, la stima non crede del tutto né al prior né ai dati. Ora si raccolgano $n = 100$ misure con la stessa media $\bar{x} = 130$ : la precisione dei dati sale a $100/400 = 0{,}25$ , venticinque volte quella del prior, e $\mu_{\text{MAP}} = (0{,}25 \cdot 130 + 0{,}01 \cdot 100)/(0{,}26) \approx 128{,}8$ ms. Il prior è quasi svanito, la stima è quasi $\bar{x}$ . Gli stessi dati, lo stesso prior: a cambiare la risposta è solo la quantità di evidenza.

Esempio 3: weight decay è stima MAP (in codice)

L’esempio più rilevante per chi costruisce sistemi. Si addestra un modello — una regressione lineare, o una rete — minimizzando una loss. Senza regolarizzazione, in pseudocodice:

# Massima verosimiglianza: solo il fit ai dati.
def loss_mle(pesi, dati):
    return negative_log_likelihood(pesi, dati)

pesi = minimizza(loss_mle)   # questa è massima verosimiglianza (MLE)

Ora si attiva il weight decay. Ogni framework lo offre come opzione dell’optimizer (weight_decay in PyTorch, kernel_regularizer in Keras). Concretamente, aggiunge alla loss un termine proporzionale alla somma dei quadrati dei pesi:

# Stima MAP: fit ai dati + penalita sui pesi grandi.
def loss_map(pesi, dati, lam):
    fit  = negative_log_likelihood(pesi, dati)   # log-likelihood negativa
    pen  = lam * somma(pesi**2)                  # log-prior gaussiana negativa
    return fit + pen

pesi = minimizza(loss_map)   # questa è stima MAP con prior gaussiano

Le due funzioni differiscono per la sola riga pen. E quella riga, come la meccanica ha mostrato, è $-\log p(\theta)$ per un prior gaussiano a media zero. La conclusione è esatta, non analogica: addestrare una rete con weight_decay attivo è fare stima MAP con un prior gaussiano sui pesi; addestrarla senza è fare massima verosimiglianza. Il valore di lam che si passa all’optimizer è $1/(2\tau^2)$ : dichiara, in un solo numero, quanto stretto è il prior gaussiano sui pesi. Chi tuna weight_decay su una griglia di valori sta cercando, alla cieca, la varianza giusta per una credenza a priori che non ha mai scritto esplicitamente.

Cambiare una sola riga cambia il prior, e quindi il comportamento. Se al posto di lam * somma(pesi**2) si scrive lam * somma(abs(pesi)), la penalità diventa la norma L1: il prior non è più gaussiano ma di Laplace, e il modello che ne esce sarà sparso, con molti pesi esattamente a zero. Se si toglie del tutto la riga pen, il prior torna uniforme e si è di nuovo nella massima verosimiglianza. Tre righe di codice quasi identiche corrispondono a tre assunzioni a priori diverse sui pesi del modello — ed è la forma della riga, non un’opzione nascosta del framework, a deciderle. Vedere questa corrispondenza significa smettere di scegliere la regolarizzazione per abitudine e iniziare a sceglierla per la credenza che si vuole codificare: shrinkage dolce di tutti i pesi (gaussiano, L2) o selezione netta di pochi (Laplace, L1).

Esempio 4: lo smoothing dei conteggi, uno scenario reale

Un caso che capita di continuo. Si misura il tasso di click su una nuova variante di una pagina: in un’ora, 40 visite e 0 click. Qual è il tasso di click stimato? La massima verosimiglianza risponde $0/40 = 0$ , “questa variante non riceve mai click”. È la stessa degenerazione della moneta a tre teste, e per la stessa ragione: 40 osservazioni sono poche, e nessuno crede davvero che il tasso vero sia zero esatto.

La correzione MAP, qui, è quella che gli ingegneri chiamano smoothing e applicano spesso senza chiamarla MAP. Si sceglie un prior Beta debole — per esempio $\text{Beta}(1,1)$ , equivalente ad aggiungere una pseudo-visita con click e una senza — e la stima diventa $(0+1)/(40+2) \approx 0{,}024$ : un tasso piccolo ma non zero, un numero su cui si può ragionare. Lo stesso meccanismo, scalato, è ovunque: lo smoothing add-one di Laplace nei modelli di linguaggio n-gram impedisce che una sequenza di parole mai vista nel corpus riceva probabilità zero (e quindi log-probabilità meno infinito); lo smoothing dei conteggi in un classificatore Naive Bayes evita che una singola parola assente dal training mandi a zero l’intera predizione. In tutti questi casi la “costante magica” che si somma ai conteggi non è un trucco numerico per evitare la divisione per zero: è il pseudo-conteggio di un prior, e sceglierla è fare stima MAP.

Applicazioni pratiche

Weight decay nel training di reti neurali. L’uso più diffuso della stima MAP, anche se quasi nessuno la chiama così. Il coefficiente weight_decay degli optimizer SGD e Adam è l’inverso della varianza di un prior gaussiano a media zero sui pesi. Capirlo cambia il modo di tunarlo: non è un iperparametro opaco, è una dichiarazione di quanto si crede che i pesi debbano restare piccoli, e ha senso sceglierlo in relazione alla scala dei pesi e alla quantità di dati.

Regressione regolarizzata in produzione. Ridge, lasso ed elastic net — le tre regressioni regolarizzate standard di ogni libreria di statistica — sono stima MAP con prior, rispettivamente, gaussiano, di Laplace, e una miscela dei due. La lasso in particolare viene scelta quando serve un modello sparso, che usi automaticamente solo un sottoinsieme delle feature: la sparsità non è un effetto collaterale, è la conseguenza geometrica della punta del prior di Laplace.

Stime robuste con pochi dati. Tassi di conversione, A/B test con pochi campioni, click-through rate, tassi di difettosità. In tutti questi casi i conteggi sono spesso piccoli e la stima di massima verosimiglianza degenera — produce uno 0% o un 100% in cui nessuno crede. Un prior Beta debole sposta la stima lontano dagli estremi e la rende usabile. Lo “smoothing add-one” dei modelli di linguaggio n-gram, e più in generale lo smoothing dei conteggi in Naive Bayes, sono esattamente questo: stima MAP con un prior Beta o Dirichlet che evita le probabilità zero per eventi mai osservati.

Punto di partenza per l’inferenza bayesiana approssimata. Diversi metodi di Bayesian deep learning — in particolare la Laplace approximation — non scartano la MAP, la usano come fondamenta: costruiscono un’approssimazione gaussiana della posterior centrata proprio sulla stima MAP. La MAP diventa il primo passo, economico, verso una stima dell’incertezza.

Tuning di iperparametri come scelta del prior. Quando si imposta una pipeline di machine learning, la ricerca su griglia del coefficiente di regolarizzazione è un’attività di routine, di solito vista come ottimizzazione cieca. La lettura MAP la riformula: cercare il weight_decay migliore è cercare la varianza del prior che meglio descrive i pesi del problema. Questo suggerisce strategie più mirate della griglia alla cieca — per esempio scalare il prior in base al numero di dati, dato che si è visto che con tanti dati il prior conta poco — e collega il tuning a una grandezza interpretabile invece che a un numero magico. È anche il punto in cui l’empirical Bayes diventa concreto: invece di provare valori a mano, si lascia che siano i dati a indicare la varianza del prior più plausibile.

Quando scegliere la MAP, e quando no

Messe insieme, le applicazioni e i limiti suggeriscono una regola pratica. La MAP è la scelta giusta quando servono una stima puntuale e un modo di incorporare conoscenza pregressa, ma non serve quantificare l’incertezza: addestrare una rete, fittare una regressione regolarizzata, stabilizzare una stima su pochi dati. È il compromesso che dà la maggior parte del beneficio del prior — la regolarizzazione — al costo di una semplice ottimizzazione, senza l’integrale sulla posterior.

La MAP è invece la scelta sbagliata quando la domanda riguarda quanto si è sicuri. Decidere se raccogliere altri dati, propagare l’incertezza in una catena di calcoli, segnalare a un sistema a valle che una predizione è inaffidabile, distinguere “non lo so” da “lo so e la risposta è 0,5”: tutte queste richiedono la larghezza della posterior, e la MAP l’ha buttata via. Quando la posta in gioco è l’incertezza, il punto di arrivo non è la MAP ma l’inferenza bayesiana, almeno in forma approssimata. La MAP resta comunque utile come primo passo: è il punto attorno a cui molte approssimazioni della posterior vengono costruite.

Dove si rompe

La stima MAP è uno strumento utile ma con limiti precisi, e capirli è capire perché esistono metodi più costosi.

Prima dei limiti, un fraintendimento da sgombrare, perché contamina tutti gli altri. Si sente dire che la MAP “è inferenza bayesiana”. Non lo è. La MAP usa il teorema di Bayes — costruisce una posterior — ma poi commette un gesto che un bayesiano puro non farebbe: la collassa nella sua moda e butta via il resto. Il bayesianismo non è “usare il teorema di Bayes”: è prendere sul serio l’intera distribuzione a posteriori come oggetto della conoscenza. La MAP prende il primo e rinuncia al secondo. È più onesto chiamarla per quello che è — una stima puntuale regolarizzata da un prior — che spacciarla per inferenza bayesiana completa. I limiti che seguono sono tutti conseguenze di questa rinuncia.

La MAP butta via l’incertezza

È il limite più importante e il più frainteso. La MAP usa il teorema di Bayes, costruisce la posterior — e poi ne estrae un solo numero, la moda, e getta via tutto il resto della distribuzione.

Ma la posterior contiene molto di più della sua moda. Soprattutto contiene la sua larghezza. Due posterior possono avere la stessa moda ed essere larghissime o strettissime: nel primo caso si sa pochissimo sul parametro, nel secondo lo si conosce con precisione. La MAP restituisce lo stesso numero in entrambi i casi. Non distingue “il parametro vale circa 0,7, e ne sono molto sicuro” da “il parametro vale circa 0,7, ma potrebbe stare ovunque tra 0,3 e 0,95”. Un’inferenza bayesiana completa, invece, conserva l’intera posterior e ne riporta un intervallo di credibilità (credible interval) che cattura quella larghezza — il contraltare bayesiano dell’intervallo di confidenza.

La moda può essere un punto atipico

Sembra ovvio che il valore in cui la posterior è più alta sia “il migliore”. Non lo è, e in alta dimensione è quasi sempre falso. La moda massimizza la densità di probabilità in un punto, non la massa di probabilità di una regione. In molte dimensioni la massa di una distribuzione non sta vicino alla moda: sta in un guscio sottile a una certa distanza da essa — il fenomeno noto come “typical set”. La moda è dove la densità è alta ma il volume circostante è minuscolo; un campione tipico dalla posterior non somiglia quasi mai alla moda. Per molte dimensioni, scegliere la moda significa scegliere un punto che la distribuzione, di fatto, non visita quasi mai.

Un caso concreto rende la cosa meno astratta. Si prenda una posterior gaussiana standard in $d$ dimensioni — una gaussiana sferica centrata nell’origine. La sua moda è esattamente l’origine, il punto in cui la densità è massima. Ma se si estrae un campione da quella distribuzione, la sua distanza dall’origine non è vicina a zero: è vicina a $\sqrt{d}$ . In dieci dimensioni un campione tipico dista circa $3{,}2$ dall’origine; in mille dimensioni, circa $31{,}6$ . La moda — l’origine — è un punto che la distribuzione non genera quasi mai. La densità lì è massima, ma il volume disponibile attorno a essa è così piccolo che la probabilità totale di quella regione è trascurabile. Per una rete neurale, dove $d$ è dell’ordine dei milioni, la lezione è netta: la configurazione di pesi della MAP è un punto di densità altissima e di rappresentatività bassissima. Non è “il modello medio”; è un modello estremo nel senso geometrico del termine.

La MAP non è invariante per riparametrizzazione

Questo è il difetto teorico che porta molti statistici bayesiani a considerare la MAP “non veramente bayesiana”. Si supponga di stimare un parametro $\theta$ e di ottenere una certa $\theta_{\text{MAP}}$ . Ora si riparametrizzi il problema in modo equivalente — per esempio si lavori con $\phi = \log\theta$ invece che con $\theta$ . La trasformazione è invertibile, non perde informazione: il problema è lo stesso. Ci si aspetterebbe che la stima MAP di $\phi$ sia semplicemente $\log\theta_{\text{MAP}}$ . Non lo è. Cambiare variabile in una densità introduce un fattore correttivo (lo jacobiano della trasformazione) che deforma la posterior, e la moda della posterior deformata si trova in un altro posto. La stima MAP dipende da come si è scelto di parametrizzare il problema — e la parametrizzazione è una scelta arbitraria dell’analista. La media della posterior, invece, si trasforma in modo coerente. Una stima che cambia a seconda di una convenzione notazionale è, dal punto di vista bayesiano puro, una stima difettosa.

La predizione con la sola MAP sottostima l’incertezza

La predizione bayesiana corretta non usa un solo modello: media le predizioni su tutta la posterior. Si chiama posterior predictive distribution, $p(y_{\text{nuovo}} \mid D) = \int p(y_{\text{nuovo}} \mid \theta)\, p(\theta \mid D)\, d\theta$ . La MAP la approssima con $p(y_{\text{nuovo}} \mid \theta_{\text{MAP}})$ — un singolo modello, quello del parametro più probabile. Quando la posterior è stretta l’approssimazione è buona. Quando è larga — cioè proprio quando i dati sono pochi e l’incertezza è alta — l’approssimazione è scadente, e fallisce sempre nella stessa direzione: sottostima l’incertezza predittiva. Dà previsioni più sicure di quanto i dati giustifichino.

Il meccanismo del fallimento è istruttivo. Quando si usa un solo modello, l’unica incertezza che resta nella previsione è quella del modello stesso di fronte a un nuovo dato — il rumore intrinseco. Sparisce invece la componente di incertezza che viene dal non sapere quale modello sia giusto: tutti i modelli plausibili sotto la posterior, che potrebbero dare previsioni diverse, vengono ignorati a favore di uno solo. Con la moneta: se la posterior su $p$ è larga, c’è un modello che predice il prossimo lancio quasi sempre testa e uno che lo predice quasi equo. La predizione bayesiana media questi disaccordi e produce un’incertezza onesta; la MAP sceglie un modello e ne riporta la sola incertezza interna, che è sistematicamente più piccola. È il motivo tecnico per cui i sistemi costruiti su stime puntuali tendono a essere troppo sicuri di sé proprio dove sarebbe più importante che non lo fossero.

Il prezzo nel deep learning: niente incertezza epistemica

Le ultime due crepe convergono in un punto che conta per chiunque metta una rete in produzione. La ricerca sull’incertezza nel deep learning — in particolare il lavoro di Alex Kendall e Yarin Gal, “What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?” (NeurIPS 2017) — distingue due tipi di incertezza. L’incertezza aleatoria è il rumore intrinseco dei dati: un sensore rumoroso, un’etichetta ambigua. Non si riduce raccogliendo più dati, e si modella dentro la likelihood. L’incertezza epistemica è l’incertezza sui parametri del modello, dovuta al fatto di aver visto dati insufficienti; si riduce raccogliendo più dati, e vive nella larghezza della posterior sui pesi.

La stima MAP, restituendo un solo punto, cancella l’incertezza epistemica. Dà una rete che ha un unico valore per ogni peso e quindi predice con la stessa sicurezza ovunque — anche in regioni dello spazio degli input dove non ha mai visto un solo esempio. È la radice tecnica dell’overconfidence delle reti neurali deterministiche: una rete addestrata con weight decay non sa dire “non lo so”, perché ha buttato via la distribuzione che conteneva quel “non lo so”. Catturare l’incertezza epistemica richiede di non collassare la posterior nella sua moda — di tenerla, almeno in forma approssimata. È esattamente ciò che fanno i metodi di Bayesian deep learning: la Laplace approximation, la variational inference, i deep ensembles, il Monte Carlo dropout. La MAP è il punto di partenza economico; l’incertezza epistemica è ciò che si compra pagando di più. Il legame tra questa incertezza buttata via e la cattiva calibrazione delle reti è il tema di calibrazione-statistica (in preparazione).

Conviene non confondere le due incertezze, perché solo una è quella che la MAP perde. L’incertezza aleatoria — il rumore dei dati — la MAP la può ancora rappresentare: basta che il modello la metta nella likelihood, per esempio facendo predire alla rete non solo un valore ma anche una varianza del rumore. Quella sopravvive al collasso nella moda. È l’incertezza epistemica, quella sui pesi, a sparire: vive solo nella larghezza della posterior, e la moda non ha larghezza. La conseguenza pratica è precisa: una rete MAP può dire “questo dato è intrinsecamente ambiguo” (aleatoria), ma non può dire “questo dato è lontano da tutto ciò che ho visto, non mi fiderei” (epistemica). E il secondo tipo di allarme è proprio quello che serve quando un sistema incontra un input fuori distribuzione.

Quando la posterior ha più di una collina

Tutti gli esempi di questo capitolo hanno una posterior con una sola collina, e quindi una sola moda ben definita. Non è sempre così. Per modelli più ricchi — le miscele di distribuzioni, le reti neurali — la posterior può avere molte colline separate, molte mode locali. In quel caso la domanda “qual è la moda?” perde la sua innocenza: ce ne sono parecchie, e un ottimizzatore che parte da un punto a caso trova la collina più vicina, non necessariamente la più alta. La stima MAP che si ottiene dipende allora dal punto di partenza dell’ottimizzazione, esattamente come accade per la massima verosimiglianza sulle reti. Peggio: anche trovata la collina più alta, una posterior fatta di molte colline di altezza simile non è ben riassunta da nessuna di esse. La moda globale può essere un picco solitario circondato dal vuoto, mentre la massa di probabilità è distribuita su decine di colline minori. Riportare quella moda come “la stima” nasconde una distribuzione che non ha affatto un centro unico.

Quando il prior è semplicemente sbagliato

Un ultimo limite, simmetrico al pregio. Il prior aiuta quando codifica conoscenza vera. Se invece codifica una convinzione falsa — un prior centrato sul valore sbagliato, o troppo stretto attorno a esso — la MAP eredita quell’errore e, con pochi dati, ci si appoggia con forza. Un prior sbagliato e fiducioso porta a una stima sbagliata e fiduciosa. Il prior non è una garanzia: è un’assunzione in più, e come ogni assunzione va dichiarata, giustificata, e messa in discussione.

Questo apre una domanda pratica: da dove viene il prior? Tre risposte ricorrono. La prima è la conoscenza di dominio genuina — un esperto sa che i tassi di click vivono nell’ordine dei punti percentuali, non delle decine, e lo codifica. La seconda è la scelta di un prior debole e poco impegnativo, che corregge le degenerazioni più grossolane (lo zero, il cento per cento) senza pretendere di sapere molto: è la strategia degli esempi $\text{Beta}(1,1)$ e $\text{Beta}(2,2)$ di questo capitolo. La terza, più sofisticata, è stimare gli iperparametri del prior dagli stessi dati — l’approccio noto come empirical Bayes, in cui per esempio la varianza del prior gaussiano non si fissa a mano ma si sceglie per massimizzare l’evidence. È un compromesso pragmatico, criticato da alcuni perché “usa i dati due volte”, ma molto diffuso. La massima verosimiglianza, dal canto suo, non sfugge al problema scegliendo di non scegliere: il suo prior uniforme nascosto è anch’esso un’assunzione, solo non scritta, e non è più difendibile di un prior esplicito sbagliato.

Collegamenti

Massima verosimiglianza — il prerequisito diretto. La MAP è massima verosimiglianza più la log-prior; la massima verosimiglianza è la MAP con prior uniforme. I due capitoli vanno letti in coppia.
Teorema di Bayes e ragionamento bayesiano — il teorema di Bayes nella forma per eventi. Qui lo stesso teorema si applica ai parametri: prior, likelihood, posterior, evidence.
Regressione: la retta come modello statistico — ridge e lasso sono stima MAP applicata alla regressione lineare. Questo capitolo spiega il “perché” probabilistico della loro penalità.
Stima puntuale: dare un numero al parametro ignoto — la MAP è uno stimatore puntuale e ne eredita il vocabolario: bias, varianza, consistenza.
Intervalli di confidenza: cosa dicono davvero e cosa no — l’intervallo di credibilità bayesiano cattura la larghezza della posterior, cioè proprio ciò che la MAP butta via collassando tutto nella moda.
Le distribuzioni comuni — Beta, gaussiana, Bernoulli e Laplace sono i mattoni con cui si costruiscono prior e likelihood degli esempi di questo capitolo.
Discesa del gradiente — per modelli complessi la stima MAP si trova minimizzando la log-posterior negativa con il gradient descent, esattamente come la massima verosimiglianza.
bias-varianza (in preparazione) — la regolarizzazione MAP è uno scambio: il prior introduce bias e in cambio riduce la varianza della stima.
calibrazione-statistica (in preparazione) — la MAP cancella l’incertezza epistemica, e questo si manifesta come overconfidence e cattiva calibrazione delle reti, soprattutto fuori distribuzione.
statistica-e-ml (in preparazione) — il legame tra statistica e machine learning di cui la MAP è un caso esemplare: il weight decay come stima MAP è uno dei ponti più diretti tra le due discipline.

Per andare oltre

Maximum a posteriori estimation, voce di Wikipedia. Riferimento conciso e verificabile: definizione formale, formula via Bayes, MLE come caso uniforme, e i limiti teorici (non invarianza, stima puntuale contro distribuzione).
D. J. C. MacKay, “A Practical Bayesian Framework for Backpropagation Networks” (Neural Computation, 1992). Il lavoro che collega esplicitamente weight decay e prior gaussiano sulle reti neurali; la radice storica del Bayesian deep learning.
A. Kendall, Y. Gal, “What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?” (NeurIPS 2017, arXiv:1703.04977). La distinzione tra incertezza aleatoria ed epistemica, e perché una stima puntuale come la MAP non può catturare la seconda.
R. Tibshirani, “Regression Shrinkage and Selection via the Lasso” (Journal of the Royal Statistical Society B, 1996). Il paper che introduce la lasso; la sua lettura come MAP con prior di Laplace e la sparsità che ne deriva.
C. M. Bishop, “Pattern Recognition and Machine Learning” (Springer, 2006), capitoli 1.2.5 e 3.3. Trattazione di riferimento di MAP, prior coniugati, regressione bayesiana e posterior predictive, con il filo che lega regolarizzazione e prior.