Rumore, signal-to-noise ratio, filtraggio

Ogni misura del mondo arriva sporca: sopra il segnale utile si somma una componente casuale che pone un limite di principio a quanto si può misurare e trasmettere. Quantificarlo si fa con il rapporto segnale-rumore; combatterlo si fa con filtri, medie e correlazione. E poi c’è il colpo di scena: nei diffusion model e nella SGD il rumore non è il nemico, è l’ingrediente.

Perché questo capitolo

Prendi un microfono in una stanza vuota e silenziosa, registra qualche secondo, alza il volume al massimo. Non senti il silenzio: senti un fruscio. Quel fruscio non viene dalla stanza, viene dall’elettronica stessa — gli elettroni che si agitano per il solo fatto di avere una temperatura. Non c’è modo di spegnerlo del tutto se non portando il dispositivo allo zero assoluto. È un limite fisico, non un difetto di progettazione.

Questo è il punto di partenza: nessuna misura reale è pulita. Il segnale che ti interessa — la voce, la temperatura, l’onda radio, il pixel — arriva sempre sommato a una componente indesiderata e tipicamente casuale che chiamiamo rumore. Capire il rumore vuol dire capire quanto puoi fidarti di una misura, quanto puoi spingere una trasmissione, e dove si trova il muro oltre il quale non si passa.

Per chi costruisce sistemi AI la posta in gioco è doppia, e qui sta la parte interessante. Da un lato il rumore è il nemico classico: i dataset di training sono pieni di etichette sbagliate, esempi corrotti, misure imprecise, e bisogna saperlo quantificare e contenere. Dall’altro lato — e questo sorprende sempre — il rumore è diventato uno strumento costruttivo. I diffusion model che generano immagini partono da rumore gaussiano puro e imparano a toglierlo. La discesa del gradiente stocastica generalizza meglio proprio grazie al rumore con cui stima il gradiente. Il dropout regolarizza iniettando rumore. Per usare bene questi strumenti serve aver capito prima il rumore come oggetto a sé: cos’è, di che tipi ce ne sono, come si misura.

C’è un filo che attraversa tutto il capitolo, e conviene anticiparlo: lo stesso meccanismo — sommare contributi coerenti mentre i contributi casuali si cancellano — riappare nell’averaging di ripetizioni, nel matched filter, e perfino nel modo in cui un diffusion model toglie rumore poco alla volta. Una volta che lo riconosci in un posto, lo vedi ovunque. Il rumore non è un argomento isolato: è una lente che lega elaborazione dei segnali, teoria dell’informazione e machine learning.

Contesto

Nel luglio del 1928 escono, affiancati sullo stesso volume della rivista Physical Review, due articoli che fondano lo studio quantitativo del rumore. Il primo è di John Bertrand Johnson (fisico svedese-americano ai Bell Telephone Laboratories), che misura sperimentalmente una fluttuazione casuale di tensione ai capi di qualsiasi resistore, anche senza alcun segnale applicato. Il secondo è di Harry Nyquist (ingegnere svedese-americano, sempre ai Bell Labs, lo stesso del teorema di campionamento), che ne dà la spiegazione teorica usando la termodinamica e la meccanica statistica. Da qui il nome rumore di Johnson-Nyquist, o rumore termico.

La scoperta è profonda perché dice che il rumore non è un accidente tecnologico: è una conseguenza inevitabile del fatto che la materia ha una temperatura. Gli elettroni in un conduttore si agitano per agitazione termica, e quell’agitazione produce una tensione fluttuante. Dieci anni prima, nel 1918, Walter Schottky (fisico tedesco) aveva descritto un altro rumore fondamentale, lo shot noise, dovuto alla natura discreta della carica elettrica.

Sempre nel 1928, Ralph Hartley (ricercatore americano ai Bell Labs) pubblica Transmission of Information, dove propone una prima misura quantitativa dell’informazione trasmessa in funzione del numero di simboli distinguibili. È un tassello che Shannon raccoglierà e generalizzerà: il nome “Shannon-Hartley” del teorema sulla capacità riconosce questa eredità.

Il filo si chiude vent’anni dopo. Nel 1948 Claude Shannon (matematico e ingegnere americano, padre della teoria dell’informazione) pubblica A Mathematical Theory of Communication, dove dimostra che il rumore non è solo un fastidio da ridurre: pone un tetto matematico esatto a quanta informazione può attraversare un canale. Il rumore, da problema ingegneristico, diventa una grandezza con un ruolo nel cuore della teoria.

Sul fronte applicativo, durante e dopo la Seconda guerra mondiale matura il matched filter: nel contesto del radar, dove un’eco debolissima va estratta dal rumore del ricevitore, si formalizza il filtro ottimo per cercare una forma d’onda nota immersa nel rumore (lavori di Dwight North e, in parallelo, di John Van Vleck e David Middleton, prima metà degli anni ‘40). Sono gli stessi anni in cui il rumore smette di essere solo qualcosa da subire e diventa qualcosa da combattere con strumenti matematici precisi.

Nella mappa di questa Parte, il capitolo poggia su tutto ciò che viene prima. Il modello di segnale come somma di componenti viene da Segnali continui, discreti, sistemi lineari. Il rumore di quantizzazione è una conseguenza diretta del campionamento. I filtri sono la prima arma contro il rumore. Il “colore” del rumore si legge nel dominio della frequenza, che viene da Fourier, e si vede negli spettrogrammi. E il rumore stesso, in quanto grandezza casuale che evolve nel tempo, è un processo stocastico.

A valle, invece, il capitolo apre verso due mondi. Verso la teoria dell’informazione (Parte XIII), dove il teorema di Shannon-Hartley vive per intero. E verso il machine learning, dove il rumore — da nemico — diventa ingrediente: nei diffusion model, nella regolarizzazione, nella SGD. Questa doppia direzione, dalla fisica del 1928 all’AI generativa, è ciò che rende il rumore un argomento di confine tra discipline, e per questo prezioso da padroneggiare.

L’intuizione

Conviene afferrare il rumore da due angoli distinti prima di toccare qualsiasi formula. Il primo angolo è fisico-statistico: il rumore come fluttuazione casuale che si somma al segnale. Il secondo è informazionale: il rumore come erosione della certezza, come ciò che rende ambiguo un messaggio. Tienili entrambi: il primo serve a capire da dove viene il rumore e come si modella, il secondo a capire perché pone un limite a quanto si può comunicare.

Primo angolo: il rumore come somma casuale

Immagina il segnale che ti interessa — chiamalo $s(t)$ , una grandezza che varia nel tempo e porta l’informazione che vuoi. Nel mondo reale non lo osservi mai puro. Quello che misuri è

$x(t) = s(t) + n(t)$

dove $n(t)$ è il rumore: una componente che si somma al segnale e che, a differenza di $s(t)$ , non puoi prevedere con una formula. Questo è il modello additivo del rumore, il più comune e il punto di partenza di quasi tutto.

La differenza cruciale è tra deterministico e casuale. Il segnale $s(t)$ è (spesso) deterministico: se conosci la formula, sai esattamente quanto vale a ogni istante. Il rumore $n(t)$ no. Di $n(t)$ non puoi dire quanto vale al prossimo istante; puoi solo descriverlo statisticamente — la sua media, la sua varianza, come la sua energia si distribuisce sulle frequenze, come sono distribuiti i suoi valori istantanei. È precisamente questa la distinzione tra segnale deterministico e segnale stocastico introdotta in Segnali continui, discreti, sistemi lineari: il rumore è il segnale stocastico per eccellenza, una realizzazione di un processo stocastico.

Una metafora concreta. Sei a una festa e vuoi sentire un amico (il segnale) mentre intorno cento persone chiacchierano (il rumore). Non puoi prevedere le parole degli altri, ma puoi descriverle in media: c’è un brusio di fondo con una certa intensità, un certo “colore” (più voci gravi o più acute), una certa variabilità. Se il tuo amico parla forte e gli altri sussurrano, lo senti bene. Se è il contrario, sei in difficoltà. La quantità che cattura questo “chi vince” è il rapporto segnale-rumore.

La stessa metafora — il cocktail party problem, come la chiamano gli psicologi dell’udito — mostra anche i limiti del solo SNR. Tu riesci a seguire l’amico anche quando il brusio è forte, perché sfrutti due orecchie (la direzione del suono), il movimento delle labbra, il contesto della frase. Sono tutte forme di informazione aggiuntiva che permettono di estrarre il segnale anche con un SNR sfavorevole. È la stessa ragione per cui, in elaborazione dei segnali, conoscere qualcosa in più sul segnale (la sua forma, la sua direzione, la sua statistica) permette di batterlo, il rumore, là dove il solo SNR direbbe “impossibile”.

Secondo angolo: il rumore come erosione della certezza

Cambia lente. Dimentica per un attimo il tempo e pensa all’informazione.

Vuoi mandare un messaggio a un amico premendo un interruttore: acceso = 1, spento = 0. Se il filo fosse perfetto, ogni 1 arriverebbe come 1. Ma il filo ha rumore: la tensione che arriva non è esattamente quella che hai mandato, è leggermente sporcata.

Finché il rumore è piccolo rispetto alla differenza tra “acceso” e “spento”, non è un problema: una tensione di 4.9 V la leggi comunque come “1” (vicino a 5 V) e non come “0”. Ma se il rumore cresce, a un certo punto un 1 può arrivare così sporcato da somigliare a uno 0. L’informazione si corrompe.

Da questa lente il rumore è ciò che rende ambiguo un segnale, ciò che ti impedisce di distinguere con certezza tra possibilità diverse. È questa la chiave per capire perché il rumore limita la comunicazione: più rumore c’è, meno simboli distinti riesci a far passare in modo affidabile, e quindi meno informazione per secondo. Questo angolo è quello che Shannon ha trasformato in teorema, e lo riprendiamo più avanti.

Terzo angolo: il rumore come nuvola attorno al valore vero

Un terzo modo di vederlo, geometrico, aiuta a capire averaging e diffusion model. Pensa a una singola misura non come un numero, ma come un punto: il valore vero più uno spostamento casuale. Se ripeti la misura tante volte, i punti formano una nuvola centrata sul valore vero. La larghezza della nuvola è la deviazione standard del rumore; il centro è il segnale.

Da questa immagine si leggono subito tre cose. Primo: il valore vero non è dove cade un singolo punto, ma dove sta il centro della nuvola — e mediando tanti punti ci si avvicina al centro, che è esattamente cosa fa l’averaging. Secondo: se il rumore è gaussiano, la nuvola ha la forma simmetrica della campana, la più comune perché è ciò che produce la somma di tante cause indipendenti. Terzo: aggiungere rumore a un dato significa allargare la nuvola, spingere il punto lontano dal valore vero. I diffusion model fanno proprio questo, in modo controllato e poi reversibile: allargano la nuvola fino a coprire tutto lo spazio (rumore puro), e poi imparano la strada per tornare al centro.

Questa immagine geometrica è anche il modo giusto per pensare a uno spazio ad alte dimensioni, dove un dato (un’immagine, un embedding) è un punto in uno spazio con migliaia di coordinate. Lì il rumore gaussiano è una nuvola sferica attorno al punto, e tutto il ragionamento — mediare per tornare al centro, allargare la nuvola per distruggere la struttura — vale identico. È per questo che l’intuizione costruita su un singolo numero si trasferisce senza modifiche al cuore dei modelli generativi.

La meccanica

I tipi di rumore: due assi che non vanno confusi

Il rumore si classifica lungo due assi indipendenti, e confonderli è l’errore numero uno del principiante. Il primo asse è lo spettro: come la potenza del rumore si distribuisce sulle frequenze. Il secondo è la distribuzione di ampiezza: come sono distribuiti i valori istantanei del rumore.

Sull’asse dello spettro, il caso di riferimento è il rumore bianco: la sua potenza è distribuita in modo piatto su tutte le frequenze, esattamente come la luce bianca contiene tutte le frequenze del visibile in egual misura. Da qui il nome. Il rumore bianco ideale è una finzione utile (avrebbe potenza totale infinita), ma “bianco su una banda di interesse” è un’ottima approssimazione di moltissimi rumori reali. La sua firma: campioni successivi sono scorrelati, ogni istante è indipendente dal precedente.

Quando lo spettro non è piatto, il rumore è colorato, e i nomi seguono di nuovo l’analogia con la luce.

Rosa (1/f): la potenza decresce come l’inverso della frequenza. C’è più energia nelle frequenze basse. È sorprendentemente ubiquo: il rumore di flicker nei componenti elettronici, le fluttuazioni nei battiti cardiaci, nelle piene dei fiumi, persino nella dinamica dei mercati. Ha potenza uguale per ogni ottava (ogni raddoppio di frequenza), non per ogni hertz.
Browniano o rosso (1/f^2): ancora più energia alle basse frequenze. Non è un caso che si chiami browniano: è l’integrale del rumore bianco, cioè il moto browniano, il random walk che incontri in processi stocastici.
Blu, violetto: più energia alle alte frequenze. Casi più rari, ma esistono.

Sull’asse della distribuzione di ampiezza, il caso dominante è il rumore gaussiano: i valori istantanei del rumore sono distribuiti secondo una normale (la classica campana). C’è una ragione teorica per cui questo accade così spesso: il teorema del limite centrale dice che la somma di tante piccole perturbazioni indipendenti tende a una gaussiana, qualunque sia la forma delle singole perturbazioni. E il rumore reale è quasi sempre la somma di tantissime cause microscopiche indipendenti.

Ecco perché i due assi non vanno confusi. “Bianco” parla dello spettro, “gaussiano” parla dell’ampiezza. Un rumore può essere bianco e gaussiano, ma anche bianco e non gaussiano, o gaussiano e colorato. La combinazione più studiata, l’assunzione di default in mezza ingegneria, è l’AWGN — Additive White Gaussian Noise, rumore bianco gaussiano additivo: bianco di spettro, gaussiano di ampiezza, sommato al segnale.

C’è una ragione teorica per cui il gaussiano è l’assunzione di riferimento, oltre al teorema del limite centrale: a parità di potenza, il rumore gaussiano è il peggiore possibile per la capacità di un canale. È quello che lascia passare meno informazione. Assumere rumore gaussiano è quindi anche una scelta prudente — se progetti un sistema che regge il gaussiano, reggerà rumori “più gentili” di pari potenza.

Perché il “colore” conta nella pratica? Perché determina come il rumore appare e come lo si combatte. Il rumore bianco è uniformemente fastidioso a tutte le frequenze: lo senti come un fruscio “piatto”, e un filtro passa-basso ne toglie via la parte alta. Il rumore rosa ha più energia in basso: lo senti come un brusio più “caldo”, e domina proprio nelle frequenze dove spesso vive anche il segnale utile, il che lo rende più insidioso. Il rumore browniano, ancora più sbilanciato verso il basso, produce derive lente — pensa a un sensore il cui zero scivola pian piano nel tempo. Sapere il colore del rumore che hai davanti ti dice quale arma userai: filtraggio per il bianco ad alta frequenza, calibrazione e detrend per le derive browniane.

I tipi di rumore: per origine fisica

Tre rumori fisici fondamentali ricorrono ovunque.

Il rumore termico (Johnson-Nyquist) è l’agitazione termica dei portatori di carica in un conduttore in equilibrio. La sua densità di potenza disponibile vale

$P = 4 \, k_B \, T \, R$

dove $k_B$ è la costante di Boltzmann (la costante che lega temperatura ed energia, circa $1.38 \times 10^{-23}$ joule per kelvin), $T$ è la temperatura assoluta in kelvin, e $R$ è la resistenza. In parole povere: più il conduttore è caldo e resistivo, più rumore genera. È bianco fino a frequenze altissime e gaussiano. Il punto cruciale è che è un limite fisico irriducibile: l’unico modo di ridurlo è abbassare $T$ (raffreddare), ridurre $R$ , o restringere la banda. Per questo i ricevitori in radioastronomia e i rivelatori sensibili si raffreddano con azoto o elio liquido: meno calore, meno rumore.

Lo shot noise (rumore granulare) nasce dalla discretezza della carica. La corrente non è un fluido continuo ma un flusso di elettroni discreti, e il numero di elettroni che attraversa una giunzione in un dato intervallo fluttua secondo una statistica di Poisson. La sua varianza è proporzionale alla media: più segnale c’è, più rumore assoluto c’è. È lo stesso fenomeno della grana fotografica a poca luce — pochi fotoni, fluttuazioni relative grandi. Una conseguenza controintuitiva: poiché la varianza cresce come la media e la deviazione standard come la radice della media, l’SNR migliora all’aumentare del segnale (va come la radice del numero medio di fotoni). Per questo una foto ben esposta è meno granulosa di una scattata al buio: più luce significa più rumore assoluto ma SNR più alto.

Il rumore di quantizzazione è l’errore che introduci quando converti un valore continuo in uno discreto a un numero finito di bit, cioè quando campioni e digitalizzi un segnale (vedi Campionamento, aliasing, teorema di Nyquist). Approssimare un valore reale con uno tra $2^b$ livelli disponibili introduce un errore fino a metà passo di quantizzazione, e questo errore si modella bene come rumore additivo uniforme. C’è una regola di pollice memorabile: ogni bit in più aggiunge circa 6 dB di rapporto segnale-rumore (per la precisione, per una sinusoide a fondo scala, $\text{SNR}_{dB} \approx 6.02 \, b + 1.76$ ). Tieni a mente questa regola: torna identica quando si quantizzano i pesi di una rete neurale.

La logica del “6 dB per bit” si capisce in una riga: ogni bit in più dimezza il passo di quantizzazione, quindi dimezza l’errore in ampiezza, e dimezzare l’ampiezza sono +6 dB di SNR (perché $20 \log_{10} 2 \approx 6$ ). Per questo l’audio a 16 bit (~96 dB di gamma dinamica teorica) suona pulito mentre l’audio a 8 bit (~48 dB) ha un fruscio percepibile: 8 bit in meno sono circa 48 dB di SNR in meno. Lo stesso conto, applicato ai pesi di una rete, dice quanto rumore aggiungi passando da 8 a 4 bit.

Il rapporto segnale-rumore (SNR)

Quanto vince il segnale sul rumore? La misura è il rapporto segnale-rumore, SNR: il rapporto tra la potenza del segnale e la potenza del rumore.

$\text{SNR} = \frac{P_{\text{segnale}}}{P_{\text{rumore}}}$

È un numero puro, adimensionale. Quando lavori con ampiezze invece che con potenze, ricorda che la potenza va come il quadrato dell’ampiezza, quindi $\text{SNR} = (A_{\text{segnale}} / A_{\text{rumore}})^2$ .

Una sottigliezza che conviene fissare: “potenza del segnale” e “potenza del rumore” sono in realtà valori medi. Il segnale e il rumore variano nel tempo; la potenza è la media del loro quadrato. Per il rumore a media nulla — il caso usuale — la potenza coincide con la varianza, cioè con il quadrato della deviazione standard. Questo è il ponte che permette di calcolare un SNR a partire dalla statistica del rumore, senza dover separare fisicamente segnale e disturbo.

I valori di SNR spaziano su molti ordini di grandezza, perciò si usa quasi sempre la scala in decibel (dB), che è logaritmica:

$\text{SNR}_{dB} = 10 \log_{10}\!\left(\frac{P_{\text{segnale}}}{P_{\text{rumore}}}\right) = 20 \log_{10}\!\left(\frac{A_{\text{segnale}}}{A_{\text{rumore}}}\right)$

Il decibel è un decimo di “bel”, l’unità logaritmica che prende nome da Alexander Graham Bell (inventore scozzese-americano del telefono). Il fattore 10 nella prima forma diventa 20 nella seconda perché il logaritmo del quadrato è due volte il logaritmo. Qualche lettura rapida da tenere a mente: 0 dB significa segnale e rumore alla pari; 10 dB significa segnale dieci volte più potente; 20 dB significa cento volte; 3 dB è circa un raddoppio di potenza; 6 dB un raddoppio di ampiezza. Un SNR negativo in dB significa che il rumore è più forte del segnale — il che, contro l’intuito, non vuol dire che il segnale sia irrecuperabile.

Vale la pena fissare la corrispondenza tra SNR lineare e SNR in dB, perché si confonde di continuo:

SNR lineare (potenza)	SNR in dB	Interpretazione
1	0 dB	segnale e rumore alla pari
2	~3 dB	segnale doppio in potenza
10	10 dB	segnale 10x in potenza
100	20 dB	segnale 100x
1000	30 dB	segnale 1000x (audio “pulito”)
0.1	-10 dB	rumore 10x il segnale

La regola pratica per convertire a mente: ogni fattore 10 in potenza sono 10 dB, ogni fattore 2 sono circa 3 dB. Così 4000 (= $10^3 \times 4 = 10^3 \times 2^2$ ) sono circa $30 + 3 + 3 = 36$ dB, senza calcolatrice.

Shannon-Hartley: il rumore mette un tetto all’informazione

Ed eccoci al colpo di teoria. Il secondo angolo dell’intuizione diceva che il rumore erode la certezza e quindi limita quanta informazione passa. Shannon lo ha trasformato in un teorema esatto. Il teorema di Shannon-Hartley afferma che la capacità massima di un canale a banda limitata disturbato da rumore gaussiano additivo è

$C = B \, \log_2(1 + \text{SNR})$

dove $C$ è la capacità in bit al secondo (la massima velocità di trasmissione senza errori), $B$ è la banda del canale in hertz, e SNR è il rapporto segnale-rumore. Attenzione a una trappola che fa cadere tutti: qui SNR è lineare, non in dB. Non infilare mai i decibel in questa formula.

In parole povere: la capacità cresce linearmente con la banda ma solo logaritmicamente con l’SNR. Raddoppiare la banda raddoppia la capacità. Raddoppiare la capacità aumentando solo l’SNR richiede invece guadagni enormi, perché il logaritmo cresce piano. È la ragione fisica per cui, per andare più veloci, conviene di solito allargare la banda (più canali Wi-Fi, fibra ottica) piuttosto che spingere la potenza.

Questa formula è una legge dimostrata (classe: teorema), e lega un concetto fisico — il rumore — a un limite informazionale. La sua trattazione completa, con la dimostrazione e il legame con il noisy-channel coding theorem, vive nei capitoli di teoria dell’informazione: informazione-shannon e canali-rumore-capacita (entrambi in preparazione). Qui ci basta l’enunciato e l’intuizione.

C’è un dettaglio storico che vale la pena cogliere. Prima di Shannon, l’intuizione comune era che per trasmettere senza errori in presenza di rumore bisognasse rallentare quasi a zero — più si voleva sicurezza, più lenti si doveva andare. Shannon dimostrò il contrario: esiste una velocità positiva ben precisa, la capacità $C$ , sotto la quale si può trasmettere con probabilità di errore arbitrariamente piccola, usando codici abbastanza intelligenti. Sopra $C$ , nessun codice salva dall’errore. Il rumore non impone di rallentare a zero: impone un tetto netto, e fin sotto quel tetto la trasmissione affidabile è possibile. È un risultato che ha fondato tutta l’ingegneria delle telecomunicazioni moderne.

Stimare il rumore in pratica

Per calcolare un SNR serve stimare la potenza del rumore, e nel mondo reale non hai il rumore separato dal segnale: hai solo $x = s + n$ . Tre strategie ricorrenti. La prima: misurare in assenza di segnale — registri il “silenzio” (microfono in stanza vuota, ricevitore senza trasmissione) e quello che leggi è solo rumore, di cui calcoli la varianza. La seconda: sfruttare zone del segnale dove sai che dovrebbe essere costante o nullo (un tratto di pausa nel parlato, il bordo nero di un’immagine), e misurare lì la fluttuazione residua. La terza: se il rumore è ad alta frequenza e il segnale a bassa, isolare la banda alta con un filtro e misurare la potenza che resta. Nessuna è esatta, ma tutte danno una stima utile dell’ordine di grandezza, che è ciò che serve per decidere se vale la pena fare averaging, filtrare, o cambiare sensore.

Combattere il rumore

Quattro armi classiche, dalla più semplice alla più sofisticata.

Filtraggio

Se segnale e rumore vivono in bande di frequenza diverse, un filtro le separa. Vuoi un segnale lento (a bassa frequenza) e il rumore è ad alta frequenza? Un filtro passa-basso taglia l’alto e lascia passare il segnale. Il rumore ad alta frequenza si riduce, il segnale resta.

Il limite è netto e va detto subito: dove gli spettri di segnale e rumore si sovrappongono, il filtro non fa miracoli. Tagliando quella banda toglie rumore ma toglie anche segnale. Il filtro non crea informazione, ridistribuisce un compromesso. Funziona benissimo quando segnale e rumore stanno in zone di frequenza distinte, male quando si mischiano.

C’è una versione raffinata di questa idea, il filtro di Wiener (da Norbert Wiener, matematico americano, anni ‘40), che invece di tagliare nettamente una banda attenua ogni frequenza in proporzione a quanto, lì, domina il segnale rispetto al rumore. Dove il segnale è forte e il rumore debole, lascia passare quasi tutto; dove è il rumore a dominare, attenua molto. È il filtro lineare ottimo quando conosci gli spettri di segnale e rumore, e incarna in modo pulito il principio del capitolo: la decisione su quanto fidarsi di ogni componente è guidata dal rapporto segnale-rumore locale.

Averaging: la media di ripetizioni

Questa è l’arma più elegante e va capita bene perché il suo principio ritorna in posti inaspettati. Se puoi ripetere la stessa misura $N$ volte, con lo stesso segnale ma rumore indipendente a ogni ripetizione, e poi medi le $N$ acquisizioni, succede una cosa magica.

Il segnale è sempre lo stesso a ogni ripetizione, quindi si somma coerentemente: $N$ copie identiche sommate fanno $N$ volte il segnale. Il rumore invece è diverso ogni volta, casuale, e si somma incoerentemente: a volte si rinforza, a volte si cancella, e in media la sua deviazione standard cresce solo come $\sqrt{N}$ . Risultato: il rapporto tra segnale e rumore migliora come

$\text{guadagno di SNR} = \sqrt{N}$

Per dimezzare il rumore relativo servono 4 ripetizioni; per ridurlo di 10 volte ne servono 100; per 100 volte ne servono 10 000. Il rendimento cala (raddoppiare il guadagno costa quadruplicare le misure), ma è gratis nel senso che non richiede di conoscere la forma del segnale. Lo usano l’elettroencefalografia (per estrarre i potenziali evocati dal rumore cerebrale di fondo), la risonanza magnetica, l’astrofotografia (lo stacking di centinaia di scatti della stessa galassia), la spettroscopia.

L’esempio dell’EEG è istruttivo perché lì il segnale è quasi invisibile. La risposta del cervello a uno stimolo (un suono, un lampo) è un microvolt o meno, sepolta in un’attività di fondo decine di volte più grande. In una singola registrazione non si vede nulla. Ma se ripeti lo stimolo centinaia di volte e allinei ogni registrazione sull’istante dello stimolo, la risposta — sempre uguale, perché legata allo stimolo — si somma coerentemente, mentre l’attività di fondo — scorrelata dallo stimolo — si media verso zero. Dopo qualche centinaio di ripetizioni, la forma d’onda del potenziale evocato emerge nitida dal nulla. Niente di nuovo: è il $\sqrt{N}$ all’opera, su un segnale che parte sotto zero dB.

La cosa profonda: il rumore che cresce come $\sqrt{N}$ è esattamente lo stesso fenomeno del random walk in processi stocastici. Una somma di $N$ passi casuali indipendenti si allontana dall’origine come $\sqrt{N}$ , non come $N$ . Lo stesso $\sqrt{N}$ che limita la diffusione di un ubriaco limita la crescita del rumore in una media.

Matched filter

Quando conosci in anticipo la forma esatta del segnale che cerchi, esiste il filtro ottimo: il matched filter (filtro adattato). È il filtro lineare che massimizza l’SNR all’uscita in presenza di rumore bianco additivo — e che sia ottimo è un teorema, non un’euristica. Il principio: correli il segnale ricevuto con una copia della forma che ti aspetti. Dove la forma combacia, l’uscita fa un picco; dove c’è solo rumore, l’uscita resta piatta.

Perché correlare con la forma attesa massimizza l’SNR? Intuizione: la correlazione somma il segnale ricevuto pesato dalla forma attesa. Dove il segnale c’è, ogni campione viene moltiplicato per il “peso giusto” e tutti i contributi si sommano in fase, in modo coerente — proprio come nell’averaging. Il rumore, invece, è scorrelato dalla forma attesa: i suoi contributi pesati hanno segno casuale e in media si cancellano. Il risultato è lo stesso guadagno coerente-vs-incoerente dell’averaging, ma sfruttato lungo la forma del segnale invece che su ripetizioni. Da qui l’ottimalità sotto rumore bianco.

È ovunque servano segnali deboli e forma nota: il radar e il sonar (la forma dell’impulso emesso è nota), le comunicazioni digitali (la forma di ogni simbolo è nota), e l’esempio più spettacolare — la rivelazione delle onde gravitazionali. LIGO cerca nei suoi dati un chirp (una forma d’onda predetta dalla relatività generale per la fusione di due buchi neri) immerso in un rumore che lo sovrasta di ordini di grandezza, e lo estrae confrontando i dati con migliaia di template via matched filtering.

Denoising

Termine ombrello per togliere il rumore da un segnale già acquisito, quando non puoi ripetere la misura e non conosci esattamente la forma del segnale. Va dal classico — filtro di Wiener, filtro mediano, total variation, soglie sui coefficienti wavelet — all’appreso, dove una rete neurale impara a ripulire.

Ed è proprio il denoising appreso il ponte che porta al cuore dell’AI moderna. Tieni a mente questo termine — denoising — perché tra poco lo ritroverai non più come tecnica per ripulire, ma come motore per generare.

Il rovescio della medaglia: quando il rumore è l’ingrediente

Fin qui il rumore è stato il nemico. Ora il ribaltamento, e qui serve la massima disciplina nel marcare la classe di ogni affermazione, perché è facile scivolare da un’identità a un’analogia senza accorgersene.

I diffusion model: il rumore come materia prima (identità)

Questo è il legame più forte, ed è un’identità, non un’analogia: i diffusion model usano letteralmente lo stesso rumore gaussiano dei segnali come ingrediente costruttivo.

Un diffusion model genera dati (immagini, audio, video) attraverso due processi. Il processo in avanti (forward o diffusion) prende un dato pulito e gli aggiunge progressivamente rumore gaussiano, passo dopo passo, finché dopo molti passi non resta che rumore puro.

Il processo inverso (reverse o denoising) è una rete neurale che impara a fare il cammino contrario: da rumore, ricostruire un dato. Il forward non si impara — è solo “aggiungi rumore”, una ricetta fissa. Tutto l’apprendimento sta nel reverse, ed è qui che la rete spende la sua capacità.

Nella formulazione canonica — il paper DDPM (Denoising Diffusion Probabilistic Models, di Jonathan Ho, Ajay Jain e Pieter Abbeel, NeurIPS 2020) — il passo in avanti aggiunge rumore gaussiano con una piccola varianza $\beta_t$ a ogni istante $t$ :

$q(x_t \mid x_{t-1}) = \mathcal{N}\!\left(x_t; \sqrt{1-\beta_t}\, x_{t-1},\; \beta_t I\right)$

dove $x_t$ è il dato all’istante $t$ del processo, $\mathcal{N}$ è la distribuzione gaussiana, e $\beta_t$ controlla quanto rumore si aggiunge a quel passo. Grazie a una proprietà delle gaussiane (la somma di gaussiane è gaussiana), si può saltare direttamente da $x_0$ a un qualsiasi $x_t$ :

$x_t = \sqrt{\bar\alpha_t}\, x_0 + \sqrt{1-\bar\alpha_t}\, \epsilon, \qquad \epsilon \sim \mathcal{N}(0, I)$

dove $\bar\alpha_t$ è il prodotto cumulato dei termini $(1-\beta_s)$ fino a $t$ , e $\epsilon$ è proprio il rumore gaussiano standard. In parole: un dato a un istante intermedio è una miscela pesata tra il dato originale e rumore puro; più avanti vai, più pesa il rumore, finché a $t$ grande resta solo $\epsilon$ .

Ed ecco il punto che chiude il cerchio con tutto il capitolo. La rete (di solito una U-Net) viene addestrata a fare una cosa sola: stimare il rumore $\epsilon$ che è stato iniettato. L’obiettivo semplificato che ha reso DDPM pratico è

$L_{\text{simple}} = \mathbb{E}_{t,\, x_0,\, \epsilon}\left[\;\big\| \epsilon - \epsilon_\theta(x_t, t) \big\|^2\;\right]$

cioè: dai alla rete l’immagine rumorosa $x_t$ e l’istante $t$ , e la rete deve indovinare quale rumore $\epsilon$ è stato aggiunto ( $\epsilon_\theta$ è la predizione della rete). Conoscendo il rumore, lo si sottrae con la giusta schedulazione e si torna indietro di un passo. DDPM usa $T = 1000$ passi. La generazione parte da rumore gaussiano puro e applica i passi di denoising imparati uno alla volta, facendo emergere un’immagine dal nulla.

Perché spezzare la rimozione del rumore in mille passi invece di toglierlo tutto in un colpo? Perché togliere tanto rumore in una volta è un problema difficilissimo (da rumore quasi puro a immagine perfetta), mentre togliere un pochino di rumore a ogni passo è un problema facile che la rete impara bene. La schedulazione di $\beta_t$ — quanto rumore aggiungere a ogni passo, e quindi quanto toglierne — è una scelta di progetto importante: si parte aggiungendo poco e si cresce, così che i primi passi del cammino inverso (dal rumore puro) facciano emergere la struttura grossa, e gli ultimi rifiniscano i dettagli. È lo stesso principio dell’averaging e del matched filter visto da un altro lato: spalmare un compito difficile su tanti piccoli passi coerenti.

Questo è un denoising appreso, fratello diretto delle tecniche di denoising classiche, ma con una torsione geniale: invece di togliere rumore da un segnale, si costruisce un segnale togliendo rumore da rumore. La filiazione è documentata: l’idea nasce con Sohl-Dickstein et al. (Deep Unsupervised Learning using Nonequilibrium Thermodynamics, ICML 2015), ispirata alla termodinamica di non-equilibrio, e DDPM la rende pratica per le immagini nel 2020. Il trattamento completo dei diffusion model vive in diffusion e image-generation-diffusion (entrambi in preparazione); qui ci interessa solo che il loro motore è il rumore gaussiano di questo capitolo.

Data augmentation con rumore (equivalenza argomentata)

Aggiungere rumore agli input durante il training — jitter sui pixel, perturbazioni gaussiane sulle feature, leggeri spostamenti di tempo e tono sull’audio — amplia artificialmente il dataset e rende il modello robusto a piccole variazioni, riducendo l’overfitting. L’intuizione è semplice: se mostri al modello la stessa immagine in cento versioni leggermente rumorose, gli insegni che la risposta non deve cambiare per piccole perturbazioni, cioè a essere stabile attorno a ogni esempio.

Non è solo pratica empirica: Christopher Bishop (informatico britannico, autore di testi canonici di machine learning) dimostrò nel 1995 che addestrare con rumore additivo sull’input è equivalente, al primo ordine, a una forma di regolarizzazione di Tikhonov (un penalty che scoraggia soluzioni troppo sensibili). Classe: equivalenza, ma argomentata e valida sotto approssimazione, non un’identità esatta — il legame è dimostrato come approssimazione al primo ordine, non come uguaglianza esatta a ogni regime di rumore.

Rumore come regolarizzatore: una famiglia di analogie

C’è una famiglia di tecniche accomunate dall’idea “perturbare durante il training fa generalizzare meglio”. Sono imparentate per analogia, non identiche nei meccanismi, e vanno marcate come tali.

Il dropout (di Nitish Srivastava e colleghi, JMLR 2014) spegne casualmente delle unità della rete a ogni passo di training. Lo si può descrivere come iniezione di rumore moltiplicativo (un rumore di Bernoulli sulle attivazioni): la rete, non potendo contare su nessuna singola unità, impara rappresentazioni ridondanti e robuste.

La noise injection vera e propria aggiunge rumore gaussiano ai pesi o alle attivazioni come regolarizzatore esplicito. È il caso più letterale della famiglia: non una descrizione “vista come rumore”, ma rumore gaussiano aggiunto apposta, lo stesso oggetto del resto del capitolo, qui usato per impedire alla rete di adagiarsi su soluzioni fragili.

Il label smoothing (introdotto da Christian Szegedy e colleghi, CVPR 2016) è un caso da maneggiare con cura. Invece di target one-hot (1 sulla classe giusta, 0 su tutte le altre) usa una distribuzione leggermente ammorbidita. Lo si può vedere come rumore sulle etichette, ma è un’analogia, non un’identità: il label smoothing è deterministico e mirato, non casuale. Chiamarlo “rumore” è una scorciatoia didattica utile a patto di sapere che è tale.

Rumore di etichetta e robustezza

Distinguiamo bene, perché qui la confusione costa cara. Il label noise involontario è il rumore dannoso sulle etichette: nei dataset reali una frazione di etichette è semplicemente sbagliata (errori umani, casi ambigui, scraping rumoroso). È rumore sul target, e degrada il modello — le reti hanno la capacità di memorizzare anche le etichette sbagliate. È l’opposto del label smoothing, che è rumore volontario e benefico. Stessa parola “rumore”, ruoli opposti.

Contro il label noise dannoso ci sono difese: funzioni di loss robuste, riponderazione degli esempi, co-teaching tra due reti, e l’early stopping — che sfrutta un fatto empirico utile: le reti tendono a imparare prima i pattern puliti e generalizzabili, e solo dopo a memorizzare il rumore. Fermarsi presto coglie il segnale prima che inizi la memorizzazione.

Questo fatto — prima il segnale, poi il rumore — è una delle osservazioni più utili sul training delle reti. Spiega perché un modello, lasciato addestrare troppo a lungo su dati rumorosi, prima migliora sul test set e poi peggiora: nella prima fase ha estratto il segnale generalizzabile, nella seconda sta imparando a memoria le idiosincrasie del training, rumore di etichetta incluso. La curva dell’errore di validazione che scende e poi risale è la firma visibile di questo passaggio dal segnale al rumore, e il punto di minimo è dove conviene fermarsi.

SNR applicato ai dati di training (analogia)

Si parla spesso di “segnale” e “rumore” in un dataset, e qui SNR è un’analogia presa in prestito: non c’è una potenza fisica da misurare. Il “segnale” è il pattern generalizzabile che si vuole imparare; il “rumore” sono le idiosincrasie, gli errori, le correlazioni spurie. Un dataset ad alto SNR ha pattern forti e poco rumore; uno a basso SNR è dominato dal caso. Il concetto, per quanto informale, è operativamente utile: deduplicazione, filtraggio di qualità e curation servono proprio ad alzare l’SNR del dataset.

L’analogia regge anche per le correlazioni spurie, che sono il “rumore strutturato” dei dataset: un classificatore di animali che impara a riconoscere i cammelli dal fondo sabbioso invece che dalla forma dell’animale ha agganciato rumore correlato con l’etichetta, non segnale. È il caso peggiore, perché — come il rumore correlato nei segnali — non si media via aggiungendo dati simili: serve cambiare i dati o l’obiettivo. Tenere a mente la distinzione tra rumore casuale (si attenua con più dati) e rumore strutturato (no) è uno dei trasferimenti più utili dalla teoria dei segnali al lavoro coi dataset.

Il gradiente rumoroso della SGD (legame meccanico documentato)

La discesa del gradiente stocastica (SGD, vedi SGD, momentum, Adam) stima il gradiente vero — quello calcolato su tutto il dataset — usando solo un minibatch di esempi. Questa stima è rumorosa:

$\text{gradiente}_{\text{minibatch}} = \text{gradiente}_{\text{vero}} + \text{rumore di campionamento}$

Quel rumore non è solo un costo da tollerare: è un regolarizzatore implicito, e questo è un legame meccanico documentato in letteratura, più forte di una semplice analogia. Il rumore del minibatch spinge l’ottimizzazione verso minimi “piatti” (flat minima, regioni larghe del paesaggio della loss) invece che verso minimi stretti, e i minimi piatti tendono a generalizzare meglio. Aiuta anche a sfuggire da minimi locali angusti e da punti di sella.

Smith e colleghi (ICLR 2021) hanno mostrato che la SGD segue in media una loss modificata da un termine di regolarizzazione la cui scala è proporzionale al rapporto tra learning rate e batch size. Da qui un fatto operativo: learning rate e batch size non governano solo la velocità, governano quanto rumore — e quindi quanta regolarizzazione implicita — c’è nel training.

C’è anche un legame profondo con i processi stocastici: la dinamica della SGD assomiglia a una diffusione di Langevin, una passeggiata casuale guidata dal gradiente, dove un termine deterministico tira verso il basso (il gradiente) e un termine di rumore scuote a ogni passo. È la stessa famiglia matematica del moto browniano, e chiude il cerchio con il rumore browniano visto all’inizio del capitolo: il rumore che genera la deriva casuale di un sensore e il rumore che fa generalizzare una rete sono parenti stretti.

Quantizzazione dei pesi come rumore (equivalenza formale)

Ricordi la regola “ogni bit aggiunge ~6 dB di SNR” del rumore di quantizzazione di un segnale? Si applica identica ai pesi di una rete. Comprimere i pesi da float a 32 bit a interi a 8 o 4 bit (quantization-base, in preparazione) introduce un errore di quantizzazione che è, formalmente, lo stesso rumore additivo del campionamento di un segnale (campionamento-nyquist). È un’equivalenza formale: stesso modello matematico (rumore di quantizzazione), applicato ai pesi invece che al segnale. Le reti tollerano sorprendentemente bene questo rumore, perché sono ridondanti — entro certi limiti, sotto i quali la qualità crolla.

Questa lettura non è solo elegante, è operativa. Pensare alla quantizzazione come “iniezione di rumore sui pesi” suggerisce subito le contromisure giuste: come in un sistema di segnali si mette più risoluzione dove il segnale è importante, così nelle tecniche di quantizzazione moderne si dedicano più bit ai pesi che contano di più e meno a quelli ininfluenti, e a volte si lascia in alta precisione una piccola frazione di pesi “outlier” che farebbero troppo danno se rumorizzati. È il rapporto segnale-rumore applicato, peso per peso, al cervello di un modello.

Esempi

Esempio numerico: calcolare un SNR e migliorarlo

Hai una sinusoide di ampiezza $A = 1$ V immersa in rumore con deviazione standard $\sigma = 0.1$ V. La potenza di una sinusoide è $A^2/2 = 0.5$ . La potenza del rumore è la sua varianza, $\sigma^2 = 0.01$ . Quindi

$\text{SNR} = \frac{0.5}{0.01} = 50, \qquad \text{SNR}_{dB} = 10 \log_{10}(50) \approx 17 \text{ dB}.$

Ora applica l’averaging: ripeti la misura 100 volte e medi. Il guadagno è $\sqrt{100} = 10$ in ampiezza, cioè $+20$ dB. Il nuovo SNR è circa $17 + 20 = 37$ dB. Sei passato da un segnale visibile ma rumoroso a uno pulito, senza sapere nulla della forma del segnale — solo ripetendo e mediando.

Esempio numerico: la capacità di un canale

Quanta informazione passa in un canale telefonico classico, con banda $B = 3400$ Hz e un SNR tipico di 30 dB? Prima converti l’SNR in lineare: 30 dB sono $10^{30/10} = 10^3 = 1000$ . Poi applichi Shannon-Hartley:

$C = 3400 \cdot \log_2(1 + 1000) \approx 3400 \cdot \log_2(1001) \approx 3400 \cdot 9.97 \approx 33\,900 \text{ bit/s}.$

Ecco perché i modem analogici si fermavano intorno ai 33.6 kbit/s su una normale linea telefonica: era vicino al tetto fisico imposto dalla banda e dal rumore, non un limite tecnologico aggirabile con un modem “migliore”. Per andare oltre serviva cambiare canale (linee digitali, fibra), cioè aumentare $B$ — esattamente ciò che la formula prevede.

Esempio in codice: misurare il guadagno dell’averaging

import numpy as np

rng = np.random.default_rng(0)
n = 1000
t = np.linspace(0, 1, n)
segnale = np.sin(2 * np.pi * 5 * t)   # 5 Hz, ampiezza 1
sigma = 1.0                            # rumore forte: SNR ~ 0 dB

def snr_db(stima, vero):
    p_seg = np.mean(vero ** 2)
    p_err = np.mean((stima - vero) ** 2)
    return 10 * np.log10(p_seg / p_err)

for N in [1, 10, 100, 1000]:
    # N acquisizioni: stesso segnale, rumore indipendente ogni volta
    acquisizioni = segnale + sigma * rng.standard_normal((N, n))
    media = acquisizioni.mean(axis=0)
    print(f"N={N:4d}  SNR={snr_db(media, segnale):5.1f} dB"
          f"  (atteso +{10*np.log10(N):4.1f} dB vs N=1)")

L’output mostra l’SNR che sale di circa 10 dB ogni volta che $N$ si decuplica — esattamente i $20 \log_{10}\sqrt{N} = 10\log_{10} N$ previsti dalla teoria.

Esempio scenario reale: dal radar a LIGO

Un radar emette un impulso di forma nota e ascolta l’eco. L’eco di un bersaglio lontano è debolissima, annegata nel rumore termico del ricevitore. Il radar non guarda l’ampiezza grezza: correla il segnale ricevuto con la forma dell’impulso emesso (matched filter). Dove c’è un eco, la correlazione fa un picco; dove c’è solo rumore, resta piatta.

Lo stesso principio, portato all’estremo, è come LIGO ha “sentito” la fusione di due buchi neri nel 2015: un chirp predetto dalla teoria, estratto da un rumore che lo sovrastava enormemente, confrontando i dati con un banco di template. È il trionfo del concetto di matched filter: senza conoscere quando sarebbe arrivato il segnale, ma conoscendone la forma, lo si è pescato da un rumore che a occhio nudo non mostrava nulla. Lo stesso, identico principio che il tuo telefono usa ogni secondo per agganciare il GPS.

Esempio scenario reale (AI): rumore costruttivo

Due usi del rumore come strumento, nello stesso sistema di training. Primo: un diffusion model che parte da un quadrato di puro rumore gaussiano e, in mille passi di denoising appreso, fa emergere il volto di una persona che non esiste. Secondo: la stessa rete, durante il training, viene ottimizzata con SGD su minibatch — e generalizza meglio di quanto farebbe con il gradiente esatto sull’intero dataset, proprio perché il rumore del campionamento dei minibatch la spinge verso minimi piatti. In entrambi i casi, togliere il rumore peggiorerebbe il risultato.

Esempio di contrasto: denoising classico vs denoising appreso

Mettiamo a confronto due modi di togliere rumore da una foto, per vedere la parentela e la differenza. Il denoising classico (per esempio un filtro mediano, o una soglia sui coefficienti wavelet) usa un’assunzione fissa scritta a mano: “il segnale è liscio, il rumore è ad alta frequenza, quindi smusso”. Funziona, ma smussa anche i dettagli veri e non sa nulla di cosa rappresenti l’immagine. Il denoising appreso — un denoising autoencoder, o il passo di un diffusion model — non usa una regola fissa: ha visto milioni di immagini pulite e rumorose, e ha imparato come fatte le immagini vere, quindi sa ricostruire un occhio o una texture là dove il filtro classico vedrebbe solo “alta frequenza da smussare”. È la stessa operazione (stimare e sottrarre il rumore), ma una la fa con una regola universale, l’altra con conoscenza appresa del dominio. I diffusion model portano questa seconda strada all’estremo: ripetono il denoising appreso così tante volte, partendo da rumore puro, da generare un’immagine invece che ripulirne una.

Applicazioni pratiche

Nel lavoro quotidiano con sistemi AI il rumore e l’SNR compaiono in più punti di quanto si creda.

Pipeline audio per il riconoscimento vocale. Prima di calcolare lo spettrogramma che entra nel modello si stima il rumore di fondo e si applica denoising o spectral subtraction; un input con SNR troppo basso degrada la trascrizione. Molti dataset di training per ASR vengono inoltre aumentati aggiungendo rumore artificiale (traffico, chiacchiericcio, vento) a registrazioni pulite, proprio per insegnare al modello a funzionare in condizioni rumorose — un uso voluto del rumore come data augmentation.

Data curation per i modelli linguistici. Deduplicazione e filtraggio di qualità sono, concettualmente, operazioni che alzano l’SNR del dataset: più segnale (testo informativo, coerente) e meno rumore (boilerplate, spam, duplicati, testo generato male). Un corpus enorme ma a basso SNR può addestrare peggio di uno più piccolo e curato: è una delle lezioni pratiche dell’era dei modelli di fondazione.

Quantizzazione dei modelli per il deployment. Su hardware limitato i pesi si comprimono da float a 16 o 32 bit a interi a 8 o 4 bit. Il trade-off tra precisione (numero di bit) e qualità è governato dal rumore di quantizzazione: ogni bit risparmiato è rumore in più sui pesi. Le tecniche di quantizzazione avanzate cercano di mettere il poco rumore disponibile dove fa meno danno (sui pesi meno importanti), un’idea che è puro signal processing applicato ai parametri di una rete.

Tuning della SGD. Sapere che il rumore di gradiente regolarizza implicitamente cambia il modo di scegliere learning rate e batch size: un batch troppo grande riduce il rumore benefico e può peggiorare la generalizzazione, e non solo per ragioni di velocità. È il motivo per cui scalare il batch size richiede spesso di riscalare anche il learning rate per mantenere costante la “quantità di rumore”.

Generazione. Immagini, audio, video: il rumore gaussiano è la materia prima da cui i diffusion model costruiscono i campioni. Quando guardi un’immagine generata, stai guardando il risultato di centinaia di passi di denoising appreso applicati a un punto di partenza completamente casuale.

Dove si rompe

I fraintendimenti sul rumore sono tanti e costano errori concreti. Conviene enumerarli.

“Bianco” e “gaussiano” sono sinonimi. No, è l’errore numero uno. Bianco è una proprietà dello spettro (piatto su tutte le frequenze); gaussiano è una proprietà della distribuzione di ampiezza (i valori seguono una normale). Esistono rumori bianchi non gaussiani e gaussiani non bianchi. Confonderli porta a scegliere il filtro o il modello sbagliato.

Mettere i decibel nella formula di Shannon. $C = B \log_2(1 + \text{SNR})$ vuole l’SNR lineare. Se hai 30 dB, devi convertire in $10^{3} = 1000$ prima di sostituire. Infilarci direttamente “30” dà un risultato assurdo.

Credere che l’averaging sia gratis e sempre applicabile. Funziona solo a due condizioni: il rumore deve essere incoerente tra le ripetizioni (se è correlato, non si media via) e il segnale deve essere ripetibile (deve poter restare lo stesso a ogni acquisizione). Su un evento irripetibile o con rumore correlato, il $\sqrt{N}$ non vale.

Pensare che un filtro elimini il rumore. Il filtro lo riduce dove gli spettri di segnale e rumore non si sovrappongono. Dove si sovrappongono, ogni taglio di rumore è anche un taglio di segnale: è un compromesso, non una rimozione. Nessun filtro crea l’informazione che il rumore ha cancellato.

Trattare il rumore sempre come nemico. Nei diffusion model, nella SGD, nel dropout il rumore è costruttivo. La conclusione sbagliata classica è “togliamo tutto il rumore dalla SGD usando il full batch”: il risultato è spesso una generalizzazione peggiore, perché si rimuove la regolarizzazione implicita. Capire quando il rumore aiuta e quando danneggia è proprio il punto.

Confondere label smoothing e label noise. Stessa parola, ruoli opposti. Il primo è rumore volontario, deterministico, benefico (regolarizza). Il secondo è rumore involontario, casuale, dannoso (le reti lo memorizzano). Una tecnica si aggiunge apposta, l’altra si combatte.

Credere che SNR negativo in dB significhi segnale perso. Falso. Sotto 0 dB il rumore è più forte del segnale istante per istante, ma con sufficiente ridondanza ed elaborazione (spread spectrum, integrazione molto lunga, codici a correzione d’errore) il segnale si recupera comunque. Il GPS ne è l’esempio quotidiano: il segnale che arriva dai satelliti è decine di dB sotto il rumore di fondo, eppure il ricevitore lo estrae correlandolo con un codice noto — di nuovo il guadagno coerente, qui spalmato su un codice lungo. “Sotto il rumore” non vuol dire “perso”, vuol dire “serve più elaborazione”.

Aspettarsi che più dati battano sempre il rumore. Vale per il rumore casuale e indipendente, che si media via. Non vale per il rumore correlato o sistematico: un bias di misura, una calibrazione sbagliata, una correlazione spuria nei dati restano lì per quanti campioni tu aggiunga. La distinzione tra rumore che si attenua con $N$ e rumore che non si attenua è una delle più importanti, e la più facile da dimenticare quando si raccolgono dataset enormi sperando che la quantità curi tutto.

Assumere rumore gaussiano quando non lo è. Moltissimi metodi (media, filtro di Wiener, matched filter ottimo) danno il meglio sotto rumore gaussiano e bianco. Ma il rumore reale a volte ha code pesanti (outlier rari ma enormi) o picchi impulsivi: in quei casi la media è una pessima stima (un solo outlier la trascina) e conviene la mediana, più robusta. Prima di scegliere lo strumento, vale la pena guardare l’istogramma del rumore, non assumere la campana per riflesso.

Confondere SNR e risoluzione. Un SNR alto dice che il segnale emerge dal rumore, non che hai abbastanza dettaglio. Puoi avere un segnale pulitissimo (SNR alto) ma campionato troppo grossolanamente per cogliere ciò che ti serve, o viceversa un segnale ben risolto ma sepolto nel rumore. Sono due assi diversi della qualità di una misura, e migliorarne uno non migliora automaticamente l’altro.

Infine un limite teorico, non un fraintendimento: il rumore termico pone un pavimento fisico. Sotto il rumore di Johnson-Nyquist, a una data temperatura e banda, non si scende se non raffreddando. Nessun algoritmo lo aggira: è fisica, non ingegneria.

Collegamenti

Segnali continui, discreti, sistemi lineari — il modello additivo $x = s + n$ e la distinzione tra segnale deterministico e stocastico nascono lì.
Campionamento, aliasing, teorema di Nyquist — il rumore di quantizzazione è una conseguenza diretta della digitalizzazione, e la regola dei ~6 dB per bit vive a cavallo dei due capitoli.
Filtri, convoluzione, smoothing, edge detection — il filtraggio è la prima e più diretta arma contro il rumore.
Fourier: vedere frequenze invece di tempo — il “colore” del rumore (bianco, rosa, browniano) è una proprietà del suo spettro, leggibile solo nel dominio della frequenza.
Spettrogrammi e rappresentazioni tempo-frequenza — il rumore si vede nel piano tempo-frequenza, e il denoising audio agisce spesso lì.
Processi stocastici e dinamiche casuali — il rumore È un processo stocastico; il random walk spiega sia il $\sqrt{N}$ dell’averaging sia il rumore browniano sia la dinamica della SGD.
SGD, momentum, Adam — il rumore di gradiente del minibatch è il regolarizzatore implicito che fa generalizzare la SGD.
Kalman: stimare stato nascosto con modello e misure rumorose — la stima ottima di uno stato sotto rumore di misura e rumore di processo.
informazione-shannon e canali-rumore-capacita (Parte XIII, in preparazione) — il teorema di Shannon-Hartley nel suo contesto naturale, con la dimostrazione.
diffusion e image-generation-diffusion (Parti XVIII e XXII, in preparazione) — il rumore gaussiano come ingrediente generativo, di cui qui si vede solo il motore.
regolarizzazione (Parte XVIII, in preparazione) — dropout, noise injection e label smoothing come famiglia di tecniche imparentate per analogia.
quantization-base (Parte XXIII, in preparazione) — la quantizzazione dei pesi come rumore additivo, equivalente formale del rumore di quantizzazione dei segnali.

Per andare oltre

C. E. Shannon, A Mathematical Theory of Communication, Bell System Technical Journal, 1948. La fonte del teorema di Shannon-Hartley e della teoria dell’informazione; leggibile nelle prime sezioni anche senza background avanzato.
H. Nyquist, Thermal Agitation of Electric Charge in Conductors, e J. B. Johnson, Thermal Agitation of Electricity in Conductors, Physical Review vol. 32, 1928. I due articoli affiancati che fondano lo studio del rumore termico.
J. Ho, A. Jain, P. Abbeel, Denoising Diffusion Probabilistic Models, NeurIPS 2020 (arXiv:2006.11239). Il paper che ha reso pratici i diffusion model; la sezione sul forward process e sull’obiettivo $L_{\text{simple}}$ è dove il rumore di questo capitolo diventa motore generativo.
J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, S. Ganguli, Deep Unsupervised Learning using Nonequilibrium Thermodynamics, ICML 2015 (arXiv:1503.03585). L’origine dell’idea di diffusione per la generazione.
S. L. Smith, B. Dherin, D. Barrett, S. De, On the Origin of Implicit Regularization in Stochastic Gradient Descent, ICLR 2021 (arXiv:2101.12176). Per chi vuole capire perché il rumore della SGD regolarizza.