Perché segnali e filtri servono per audio, vision e multimodale

Un’onda sonora e un’immagine sono segnali campionati e quantizzati; le operazioni che li trasformano in input per un modello — convoluzione, trasformata di Fourier, finestratura — sono le stesse di questa Parte. La differenza fondante tra l’elaborazione di segnali classica e il deep learning percettivo non è il tipo di operazione, ma chi sceglie i coefficienti: l’ingegnere o l’ottimizzatore.

Perché questo capitolo

Gli otto capitoli precedenti hanno costruito un vocabolario un pezzo alla volta: cos’è un segnale, come si campiona, cosa fa una convoluzione, perché Fourier mostra le frequenze, come si legge uno spettrogramma, come si combatte il rumore, come si fondono misure di sensori diversi, come si trattano le serie temporali.

Presi uno per uno sembrano ingegneria di un’altra epoca, roba da corso di elaborazione dei segnali con la barba grigia. La tentazione di chi viene dal software è di archiviarli come prerequisiti formali da dimenticare in fretta.

Presi insieme, sono il front-end di quasi ogni modello percettivo costruito tra il 2020 e oggi. Quando un modello “ascolta” una voce o “guarda” una foto, la prima cosa che succede non è magia neurale: è campionamento, finestratura, trasformata, convoluzione. Le stesse operazioni dei capitoli precedenti, applicate prima che la parte interessante della rete entri in gioco.

Questo capitolo non introduce concetti nuovi di segnali. Tira le fila. Mostra che gli otto capitoli precedenti non erano un preambolo opzionale all’AI, ma le sue fondamenta operative per tutto ciò che è percettivo: audio, immagini, video, e più in generale dati che vengono dal mondo fisico attraverso un sensore.

Senza questo ponte, si arriva alle Parti su machine learning, anatomia degli LLM e architetture moderne pensando che audio e visione siano domini separati con tecniche proprie, ciascuno con il suo gergo e i suoi trucchi. Con il ponte, si vede la continuità: una sola idea — campionare un segnale e trasformarlo con operazioni della famiglia dei filtri — declinata su segnali di natura diversa. Un modello speech e un modello di visione, sotto, fanno parenti stretti delle stesse cose.

E c’è una tesi precisa sotto, che vale la pena anticipare perché è il “cosa portarsi a casa” dell’intera Parte. Gran parte del deep learning percettivo è elaborazione di segnali in cui i filtri e le feature, invece di essere progettati a mano da un ingegnere, sono appresi da un ottimizzatore sui dati. La continuità sta nelle operazioni; la rottura sta in chi sceglie i numeri.

Contesto

Per decenni, dare un suono o un’immagine a un computer ha significato una pipeline fissa di passaggi progettati a mano.

Prendi l’audio: lo campioni, ne calcoli lo spettrogramma, estrai dei coefficienti riassuntivi (i celebri MFCC, Mel-Frequency Cepstral Coefficients, una compressione dello spettro mel che ha dominato il riconoscimento vocale fino agli anni 2010), e poi dai quei coefficienti a un classificatore. Ogni passaggio era una scelta umana, motivata dalla teoria dei segnali e dalla psicoacustica.

La stessa cosa valeva per le immagini. Prima del deep learning, riconoscere oggetti significava estrarre feature progettate a mano — i descrittori SIFT (Scale-Invariant Feature Transform, 1999) e HOG (Histogram of Oriented Gradients, 2005), che riassumevano un’immagine in vettori di gradienti e orientamenti — e poi dare quei vettori a un classificatore.

Anche qui ogni passaggio era una scelta umana, e anche qui sotto c’erano filtri e gradienti, cioè elaborazione di segnali a due dimensioni. Il classificatore finale (spesso una SVM) era l’unica parte che “imparava”; tutto il resto era progettato.

Il deep learning ha cambiato dove finisce la progettazione a mano e dove comincia l’apprendimento. Non ha buttato via la pipeline: ne ha spostato il confine. Lo spartiacque visibile è il 2012, quando una CNN (AlexNet) ha vinto la competizione di riconoscimento immagini ImageNet con un margine schiacciante, imparando le proprie feature invece di riceverle progettate. Da lì il confine ha continuato a scendere.

Oggi spesso si entra con una rappresentazione ancora di tipo segnale — lo spettrogramma per l’audio, i pixel per l’immagine — e si lascia che la rete impari da lì in poi le feature che prima si estraevano a mano. In alcuni casi il confine si è spostato ancora più in basso, fino alla forma d’onda grezza (modelli come wav2vec lavorano direttamente sui campioni audio). Ma anche allora, le scelte di campionamento e normalizzazione restano scelte di segnale: il confine si sposta, non sparisce.

Questo capitolo siede alla fine della Parte XII proprio per chiudere il cerchio. I capitoli precedenti hanno spiegato gli strumenti; questo mostra dove finiscono dentro i modelli che usi. È un capitolo-ponte: il suo lavoro è collegare, e dove collega deve dichiarare con onestà la natura del legame.

Alcuni collegamenti sono filiazioni storiche documentate (la convoluzione delle CNN nasce dalla convoluzione dei filtri; lo spettrogramma è letteralmente l’input di Whisper). Altri sono analogie utili per capire ma che non vanno scambiate per discendenza (le patch di un Vision Transformer “ricordano” un campionamento dell’immagine, ma non derivano dal teorema di Nyquist). Tenere separate queste classi è metà del valore del capitolo.

Nella mappa di questa Parte, il capitolo siede dopo tutti gli altri e li raccoglie. Il capitolo su segnali e sistemi ha dato la definizione di base; campionamento e filtri hanno dato le due operazioni che ricompaiono ovunque qui, campionare e convolvere.

Fourier e spettrogrammi hanno dato il front-end audio; rumore, sensor fusion e serie temporali hanno dato i temi che qui si ribaltano o si estendono. Questo capitolo non aggiunge un nono strumento: mostra dove gli otto vanno a finire.

I nomi e i numeri tecnici che seguono — Whisper, EnCodec, ViT, CLIP, i diffusion model — appartengono a Parti successive (anatomia degli LLM, architetture moderne) e lì sono trattati in profondità. Qui li usiamo come destinazioni del ponte, per mostrare da dove arrivano i loro input. Sono uno snapshot dello stato dell’arte, non una mappa stabile: cambieranno. Il filo che li lega ai segnali, no.

L’intuizione: dal segnale al token

Il modo più produttivo di guardare l’intero campo è seguire un singolo arco, dal mondo fisico fino a ciò che un Transformer consuma. Lo chiamo “dal segnale al token”. Ha tre stadi, e vale identico per il suono e per le immagini, con le dovute differenze.

Primo stadio: acquisizione

Il mondo produce grandezze continue. Il suono è pressione dell’aria che oscilla nel tempo; un’immagine è intensità luminosa distribuita nello spazio.

Un sensore — un microfono, il sensore di una fotocamera — trasforma queste grandezze in numeri, e lo fa in due mosse che hai già visto: campiona (prende valori a istanti o in punti discreti) e quantizza (arrotonda ciascun valore a un numero rappresentabile). Questo è esattamente il campionamento e la quantizzazione della Parte.

Un secondo di parlato campionato a 16000 campioni al secondo diventa 16000 numeri. Un’immagine diventa una griglia di pixel, ciascuno tipicamente 8 bit per canale di colore. La grandezza continua del mondo è ora una tabella di numeri dentro la memoria. Da questo punto in poi, per il computer, non esiste più il suono o la luce: esistono numeri campionati.

C’è una simmetria precisa tra i due casi, ed è utile fissarla. L’audio è campionato lungo una dimensione, il tempo: il sample rate (16 kHz, 44.1 kHz) dice quanti campioni al secondo. L’immagine è campionata lungo due dimensioni, lo spazio: la risoluzione (1920x1080) dice quanti campioni per lato. È lo stesso atto — prendere una grandezza continua e leggerla a intervalli discreti — applicato a un asse diverso.

Tutto il teorema di campionamento si trasporta di conseguenza: come una frequenza audio troppo alta per il sample rate si ripiega in aliasing temporale, un dettaglio spaziale troppo fine per la risoluzione si ripiega in aliasing spaziale (il moiré). E come per l’audio serve un filtro anti-aliasing prima di sottocampionare, per l’immagine serve uno smoothing prima di ridurla. Stesso teorema, stessa cura, asse diverso.

Secondo stadio: rappresentazione (il front-end)

I numeri grezzi sono difficili da usare direttamente. Sedicimila campioni di forma d’onda al secondo sono un groviglio illeggibile: due parole diverse producono due scarabocchi che a occhio sono indistinguibili. Quindi si trasforma il segnale in una rappresentazione più strutturata.

Per l’audio, la trasformazione canonica è la forma d’onda verso lo spettrogramma (richiama spettrogrammi e Fourier): si spezza il segnale in finestre brevi, si fa una trasformata di Fourier per ciascuna, e si ottiene una matrice tempo-frequenza che è, a tutti gli effetti, un’immagine.

Per l’immagine, spesso si entra direttamente con i pixel, ma le prime operazioni della rete — le convoluzioni — sono filtri che estraggono feature, esattamente i filtri della Parte. In entrambi i casi, il passaggio porta da numeri grezzi a una rappresentazione strutturata che il resto della rete può sfruttare.

Terzo stadio: tokenizzazione o embedding

Infine la rappresentazione viene ridotta a una sequenza di vettori (gli embedding, vettori numerici densi che condensano l’informazione) o a una sequenza di simboli discreti (i token). Questo è il formato che un Transformer consuma. Per l’audio, codec neurali producono token discreti. Per l’immagine, il Vision Transformer spezza in patch e proietta ciascuna in un embedding.

Ed ecco l’osservazione che fa scattare tutto: questo terzo stadio produce lo stesso formato — una sequenza di vettori — del testo dopo la sua tokenizzazione. È qui che audio, visione e linguaggio convergono. Tre mondi fisici diversi, tre front-end diversi, un solo formato di arrivo.

Tieni questo arco a tre stadi come scheletro. Tutto il resto del capitolo lo riempie di dettagli, prima sull’audio, poi sulla visione, poi sulla loro convergenza.

Un secondo angolo: chi sceglie i coefficienti

C’è un modo diverso, e complementare, di guardare la stessa storia: non come un viaggio (dal segnale al token), ma come una domanda secca su una sola scelta. Chi decide i coefficienti delle operazioni?

Ogni pipeline percettiva, classica o neurale, è una catena di operazioni che hanno dei numeri dentro: il kernel di un filtro, i pesi di una trasformazione, le soglie. Nell’elaborazione dei segnali classica, questi numeri li sceglie un ingegnere, prima di vedere i dati, sulla base della teoria: un kernel di Sobel per i bordi perché la matematica dice che quei nove numeri approssimano una derivata spaziale.

Nel deep learning percettivo, gli stessi tipi di operazioni hanno coefficienti che nessuno scrive a mano: li trova un ottimizzatore, guardando milioni di esempi, regolandoli per ridurre l’errore. La forma della pipeline è simile; il modo in cui i numeri ci finiscono dentro è opposto.

Questi due angoli — il viaggio del dato e la domanda sui coefficienti — descrivono lo stesso fenomeno da due lati. Il primo è utile per seguire cosa succede a un’onda o a un’immagine; il secondo per capire cosa è davvero cambiato con il deep learning. Li userò entrambi nel resto del capitolo.

La meccanica dell’audio: dalla forma d’onda al modello

Forma d’onda verso mel-spettrogramma

La forma d’onda è il segnale campionato: per lo speech, tipicamente 16000 campioni al secondo, un solo canale (mono).

Lo spettrogramma si costruisce con la Short-Time Fourier Transform (STFT), la trasformata di Fourier a finestra mobile introdotta nel capitolo su Fourier: si prendono finestre brevi e sovrapposte del segnale, si applica una funzione finestra (Hann, Hamming) per smussare i bordi, si fa la FFT di ciascuna, e si tiene il modulo al quadrato. Il risultato è una matrice: una colonna per istante, una riga per banda di frequenza, l’energia in ogni cella.

Su questa matrice si fanno due ulteriori passaggi che la rendono adatta al machine learning, ed entrambi hanno una motivazione percettiva precisa.

Primo: si comprime l’asse delle frequenze nella scala mel, una scala che mette più risoluzione alle basse frequenze e meno alle alte. Il motivo è che l’orecchio umano discrimina molto meglio tra 200 e 400 Hz (un’ottava nelle voci) che tra 8000 e 8200 Hz, dove la differenza è quasi impercettibile.

La scala mel spende così i suoi “pixel di frequenza” dove l’informazione utile per la percezione è densa, e ne spreca pochi dove l’orecchio non distingue. Da circa 500 bande lineari della FFT si scende tipicamente a 80 bande mel: una compressione che butta via ciò che conta poco. È, di nuovo, una scelta progettata a mano basata su una teoria — qui la psicoacustica — che il modello erediterà.

Secondo: si prende il logaritmo dell’energia. Anche l’intensità è percepita in modo logaritmico — è il motivo per cui i decibel sono una scala logaritmica — e i suoni che ci interessano coprono un range dinamico enorme. Il log avvicina forti e deboli, in modo che un sussurro e un grido restino entrambi leggibili nella stessa immagine invece che schiacciare l’uno l’altro.

Il risultato finale è il log-mel-spettrogramma: una matrice tempo-frequenza, de facto un’immagine in scala di colore. Ogni scelta che la produce — la dimensione della finestra, l’overlap, il numero di bande mel — è una manopola progettata a mano, ereditata dal modello.

Questo non è elaborazione dei segnali fine a sé stessa. È la scelta di front-end di praticamente tutti i modelli speech moderni. La filiazione qui è diretta e documentabile: il log-mel-spettrogramma è ciò che entra nel modello.

Whisper: il caso che chiude il cerchio

Whisper (OpenAI, dal paper Robust Speech Recognition via Large-Scale Weak Supervision, Radford et al. 2022) è un sistema di riconoscimento vocale — automatic speech recognition, ASR, la conversione di parlato in testo — costruito come Transformer encoder-decoder e addestrato su 680000 ore di audio multilingua raccolto dal web.

Il fatto chiave per questo capitolo: Whisper non vede la forma d’onda. Vede uno spettrogramma. Per la precisione, secondo il paper: tutto l’audio è ricampionato a 16 kHz, e si calcola un log-mel-spettrogramma a 80 canali su finestre di 25 millisecondi con uno stride di 10 millisecondi; l’input è scalato globalmente tra -1 e 1 con media circa zero sul dataset di pre-training. Solo a quel punto entra l’encoder Transformer, e il decoder produce i token di testo uno alla volta.

Srotola la catena e ritrovi la Parte intera:

forma d'onda (16 kHz)        <- campionamento  [campionamento-nyquist]
   -> STFT a finestre 25 ms  <- Fourier         [fourier-intuizione]
   -> mel + log (80 canali)  <- spettrogramma   [spettrogrammi]
   -> encoder Transformer    <- la parte "AI"
   -> token di testo

Ogni freccia tranne l’ultima è un capitolo di questa Parte. La porta d’ingresso di uno dei modelli speech più usati al mondo è fatta interamente di elaborazione di segnali classica. La filiazione campionamento → Fourier → spettrogramma → modello non è un’analogia didattica: è la pipeline letterale, documentata nel paper.

Vale la pena fare i conti, perché i numeri rendono concreto cosa “vede” davvero il modello. Prendi un audio di 30 secondi, la finestra temporale che Whisper processa in un colpo. A 16000 campioni al secondo, sono 480000 campioni di forma d’onda: una sequenza enorme, illeggibile, e troppo lunga da dare a un Transformer un campione alla volta.

Ora applica la STFT con stride di 10 millisecondi: una finestra ogni 10 ms su 30 secondi dà 3000 finestre temporali. Per ciascuna, lo spettro viene compresso in 80 bande mel. Il risultato è una matrice di circa 80 righe per 3000 colonne: poco più di 240000 numeri, organizzati in un’immagine spettrale. Una sequenza di 3000 “colonne” è perfettamente gestibile per un Transformer, dove 480000 campioni non lo sarebbero.

Confronta le due forme. La forma d’onda è una sequenza di 480000 numeri senza struttura visibile; lo spettrogramma è una matrice 80x3000 dove vocali, consonanti e silenzi sono visivamente distinti. Stessa informazione, in una forma che il modello può sfruttare. Il front-end non è un passaggio burocratico: è ciò che trasforma un groviglio in qualcosa di apprendibile.

TTS: la stessa rappresentazione, al contrario

I modelli di sintesi vocale — text-to-speech, TTS, la generazione di parlato da testo — fanno il percorso inverso, e confermano che la rappresentazione tempo-frequenza è il perno. Modelli classici moderni come Tacotron (Google, 2017) e FastSpeech (Microsoft, 2019) prendono il testo e producono un mel-spettrogramma; poi un componente separato, il vocoder (per esempio WaveNet o HiFi-GAN), riconverte lo spettrogramma in forma d’onda udibile.

Perché due stadi e non uno solo che produce direttamente l’onda? Perché generare un mel-spettrogramma è molto più facile che generare 16000 o più campioni al secondo di forma d’onda: lo spettrogramma è una rappresentazione compatta e strutturata, l’onda è lunga e dettagliata. Si divide il problema in due: prima decidere cosa dire in termini di contenuto spettrale (più facile), poi sintetizzare i campioni fedeli (compito del vocoder, addestrato apposta).

Lo stesso oggetto — il mel-spettrogramma — è il formato intermedio sia quando si riconosce il parlato (audio → spettrogramma → testo) sia quando lo si genera (testo → spettrogramma → audio). È il perno attorno a cui ruota l’audio nel machine learning, in entrambe le direzioni. E il vocoder che ricostruisce l’onda dallo spettrogramma è esattamente il punto dove serve recuperare la fase persa, un dettaglio su cui torno nella sezione sui limiti.

Audio tokenization: il ponte verso il generativo

C’è un secondo modo di portare l’audio in un modello, e apre la porta ai modelli audio generativi. Invece di passare per lo spettrogramma, si tokenizza la forma d’onda con un codec neurale.

SoundStream (Google, Zeghidour et al. 2021) ed EnCodec (Meta, dal paper High Fidelity Neural Audio Compression, Défossez et al. 2022) funzionano così: un encoder convoluzionale comprime la forma d’onda in una sequenza di vettori; un bottleneck di Residual Vector Quantization (RVQ) li trasforma in token discreti; un decoder ricostruisce l’audio. Tutto il sistema è addestrato end-to-end per minimizzare una perdita di ricostruzione nel dominio del tempo e della frequenza.

Vale la pena srotolare cos’è la RVQ, perché è l’ingranaggio chiave. Una quantizzazione vettoriale semplice prende un vettore e lo sostituisce con la “parola” più vicina presa da un dizionario fisso (un codebook): il vettore diventa l’indice di quella parola, cioè un token. Ma con un solo dizionario, per essere fedeli servirebbero milioni di parole.

La RVQ aggira il problema con una quantizzazione a più stadi: il primo dizionario approssima il vettore, si calcola l’errore residuo (quanto si è sbagliato), un secondo dizionario approssima il residuo, e così via. Ogni stadio rifinisce il precedente, e con pochi dizionari piccoli si raggiunge una fedeltà che uno solo, gigantesco, non darebbe. Il risultato è che ogni frammento di audio diventa una manciata di token discreti.

Questi token discreti sono il “linguaggio” dei modelli audio generativi. Un modello come MusicGen (Meta, 2023) genera sequenze di token EnCodec, esattamente nel modo in cui un LLM genera token di testo: un token alla volta, condizionando su quelli già prodotti, e poi il decoder del codec riconverte i token in suono.

È il ponte concettuale che porta l’audio dentro l’architettura autoregressiva degli LLM: una volta che l’audio è una sequenza di token discreti, generare musica è strutturalmente lo stesso problema che generare testo.

Due classi di affermazione da tenere distinte, qui. Che EnCodec usi RVQ derivandolo da SoundStream è filiazione documentata: il paper EnCodec cita SoundStream come il lavoro più rilevante e ne eredita l’impianto.

Che i token audio “siano come i token di testo” è invece analogia strutturale: il formato è lo stesso (una sequenza discreta consumata da un Transformer autoregressivo), ma cosa rappresenta ciascun token — un frammento di forma d’onda invece di un frammento di parola — e come lo si ottiene sono diversi. L’analogia è forte e utile; non è un’equivalenza.

La meccanica della visione: dall’immagine al modello

L’immagine come segnale a due dimensioni

Tutto il vocabolario dei segnali si trasporta dal tempo (una dimensione) allo spazio (due dimensioni). Un’immagine è una funzione intensità $(x, y)$ campionata su una griglia: la risoluzione è il sample rate spaziale, e i pixel sono i campioni.

Concretamente, un’immagine a colori 256x256 è un tensore di 256x256x3 numeri (i tre canali rosso, verde, blu), cioè quasi 200000 valori. Esattamente come la forma d’onda audio era una sequenza di numeri e lo spettrogramma una matrice, l’immagine è una matrice (anzi un tensore). Da questo punto di vista, un’immagine e uno spettrogramma sono lo stesso tipo di oggetto — una matrice di numeri — il che spiega meccanicamente perché gli strati pensati per le immagini si riusano sull’audio: ricevono lo stesso formato.

Le idee della Parte si spostano di peso dal tempo allo spazio:

Il campionamento diventa la risoluzione: quanti pixel per lato.
L’aliasing diventa spaziale: il moiré che compare quando si riduce male un’immagine con un pattern fine (una camicia a righe sottili, una grata) è esattamente aliasing, lo stesso fenomeno del campionamento, in due dimensioni. Per questo, prima di rimpicciolire un’immagine, serve un filtro passa-basso (lo smoothing anti-aliasing): è la versione 2D della regola che impone di filtrare prima di sottocampionare.
La convoluzione diventa un filtro 2D che scorre sull’immagine.

Convoluzione verso CNN: una filiazione diretta

La convoluzione delle reti convoluzionali — le CNN, Convolutional Neural Networks, le reti che hanno dominato la visione dal 2012 — è la stessa operazione dei filtri lineari della Parte. Un piccolo kernel scorre sull’immagine, e in ogni posizione calcola una somma pesata dei pixel sotto di sé. Identico, meccanicamente, a un filtro di smoothing o di edge detection.

La differenza fondante è una sola, e contiene la tesi del capitolo: nei filtri classici i coefficienti del kernel sono progettati a mano (un kernel di Sobel per trovare i bordi, una gaussiana per sfocare), mentre in una CNN i coefficienti sono parametri appresi dall’ottimizzatore durante l’addestramento. La rete non riceve un kernel: lo scopre.

C’è poi una seconda eredità dei segnali dentro le CNN, oltre alla convoluzione: il parameter sharing. Lo stesso kernel viene applicato in ogni posizione dell’immagine, esattamente come un filtro classico scorre identico su tutto il segnale.

Questo significa che un edge detector appreso funziona ovunque nell’immagine, non solo dove l’ha visto in addestramento. È la proprietà di invarianza alla traslazione dei sistemi lineari tempo-invarianti, vista nel capitolo sui segnali e sistemi, trasportata nelle reti.

Questa è filiazione, non analogia: le CNN nascono esplicitamente dall’idea di convoluzione. Il lignaggio è documentato e tracciabile, dal Neocognitron di Kunihiko Fukushima (ricercatore giapponese, 1980), che introduce strati che applicano lo stesso filtro su tutta l’immagine, fino a LeNet di Yann LeCun (informatico francese, poi tra i pionieri del deep learning, 1989-1998), la prima CNN addestrata con backpropagation per leggere cifre scritte a mano sugli assegni bancari.

E c’è un dettaglio che chiude poeticamente il cerchio. Se si visualizzano i kernel che il primo strato di una CNN addestrata ha imparato, si vedono spesso filtri che assomigliano a edge detector e a filtri di Gabor (filtri sensibili a una certa frequenza e orientamento, usati da decenni nell’elaborazione delle immagini).

La rete, lasciata libera di scegliere i coefficienti, ha riscoperto da sola ciò che gli ingegneri dei segnali progettavano a mano. È la prova più diretta della tesi del capitolo: stesse operazioni, coefficienti appresi invece che progettati. Non perché qualcuno gliel’abbia insegnato, ma perché quei filtri sono utili per la visione, e l’ottimizzazione li trova.

CNN verso Vision Transformer: il passaggio recente

Per quasi un decennio (2012-2020) la visione è stata terra delle CNN. Poi è arrivato il Vision Transformer (ViT, dal paper An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, Dosovitskiy et al., ICLR 2021), che ha mostrato che un Transformer puro, applicato direttamente a sequenze di patch dell’immagine, può battere le CNN quando lo si addestra su dati sufficienti.

Il meccanismo è semplice da descrivere: il ViT spezza l’immagine in patch quadrate (per esempio 16x16 pixel, da cui il titolo del paper), proietta linearmente ciascuna patch in un embedding, aggiunge un’informazione di posizione, e tratta la sequenza di patch-embedding come tratterebbe una sequenza di token di testo. Da lì in poi è un Transformer standard.

Perché spezzare in patch invece di dare un pixel per volta? Per un motivo di costo. L’attention del Transformer ha un costo che cresce con il quadrato della lunghezza della sequenza: un’immagine di 224x224 pixel sono circa 50000 pixel, e una sequenza di 50000 elementi renderebbe l’attention proibitiva.

Spezzando in patch 16x16 si ottengono invece 196 patch (14x14): una sequenza corta, gestibile. La patch è il compromesso tra “un token per pixel” (troppo lungo) e “un token per l’immagine intera” (troppo grossolano).

Qui serve massima cura sulla classe dell’affermazione, perché è il punto dove si scivola più facilmente. Spezzare un’immagine in patch ricorda un ricampionamento a blocchi: ogni patch è una specie di “super-pixel”, un campione aggregato di una regione. L’analogia è utile per capire cosa succede.

Ma è solo un’analogia: gli autori del ViT non derivano l’idea delle patch dal teorema di campionamento, e il ViT non discende dalla teoria del campionamento. Le patch nascono dalla preoccupazione di costo appena vista, non da Nyquist. Dire “le patch sono campionamento, quindi il ViT discende da Nyquist” sarebbe una filiazione inventata. Tieni l’analogia per l’intuizione, scartala come storia.

C’è anche una differenza profonda di stile rispetto alle CNN, che vale la pena nominare. Una CNN ha incorporata l’idea di località: un kernel guarda solo una piccola regione vicina, e questo riflette un’assunzione (i pixel vicini sono più legati di quelli lontani) che per le immagini è spesso giusta. Il ViT non ha questa assunzione incorporata: l’attention permette a ogni patch di guardare ogni altra patch fin dal primo strato.

È più libero ma anche più affamato di dati — deve imparare dai dati ciò che la CNN dava per scontato. Per questo il titolo del paper sottolinea “at scale”: il ViT batte le CNN quando i dati sono abbondanti, e perde quando sono pochi. La struttura progettata a mano della CNN è un vantaggio con pochi dati, un vincolo con molti. È la stessa tensione tra “progettato” e “appreso” della tesi del capitolo, vista dall’angolo opposto: a volte progettare a mano un’assunzione aiuta, quando i dati per impararla non bastano.

Il ritorno di Fourier: spectral bias e Fourier features

C’è un terzo legame con la Parte, più sottile e sorprendente, e riguarda di nuovo Fourier — non più come front-end, ma come comportamento interno delle reti.

Le reti neurali hanno una tendenza documentata a imparare prima le basse frequenze e solo più tardi, durante l’addestramento, le alte. Il fenomeno si chiama spectral bias, ed è stato analizzato nel paper On the Spectral Bias of Neural Networks (Rahaman et al., ICML 2019), che usa l’analisi di Fourier sulle reti ReLU per mostrare che le componenti a bassa frequenza vengono apprese per prime e sono più robuste.

In pratica, se chiedi a una rete di imparare una funzione che ha sia variazioni lente sia dettagli fini, la rete impara prima la forma grossolana e fatica con i dettagli — bordi netti, texture minute, transizioni rapide. Pensa a un disegnatore che butta giù la sagoma generale subito e impiega molto più tempo a definire i particolari minuti: la rete ha la stessa pigrizia verso le alte frequenze.

La soluzione, e qui Fourier rientra dalla porta principale, è codificare l’input in Fourier features: invece di dare alla rete le coordinate grezze (per esempio la posizione $(x, y)$ di un punto da rappresentare), si mappano quelle coordinate in una base di seni e coseni a diverse frequenze — qualcosa come $[\sin(x), \cos(x), \sin(2x), \cos(2x), \dots]$ — e poi si dà questo vettore alla rete.

Il trucco funziona perché si fornisce alla rete, già pronte in input, le alte frequenze che da sola farebbe fatica a costruire. Improvvisamente i dettagli fini si imparano. Il risultato è del paper Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains (Tancik et al., NeurIPS 2020), ed è alla base dei campi neurali come i NeRF (le reti che rappresentano una scena 3D come una funzione continua, da cui si rigenerano viste fotorealistiche). La trasformata di Fourier, introdotta in questa Parte per leggere un segnale, ricompare qui non come front-end ma come encoding dell’input che insegna a una rete a vedere i dettagli.

La convergenza: multimodalità

Arriviamo al punto verso cui tutto l’arco “dal segnale al token” puntava. Una volta che testo, audio, immagine e video sono ridotti a sequenze di vettori, possono vivere in uno spazio di rappresentazione comune. Modalità diverse, stesso spazio.

Il caso emblematico è CLIP (OpenAI, dal paper Learning Transferable Visual Models From Natural Language Supervision, Radford et al., ICML 2021). CLIP addestra in parallelo un encoder di immagini e un encoder di testo, su 400 milioni di coppie (immagine, didascalia) raccolte dal web, con una loss contrastiva: la rete impara a mappare un’immagine e la sua didascalia vicine nello stesso spazio vettoriale, e a tenere lontane le coppie sbagliate.

Il risultato è uno spazio dove una direzione può essere indicata sia da un’immagine sia dalle parole che la descrivono. Una foto di un gatto e la stringa “una foto di un gatto” finiscono vicine.

Questo abilita un trucco potente, la classificazione zero-shot: per riconoscere se un’immagine è un gatto o un cane, non serve un classificatore addestrato su gatti e cani; basta misurare se l’embedding dell’immagine è più vicino all’embedding di “una foto di un gatto” o di “una foto di un cane”. Il riconoscimento diventa una misura di distanza nello spazio comune, e cambiare le classi da riconoscere significa solo cambiare le frasi, non riaddestrare.

Questo spazio condiviso è anche il motivo per cui i modelli che “vedono e parlano” — i VLM, Vision-Language Models, come GPT-4V o Claude con visione — funzionano. A grandi linee, prendono un’immagine, la passano per un encoder in stile CLIP/ViT che la trasforma in una sequenza di embedding, e infilano quegli embedding nello stesso flusso di token che il modello usa per il testo.

Per il Transformer, a quel punto, l’immagine è semplicemente un’altra manciata di token nella sequenza, trattati dalla stessa attention che tratta le parole. L’arco “dal segnale al token” si chiude letteralmente qui: l’immagine, partita come griglia di pixel campionati da un sensore, finisce come token accanto alle parole. Tre stadi — acquisizione, rappresentazione, tokenizzazione — e una grandezza fisica continua è diventata input per lo stesso modello che legge il testo.

Il legame con questa Parte è la sensor fusion, ed è il legame da maneggiare con più attenzione di tutti. La sensor fusion è l’antenato concettuale della fusione di modalità. Un filtro di Kalman fonde misure di sensori diversi — GPS e accelerometro, per esempio — in una stima coerente dello stato di un sistema; un modello multimodale fonde rappresentazioni di modalità diverse — pixel e testo — in una rappresentazione coerente di un contenuto.

La classe dell’affermazione è analogia concettuale, non filiazione. CLIP non discende dal filtro di Kalman; nessuno degli autori ha derivato la loss contrastiva dalla teoria della stima ottima.

Ma entrambi risolvono lo stesso problema astratto: integrare fonti eterogenee e imperfette in un’unica stima coerente. È un’analogia che insegna — fa vedere la multimodalità come un problema di fusione, non come una novità senza radici — ma sarebbe un errore presentarla come discendenza storica. Marca il salto e l’analogia resta preziosa.

Il rumore come risorsa

Nei capitoli precedenti il rumore è il nemico: una contaminazione da filtrare, da cui difendere il segnale, misurata dal rapporto segnale-rumore (SNR). I modelli di diffusione capovolgono completamente questo ruolo, e il capovolgimento è istruttivo.

I Denoising Diffusion Probabilistic Models (DDPM, dal paper omonimo di Ho, Jain, Abbeel, NeurIPS 2020) definiscono due processi. Il processo forward prende un dato pulito — un’immagine, un audio — e aggiunge progressivamente rumore gaussiano, passo dopo passo, finché dopo molti passi non resta che rumore puro, indistinguibile da una distribuzione gaussiana.

Il processo reverse è quello che si addestra: una rete impara a invertire un singolo passo di rumore, cioè a fare denoising. A generazione, si parte da rumore puro e si applica la rete ripetutamente, rimuovendo rumore un passo alla volta, fino a far emergere un campione pulito — un’immagine nuova, un suono nuovo.

La direzione del tempo è capovolta rispetto al filtraggio classico: lì si parte dal segnale sporco e si arriva al pulito una volta sola; qui si parte dal rumore totale e si arriva a un dato inventato, in molti passi piccoli.

Lo stesso oggetto — il rumore gaussiano, l’SNR — che nei capitoli precedenti si combatteva, qui è il punto di partenza generativo. Non una grandezza diversa: la stessa, con ruolo opposto. È il segno che il vocabolario dei segnali non solo descrive l’input dei modelli, ma anche il loro meccanismo generativo. La stessa parola, “rumore”, attraversa tutta la Parte e poi cambia segno.

C’è di più: durante il processo di denoising, ogni passo è in pratica un’operazione di filtraggio appreso. La rete, a ogni passo, stima quanto rumore togliere e dove — esattamente il problema del filtraggio della Parte, ma con la mappa di rimozione appresa invece che progettata, e ripetuta molte volte. Il legame con la tesi del capitolo è diretto: anche qui filtri appresi al posto di filtri progettati.

E il meccanismo non è confinato alle immagini. Esistono diffusion model per l’audio (che operano sullo spettrogramma o sulla forma d’onda) e per il video. Il rumore come materia prima è una ricetta generativa generale, che si applica a qualsiasi segnale: si impara a invertire la sua distruzione progressiva. Il fatto che funzioni su immagini, audio e video con la stessa logica è un’ulteriore conferma che questi non sono domini separati, ma segnali diversi trattati con lo stesso impianto.

Le serie temporali e gli altri segnali

Audio e immagini sono i due casi più visibili, ma non esauriscono i “segnali” che i modelli trattano.

Il video è il caso più diretto: è un segnale a tre dimensioni, due spaziali e una temporale — una pila di immagini campionate nel tempo. Tutto il vocabolario si estende di nuovo: il frame rate è il sample rate temporale, e l’aliasing temporale del video è il familiare effetto per cui le ruote di un’automobile in un filmato sembrano girare all’indietro (la rotazione è troppo veloce per il frame rate).

I modelli che generano video (come quelli basati su diffusion) trattano questo segnale 3D con convoluzioni 3D o con attention distribuita sullo spazio e sul tempo. Stessa cassetta degli attrezzi, un asse in più.

Poi ci sono le serie temporali — serie finanziarie, segnali fisiologici come ECG ed EEG, dati di sensori IoT — anch’esse segnali campionati nel tempo, e i modelli che le elaborano ereditano lo stesso identico vocabolario: campionamento, autocorrelazione, stazionarietà, rumore.

Il punto operativo: un ECG dato in pasto a una CNN a una dimensione (una convoluzione che scorre lungo il tempo invece che sullo spazio dell’immagine) è la convoluzione di questa Parte applicata a un segnale fisiologico. L’operazione è la stessa che si applica all’audio o all’immagine; cambia solo la dimensionalità e la natura del dato.

Lo si vede meglio mettendo le tre convoluzioni una accanto all’altra in pseudocodice. È letteralmente lo stesso ciclo, con un asse in più o in meno:

# convoluzione 1D: ECG, audio, serie temporale (scorre nel tempo)
for t in range(lunghezza):
    out[t] = somma( kernel[i] * segnale[t + i] for i in range(K) )

# convoluzione 2D: immagine (scorre su righe e colonne)
for y in range(altezza):
    for x in range(larghezza):
        out[y][x] = somma( kernel[i][j] * img[y+i][x+j]
                           for i in range(K) for j in range(K) )

Nel filtro classico, kernel è una costante scritta dall’ingegnere. Nella CNN, kernel è un parametro che l’ottimizzatore aggiusta a ogni passo di addestramento. Il ciclo non cambia: cambia da dove arrivano i numeri dentro kernel.

Questo unifica il quadro: non ci sono “tecniche per l’audio”, “tecniche per la visione”, “tecniche per le serie”. C’è un’unica cassetta degli attrezzi — campionamento, convoluzione, Fourier, gestione del rumore — applicata a segnali di natura diversa.

Il concetto unificante

Mettendo insieme tutti i fili, emerge la tesi che è il “cosa portarsi a casa” della Parte XII.

Gran parte del deep learning percettivo è elaborazione di segnali in cui i filtri e le feature sono appresi invece che progettati a mano.

L’elaborazione dei segnali classica costruisce una pipeline di operazioni fisse: questo filtro, questa trasformata, questa soglia, scelti da un ingegnere sulla base della teoria. Il deep learning percettivo costruisce una pipeline di operazioni della stessa famiglia — convoluzioni, trasformazioni lineari, non-linearità — ma con i coefficienti ottimizzati sui dati invece che fissati a priori. La continuità è nelle operazioni; la rottura è in chi sceglie i numeri.

La tabella mette in fila i due mondi, operazione per operazione:

Concetto della Parte	Elaborazione segnali classica	Deep learning percettivo
Convoluzione / filtro	kernel progettato (Sobel, gaussiana)	kernel appreso (strato CNN)
Trasformata di Fourier	front-end fisso (MFCC, spettrogramma)	front-end fisso (Whisper) + encoding appreso (Fourier features)
Campionamento	sample rate scelto dall’ingegnere	scelto a monte; il modello lo eredita come vincolo
Estrazione di feature	feature progettate a mano (MFCC, HOG, SIFT)	feature apprese dagli strati interni
Rumore	da filtrare (denoising)	materia prima generativa (diffusion)

La colonna di sinistra è la Parte XII; la colonna di destra è ciò che incontri nelle Parti su machine learning e architetture moderne. La riga per riga mostra che non si è cambiato strumento: si è cambiato chi imposta lo strumento.

Da questo discende un corollario molto pratico, ed è il motivo per cui questa Parte non è un dettaglio marginale per chi lavora con l’AI: chi conosce l’elaborazione dei segnali ha un vantaggio concreto nel capire — e nel fare debug — dei modelli percettivi.

Le manopole sono in larga parte le stesse: sample rate, dimensione della finestra, overlap, banda, normalizzazione. La differenza è che alcune ora sono apprese, ma molte restano scelte di front-end che il modello eredita e che, se sbagliate, lo rompono in modi silenziosi.

Il ponte in avanti

Da qui la wiki si dirama verso le Parti dove questi fili diventano i modelli veri e propri.

La convoluzione appresa e le sue architetture (LeNet, AlexNet, ResNet) sono il cuore della Parte su machine learning, dove le CNN, i diffusion model e il contrastive learning di CLIP hanno i loro capitoli dedicati. Il formato comune verso cui converge l’arco “dal segnale al token” — la sequenza di token e di embedding — è il punto di partenza della Parte sull’anatomia di un LLM, dove si vede cosa succede a quei token una volta dentro il Transformer.

E la convergenza multimodale che qui abbiamo solo abbozzato — Whisper, ViT, CLIP, i VLM, i modelli audio e video generativi — è l’oggetto della Parte sulle architetture moderne, che racconta in dettaglio i modelli che qui sono serviti come destinazioni del ponte. Quello che questa Parte lascia in eredità a tutte è la consapevolezza che, prima di ogni architettura, c’è un segnale campionato e un front-end che lo prepara: il punto da cui ogni modello percettivo, per quanto sofisticato, deve partire.

Applicazioni pratiche

Tre scenari concreti dove questa Parte si paga da sola.

Debug di una pipeline ASR. Il modello speech trascrive male e non capisci perché: il modello è quello buono, gli iperparametri sembrano a posto. Guardi lo spettrogramma dell’audio in input e scopri che è stato ricampionato a 8 kHz lungo la catena.

Per il teorema di Nyquist, a 8 kHz la banda massima rappresentabile è 4 kHz, e le consonanti sibilanti (la /s/, la /f/) che vivono sopra i 4 kHz sono state tagliate via: lo spettrogramma è “vuoto” nella parte alta. Il problema non è il modello: è il campionamento a monte. Senza saper leggere uno spettrogramma e senza capire Nyquist, avresti perso ore a toccare il modello sbagliando bersaglio.

Preparare un dataset di immagini per un ViT. Devi ridimensionare migliaia di immagini alla risoluzione di input del modello. Se usi un resampling ingenuo (nearest neighbor, senza filtro anti-aliasing) introduci moiré e artefatti ad alta frequenza, e il modello impara su quegli artefatti invece che sul contenuto. La cura è il resampling con anti-aliasing: filtra prima di sottocampionare, esattamente la regola della Parte applicata alle immagini.

Costruire un modello musicale. Devi decidere su cosa far lavorare il modello: mel-spettrogrammi o token EnCodec. La scelta non è cosmetica — determina l’architettura. Su spettrogramma, è naturale un diffusion model che genera l’immagine spettrale e poi un vocoder; su token, è naturale un Transformer autoregressivo che genera la sequenza di token, come un LLM. Capire la differenza tra le due rappresentazioni — continua tempo-frequenza contro discreta tokenizzata — è la prima decisione di progetto.

Diagnosticare un VLM che “non vede” un dettaglio. Un modello multimodale sbaglia a leggere un testo piccolo dentro un’immagine, o non distingue due oggetti minuti vicini. Spesso la causa è a monte del modello: l’immagine è stata ridimensionata alla risoluzione di input dell’encoder (per esempio 224 o 336 pixel per lato), e a quella risoluzione il dettaglio fine è sotto la soglia di campionamento — è stato perso prima che il modello lo vedesse.

È lo stesso aliasing del downsampling, e la cura non è un modello più grande ma una pipeline di input che preservi la risoluzione dove serve (tiling dell’immagine, encoder ad alta risoluzione). Senza il vocabolario dei segnali, si finisce a colpevolizzare il modello per un’informazione che non gli è mai arrivata.

E, sotto a tutti gli scenari, le quattro cose che un ingegnere AI usa davvero di questa Parte, ogni volta che tocca dati percettivi:

Saper leggere uno spettrogramma: per capire al volo se un audio è clippato, rumoroso, troncato in banda, prima ancora di guardare il modello.
Capire l’aliasing nel downsampling: per non corrompere immagini e audio quando li si ricampiona, e sapere che serve un filtro passa-basso prima di ridurre la risoluzione.
Capire perché si normalizza e si finestra: la scalatura dell’input (Whisper scala tra -1 e 1) e la finestratura nella STFT non sono dettagli cosmetici; sbagliarle degrada il modello in modi che non danno errori espliciti.
Capire il campionamento dei dati: un dataset è un campionamento della realtà, e il bias di campionamento si propaga dentro il modello come l’aliasing si propaga dentro un segnale sottocampionato male.

Dove si rompe

Un capitolo-ponte può fare un danno specifico: far sembrare i legami più forti e più puliti di quanto siano. Le confusioni più comuni, e i punti dove la continuità tra segnali e deep learning si incrina, vanno detti con la stessa cura del resto.

“La convoluzione delle CNN è esattamente la stessa dei filtri classici.” Come operazione, sì, la parentela è reale. Ma due dettagli divergono.

Primo: nel deep learning si usa quasi sempre la cross-correlation (il kernel non viene ribaltato), chiamata “convoluzione” per abuso di linguaggio ormai consolidato; la convoluzione matematica vera ribalta il kernel. Per i kernel appresi la differenza è irrilevante (la rete impara comunque i coefficienti giusti), ma chi confronta le formule deve saperlo. Secondo: i coefficienti sono appresi, non progettati, ed è proprio questa la rottura che il capitolo celebra. La filiazione è reale; l’identità completa no.

“Le patch del ViT sono campionamento, quindi il ViT discende da Nyquist.” No. È l’errore di classe più seducente del capitolo. Spezzare in patch ricorda un campionamento a blocchi (analogia utile), ma non è un’applicazione del teorema di campionamento e il ViT non ne discende storicamente. Le patch sono una scelta architetturale per dare al Transformer una sequenza gestibile. Analogia per capire, non filiazione da raccontare.

“I token audio sono come i token di testo, quindi sono la stessa cosa.” Analogia strutturale forte — stesso formato sequenziale discreto, stessa generazione autoregressiva — ma non equivalenza.

Un token EnCodec rappresenta un frammento di forma d’onda quantizzato; un token di testo rappresenta un frammento di parola. Cosa codificano e come si ottengono sono diversi. Confondere l’analogia con l’equivalenza porta ad aspettarsi che valgano le stesse intuizioni in entrambi i casi, e non sempre è così.

“Lo spettrogramma è l’audio.” Lo spettrogramma di magnitudine, quello che si dà ai modelli, perde la fase: tiene quanta energia c’è a ciascuna frequenza, ma butta via l’informazione su come le frequenze si allineano nel tempo.

Ricostruire la forma d’onda da uno spettrogramma di magnitudine richiede quindi di stimare o predire la fase, con algoritmi come Griffin-Lim o con vocoder neurali. Non è una rappresentazione senza perdita: è una proiezione, e proiettare butta via qualcosa. Per questo i modelli TTS hanno bisogno di un vocoder, non di una semplice inversione.

“Il rumore è sempre qualcosa da rimuovere.” Lo è nei capitoli sul filtraggio; non lo è nei diffusion model, dove è la materia prima generativa. Il ruolo del rumore dipende dal task. Portarsi dietro l’idea che il rumore sia solo un nemico impedisce di capire come funziona un’intera famiglia di modelli generativi.

Il confine apprendimento/progettazione si sposta, non sparisce. È facile concludere “allora il deep learning impara tutto da solo, il front-end di segnali è obsoleto”. Falso.

Il confine si è spostato più in basso, non è scomparso: lo spettrogramma di Whisper è ancora progettato a mano, la finestra è ancora una scelta, il sample rate è ancora un vincolo.

Esistono modelli che lavorano sulla forma d’onda grezza (come WaveNet o wav2vec), spostando ancora il confine, ma anche lì le scelte di campionamento e normalizzazione restano. La pipeline di segnali non è sparita: è diventata in parte apprendibile, e in parte resta progettata. Trattarla come un dettaglio obsoleto è il modo più sicuro per inciampare nei bug silenziosi della sezione precedente.

L’analogia con la sensor fusion non è un meccanismo condiviso. Dire che la multimodalità “è” sensor fusion induce a cercare nei modelli multimodali strutture che non ci sono (un’equazione di aggiornamento alla Kalman, una stima esplicita dell’incertezza). CLIP non ha nulla di tutto ciò: ha una loss contrastiva. L’analogia illumina il problema (fondere fonti eterogenee); non descrive il meccanismo (che è completamente diverso).

La scala mel butta via informazione, e a volte conta. Il mel-spettrogramma è progettato per la voce umana, dove la compressione percettiva delle alte frequenze è quasi sempre innocua. Ma per altri segnali audio — musica con armonici acuti importanti, segnali ultrasonici, suoni di animali fuori dal range vocale umano — la scala mel scarta proprio ciò che conta. Usare un front-end pensato per lo speech su un dominio diverso è un errore silenzioso: il modello non vede l’informazione perché il front-end l’ha rimossa prima. Il front-end progettato a mano porta con sé le assunzioni di chi l’ha progettato.

“Più risoluzione è sempre meglio.” Aumentare il sample rate audio o la risoluzione immagine sembra gratis dal punto di vista della qualità, ma costa: la sequenza si allunga, e l’attention del Transformer cresce con il quadrato della lunghezza. Raddoppiare la risoluzione di un’immagine quadruplica il numero di patch e moltiplica per sedici il costo dell’attention. La scelta del campionamento non è solo “quanta informazione catturo” ma anche “quanto mi costa elaborarla”: è un trade-off, non una monotona.

Collegamenti

Intra-Parte, gli otto capitoli di cui questo tira le fila:

Segnali continui, discreti, sistemi lineari — la definizione di segnale e di sistema su cui poggia tutto; audio, immagini e serie sono tutti segnali nel senso di questo capitolo.
Campionamento, aliasing, teorema di Nyquist — il primo stadio dell’arco “dal segnale al token”: il mondo continuo diventa numeri; la risoluzione di un’immagine e il sample rate dell’audio sono lo stesso concetto.
Filtri, convoluzione, smoothing, edge detection — la convoluzione che diventa lo strato di una CNN; la filiazione più diretta tra questa Parte e il deep learning.
Fourier: vedere frequenze invece di tempo — la trasformata sotto la STFT, sotto lo spettrogramma di Whisper, e sotto le Fourier features che curano lo spectral bias.
Spettrogrammi e rappresentazioni tempo-frequenza — il front-end letterale di Whisper, dei TTS e dei modelli musicali; l’immagine in cui il suono diventa leggibile.
Rumore, signal-to-noise ratio, filtraggio — il rumore come nemico nei capitoli precedenti e come risorsa nei diffusion model; lo stesso oggetto, ruolo opposto.
Fondere misure imperfette da sensori diversi — l’antenato concettuale (per analogia, non filiazione) della fusione di modalità che CLIP realizza.
Serie temporali, autocorrelazione, forecasting — gli altri segnali campionati nel tempo, trattati dalle stesse convoluzioni e dagli stessi Transformer.

Cross-Parte, le destinazioni del ponte (la maggior parte ancora da scrivere):

cnn-base e cnn-architetture (Parte XVIII, Machine Learning, in preparazione) — la convoluzione appresa, dalla LeNet alle reti profonde moderne: il dettaglio del passaggio che qui è solo accennato.
multimodal-vision, multimodal-audio, whisper, tts-moderno, music-generation, image-generation-diffusion (Parte XXII, Architetture moderne, in preparazione) — le destinazioni complete: ViT e CLIP, l’audio tokenizzato, Whisper in profondità, i modelli generativi di immagini e musica.
diffusion e contrastive (Parte XVIII, Machine Learning, in preparazione) — il rumore generativo dei diffusion model e la loss contrastiva di CLIP, qui solo introdotti.
tokenizzazione-intro ed embedding-input-output (Parte XXI, Anatomia di un LLM, in preparazione) — il formato comune (sequenza di vettori, token) verso cui converge tutto l’arco “dal segnale al token”.

Per andare oltre

Radford, A. et al., “Robust Speech Recognition via Large-Scale Weak Supervision” (OpenAI, 2022, arXiv:2212.04356) — il paper di Whisper. La sezione sull’architettura documenta esattamente il front-end log-mel: la prova diretta che lo spettrogramma è l’input, non la forma d’onda.
Dosovitskiy, A. et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale” (ICLR 2021, arXiv:2010.11929) — il Vision Transformer. Da leggere per vedere come e perché le immagini diventano sequenze di patch, e per capire dove l’analogia col campionamento regge e dove no.
Défossez, A. et al., “High Fidelity Neural Audio Compression” (Meta AI, 2022, arXiv:2210.13438) — EnCodec. Il codec neurale che tokenizza l’audio con Residual Vector Quantization; il ponte tecnico tra la forma d’onda e i modelli audio generativi.
Rahaman, N. et al., “On the Spectral Bias of Neural Networks” (ICML 2019, arXiv:1806.08734) e Tancik, M. et al., “Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains” (NeurIPS 2020, arXiv:2006.10739) — la coppia che spiega perché le reti faticano sulle alte frequenze e come Fourier rientra dentro il deep learning come encoding dell’input.
Ho, J., Jain, A., Abbeel, P., “Denoising Diffusion Probabilistic Models” (NeurIPS 2020, arXiv:2006.11239) — il paper fondativo dei diffusion model; la lettura migliore per capire il rumore come risorsa generativa invece che come nemico da filtrare.