ImageNet e AlexNet 2012: il momento deep learning

Il 30 settembre 2012 una rete neurale convoluzionale chiamata AlexNet vince la competizione ILSVRC con un margine di oltre dieci punti percentuali sul secondo classificato. In una sola misurazione si chiude l’era del feature engineering manuale e si apre l’era del representation learning end-to-end. La lezione duratura non è che sia stata “inventata” qualcosa di nuovo: è che tre forze indipendenti — un dataset di scala senza precedenti, hardware GPU finalmente accessibile, un repertorio di trucchi algoritmici maturati per decenni — hanno smesso di crescere in parallelo e si sono incontrate.

Perché questo capitolo

Quando si racconta l’AI moderna in tono divulgativo, c’è una scena obbligata: AlexNet vince ImageNet 2012, l’AI esplode, il mondo cambia. La scena è vera nei suoi fatti, ma diventa fuorviante se viene letta come una rivoluzione algoritmica improvvisa. La verità storica è diversa e più istruttiva: AlexNet è la dimostrazione conclusiva di una convergenza che era avvenuta in silenzio per anni. I suoi ingredienti tecnici — backpropagation, reti convoluzionali, attivazioni rectified linear, regolarizzazione stocastica, addestramento su processori grafici — non erano nuovi nel 2012. Erano in giro, in alcuni casi da decenni. Mancava qualcuno che li mettesse tutti insieme con cura ingegneristica, su un benchmark che il mondo guardasse, e con un risultato così netto da non poter essere ignorato. Krizhevsky-Sutskever-Hinton sono stati quel qualcuno.

Lo schema — “una comunità accumula ingredienti, qualcuno li combina su scala su un benchmark, il risultato sembra una rivoluzione ma è la cristallizzazione di una sovrasaturazione” — non è un’invenzione del 2012. È il pattern ricorrente con cui le svolte tecnologiche maturano nel tempo lungo, ed è una lente utile per leggere ondate successive (le applicazioni contemporanee sono discusse in “Applicazioni pratiche”). Chi guarda al solo evento di superficie commette due errori speculari: sopravvaluta la novità o la sottovaluta.

C’è una terza ragione, più pratica, per cui questo capitolo conta. Senza ImageNet, AlexNet sarebbe stata un esperimento di nicchia. Senza GPU programmabili, sarebbe stata troppo lenta. Senza il cocktail di trucchi (ReLU, dropout, data augmentation), avrebbe overfittato e perso. Lo schema “dati + compute + algoritmi” come triade necessaria è il modello mentale operativo per giudicare se qualunque nuovo paradigma è pronto per il deploy. La domanda da farsi prima di abbracciare un nuovo modello, una nuova architettura, un nuovo metodo non è “è possibile in linea di principio?”. È “i tre vertici sono disponibili insieme?”. Se anche solo uno manca, il paradigma è immaturo e va incubato, non investito.

Contesto

Il capitolo prende il filo direttamente da reti-neurali-80-90, dove abbiamo visto la traversata silenziosa del filone connessionista tra Hopfield 1982 e i tardi anni 2000, e da svm-era-2000, dove abbiamo visto il paradigma dominante che AlexNet andrà a soppiantare. Nei primi mesi del 2012, queste due storie sono ancora separate.

Il paradigma di maggioranza è la pipeline feature-engineering + classifier statistico. Per la vision, le feature canoniche sono SIFT (Scale-Invariant Feature Transform, introdotte da David Lowe nel 1999, informatico canadese, professore alla University of British Columbia) e HOG (Histograms of Oriented Gradients, Navneet Dalal e Bill Triggs, INRIA Grenoble, paper CVPR 2005). SIFT e HOG sono entrambe descrittori locali progettati a mano: prendono un’immagine, identificano punti di interesse o regioni, e producono per ognuna un vettore numerico che codifica gradienti, orientazioni, intensità relative in modo robusto a piccole variazioni di scala, illuminazione e rotazione. Sopra le feature, un encoder (Bag-of-Visual-Words, Fisher Vectors di Florent Perronnin e Jorge Sanchez 2010, o Locality-constrained Linear Coding) trasforma l’insieme di descrittori locali in un singolo vettore di dimensione fissa per immagine. Sopra il vettore, una Support Vector Machine con kernel lineare o RBF fa la classificazione.

Questa pipeline, raffinata in dieci anni di lavoro accademico, è lo stato dell’arte nel 2011. I vincitori di ILSVRC 2010 (un team congiunto NEC Labs America + UIUC) e ILSVRC 2011 (Xerox Research Centre Europe) sono entrambi varianti di questo schema. Il progresso anno su anno è incrementale e prevedibile.

Il paradigma di minoranza è il filone connessionista. Geoffrey Hinton (informatico britannico-canadese, 1947-, professore all’Università di Toronto dal 1987, premio Turing 2018, premio Nobel per la fisica 2024) ha tenuto vivo il lavoro su reti profonde per decenni. Insieme a Yann LeCun (informatico francese, 1960-, allora a New York University, futuro direttore di FAIR) e Yoshua Bengio (informatico canadese, 1964-, professore a Montreal), forma quella che la comunità chiamerà retrospettivamente la “Canadian Mafia” del deep learning. Nel 2006, con Ruslan Salakhutdinov, Hinton pubblica su Science “Reducing the Dimensionality of Data with Neural Networks”, che reintroduce il termine “deep learning” e mostra che reti profonde si possono addestrare con un trucco di pretraining greedy layer-wise basato su Restricted Boltzmann Machines. Tra 2009 e 2012, lo stesso filone produce risultati notevoli su speech recognition: i sistemi ibridi DNN-HMM sviluppati a Microsoft Research e Google iniziano a battere sistematicamente i sistemi puramente HMM-GMM, che dominavano da vent’anni. La rivoluzione del deep learning comincia in speech, non in vision, qualche anno prima di AlexNet.

Cosa cambia tra 2009 e 2012 per rendere possibile il salto in vision sono tre cose, che maturano in parallelo e quasi indipendentemente.

Primo: ImageNet. Fei-Fei Li (informatica cinese-statunitense, 1976-, allora ad ascesa accademica tra Princeton e Stanford) rilascia nel 2009 a CVPR il dataset ImageNet, che porta la scala dei dataset di vision da decine di migliaia di immagini a milioni. Il sottoinsieme standardizzato ILSVRC, dal 2010 in poi, fornisce un benchmark comune e un leaderboard pubblica.

Secondo: GPU programmabili. NVIDIA rilascia CUDA (Compute Unified Device Architecture, una piattaforma per programmare le GPU come acceleratori general-purpose) nel 2007. Tra 2009 e 2011, alcuni gruppi pionieri (in particolare Rajat Raina, Anand Madhavan e Andrew Ng a Stanford con il paper “Large-scale Deep Unsupervised Learning Using Graphics Processors”, ICML 2009) dimostrano che le GPU consumer accelerano il training di reti neurali di un fattore 10-100x rispetto alle CPU. Le GTX 580 di NVIDIA, uscite a fine 2010, hanno 3 GB di memoria e ~1.5 TFLOPS di compute single-precision. Costo: circa 500 USD. Sono economicamente accessibili a un dottorando.

Terzo: un cocktail di trucchi algoritmici matura quasi in contemporanea. ReLU (Rectified Linear Unit, l’attivazione $f(x) = \max(0, x)$ ) emerge come alternativa non-saturante a tanh e sigmoid in vari paper tra 2009 e 2011 (Jarrett-Kavukcuoglu-Ranzato-LeCun 2009; Glorot-Bordes-Bengio 2011). Dropout (la tecnica di regolarizzazione che spegne casualmente neuroni durante il training) viene formalizzato da Hinton e collaboratori nel paper arXiv “Improving neural networks by preventing co-adaptation of feature detectors” del luglio 2012, contemporaneo ad AlexNet. Data augmentation aggressiva (crop, flip, perturbazioni di colore) è tecnica di lunga data in pattern recognition ma viene applicata in modo sistematico al training di CNN profonde in questi anni. SGD con momentum (Boris Polyak 1964, fisico-matematico russo) è standard.

A meta 2012, il setup è pronto. Un piccolo gruppo a Toronto se ne accorge.

L’intuizione

Angolo storico-causale: convergenza, non rivoluzione

Il primo angolo da cui guardare AlexNet 2012 è quello del modello a tre forze. La narrativa popolare è della “rivoluzione magica”: un giorno l’AI era statistica e feature-engineerizzata, il giorno dopo era deep e auto-organizzante, in mezzo c’era un genio che ha cambiato tutto. La narrativa storiograficamente accurata è diversa. AlexNet è la cristallizzazione di una soluzione che esisteva da prima, ma in forme separate.

Il principio attivo è che ogni paradigma scientifico-tecnologico richiede tre vertici per esplodere. Dati in quantità sufficiente per saturare i parametri di un modello flessibile senza overfittare. Compute abbastanza veloce da rendere praticabile il ciclo di iterazione (idea -> esperimento -> misura -> idea), che deve durare ore o giorni, non mesi. Algoritmi che sappiano sfruttare scala di dati e compute, attraverso architetture giuste, regolarizzazione adeguata, ottimizzazione efficace. Quando uno solo dei tre vertici manca, il paradigma resta dormiente. Quando i tre arrivano insieme, la cristallizzazione è rapida.

Per il deep learning vision: i dati erano arrivati nel 2009 (ImageNet). Il compute era arrivato nel 2007-2010 (CUDA, GTX 580). Gli algoritmi erano in giro da molto prima (backprop dal 1986, CNN dal 1989, ReLU dal 2009-2011), ma il loro assemblaggio richiedeva ancora cura ingegneristica. Krizhevsky-Sutskever-Hinton fanno l’assemblaggio. Risultato: il top-5 error sulla ImageNet challenge passa dal 25.8% (2011) al 15.3% (2012). Margine di 10.8 punti, contro i 2-3 punti di miglioramento incrementale degli anni precedenti.

Questa lente — che chiamiamo modello della convergenza matura — è una categoria storiografica, non un teorema. Vale come schema interpretativo per molte svolte tecnologiche, non solo nell’AI. Quando una narrativa parla di “rivoluzione improvvisa”, scavare di solito rivela tre forze che convergono, raramente una scoperta singolare. (Le applicazioni del modello a svolte successive, comprese quelle post-2017, sono in “Applicazioni pratiche”.)

Angolo operativo: imparare le feature, non costruirle a mano

Il secondo angolo è tecnico-operativo, e mostra perché AlexNet rompe il paradigma SVM, non lo perfeziona. Per quindici anni, la ricetta del machine learning applicato è stata: spendi il 90% del tempo a progettare feature di input usando expertise di dominio (un fisiologo per immagini mediche, un linguista per testo, un esperto di musica per audio); spendi il 10% a regolare un classifier abbastanza generico (di solito SVM con kernel RBF). Le feature sono il vero artefatto intellettuale. Il classifier è un commodity.

AlexNet inverte completamente il rapporto. La rete riceve in input l’immagine grezza (al massimo normalizzata e croppata), non feature SIFT o HOG. I cinque layer convoluzionali iniziali apprendono la propria gerarchia di feature direttamente dai dati: layer bassi imparano edge orientati e blob di colore, layer intermedi imparano textures e parti di oggetti, layer alti imparano concetti astratti come “muso di cane” o “ruota di automobile”. Nessuna di queste feature è progettata da un umano. Tutte emergono dall’addestramento end-to-end con backpropagation.

Questo passaggio è meno tecnico e più filosofico di quanto sembri. Per gli SVM-people, il valore aggiunto del lavoro umano era nella conoscenza di dominio cristallizzata nelle feature. Per i deep-learning-people, il valore aggiunto è nello scegliere l’architettura giusta e nel raccogliere abbastanza dati: la conoscenza di dominio si dissolve nei dati stessi. Il primo paradigma celebra l’expertise; il secondo celebra la scala.

L’inversione spiega perché la transizione 2012-2015 è stata professionalmente traumatica per molti. Decenni di carriera spesi a progettare descrittori per riconoscimento di volti, pedoni, oggetti diventano improvvisamente obsoleti. Chi aveva investito identità professionale nelle feature manuali si trova davanti due opzioni: imparare il deep learning e ricominciare, oppure restare nel proprio settore e diventare nicchia. La maggioranza ha scelto la prima, ma con riluttanza e tempo. Una minoranza significativa ha lasciato il campo. Questo costo umano della rivoluzione raramente compare nelle narrazioni divulgative ma è parte sostanziale della storia.

La meccanica

ImageNet (2007-2009): come si costruisce un dataset di scala

L’idea originale è di Fei-Fei Li, che nel 2006-2007, allora assistant professor a Princeton (poi Stanford dal 2009), sviluppa una convinzione strategica netta: il collo di bottiglia del computer vision non è negli algoritmi, è nei dati. I dataset disponibili allora — Caltech-101 (la stessa Li, con Rob Fergus e Pietro Perona, 2003, ~9000 immagini in 101 categorie), Caltech-256 (Griffin-Holub-Perona 2007, ~30000 immagini), MNIST (LeCun, ~70000 cifre scritte a mano), PASCAL VOC (~tens of thousands annotated for 20 categories) — sono utili ma piccoli. Modelli flessibili overfittano. La promessa “imparare le feature dai dati” non si può verificare se i dati sono pochi.

L’analogia che Li ripete in conferenze è biologica. Un bambino, nei primi anni di vita, vede milioni di immagini ricche e diverse: lo stesso oggetto da decine di angoli, in molte luci, in molte pose. Da questa esposizione massiva costruisce categorie robuste. Se vuoi che un modello impari a riconoscere oggetti in modo simile, devi dargli un dataset paragonabile per scala e diversità. Nessun dataset esistente lo era.

La costruzione di ImageNet richiede di risolvere tre problemi: come scegliere le categorie, come trovare immagini per ognuna, come verificare che le immagini siano correttamente etichettate.

Per le categorie, Li parte da WordNet: un database lessicale dell’inglese sviluppato a partire dal 1985 da George A. Miller (psicologo e linguista statunitense, 1920-2012, professore a Princeton) e collaboratori. WordNet organizza i sostantivi in synset (synonym sets, gruppi di parole sinonime), connessi da relazioni semantiche, principalmente la iperonimia (relazione “X è un tipo di Y”: un labrador è un tipo di cane, un cane è un tipo di mammifero). Il risultato è un grafo aciclico diretto di concetti, con ~80000 synset di sostantivi a vari livelli di granularità. Adottare WordNet significa avere già pronta una tassonomia ricca, gerarchica, multi-livello, costruita da linguisti su decenni di lavoro.

Per le immagini, si scaricano da motori di ricerca e da Flickr migliaia di candidate per synset. Per la verifica, si ricorre a Amazon Mechanical Turk (MTurk), la piattaforma di crowdsourcing lanciata da Amazon nel 2005. Per ogni immagine candidata, più lavoratori indipendenti votano se rappresenti correttamente il concetto. La maggioranza decide. Le immagini contestate vengono scartate o sottoposte a un secondo round.

Numeri di scala: nel processo di costruzione decine di migliaia di lavoratori distribuiti in oltre cento paesi contribuiscono a milioni di giudizi nell’arco di circa tre anni. Le cifre puntuali cambiano leggermente a seconda del paper e della fase del rilascio, ma l’ordine di grandezza è questo. Costo per immagine basso (centesimi), costo totale dichiarato modesto in confronto a quanto sarebbe stato con annotatori esperti.

Il primo rilascio pubblico avviene a CVPR 2009 (Computer Vision and Pattern Recognition, conferenza top di vision, allora a Miami) con il paper “ImageNet: A Large-Scale Hierarchical Image Database” firmato da Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Fei-Fei Li. Il dataset rilasciato all’epoca conteneva circa 3 milioni di immagini su oltre 5000 categorie. Cresce poi fino al rilascio “completo” di ~14 milioni di immagini in ~22000 categorie negli anni successivi.

Aneddoto significativo: il paper non viene immediatamente apprezzato. Li racconta che a CVPR 2009 il loro stand di poster era uno dei meno visitati. La comunità di vision dell’epoca pensa che il dataset sia “troppo grande” e che “nessuno abbia bisogno di un milione di immagini”. Solo tre anni dopo, AlexNet dimostra che proprio quella scala era ciò che mancava.

ILSVRC: la competizione che fa il benchmark

Per rendere ImageNet utile come benchmark scientifico riproducibile, Li, Russakovsky e collaboratori creano ILSVRC (ImageNet Large Scale Visual Recognition Challenge), una competizione annuale che parte nel 2010. Il sottoinsieme standardizzato contiene 1000 categorie selezionate dal grande ImageNet (sufficientemente popolate, visualmente distinguibili, mutuamente esclusive). Per ciascuna categoria, ~1000-1500 immagini di training (~1.2 milioni totali), 50 di validation, 100 di test. Le label di test sono segrete; i partecipanti caricano predizioni e ricevono in risposta una metrica.

Le metriche sono top-1 error (percentuale di immagini per cui la categoria con score più alto non è quella corretta) e top-5 error (percentuale di immagini per cui la categoria corretta non compare tra le 5 con score più alto). Il top-5 è la metrica di riferimento perché molte categorie sono visualmente ambigue (~120 razze di cani, decine di tipi di uccelli) e penalizzare confusioni “ragionevoli” sarebbe ingiusto.

Risultati delle prime due edizioni:

2010: vince un team congiunto NEC Labs America + UIUC. Sistema basato su feature SIFT denso codificate con Local Coordinate Coding e Super-Vector Coding, classificate con SVM lineare. Top-5 error: 28.2%.
2011: vince Xerox Research Centre Europe. Sistema basato su feature SIFT + Fisher Vectors + SVM lineare. Top-5 error: 25.8%.

Il pattern è chiaro: progresso incrementale, sempre con metodi feature-engineerizzati + SVM. Nessuno si aspetta una rottura per l’edizione 2012.

AlexNet: chi sono i tre

Alex Krizhevsky è un dottorando all’Università di Toronto, nato in Ucraina nel 1986, emigrato in Canada da bambino. Ha già mostrato propensione per il lavoro ingegneristico sulle GPU: nel 2009-2010 ha sviluppato cuda-convnet, una libreria personale di codice CUDA per CNN, scritta in C++ e ottimizzata a mano per le GPU NVIDIA dell’epoca. La scelta di scrivere codice CUDA da zero, invece che usare framework esistenti, sarà cruciale: la velocità di iterazione sperimentale di Krizhevsky nel 2012 è significativamente più alta della concorrenza.

Ilya Sutskever, anche lui dottorando di Hinton (PhD difeso nel 2013), nasce in Russia nel 1986, emigra a Gerusalemme da bambino e poi a Toronto da adolescente. Ha già pubblicato lavori su reti ricorrenti e ha la reputazione di chi sa intuire dove va lo sviluppo del campo. Nel 2015 sarà co-fondatore di OpenAI con Sam Altman, Elon Musk, Greg Brockman e altri, e chief scientist fino al 2024.

Geoffrey Hinton è il supervisore. Lavora a Toronto dal 1987 con una breve parentesi a UCL (1998-2001). Ha tenuto vivo il filone connessionista per decenni quando il mainstream guardava altrove. Nel 2018 riceverà il premio Turing con LeCun e Bengio, nel 2024 il premio Nobel per la fisica con John Hopfield (per il lavoro su Boltzmann machines e Hopfield networks come precursori dell’AI moderna).

I tre formano la società DNNresearch Inc. nel 2012 per valorizzare commercialmente il know-how. Pochi mesi dopo la pubblicazione di AlexNet, nel marzo 2013, Google la acquisisce: di fatto un’acqui-hire dei tre, che entrano in Google Brain.

L’architettura, layer per layer

AlexNet è una CNN (Convolutional Neural Network, vedi cnn-base (in preparazione) per i fondamenti dell’operazione di convoluzione e cnn-architetture (in preparazione) per il quadro completo delle architetture vision) con 8 strati addestrabili: 5 convoluzionali e 3 fully-connected. Total: ~60 milioni di parametri, ~650000 neuroni. L’input è un’immagine 224x224x3 (in pratica 227x227 nel codice originale per dettagli di padding) che rappresenta un crop random di un’immagine ridimensionata. L’output è un vettore di 1000 score, uno per ciascuna delle 1000 categorie ILSVRC, normalizzato con softmax in distribuzione di probabilita.

In pseudocodice di alto livello:

# Input: image 224 x 224 x 3 (RGB)
x = conv2d(image, filters=96, kernel=11, stride=4) # -> 55 x 55 x 96
x = relu(x)
x = local_response_norm(x)
x = max_pool(x, kernel=3, stride=2) # -> 27 x 27 x 96

x = conv2d(x, filters=256, kernel=5, padding=2) # -> 27 x 27 x 256
x = relu(x)
x = local_response_norm(x)
x = max_pool(x, kernel=3, stride=2) # -> 13 x 13 x 256

x = conv2d(x, filters=384, kernel=3, padding=1) # -> 13 x 13 x 384
x = relu(x)

x = conv2d(x, filters=384, kernel=3, padding=1) # -> 13 x 13 x 384
x = relu(x)

x = conv2d(x, filters=256, kernel=3, padding=1) # -> 13 x 13 x 256
x = relu(x)
x = max_pool(x, kernel=3, stride=2) # -> 6 x 6 x 256

x = flatten(x) # -> 9216
x = fully_connected(x, units=4096) # -> 4096
x = relu(x)
x = dropout(x, p=0.5)

x = fully_connected(x, units=4096) # -> 4096
x = relu(x)
x = dropout(x, p=0.5)

logits = fully_connected(x, units=1000) # -> 1000
probs = softmax(logits)

Il layer Conv1 prende l’immagine grezza e applica 96 filtri 11x11 con stride 4. Lo stride grande riduce subito la risoluzione spaziale, perché per il primo livello l’informazione utile è a scala medio-grande (edge orientati, gradienti di colore). Conv2 lavora su una rappresentazione già astratta (96 canali) con filtri più piccoli (5x5). Conv3-5 sono ancora più piccoli (3x3) e operano su rappresentazioni progressivamente più astratte. La gerarchia spaziale (da 224x224 a 6x6) e quella di feature (da 3 canali RGB a 256 canali) si invertono in modo coordinato: meno spazio, più astrazione.

I tre layer fully-connected (FC6, FC7, FC8) operano sulla rappresentazione finale 6x6x256 = 9216 dimensioni. FC6 e FC7 hanno 4096 unita ciascuno; FC8 ha 1000 unita, una per categoria. Dropout 0.5 viene applicato dopo FC6 e FC7. Softmax sull’output di FC8 produce la distribuzione di probabilita.

Una particolarita storica: nel paper originale, la rete è splittata su due GPU NVIDIA GTX 580 con 3 GB di memoria ciascuna. Il modello non entra in una singola GPU dell’epoca. Alcuni layer comunicano tra le due GPU, altri operano in modo completamente indipendente. Questo split è un dettaglio implementativo che viene rimosso nelle riformulazioni moderne (con GPU da 16-80 GB, AlexNet entra largamente in una sola).

Le innovazioni tecniche, una a una

ReLU come attivazione

Prima di AlexNet, le CNN usavano tanh o sigmoid come attivazione. Entrambe saturano: per input grandi in valore assoluto, l’output si avvicina a un asintoto orizzontale (-1 e +1 per tanh, 0 e 1 per sigmoid). La derivata in regime di saturazione è quasi zero. Conseguenza durante il backward pass: il gradiente, moltiplicato per derivate quasi-zero ad ogni layer, decade esponenzialmente. Questo è il problema del vanishing gradient, che per molti anni ha limitato la profondità addestrabile delle reti neurali.

ReLU (Rectified Linear Unit), $f(x) = \max(0, x)$ , non satura nel ramo positivo: la derivata vale esattamente $1$ ovunque $x > 0$ . Il gradiente passa intatto attraverso ogni layer attivato. La conseguenza pratica documentata nel paper di AlexNet: il training converge circa sei volte più veloce rispetto a tanh sulla stessa architettura, sullo stesso dataset, con la stessa loss.

In parole povere: ReLU lascia “fluire” il gradiente attraverso reti profonde, sigmoid e tanh lo strozzano. Per una rete a 8 layer come AlexNet, la differenza è la differenza tra addestramento praticabile e addestramento bloccato.

ReLU non è invenzione di Krizhevsky. Era stata usata in vari paper precedenti, in particolare Jarrett-Kavukcuoglu-Ranzato-LeCun (“What is the Best Multi-Stage Architecture for Object Recognition?”, ICCV 2009) e Glorot-Bordes-Bengio (“Deep Sparse Rectifier Neural Networks”, AISTATS 2011). AlexNet la adotta su larga scala in produzione su un benchmark visibile, dimostrando che funziona meglio di tanh in modo non ambiguo. Da allora, ReLU e le sue varianti (Leaky ReLU, ELU, GELU, SiLU) sono lo standard. Per il quadro complessivo delle attivazioni vedi funzioni-attivazione-ml (in preparazione).

GPU training

Le convoluzioni sono naturalmente parallelizzabili: lo stesso filtro, ad esempio 11x11, va applicato a centinaia o migliaia di posizioni dell’immagine, ognuna delle quali è un’operazione di moltiplicazione-somma indipendente dalle altre. Le GPU, progettate per parallelismo SIMD massivo (Single Instruction Multiple Data) per task grafici come rasterizzazione e shading, sono naturalmente adatte: hanno migliaia di core piccoli, ognuno capace di eseguire la stessa istruzione su dati diversi.

NVIDIA ha rilasciato CUDA nel 2007, rendendo le GPU programmabili con un linguaggio simile a C++. Krizhevsky scrive cuda-convnet a mano in C++/CUDA, ottimizzato per le GTX 580. Il codice gestisce esplicitamente la divisione del modello sulle due GPU, la sincronizzazione tra di esse, il caching delle attivazioni in memoria GPU.

Numeri operativi: l’addestramento completo di AlexNet su 1.2 milioni di immagini per 90 epoche richiede ~5-6 giorni sulle due GTX 580. Senza GPU, sulle CPU dell’epoca, sarebbe stato dell’ordine di mesi. La differenza non è solo di velocità: è di praticabilità di un ciclo di ricerca iterativo. Su scala di mesi, ogni esperimento è un investimento: si pianifica, si lancia, si aspetta, si analizza. Su scala di giorni, si possono provare decine di varianti in un mese. La velocità del ciclo di iterazione decide il ritmo dell’innovazione.

Dropout

Dropout è una tecnica di regolarizzazione introdotta da Hinton, Srivastava, Krizhevsky, Sutskever e Salakhutdinov nel paper “Improving neural networks by preventing co-adaptation of feature detectors”, pubblicato come technical report su arXiv nel luglio 2012. Il paper finale “Dropout: A Simple Way to Prevent Neural Networks from Overfitting” sarà su JMLR 2014.

L’idea è molto semplice. Durante il training, ad ogni forward pass, ciascun neurone in alcuni layer (tipicamente i fully-connected) viene “spento” con probabilita $p$ (in AlexNet $p = 0.5$ ). Spento significa che il suo output viene messo a zero per quel pass. Il network non può dipendere troppo da nessun singolo neurone, perché quel neurone potrebbe non essere disponibile nel prossimo pass. Conseguenza: emergono rappresentazioni più robuste, distribuite, ridondanti. Equivalentemente, in interpretazione bayesiana, si sta approssimando una media su un ensemble esponenziale di sotto-reti (ognuna corrispondente a una scelta di neuroni attivi).

In inferenza, dropout viene disattivato e tutti i neuroni sono attivi, ma i loro output vengono scalati per un fattore $(1-p)$ per compensare il fatto che durante training in media solo $(1-p)$ neuroni erano attivi. (Implementazioni moderne usano “inverted dropout”, che fa lo scaling al contrario durante training, lasciando inferenza “pulita”.)

Senza dropout, AlexNet overfitterebbe gravemente data l’enorme capacità (60M parametri) rispetto al dataset (1.2M esempi). Con dropout 0.5 sui due primi layer fully-connected, l’overfitting è contenuto e il modello generalizza. Per il quadro completo delle tecniche di regolarizzazione vedi regolarizzazione (in preparazione).

Data augmentation

Oltre a dropout, l’altra tecnica anti-overfitting in AlexNet è la data augmentation: durante il training, ogni immagine viene presentata in versioni leggermente perturbate, in modo che il modello veda di fatto un dataset effettivo molto più grande. Tre tipi di perturbazioni:

Crop random: l’immagine originale viene ridimensionata a 256x256 e poi croppata in modo random a 224x224 ad ogni presentazione. Effettivamente moltiplica per ~32x32 = 1024 il numero di esempi distinti.
Flip orizzontale random: raddoppia il dataset effettivo. Sensato perché le categorie ImageNet sono per lo più invarianti a flip orizzontale (un cane visto da sinistra è un cane visto da destra).
Perturbazione PCA dei colori: si calcolano le componenti principali della distribuzione RGB del dataset, e ad ogni immagine si aggiunge una piccola perturbazione lungo le direzioni delle componenti principali, con magnitudine random gaussiana. Effetto: invarianza moderata ai cambiamenti di illuminazione.

Combinati, questi trucchi rendono il dataset effettivo dell’ordine di centinaia di milioni di esempi distinti, anche se il numero di immagini “fisiche” resta 1.2 milioni.

Local Response Normalization

LRN (Local Response Normalization) è una forma di normalizzazione locale ispirata al lateral inhibition nei neuroni biologici: l’attivazione di un neurone viene normalizzata rispetto alle attivazioni dei neuroni vicini nello stesso layer e nella stessa posizione spaziale ma in canali (feature map) diversi. Nel paper di AlexNet contribuisce ~1-2% di miglioramento del top-5 error.

LRN sarà rapidamente soppiantata da batch normalization (Sergey Ioffe e Christian Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, ICML 2015), che diventa lo standard moderno. BN normalizza le attivazioni rispetto alla statistica di un mini-batch, e si rivela molto più efficace di LRN in praticamente tutte le architetture successive.

Optimizer

Il setup di addestramento usa SGD con momentum (Polyak 1964): ad ogni iterazione, il gradiente viene combinato con una media mobile dei gradienti precedenti, dando un effetto di “inerzia” che accelera la convergenza. Learning rate iniziale 0.01, ridotto manualmente di 10x quando la loss plateaua (3 volte durante il training). Batch size 128. Weight decay L2 = 0.0005. Momentum 0.9.

Niente di particolarmente esotico: è setup standard per CNN dell’epoca, ma applicato con cura. Adam (Kingma-Ba 2014) e i suoi successori arriveranno dopo, semplificando il tuning del learning rate.

Il risultato

AlexNet vince ILSVRC 2012 con top-5 error 15.3% (15.31% nella forma più citata; in alcune presentazioni 16.4% per una versione singola di rete senza ensemble). Il secondo classificato (un team dell’University of Tokyo / ISI Lab basato su feature SIFT + Fisher Vectors + SVM, paradigma SVM tradizionale) ha top-5 error 26.2%. Margine: ~10.8 punti percentuali.

Per contesto: il miglioramento anno su anno tra 2010 e 2011 era stato di ~2.4 punti (28.2% -> 25.8%). Il salto del 2012 è di ~10.5 punti rispetto al 2011, quattro volte il miglioramento incrementale precedente. Nessun risultato successivo ha mai presentato un margine così grande in ILSVRC: dal 2013 in poi, i miglioramenti tornano nell’ordine di 1-5 punti per anno.

Il paper “ImageNet Classification with Deep Convolutional Neural Networks” di Krizhevsky-Sutskever-Hinton viene presentato a NeurIPS 2012 (allora chiamata NIPS) a Lake Tahoe, dicembre 2012. Diventa rapidamente uno dei paper più citati nella storia dell’informatica (oltre 100000 citazioni a oggi).

Reazione immediata

A NeurIPS 2012, la talk di Krizhevsky è un evento. Yann LeCun, dalla platea, dice in versione semi-aneddotica ma riportata da più testimoni qualcosa come “this is the proof”. Per LeCun, che aveva inventato le CNN nel 1989 con LeNet-1 e visto il proprio lavoro marginalizzato per due decenni, AlexNet è la vendication ritardata di 23 anni. In varie interviste successive, LeCun racconta che durante la presentazione si rese conto che “il momento era arrivato” e che da quel giorno l’intera traiettoria della sua carriera (e del campo) sarebbe cambiata.

La reazione della comunità di vision tradizionale è un misto di scetticismo iniziale e adozione massiva nell’arco di 6-12 mesi. Dal 2013 in poi, ogni team serio in computer vision ricostruisce un setup CNN-based. La comunità SVM/feature-engineering si reinventa o esce dal campo. Alcuni nomi storici della vision tradizionale (Pietro Perona, Jitendra Malik, Andrew Zisserman) abbracciano il deep learning rapidamente; altri lo fanno più lentamente. Una minoranza significativa lascia il campo, perché l’expertise costruita in dieci o vent’anni di feature engineering manuale diventa improvvisamente obsoleta. Il costo umano della transizione è parte della storia, anche se raramente raccontato nei saggi divulgativi.

L’industria reagisce ancora più velocemente. Google acquisisce DNNresearch nel marzo 2013, e i tre fondatori entrano in Google Brain (Hinton part-time, Krizhevsky e Sutskever full-time). L’asta di acquisto, raccontata in vari report giornalistici, vede competere Google, Microsoft, Baidu e DeepMind: il prezzo finale non è stato dichiarato ufficialmente ma viene stimato in alcune decine di milioni di dollari. Facebook crea FAIR (Facebook AI Research) a fine 2013, dirigendolo a Yann LeCun, con base a New York e poi anche a Parigi e Menlo Park. Baidu rafforza il proprio Institute of Deep Learning, attirando Andrew Ng come chief scientist nel 2014 con un investimento dichiarato di 300 milioni di dollari. Microsoft Research Asia (Beijing) accelera il lavoro su CNN profonde, che culminerà con ResNet nel 2015. DeepMind, fondata a Londra nel 2010 da Demis Hassabis, Shane Legg e Mustafa Suleyman, viene acquisita da Google nel gennaio 2014 per ~500 milioni di dollari. La corsa al deep learning industriale comincia, e nei tre anni successivi cambia completamente la geografia globale del talento AI.

Sul piano accademico, l’effetto è ugualmente profondo. NeurIPS (allora NIPS) passa da conferenza media (~1500-2000 partecipanti nel 2012) a fenomeno di massa: 5000 partecipanti nel 2014, 13000 nel 2018, oltre 15000 nel 2023. Le altre conferenze di vision (CVPR, ICCV, ECCV) e di ML (ICML, ICLR) crescono in parallelo. ICLR (International Conference on Learning Representations), fondata nel 2013 proprio per ospitare il filone deep learning emergente, diventa nel giro di pochi anni una delle conferenze più prestigiose del campo. I dipartimenti di Computer Science nelle università rinominano corsi: “Machine Learning” diventa “Machine Learning and Deep Learning” o si splitta in due insegnamenti. Andrew Ng a Stanford racconta in interviste di aver dovuto rivedere completamente il programma del proprio corso di ML dopo AlexNet.

L’AI torna parola di moda in modo positivo. Nei due decenni precedenti, i ricercatori che lavoravano su reti neurali tendevano ad auto-etichettarsi come “machine learning researchers” perché “AI” era considerato troppo associato all’AI simbolica e ai suoi fallimenti dei due inverni (vedi primo-inverno-ai e secondo-inverno-ai). Dal 2013 in poi, è di nuovo accettabile dire “I work on AI”. Questo cambiamento culturale di portata professionale più che tecnica ha effetti sui finanziamenti pubblici, sui programmi di dottorato, sulle scelte di carriera di una generazione di studenti. Yoshua Bengio, in più interviste a partire dal 2015, ha ripetutamente descritto il filone connessionista come una corrente rimasta a lungo ai margini e diventata poi improvvisamente mainstream nel giro di pochi anni.

Le persone, dopo

Vale la pena seguire i tre protagonisti di AlexNet e Fei-Fei Li nei dieci anni successivi, perché le loro traiettorie individuali raccontano la traiettoria del campo.

Alex Krizhevsky entra in Google nel 2013 con DNNresearch e lavora a Google Brain per circa quattro anni. Mantiene un profilo molto più basso di Hinton e Sutskever. Lascia Google nel 2017; le ragioni del distacco restano poco documentate pubblicamente. Continua a lavorare in modo discreto, senza incarichi pubblici di rilievo. La sua reticenza è notevole in un contesto in cui i suoi due co-autori sono diventati figure pubbliche globali.

Ilya Sutskever lascia Google Brain alla fine del 2015 per co-fondare OpenAI insieme a Sam Altman, Elon Musk, Greg Brockman, Wojciech Zaremba, John Schulman e altri. OpenAI nasce come laboratorio non-profit con la missione dichiarata di costruire AGI sicura. Sutskever ne diventa chief scientist. Sotto la sua direzione tecnica, OpenAI sviluppa GPT-1 (2018), GPT-2 (2019), GPT-3 (2020), DALL-E (2021), ChatGPT (2022), GPT-4 (2023). Nel novembre 2023 partecipa al tentativo di rimuovere Sam Altman dalla guida di OpenAI; il tentativo fallisce e Sutskever esce dall’azienda nel maggio 2024. Fonda Safe Superintelligence Inc. (SSI) nel giugno 2024, con focus dichiarato esclusivo sull’allineamento di sistemi superhuman.

Geoffrey Hinton lavora a Google Brain part-time dal 2013 al 2023, mantenendo la cattedra a Toronto. Riceve il premio Turing nel 2018 insieme a LeCun e Bengio. Lascia Google nel maggio 2023 con un’intervista al New York Times in cui esprime preoccupazione per i rischi dell’AI avanzata e dichiara di voler “parlare liberamente”. Diventa una delle voci pubbliche più prominenti sul tema della AI safety. Nell’ottobre 2024 riceve il premio Nobel per la fisica, condiviso con John Hopfield, “for foundational discoveries and inventions that enable machine learning with artificial neural networks”. È il primo Nobel della fisica assegnato a lavori che oggi chiameremmo AI.

Fei-Fei Li lascia Princeton per Stanford nel 2009. Diventa direttrice del Stanford AI Lab tra 2013 e 2018. Tra 2017 e 2018 lavora a Google Cloud come chief scientist of AI/ML, aiutando a costruire Google Cloud AI. Co-fonda Stanford HAI (Human-Centered AI Institute) nel 2019, posizionandolo come centro di riferimento per la ricerca AI con prospettiva interdisciplinare (con Filosofia, Diritto, Medicina, Scienze Sociali). È membro del National AI Advisory Committee del governo USA. Pubblica nel 2023 il libro “The Worlds I See” (Flatiron Books), parte memoir e parte storia personale di ImageNet, che racconta tra l’altro la decisione strategica di scommettere sulla scala dei dati nel 2007.

Le edizioni 2013-2017: come scende l’errore

ILSVRC continua per altri cinque anni dopo AlexNet, e funziona da fucina pubblica dello sviluppo di architetture vision. La traiettoria del top-5 error scende rapidamente, indicando una maturazione dell’arte di addestrare CNN profonde.

2013: vince ZFNet (Matthew Zeiler e Rob Fergus, NYU). Top-5 error 11.7%. ZFNet è una variante di AlexNet con filtri più piccoli al primo layer (7x7 stride 2 invece di 11x11 stride 4) e con un’analisi sistematica delle feature apprese tramite deconvolutional networks, che permette di visualizzare cosa ogni feature map detecta. Il paper “Visualizing and Understanding Convolutional Networks” (ECCV 2014) è una prima introduzione sistematica a quella che oggi chiamiamo interpretability.
2014: due vincitori principali. VGG (Karen Simonyan e Andrew Zisserman, Visual Geometry Group di Oxford) raggiunge top-5 ~7.3% con un’architettura uniforme (solo convoluzioni 3x3 e pool 2x2, profondità 16-19 layer). GoogLeNet/Inception v1 (Christian Szegedy e collaboratori a Google) raggiunge top-5 6.67% con gli Inception module che combinano convoluzioni di dimensioni diverse in parallelo, con bottleneck 1x1 per controllare il numero di parametri. GoogLeNet è molto più efficiente di VGG (5M parametri vs 138M).
2015: vince ResNet (Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Microsoft Research Asia). Top-5 error 3.57%. ResNet introduce le residual connections (skip connections additive che bypassano blocchi di layer), che rendono addestrabili reti profonde fino a 152 layer e oltre. È la rete che supera, secondo le stime, la performance umana su ILSVRC (humans error rate stimato a ~5.1% in test sistematici condotti da Russakovsky e collaboratori). Per il dettaglio di ResNet vedi resnet-2015.
2016: Trimps-Soushen e Hikvision dominano con top-5 ~3% via ensemble.
2017: l’ultimo ILSVRC. SENet (Squeeze-and-Excitation Networks, Jie Hu, Li Shen, Gang Sun) vince con top-5 ~2.25%. Gli organizzatori dichiarano la chiusura della challenge: il problema è “saturo” nel senso che i miglioramenti incrementali non riflettono più progresso reale, ma overfitting al test set particolare di ILSVRC.

In cinque anni, dal 2012 al 2017, il top-5 error scende da 15.3% a ~2.3%: un miglioramento di un fattore ~7. ImageNet diventa il benchmark canonico del deep learning per quasi un decennio: ogni nuovo modello vision deve presentare il proprio numero su ILSVRC top-5 per essere preso sul serio.

Conseguenze nei 5 anni successivi

L’eredità di AlexNet 2012 non si limita alla classificazione di immagini su ImageNet. Tra 2013 e 2017 si propaga in modo sistematico a tutti i sotto-campi vicini, con effetti misurabili in pochi mesi.

Object detection: dal task di “dimmi cosa c’è in questa immagine” al task più difficile di “dimmi cosa c’è e dove sta nell’immagine”. Ross Girshick e collaboratori (UC Berkeley, poi Microsoft Research) pubblicano R-CNN (Regions with CNN features, CVPR 2014), che applica una CNN AlexNet-style a region proposals di selective search. La precisione su PASCAL VOC raddoppia. La famiglia evolve in Fast R-CNN (2015), Faster R-CNN (2015) e Mask R-CNN (2017, He et al.). In parallelo, Joseph Redmon pubblica YOLO (You Only Look Once, CVPR 2016), che fa object detection real-time in un singolo forward pass. La detection diventa praticabile in produzione: telecamere di sorveglianza, robot autonomi, smartphone applications.

Semantic segmentation: classificare ogni pixel di un’immagine. Long-Shelhamer-Darrell propongono Fully Convolutional Networks (CVPR 2015), che adattano le CNN per produrre mappe spaziali invece di label scalari. U-Net (Ronneberger-Fischer-Brox 2015) diventa lo standard per immagini mediche. Cityscapes, ADE20K e altri dataset di segmentation diventano benchmark standard.

Face recognition: DeepFace (Facebook, 2014) e FaceNet (Google, 2015) superano la performance umana su Labeled Faces in the Wild. Le applicazioni esplodono: tag automatico su Facebook, Face ID su iPhone (2017), unlocking di laptop, riconoscimento in aeroporti. Iniziano anche le preoccupazioni per privacy e sorveglianza che porteranno alla regolamentazione (GDPR 2018, AI Act 2024).

Speech recognition: la transizione da sistemi DNN-HMM ibridi (Hinton et al. 2012) a sistemi end-to-end. Listen-Attend-Spell (Chan-Jaitly-Le-Vinyals 2016 Google) e Deep Speech (Hannun et al. 2014, Baidu) eliminano la pipeline modulare classica. Google Voice Search 2013 è il primo deploy massivo di DNN per ASR. Siri integra DNN nel 2014. Cortana, Alexa, Google Assistant seguono. Word error rate scende drasticamente, e il riconoscimento vocale diventa “buono abbastanza” per uso quotidiano.

Natural Language Processing ha un ritardo di un paio d’anni rispetto alla vision. La grande rivoluzione NLP non parte dal 2012 ma dal 2013-2014 con word2vec (Mikolov et al., Google), che mostra che embeddings vettoriali appresi end-to-end catturano relazioni semantiche utili. Da li, la traiettoria si accelera con seq2seq (Sutskever-Vinyals-Le 2014), attention (Bahdanau-Cho-Bengio 2014), e infine transformer (Vaswani et al. 2017). Per qualche anno (2012-2015), la vision è tutta CNN mentre l’NLP convive ancora con SVM e logistic regression su feature lessicali. Per il quadro completo vedi word2vec-2013, seq2seq-2014, transformer-2017.

Reinforcement learning ha la sua “AlexNet moment” nel 2013-2015 con DQN (Deep Q-Network, Volodymyr Mnih e collaboratori a DeepMind, prima paper su NIPS Workshop 2013, poi su Nature 2015). DQN combina Q-learning (Watkins 1989) con CNN profonde per giocare a giochi Atari direttamente da pixel raw, raggiungendo performance umana o superhuman su 49 giochi diversi. Mnih e collaboratori sono ex-studenti di Hinton a Toronto: la pipeline tecnica e culturale è continuita rispetto ad AlexNet. Da DQN si arriva ad AlphaGo (Silver et al. 2016, che batte Lee Sedol al Go con CNN + MCTS + RL), AlphaZero (2017, generalizzazione a Chess, Shogi, Go), MuZero (2019, anche senza modello del gioco). Il filone culmina (per ora) in AlphaFold 2 (DeepMind 2020), che risolve sostanzialmente il problema della predizione di struttura proteica usando trasformer e attention sui residui di amminoacidi.

Investimenti VC in startup AI esplodono in modo proporzionale. Le stime variano per metodologia, ma la traiettoria è inequivoca: nel decennio successivo il capitale investito cresce di ordini di grandezza. NVIDIA passa da azienda di gaming GPU a giant del compute AI: il fatturato datacenter, marginale nel 2012, supera il fatturato gaming nel 2020-2021; la capitalizzazione di mercato passa da ~10 miliardi nel 2012 a oltre 1000 miliardi nel 2023, in larga misura per il ruolo come fornitore di hardware AI. La traiettoria comincia con AlexNet che mostra che le GPU consumer sono praticabili per training di reti profonde.

Esempi

Esempio 1: ReLU vs sigmoid in numeri

Prendiamo un mini-esempio per vedere perché ReLU fa tanta differenza. Considera un input $x = 5$ in un layer profondo. Sigmoid produce $\sigma(5) = 1/(1+e^{-5}) \approx 0.993$ . La derivata di sigmoid in quel punto è $\sigma'(5) = \sigma(5)(1-\sigma(5)) \approx 0.993 \cdot 0.007 \approx 0.007$ .

Adesso immagina di avere 5 layer in cascata, tutti con sigmoid, tutti con input in regime saturato. Il gradiente che arriva al primo layer è, in modulo, proporzionale a $0.007^5 \approx 1.7 \times 10^{-11}$ . Praticamente zero. Il primo layer non riceve segnale di apprendimento. La rete è “addestrabile” solo nei primi epoch, quando i pesi non sono ancora saturati; poi si blocca.

Con ReLU, lo stesso input $x = 5$ produce $f(5) = 5$ e $f'(5) = 1$ . Cinque layer in cascata: $1^5 = 1$ . Il gradiente si propaga intatto. La rete continua a imparare.

Questo non è un argomento teorico raffinato, è aritmetica elementare. Eppure per anni la comunità ha usato sigmoid e tanh per inerzia. AlexNet rende l’argomento aritmetico visibile a tutti tramite un risultato di benchmark.

Esempio 2: AlexNet su un singolo input

Vediamo cosa succede a una singola immagine durante un forward pass di AlexNet. Prendiamo come input un’immagine di un labrador, ridimensionata e croppata a 224x224x3. Numericamente, l’input è un tensore di ~150000 numeri (float a 32 bit), ognuno tra 0 e 1 (intensità normalizzata).

Conv1 applica 96 filtri 11x11 stride 4. Ogni filtro produce una feature map 55x55. Ispezionando le feature map dopo il training, si scopre che diversi filtri specializzano: alcuni rispondono a edge orientati (verticali, orizzontali, diagonali), altri a blob di colore (rossi, verdi, blu, giallo, grigio). Sono pattern tipici del primo livello di un’analisi visuale.

Dopo Conv1 + ReLU + LRN + Pool, il tensore è 27x27x96. Conv2 applica 256 filtri 5x5 sui 96 canali in input. Le feature map di Conv2 catturano pattern più complessi: textures, intersezioni di edge, transizioni di colore.

Conv3, Conv4, Conv5 lavorano su tensori sempre più astratti. Ispezionando le feature map alte, si trovano detector per parti di oggetti: orecchie di cane, ruote, occhi, naso, becchi, etc. Nessuno di questi detector è stato programmato a mano: emergono dall’addestramento end-to-end con backpropagation, perché sono utili per discriminare le 1000 categorie.

Il pooling finale produce un tensore 6x6x256 = 9216 numeri. FC6 lo proietta in 4096 dimensioni, FC7 lo trasforma in altre 4096 (con dropout intermedio), FC8 produce 1000 logit. Softmax normalizza in distribuzione di probabilita. La probabilita per “labrador” risulta, idealmente, la più alta. Top-1 corretto, top-5 corretto.

Per chi conosce gli SVM, vale la pena confrontare il numero di operazioni. SVM con kernel RBF su 1000 classi richiede di calcolare il kernel tra il punto di test e tutti i support vectors di tutte le 1000 classi (decine di migliaia totali), una operazione costosa. AlexNet richiede circa 720 milioni di moltiplicazioni-somme ( $\approx 1.45 \times 10^9$ FLOPS) per un singolo forward pass, ma è parallelizzabile su GPU. Su una GTX 580 dell’epoca, l’inferenza per una singola immagine richiede pochi millisecondi.

Esempio 3: il panda che diventa gibbon

Nel 2014, Ian Goodfellow, Jonathon Shlens e Christian Szegedy pubblicano “Explaining and Harnessing Adversarial Examples” (ICLR 2015). Il paper mostra un esempio diventato canonico nei corsi di interpretabilità.

Si parte da un’immagine di un panda. Una CNN profonda addestrata su ImageNet la classifica correttamente come “panda” con confidenza 57.7%. Si calcola poi il gradiente della loss rispetto ai pixel di input per la classe “gibbon” (un’altra scimmia). Si normalizza e si prende il segno di ogni componente del gradiente, ottenendo una perturbazione dello stesso shape dell’immagine, ma con valori in $\{-\epsilon, +\epsilon\}$ con $\epsilon$ molto piccolo (es. $0.007$ in scala $[0,1]$ ).

Si somma la perturbazione all’immagine originale. Il risultato è visivamente indistinguibile dall’originale per un occhio umano: la differenza per pixel è inferiore alla soglia di percezione, l’immagine sembra identica al panda di partenza. Però la stessa CNN ora la classifica come “gibbon” con confidenza 99.3%.

Cosa insegna questo esempio: le CNN profonde, anche quelle che superano la performance umana su ImageNet, non vedono come gli umani. Estraggono pattern statistici discriminativi che possono essere ortogonali al modo in cui gli umani percepiscono le categorie. Sono robuste alla varianza naturale (illuminazione, posa, occlusione moderate) ma fragili a perturbazioni mirate. Adversarial examples non sono bug eliminabili con un fix puntuale: sono una proprieta strutturale dei classificatori ad alta dimensione addestrati per discriminare. Il problema resta aperto nel 2026.

Esempio 4: confronto numerico ILSVRC

Una tabella riassuntiva delle edizioni ILSVRC tra 2010 e 2017, con vincitore, metodo e top-5 error:

Anno	Vincitore	Metodo	Top-5 error
2010	NEC + UIUC	SIFT + LCC + SVM lineare	28.2%
2011	Xerox Research	SIFT + Fisher Vectors + SVM	25.8%
2012	AlexNet	CNN profonda + ReLU + dropout + GPU	15.3%
2013	ZFNet	CNN raffinata + visualizzazione	11.7%
2014	GoogLeNet	Inception modules	6.67%
2014	VGG	Stacked 3x3 conv, profondità uniforme	7.32%
2015	ResNet	Residual connections	3.57%
2016	Trimps-Soushen	ensemble di modelli	~2.99%
2017	SENet	Squeeze-and-Excitation modules	~2.25%

Soglia umana stimata: ~5.1% (Russakovsky et al. 2015).

L’inflessione del 2012 è il dato visivo immediato. Tra 2010 e 2011 la curva scende di 2.4 punti. Tra 2011 e 2012 scende di 10.5 punti. Tra 2012 e 2017 scende di altri 13 punti, ma in modo regolare. La rottura è singola e localizzata.

Applicazioni pratiche

L’eredità di AlexNet 2012 si manifesta oggi in modi molto più ampi della sola computer vision. Vediamo le più importanti.

Il principio “impara le features dai dati su scala” eredita da AlexNet; le architetture spesso no. Va distinto. Sul piano del principio operativo c’è filiazione diretta: dopo il 2012 nessun sistema vision serio costruisce feature a mano, e questo è effetto puntuale di ImageNet+AlexNet. Sul piano delle architetture concrete, CLIP (OpenAI 2021), Vision Transformer (Dosovitskiy et al. 2020), MidJourney, Stable Diffusion, DINOv2, SAM (Segment Anything Model di Meta 2023) sono per molti aspetti rotture, non discendenze: sostituiscono CNN con transformer, supervised con contrastive, unimodal con multimodal. La relazione fra loro e AlexNet è di eredita parziale (la mossa “imparare invece di ingegnerizzare”), non di filiazione architetturale. Trattarla come filiazione totale schiaccia quindici anni di rotture in un’unica linea che non c’è. Per il quadro vision moderno vedi multimodal-vision (in preparazione).

Il pattern “scale up” diventa mantra. “Più dati + più compute + ricetta semplice batte sofisticazione algoritmica con dati piccoli” è la lezione operativa numero uno. Rich Sutton la articola nel 2019 come “The Bitter Lesson” (il post di blog più citato dell’AI moderna): storicamente, ogni volta che si è tentato di codificare expertise umana in algoritmi, alla fine ha vinto chi ha semplicemente messo più dati e compute. AlexNet è il primo grande esempio in vision. GPT-3 è il più recente in NLP. Per chi sceglie quale modello pretrained usare in un’applicazione, la regola pratica derivata è: preferisci quello addestrato con più dati e più compute, anche se l’architettura sembra “semplice”.

Investire in benchmark di scala paga moltiplicatori. ImageNet ha dato valore enorme all’intero campo, perché ha permesso confronti rigorosi tra approcci radicalmente diversi. Quando lavori su un nuovo problema, dedicare risorse alla costruzione di un benchmark serio e standardizzato (con train/dev/test splits, metriche concordate, leaderboard pubblica) è spesso più importante che provare l’ennesima variante di modello. Il pattern si ripete: GLUE/SuperGLUE per NLP, COCO per object detection, SWE-bench per coding agent, MTEB per embeddings, GAIA per agenti generalisti. La lezione: chi costruisce il benchmark canonico controlla la direzione del campo.

L’hardware decide l’epoca. Senza CUDA (2007) e GPU consumer programmabili, AlexNet sarebbe stata impraticabile. Senza TPU (Google 2015) e senza H100/Blackwell, GPT-4 e Claude sarebbero impraticabili. NVIDIA passa da azienda di gaming GPU a giant del compute AI: il suo fatturato datacenter, marginale nel 2012, supera il fatturato gaming nel 2020-2021; la capitalizzazione di mercato passa da ~10B nel 2012 a oltre 1000B nel 2023, in larga misura per il ruolo come fornitore di hardware AI. Quando arriva un nuovo paradigma di compute (oggi: foundry custom ASIC come Groq LPU, Cerebras Wafer-Scale, modelli che cambiano l’aritmetica come Mamba), aspettati che cambino anche le architetture dominanti. L’hardware non è solo “accessorio”: è la condizione di possibilità.

Lezione operativa per il presente. Prima di abbracciare un nuovo paradigma promettente (modelli world, neuromorphic chips, reasoning era, agenti generali), la domanda non è “è possibile in linea di principio?”. È “i suoi prerequisiti operativi — dati, compute, repertorio algoritmico — sono maturi insieme?”. Se anche solo uno manca, il paradigma è immaturo e va incubato. Se tutti e tre maturano in parallelo, qualcuno presto farà la propria AlexNet, e chi non è preparato perderà tre anni di vantaggio competitivo. Questa lente è la più importante che il capitolo possa offrire.

Pretrained models come commodity di partenza. Una conseguenza pratica diretta di ImageNet + AlexNet è la nascita del paradigma “pretrain on a large dataset, finetune on your task”. Prima del 2012, ogni progetto vision partiva da zero, addestrando feature da capo. Dopo il 2012, è diventato standard scaricare un modello AlexNet (o VGG, o ResNet) pretrained su ImageNet, sostituire l’ultimo layer con uno adatto al proprio task, e fine-tunare con il proprio dataset (anche piccolo: poche centinaia di esempi sono spesso sufficienti, perché le feature già apprese su ImageNet trasferiscono bene). Questo schema — pretrain massivo + finetune leggero — è lo stesso che oggi domina con GPT, Claude, Gemini: il foundation model viene addestrato una volta su scala enorme da chi può permetterselo (Google, OpenAI, Anthropic, Meta), poi viene adattato a task specifici da chi ha dati e budget più modesti. AlexNet è il prototipo storico di questo modello economico. Per il quadro moderno vedi pretraining-dati (in preparazione) e sft (in preparazione).

Lezione di policy della ricerca. L’incubazione lunga del filone connessionista (1969-2012, ~43 anni dal lavoro di Minsky-Papert ad AlexNet) è un caso di studio per finanziatori e dirigenti di laboratori. CIFAR (Canadian Institute for Advanced Research) ha finanziato dal 2004 il programma “Neural Computation and Adaptive Perception”, uno dei pochi spazi accademici che continuasse a investire in reti neurali profonde quando il mainstream guardava altrove. Senza quel finanziamento di pattern lungo, modesto in valore assoluto ma continuativo per un decennio, il momento AlexNet sarebbe arrivato anni dopo. La lezione: per i paradigmi promettenti ma marginali, il finanziamento di pattern lungo è più importante del finanziamento ad alto picco. Gli investitori che cercano “il prossimo deep learning” devono accettare un orizzonte di un decennio o più, non un trimestre.

Dove si rompe

La narrativa popolare di AlexNet 2012 contiene molti fraintendimenti che vale la pena dissipare con cura.

“AlexNet ha inventato il deep learning.” Falso, e in modo facilmente verificabile. Il deep learning, inteso come reti neurali profonde addestrate con backpropagation, esisteva almeno dal 1989, quando Yann LeCun pubblica LeNet-1. La famiglia LeNet matura fino a LeNet-5 nel 1998. Il termine “deep learning” come etichetta moderna si era riaffermato nel 2006 con il paper Hinton-Salakhutdinov su Science. AlexNet ha dimostrato in modo conclusivo che il deep learning era pratico su un benchmark serio in vision. La sua novità è nella conclusione sperimentale, non nelle idee algoritmiche.

“AlexNet era una nuova architettura.” Parzialmente falso. L’architettura era una CNN abbastanza standard (5 conv + 3 FC), molto simile in spirito a LeNet-5 ma più grande e profonda. Le innovazioni erano nei trucchi di addestramento (ReLU, dropout, GPU) e nella scala, non nell’architettura per se. Confronta con ResNet 2015, che introduce un’innovazione architetturale genuina (le residual connections): quella è una nuova architettura nel senso forte. AlexNet è una scaling-up di un’idea esistente.

“È stata una scoperta scientifica nel senso forte.” Parzialmente fuorviante. È stato un risultato sperimentale che ha confermato ciò che alcuni già sospettavano (Hinton, LeCun, Bengio). La parte propriamente scientifica — capire perché le reti profonde funzionano così bene quando hai abbastanza dati, e quali siano i bound di generalizzazione corretti — è rimasta aperta per anni dopo, e in molte sue parti è ancora aperta nel 2026. La VC dimension classica (vedi svm-era-2000) predice che reti con 60 milioni di parametri dovrebbero overfittare gravemente su 1.2 milioni di esempi: invece generalizzano. Capire perché è tuttora oggetto di ricerca attiva.

“Solo l’algoritmo conta.” Falso. Senza ImageNet, AlexNet sarebbe stata una nicchia. Senza GPU, sarebbe stata troppo lenta. La vittoria è una vittoria di sistema (algoritmo + dati + compute), non di solo algoritmo. Questa è la lezione centrale del capitolo, ed è la più trascurata nelle narrazioni divulgative che enfatizzano “il genio del singolo”.

“Le CNN vedono come gli umani.” Falso, già dal 2013 (Szegedy et al., adversarial examples, vedi esempio 3 sopra). Le CNN estraggono feature statistiche utili per classificazione, ma il loro spazio di rappresentazione interno è diverso dal sistema visivo biologico in modi non banali. Lo studio dei modi in cui CNN e umani divergono (shape vs texture bias, common corruptions, adversarial robustness, distribution shift) è un sotto-campo attivo.

“ImageNet è un benchmark imparziale.” Falso. ImageNet ha bias culturali, geografici e razziali documentati nelle sue 1000 categorie e nelle annotazioni MTurk. Le immagini provengono in larga misura da Flickr e da motori di ricerca con bias geografico verso utenti USA/UK e categorie occidentali. Le 120 razze di cani sono iperrappresentate; molti oggetti d’uso quotidiano in contesti non occidentali sono assenti. Studi successivi (Crawford-Paglen 2019 “Excavating AI”, Yang et al. 2020 “Towards Fairer Datasets”) documentano in dettaglio queste distorsioni. Alcune categorie problematiche (legate a giudizi su persone) vengono rimosse dal dataset nel 2019. I modelli pretrained su ImageNet ereditano i bias e li propagano in tutte le applicazioni downstream.

“Tutto è nato a Toronto.” Semplificazione. Toronto è stata centrale (Hinton, Krizhevsky, Sutskever), ma contributi paralleli sono venuti da Stanford (Fei-Fei Li per ImageNet, Andrew Ng per GPU training), Bell Labs/NYU (LeCun per CNN), Microsoft Research Asia (He et al. per ResNet), Google (Inception, transformer), DeepMind (DQN, AlphaGo). La narrativa “Toronto-centric” è parzialmente vera ma incompleta: il deep learning moderno è un risultato di rete distribuita.

“Le CNN sono robuste ai cambi di dominio.” Falso. Sono robuste alla varianza naturale all’interno della distribuzione di training, ma degradano fortemente fuori distribuzione. Hendrycks e Dietterich (2019) introducono ImageNet-C, una versione di ImageNet con corruption sintetiche (blur, rumore, cambi di luminosita, pixelation). Modelli che hanno top-5 ~5% su ImageNet originale balzano al 30-40% su ImageNet-C. Hendrycks et al. 2021 introducono ImageNet-A, immagini reali “difficili” filtrate da modelli ResNet: errori sopra 90% per molti modelli moderni. Domain generalization, robust learning, distributionally robust optimization sono filoni di ricerca aperti.

“L’AlexNet moment è replicabile su comando.” Falso. Tre forze si sono incontrate per caso, in un punto specifico del tempo. Replicare la convergenza richiede condizioni esterne che non sono interamente controllabili dai ricercatori. Si possono accelerare alcuni vertici (es. costruire benchmark, ottimizzare hardware) ma il momento di incontro emerge solo quando tutte e tre le forze maturano. Aspettarsi un “AlexNet moment” del proprio sotto-campo a comando è irragionevole.

“Il deep learning sostituisce ogni altra tecnica.” Falso, anche oggi. Su tabular data, alberi gradient boosting (XGBoost, LightGBM, CatBoost) restano competitivi o superiori alle reti profonde, perché le feature tabular sono già “buone” e le reti profonde non hanno modo di estrarre rappresentazioni gerarchiche dove non c’è gerarchia naturale. Su problemi con poche etichette (bioinformatics, materials science, alcuni task medici), SVM e gaussian processes con kernel adatti spesso battono le reti profonde. La regola di scelta resta: deep learning vince quando hai grande quantità di dati con struttura ricca (immagini, audio, testo, sequenze) da cui imparare gerarchie di feature. Negli altri casi, gli approcci classici sopravvivono per ragioni tecniche, non per inerzia.

“Le 1000 categorie di ILSVRC sono naturali.” Falso. La selezione di 1000 categorie da ~22000 di ImageNet è una scelta operativa: categorie con abbastanza esempi, visualmente distinguibili, mutuamente esclusive. Risultato: ~120 razze di cani, decine di tipi di serpenti, ma poche categorie umanamente rilevanti per chi non lavora con animali. Modelli che eccellono su ILSVRC eccellono in particolare nel discriminare cani simili: questa è una capacità parzialmente artificiale rispetto a quelle che servirebbero in applicazioni reali, dove le categorie utili sono diverse. La scelta delle categorie di un benchmark plasma il tipo di intelligenza che il campo sviluppa.

“AlexNet ha eliminato la necessità di expertise di dominio.” Falso, in modo sottile. Ha eliminato la necessità di feature engineering manuale, ma ha trasferito l’expertise altrove: nella scelta dell’architettura, dell’ottimizzatore, degli iperparametri di training, della curation del dataset, del setup di valutazione. La quantità totale di expertise umana richiesta non si riduce, si riposiziona. Negli anni successivi nasce una professione nuova, il “deep learning engineer”, con una propria expertise distinta da quella del “machine learning practitioner” classico.

Collegamenti

reti-neurali-80-90 — Il filone connessionista che incuba per decenni e che esplode con AlexNet. Capire la traversata 1982-2010 è il prerequisito storico per capire perché AlexNet sembra una rivoluzione ed è invece una cristallizzazione.
svm-era-2000 — Il paradigma dominante che AlexNet soppianta. Il “secondo classificato” del 2012 era esattamente la pipeline SVM + feature engineering descritta li.
rinascita-statistica-90 — Il contesto più ampio del passaggio dall’AI simbolica al machine learning statistico. AlexNet è il punto in cui il machine learning statistico stesso viene parzialmente superato dal representation learning.
storia-sintesi — La timeline ad alto livello di tutta la storia AI, dove AlexNet 2012 è uno dei nodi più importanti.
cnn-base (in preparazione) — I fondamenti tecnici dell’operazione di convoluzione, stride, padding, pooling. Prerequisito per capire l’architettura AlexNet a livello operativo.
cnn-architetture (in preparazione) — Il quadro completo delle architetture CNN da LeNet a EfficientNet, con AlexNet come pivot storico.
funzioni-attivazione-ml (in preparazione) — ReLU, tanh, sigmoid, GELU, SiLU. Il capitolo tecnico che approfondisce perché ReLU vince contro le alternative saturanti.
regolarizzazione (in preparazione) — Dropout, batch normalization, weight decay, early stopping. Il quadro tecnico delle tecniche anti-overfitting di cui dropout è un caso.
resnet-2015 — La residual network che chiude (almeno simbolicamente) ImageNet, superando la performance umana. Continuazione naturale di AlexNet.
word2vec-2013 — Il primo grande momento parallelo in NLP, dove embeddings vettoriali appresi sostituiscono le rappresentazioni one-hot. Stesso schema di convergenza, applicato al testo.
seq2seq-2014 — Il primo modello neurale end-to-end per machine translation. Costruito su RNN/LSTM (vedi reti-neurali-80-90), con attention che arriverà nel 2014-2017.
transformer-2017 — La svolta architetturale che chiude l’era CNN/RNN per la maggioranza dei task NLP e poi vision. Stesso schema di convergenza.
scaling-laws (in preparazione) — Il framework quantitativo (Kaplan et al. 2020, Chinchilla 2022) che formalizza la relazione tra dati, compute e parametri. Codifica matematicamente la lezione “scale up” di AlexNet.
multimodal-vision (in preparazione) — CLIP, ViT, modelli vision-language moderni. Discendono per via diretta dal blueprint AlexNet.

Per andare oltre

Krizhevsky, Sutskever, Hinton (2012) — “ImageNet Classification with Deep Convolutional Neural Networks”. NeurIPS 2012. Il paper originale di AlexNet. Lettura obbligatoria di 9 pagine, accessibile a chi conosce le basi di CNN. Spiega architettura, training, risultati, ablazioni in modo trasparente.
Russakovsky et al. (2015) — “ImageNet Large Scale Visual Recognition Challenge”. International Journal of Computer Vision, 115(3). La sintesi retrospettiva del challenge ILSVRC 2010-2014, con tutte le metriche, le edizioni, le statistiche del dataset, la stima del baseline umano. Riferimento standard per ogni dato quantitativo su ILSVRC.
Goodfellow, Bengio, Courville (2016) — “Deep Learning”. MIT Press. Il libro di riferimento del deep learning. Capitolo 9 (CNN) e capitoli storici trattano AlexNet con cura. Free online su deeplearningbook.org.
Sutton, Rich (2019) — “The Bitter Lesson”. Blog post su incompleteideas.net. La cornice interpretativa generale (“scale up batte sofisticazione algoritmica”) in due pagine. Lettura essenziale per chi vuole capire la logica strutturale dell’AI moderna.
Fei-Fei Li (2023) — “The Worlds I See”. Flatiron Books. Memoir personale di Fei-Fei Li, con la storia di ImageNet raccontata in prima persona. Utile per capire l’angolo umano della costruzione del dataset.
Crawford, Paglen (2019) — “Excavating AI: The Politics of Images in Machine Learning Training Sets”. Saggio fotografico-critico online (excavating.ai) sui bias di ImageNet. Lettura indispensabile per il quadro critico.
Hinton, Srivastava, Krizhevsky, Sutskever, Salakhutdinov (2012) — “Improving neural networks by preventing co-adaptation of feature detectors”. arXiv:1207.0580. Il paper iniziale su dropout, contemporaneo ad AlexNet. Spiega l’intuizione di “spegnere” neuroni per indurre robustezza, prima della trattazione completa di Srivastava et al. 2014 su JMLR.
Goodfellow, Shlens, Szegedy (2014) — “Explaining and Harnessing Adversarial Examples”. arXiv:1412.6572. Il paper canonico sull’esempio panda-gibbon. Importante per capire i limiti strutturali delle CNN già evidenti nei primi anni di adozione.
He, Zhang, Ren, Sun (2016) — “Deep Residual Learning for Image Recognition”. CVPR 2016. Il paper di ResNet. Introduce le residual connections che chiudono ImageNet superando la performance umana stimata. Continuazione tecnica naturale di AlexNet.