Il primo inverno dell'AI: ALPAC, Perceptrons, Lighthill

Tra il 1966 e il 1980 l’intelligenza artificiale subisce in Occidente la sua prima glaciazione: ALPAC distrugge la traduzione automatica negli Stati Uniti, “Perceptrons” raggela la ricerca neurale, il rapporto Lighthill amputa il finanziamento britannico. Il pattern hype-disillusione-taglio fissa qui il suo template, e qualcosa nondimeno sopravvive sotto la neve.

Perché questo capitolo

Capire un inverno passato dell’AI serve a leggere il presente. Ogni nuova ondata di entusiasmo intorno all’intelligenza artificiale ripete una dinamica che ha già avuto la sua prima edizione tra il 1966 e il 1980.

La struttura del ciclo è sempre la stessa. Una serie di risultati spettacolari su problemi semplificati genera previsioni audaci. Le previsioni attirano grossi finanziamenti pubblici e privati. Gli investimenti producono nuovi risultati ma anche nuovi limiti. Una valutazione esterna fa il bilancio. Il bilancio è deludente rispetto alle promesse. I finanziamenti collassano. Il campo entra in una fase di marginalita pubblica per anni o per decenni.

Una rilettura del primo episodio è un vaccino concettuale. Aiuta a evitare di confondere “questa volta è diverso” con “questa volta sappiamo come la dinamica si comporta”. E aiuta a riconoscere quando si è dentro la fase ascendente del ciclo, dove le promesse stanno già eccedendo ciò che la tecnologia mantiene.

C’è una seconda ragione, più sottile, per non saltare questo capitolo. Diversi strumenti che oggi consideriamo standard nell’ecosistema agentico — programmazione logica (Prolog), strutture di rappresentazione della conoscenza (frames, scripts), sistemi esperti, fino a forme moderne di knowledge graphs e neuro-symbolic AI — sono nati o si sono consolidati proprio durante l’inverno. L’inverno non è un buco nero: è un periodo in cui muore una certa narrativa generalista, ma in cui si stabilizzano molte tecniche solide. Ignorarlo significa perdere il filo di buona parte degli strumenti che oggi compongono il bordo simbolico delle pipeline AI.

Una terza ragione riguarda la divulgazione. L’episodio del libro “Perceptrons” mostra che un risultato tecnico corretto può avere effetti culturali devastanti se la comunità lo interpreta in modo schiacciato. Per chi oggi pubblica risultati di valutazione (eval), report di limiti dei modelli, paper di sicurezza, vale la lezione: il modo in cui un risultato viene incorniciato pesa quasi quanto il contenuto. Un grafico, una citazione, una scelta di titolo possono determinare se un paper si trasformera in chiusura di un programma di ricerca o in sua riformulazione.

Contesto

Questo capitolo prende il filo dalla fine di ai-simbolica-anni-60. Negli anni precedenti la comunità aveva accumulato una serie di risultati fortemente ottimisti. Il Logic Theorist (Newell, Simon, Shaw, 1956) aveva dimostrato 38 dei 52 teoremi del Capitolo 2 dei Principia Mathematica. Il General Problem Solver (1957-1959) aveva proposto un’architettura di means-ends analysis general-purpose. SHRDLU (Terry Winograd, 1968-1972) sembrava capire e produrre linguaggio naturale dentro un blocks-world. DENDRAL (Stanford, dal 1965) interpretava dati di spettrometria di massa con qualità comparabile a chimici esperti. L’agenda generalista, finanziata da DARPA in regime di “block funding” — cioe finanziamento al laboratorio nel suo complesso, senza milestone specifiche — era in piena espansione.

Su questo sfondo si muovono i nomi che incontreremo. Marvin Minsky (informatico statunitense, 1927-2016, co-fondatore del MIT AI Lab) e Seymour Papert (matematico ed educatore sudafricano-statunitense, 1928-2016) avevano consolidato al MIT il più grande centro mondiale di AI simbolica. John McCarthy (matematico e logico statunitense, 1927-2011), il coniatore stesso del termine “artificial intelligence”, aveva fondato lo Stanford AI Lab. Allen Newell e Herbert Simon dirigevano la scuola CMU. Sul versante connessionista, Frank Rosenblatt (psicologo statunitense, 1928-1971) aveva pubblicato nel 1958 sul Psychological Review il paper sul percettrone: un modello di neurone con una regola di apprendimento basata sull’errore, capace di apprendere da esempi etichettati. Il percettrone aveva ricevuto attenzione anche militare (la Office of Naval Research finanzio Rosenblatt) e aveva attirato titoli di giornale come “Frankenstein elettronico” e “macchina che impara”.

A meta degli anni Sessanta tre tipi di scricchiolii cominciano ad accumularsi. Primo: la machine translation, finanziata massicciamente in chiave Guerra Fredda per tradurre russo-inglese, non sta producendo qualità utilizzabile. Secondo: i programmi simbolici che funzionano nei microworlds (cinque blocchi su un tavolo, pochi assiomi logici) non si scalano a problemi reali; il fenomeno verrà battezzato combinatorial explosion. Terzo: la riflessione di Hubert Dreyfus (filosofo statunitense, 1929-2017), che nel 1965 pubblica per la RAND il rapporto “Alchemy and Artificial Intelligence” e nel 1972 il libro “What Computers Can’t Do”, apre una critica filosofica esterna basata sulla fenomenologia di Heidegger e Merleau-Ponty: il know-how umano sarebbe tacito, embodied, non riducibile a regole esplicite. La critica viene rifiutata violentemente dalla comunità AI dell’epoca, ma il suo messaggio si insinua nel dibattito pubblico.

Sopra tutto questo aleggia il fattore politico. Negli Stati Uniti, dopo la guerra del Vietnam, il Mansfield Amendment (1969) richiede che la ricerca finanziata dal Dipartimento della Difesa abbia rilevanza militare diretta. La libera “block funding” di Licklider entra in tensione con un mandato di milestone specifici. Quando intorno al 1974 Stephen Lukasik e poi George Heilmeier assumono la direzione di DARPA, la transizione verso “specific deliverables” si formalizza. La AI di base, meno legata a deliverable a breve termine, ne soffre per prima.

Vale la pena aggiungere una nota sull’ecosistema di finanziamento, perché cambia tutto il modo in cui la crisi si materializza. Negli anni Sessanta DARPA finanziava i tre poli (MIT, CMU, Stanford-SRI) con cifre che, in dollari attuali, equivalgono a decine di milioni l’anno per laboratorio. Era denaro abbondante, distribuito senza milestone strette. Un dottorando di Minsky o di McCarthy poteva dedicare anni a un progetto speculativo senza dover giustificare ogni trimestre cosa stava producendo. Quando i criteri cambiano, l’effetto non è lineare: è uno shock che attraversa l’intero ecosistema di formazione dei ricercatori. Una generazione di studenti scopre che la propria area di tesi è diventata, all’improvviso, finanziariamente fragile.

Tra il 1966 e il 1973 tre eventi formali, indipendenti tra loro ma rinforzantisi, fissano la transizione del campo da fase di espansione a fase di contrazione. Sono il rapporto ALPAC, il libro “Perceptrons”, e il rapporto Lighthill. Le sezioni sotto li affrontano uno per uno, dopo aver ancorato l’intuizione generale.

L’intuizione

Angolo storico-sociologico: la fiducia come risorsa scarsa

Un campo scientifico finanziato pubblicamente vive di un contratto implicito. La comunità finanziatrice (in questo caso DARPA negli Stati Uniti, Science Research Council nel Regno Unito) accetta di sostenere un programma a costo elevato e a esito incerto, in cambio di una promessa: tra qualche anno arriveranno risultati misurabili.

Quando i risultati promessi non si materializzano nei tempi promessi, il contratto si incrina. Non è necessario che il campo abbia “fallito” in senso assoluto: basta una significativa discrepanza tra hype e realtà perché la fiducia istituzionale evapori. E quando evapora, evapora velocemente: i tagli sono decisi in fretta da pochi attori, e la ricostruzione richiede un decennio o più.

Il primo inverno è il caso da manuale di questa dinamica. Newell, Simon e Minsky negli anni Cinquanta e Sessanta avevano fatto previsioni audaci.

Simon nel 1957 prevedeva che entro dieci anni un computer sarebbe stato campione mondiale di scacchi. Nel libro “The Shape of Automation for Men and Management” del 1965 scriveva: machines will be capable, within twenty years, of doing any work a man can do. Minsky nel 1967, in Computation: Finite and Infinite Machines, dichiarava: within a generation […] the problem of creating artificial intelligence will substantially be solved.

Queste previsioni servivano (anche) ad attrarre finanziamenti. Quando nel 1973 Lighthill, e prima ancora ALPAC nel 1966, fanno il bilancio, il bilancio è pesantemente in rosso. Non perché non si fosse fatto nulla, ma perché ciò che si era fatto era enormemente meno di ciò che era stato promesso.

La dimensione sociologica dell’episodio merita attenzione. Nel 1973 l’AI mondiale era piccola: poche centinaia di ricercatori davvero attivi, distribuiti in pochi laboratori. Una battaglia persa in pubblico — il dibattito televisivo BBC tra Lighthill e McCarthy, la ricezione di “Perceptrons” — aveva conseguenze sproporzionate. Non c’era una massa critica di scienziati indipendenti, di citizen tech writers, di altri laboratori a cui appellarsi. Una manciata di decision maker (program manager DARPA, comitati SRC) bastava per riallocare i fondi di un intero campo. La fragilita istituzionale dell’AI di allora non è un fattore esterno: è parte del meccanismo dell’inverno.

Angolo tecnico: limiti reali, non solo ottimismo

Sarebbe consolatorio pensare che il primo inverno sia stato puramente un fenomeno sociologico — ottimismo eccessivo, comunicazione sbagliata, sfortuna. Non è così.

I limiti tecnici scoperti tra il 1965 e il 1975 erano profondi e reali, e in alcuni casi sono ancora oggi aperti. Vediamoli come categoria, prima di tornarci nella sezione sulla meccanica con maggior dettaglio.

La combinatorial explosion dimostrava che gli algoritmi di ricerca degli anni Sessanta — depth-first, breadth-first, A* (Hart, Nilsson, Raphael 1968) con euristiche — funzionavano in microworlds ben formalizzati ma esplodevano in problemi reali. Il problema non era “ci serve hardware più veloce”: era che lo state space cresceva più rapidamente di quanto qualsiasi accelerazione lineare di hardware potesse compensare. La differenza tra crescita lineare delle risorse e crescita esponenziale del problema è una barriera teorica, non ingegneristica.

Il frame problem, formulato da McCarthy e Patrick Hayes nel 1969 nel paper “Some Philosophical Problems from the Standpoint of Artificial Intelligence”, mostrava che la rappresentazione esplicita del cambiamento di stato richiedeva di asserire anche tutto ciò che NON cambia. Una formalizzazione naive generava un esplosione di assiomi. Era un sintomo di un problema più generale di common sense reasoning: la conoscenza implicita del mondo che ogni essere umano possiede è immensa, eterogenea, e poco compatibile con regole esplicite enumerate a mano.

I limiti dei percettroni a singolo strato, dimostrati rigorosamente da Minsky e Papert, erano reali. La famiglia delle funzioni linearmente separabili è una piccola fetta delle funzioni booleane. XOR ne è fuori. Senza un algoritmo di addestramento per reti multi-strato — che l’epoca non aveva — la teoria dell’apprendimento connessionista era effettivamente bloccata.

L’hardware dell’epoca era profondamente insufficiente. Un PDP-10 dei primi anni Settanta (Digital Equipment Corporation, computer di riferimento per molti laboratori AI) aveva nell’ordine di pochi megabyte di memoria e velocità di pochi MIPS. Per i microworlds di SHRDLU bastava; per qualsiasi cosa più vicina a un dominio aperto era paurosamente inadeguato.

L’inverno ha quindi cause sociologiche reali e cause tecniche reali. Le due si sono rinforzate. Ridurre tutto al solo “hype eccessivo” è un errore simmetrico al ridurlo al solo “muro tecnico”: le due cause vivono insieme.

Si noti, per inciso, che lo stesso intreccio di cause è visibile nelle riletture moderne degli inverni successivi. Il secondo inverno (1987-1993) non è solo “il mercato dei sistemi esperti collassa per ragioni economiche”, ed è altrettanto sbagliato dire che è solo “i sistemi esperti raggiungono limiti tecnici intrinseci”. È entrambe le cose. Distinguere i due piani aiuta a non confondere, in un caso reale di crisi di campo, una causa con l’altra — e a intervenire dove serve.

La meccanica

ALPAC 1966 e il caso traduzione automatica

ALPAC sta per Automatic Language Processing Advisory Committee. È un comitato del National Research Council statunitense, formato nel 1964 sotto la presidenza di John R. Pierce (ingegnere ed esecutivo dei Bell Labs, 1910-2002, già noto per aver co-inventato il transistor a giunzione e per aver coniato il termine “transistor”). Il mandato del comitato: valutare lo stato della ricerca in machine translation (MT) e linguistica computazionale negli Stati Uniti. Il rapporto finale, dal titolo “Languages and Machines: Computers in Translation and Linguistics”, viene pubblicato nel novembre 1966 dal NRC.

La motivazione del comitato è politica e finanziaria. Tra il 1956 e il 1966 il governo USA — principalmente attraverso CIA, NSF e Dipartimento della Difesa — aveva speso circa venti milioni di dollari dell’epoca (in valore attuale, nell’ordine delle centinaia di milioni) in progetti di MT, principalmente per tradurre dal russo all’inglese in chiave Guerra Fredda.

Il finanziatore voleva sapere se quei venti milioni stavano producendo qualcosa di utile, o se la promessa di “fully automatic high quality translation” che la comunità aveva fatto nei primi anni Sessanta fosse credibile. La domanda non era ostile in partenza: era una richiesta di rendiconto, formulata in modo professionale.

Il contesto storico-tecnico contava. La traduzione automatica dei primi anni Sessanta era basata su approcci essenzialmente “rule-based”: dizionari bilingui codificati a mano, regole sintattiche di trasformazione, pochi (e fragili) tentativi di analisi semantica. Il framework intellettuale era quello della linguistica trasformazionale di Chomsky e dei primi sistemi di parsing. L’idea di base era che, una volta scritte abbastanza regole, la traduzione sarebbe stata principalmente un problema di lookup e di applicazione meccanica. Negli anni successivi si capi che la traduzione naturale richiede comprensione del contesto, conoscenza del mondo, gestione di ambiguita lessicali e idiomatiche — tutte cose che il framework rule-based non era attrezzato a gestire.

Il rapporto contiene una valutazione comparativa esplicita. Confronta tempo e costo della “fully automatic high quality translation” con quello della traduzione umana e con quello della “human translation aided by machines” (cioe traduzione umana con strumenti elettronici di supporto).

La conclusione è netta: la traduzione completamente automatica di qualità non esiste, non esiste un metodo verificabile per produrla, e il costo del post-editing necessario per rendere usabile l’output di una MT rendeva la pipeline complessivamente più costosa della traduzione umana diretta. Letteralmente: there is no immediate or predictable prospect of useful machine translation.

L’effetto pratico è brutale. I fondi per la machine translation negli USA crollano. La maggior parte dei laboratori MT chiude o si riconverte. Il campo come tale, in USA, scompare per quasi un decennio.

La ricerca in NLP non sparisce — sopravvive in centri universitari come CMU e MIT con budget piccoli — ma la traduzione automatica come obiettivo dichiarato torna alla scientific community sostanzialmente solo negli anni Ottanta. Alcuni sistemi commerciali, come SYSTRAN (sviluppato da Peter Toma a partire dal 1968, in uso dalla Commissione Europea per traduzioni interne e dalla USAF per il russo) sopravvivono in nicchie pratiche, ma il sogno della “fully automatic high quality translation” viene archiviato per decenni.

Va notato che ALPAC non era un rapporto sull’AI in senso ampio: era specificamente sulla MT. Viene tuttavia letto, anche dal mondo politico, come un segnale che le promesse dell’AI in generale sono inflazionate. Il legame con l’inverno generale che seguirà non è di filiazione tecnica (ALPAC non causa Lighthill, e non analizza altri sotto-campi dell’AI) ma è un’analogia di pattern: il metodo “fai promesse grandi, ottieni fondi grandi, vediamo che succede” diventa per la prima volta oggetto pubblico di critica, e quello stesso pattern verrà applicato al resto dell’AI nei sette anni successivi.

La valutazione di ALPAC nel 1966 era corretta sui dati disponibili allora; verrà smentita decenni dopo dall’evoluzione tecnologica (statistical machine translation negli anni Novanta, neural machine translation dal 2014). Ma giudicare un rapporto del 1966 alla luce di progressi del XXI secolo è un anacronismo: ALPAC valutava lo stato del 1966, non profetava il futuro.

Un dettaglio metodologico spesso trascurato. Il rapporto è uno dei primissimi esempi di valutazione comparativa cost-benefit applicata a un campo di ricerca AI. Pierce e co-autori non si limitano a dire “non funziona”: presentano numeri sui costi orari del post-editing umano confrontati con quelli della traduzione professionale diretta, mostrano esempi di output MT con annotazioni sugli errori, propongono un’alternativa concreta (la “human translation aided by machines”, che diventerà negli anni successivi la famiglia dei computer-aided translation tools). Per quanto critichi il campo, il rapporto è uno strumento di valutazione di buona qualità scientifica.

”Perceptrons” 1969 e il colpo alle reti neurali

Marvin Minsky e Seymour Papert pubblicano nel 1969 per il MIT Press il libro “Perceptrons: An Introduction to Computational Geometry”. Una edizione espansa esce nel 1988 con un nuovo prologo e un epilogo che rispondono alle critiche storiche.

Il libro è formalmente un’opera di geometria computazionale. Studia, con strumenti matematici precisi, la classe delle funzioni booleane che un percettrone a singolo strato può apprendere. La nozione di percettrone usata è quella di Frank Rosenblatt (1958, Psychological Review, paper “The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain”). Vediamo prima cosa è un percettrone, poi cosa Minsky-Papert dimostrano e cosa non dimostrano.

Un percettrone a singolo strato calcola, dato un vettore di input $\mathbf{x} \in \mathbb{R}^n$ , un output $y \in \{0, 1\}$ tramite la formula:

$y = \sigma(\mathbf{w} \cdot \mathbf{x} + b)$

dove $\mathbf{w} \in \mathbb{R}^n$ è il vettore dei pesi sinaptici, $b \in \mathbb{R}$ è un bias, e $\sigma$ è una funzione a soglia (la funzione di Heaviside, che vale $1$ se l’argomento è non negativo, $0$ altrimenti). In parole povere: il percettrone calcola una somma pesata degli input, e si attiva se la somma supera una soglia. La regola di apprendimento di Rosenblatt aggiusta $\mathbf{w}$ e $b$ in funzione dell’errore commesso su esempi etichettati: se l’output predetto è sbagliato, i pesi vengono spinti nella direzione che riduce l’errore.

Geometricamente, l’equazione $\mathbf{w} \cdot \mathbf{x} + b = 0$ definisce un iperpiano nello spazio di input. Il percettrone classifica come $1$ tutto ciò che sta da un lato dell’iperpiano, come $0$ tutto ciò che sta dall’altro. Una funzione $f: \{0,1\}^n \to \{0,1\}$ è detta linearmente separabile se esiste un iperpiano che separa i punti dove $f = 0$ dai punti dove $f = 1$ . Solo le funzioni linearmente separabili sono apprendibili da un percettrone a singolo strato.

XOR è l’esempio canonico di funzione non linearmente separabile. Considera il piano $(x_1, x_2)$ con quattro punti corrispondenti agli input booleani: $(0,0)$ , $(0,1)$ , $(1,0)$ , $(1,1)$ . La funzione XOR vale $0$ in $(0,0)$ e $(1,1)$ (i due angoli “diagonali” rossi), e vale $1$ in $(0,1)$ e $(1,0)$ (i due angoli diagonali blu). Una retta nel piano divide il piano in due semipiani; nessuna retta può separare le due diagonali in modo da mettere i rossi da una parte e i blu dall’altra. Conclusione: XOR non è linearmente separabile, e dunque non può essere appreso da un percettrone a singolo strato.

Minsky e Papert mostrano un’intera famiglia di funzioni “geometriche” — la parita (di quanti bit sono accesi tra gli input), la connettivita di figure piane bidimensionali, alcune funzioni topologiche — che un percettrone a singolo strato non può apprendere, oppure può apprendere solo a costo di risorse esplosive (numero di pesi che cresce più rapidamente di una funzione polinomiale del numero di input). Sono dimostrazioni rigorose, e tecnicamente corrette.

Ciò che il libro NON dimostra: che reti multi-strato (multi-layer perceptrons, MLP) abbiano gli stessi limiti. Una rete a due strati con funzioni di attivazione non lineari può, in linea di principio, calcolare XOR e qualunque altra funzione booleana. Mostriamo una costruzione minima per XOR. Costruisci due unita nascoste:

$h_1 = \mathbb{1}[x_1 + x_2 \geq 1]$ (è un OR)
$h_2 = \mathbb{1}[x_1 + x_2 \geq 2]$ (è un AND)

Aggiungi un’unita di output che combina $h_1$ e $h_2$ con pesi $+1$ e $-1$ e soglia $1$ :

$y = \mathbb{1}[h_1 - h_2 \geq 1]$

Verifica: per $(0,0)$ , $h_1 = 0, h_2 = 0$ , $y = 0$ . Per $(0,1)$ , $h_1 = 1, h_2 = 0$ , $y = 1$ . Per $(1,0)$ , $h_1 = 1, h_2 = 0$ , $y = 1$ . Per $(1,1)$ , $h_1 = 1, h_2 = 1$ , $y = 0$ . Esattamente XOR. La profondità (multi-layer) supera il limite del singolo strato.

Il problema, nel 1969, non era esprimere XOR con due strati. Il problema era addestrare i pesi di una rete a due strati a partire da esempi etichettati.

La regola di Rosenblatt funziona solo per un singolo strato. La sua generalizzazione efficiente — il backpropagation — pur essendo già stata proposta in forme parziali da diversi autori (in particolare Paul Werbos, in una tesi di dottorato del 1974 ad Harvard), verrà resa popolare e applicabile su scala solo nel 1986, quando David Rumelhart, Geoffrey Hinton e Ronald Williams pubblicano su Nature “Learning Representations by Back-propagating Errors”. Diciassette anni dopo Perceptrons.

L’effetto del libro sul campo connessionista è pesantemente discusso.

La narrazione tradizionale, sostenuta tra gli altri da Hinton in molte interviste, vuole che “Perceptrons” abbia ucciso la ricerca neurale per quindici anni. Una rilettura sociologica più sfumata viene da Mikel Olazaran (sociologo della scienza spagnolo) nel paper “A Sociological Study of the Official History of the Perceptrons Controversy” (Social Studies of Science, 1996).

Olazaran argomenta che il libro ha contribuito ma non è stato la causa unica: il programma percettrone era già in difficoltà intrinseca, mancava una teoria dell’apprendimento profondo, e il finanziamento si stava già esaurendo per motivi indipendenti. Ciò nondimeno, l’effetto culturale è stato reale. Per quasi quindici anni “neural network” è stata una parola maleodorante nei comitati che assegnano grant.

C’è una nota umana che vale la pena ricordare. Frank Rosenblatt muore l’11 luglio 1971, a soli 43 anni, in un incidente in barca a vela a Chesapeake Bay. Era stato isolato accademicamente nei suoi ultimi anni; il Perceptron Project a Cornell, di cui era anima, perse rapidamente sostegno dopo il 1969. La causa della morte è fisica e indipendente dal libro di Minsky-Papert; ma la coincidenza temporale è un dettaglio che gli storici del campo hanno spesso ricordato.

Una digressione tecnica utile per il lettore moderno. La regola di apprendimento di Rosenblatt si esprime così: per ogni esempio $(\mathbf{x}, y^*)$ con $y^*$ etichetta vera e $y$ output predetto, l’aggiornamento dei pesi è $\mathbf{w} \leftarrow \mathbf{w} + \eta (y^* - y) \mathbf{x}$ , dove $\eta > 0$ è un tasso di apprendimento. In parole povere: se il percettrone si sbaglia, sposta il vettore dei pesi nella direzione dell’input quando avresti dovuto attivarti, nella direzione opposta quando non avresti dovuto attivarti. Il teorema di convergenza del percettrone, dimostrato da Rosenblatt e poi formalizzato da Novikoff (1962), garantisce che se i dati sono linearmente separabili, l’algoritmo converge in un numero finito di passi a un iperpiano che li separa correttamente. È un risultato matematicamente bello: una garanzia di convergenza non banale, in un’epoca in cui la teoria dell’apprendimento era agli inizi.

Il problema di Minsky-Papert si attacca esattamente qui. La garanzia vale solo se i dati sono linearmente separabili. Se non lo sono — come per XOR, parita, connettivita di figure piane — l’algoritmo non converge. E non c’è modo di “rendere separabili” i dati senza cambiare la rappresentazione di input. Un percettrone a singolo strato è, in questo senso, intrinsecamente limitato. La via d’uscita matura — aggiungere strati nascosti che apprendano automaticamente una rappresentazione separabile — richiedeva backpropagation. Quella via era nota in forme parziali: oltre a Werbos 1974, contributi precedenti di Bryson e Ho (1969 nel libro “Applied Optimal Control”, che derivava il backprop in chiave control theory) e di Kelley (1960) erano disponibili. Ma nessuno aveva fatto il salto di applicarlo sistematicamente a reti neurali profonde, e l’hardware non avrebbe comunque sostenuto l’esperimento. Quindi nel 1969 il muro era reale, anche se in retrospettiva si vede che era un muro di carta.

Lighthill 1973 e il colpo decisivo in UK

Sir James Lighthill (matematico applicato britannico, 1924-1998, professore Lucasian di matematica a Cambridge dal 1969 al 1979) viene incaricato dal Science Research Council del Regno Unito di redigere una valutazione indipendente dello stato dell’artificial intelligence come campo di ricerca. Lighthill non era un addetto ai lavori dell’AI: era un matematico applicato di altissimo livello, esperto soprattutto di fluidodinamica. Questa esternalita è parte del punto: il SRC voleva un giudizio non interno alla comunità.

Il rapporto, dal titolo “Artificial Intelligence: A General Survey”, viene completato nel 1972 e pubblicato nel 1973 come parte del volume del SRC “Artificial Intelligence: a paper symposium”, che include anche risposte critiche di John McCarthy, Donald Michie (informatico scozzese, 1923-2007, fondatore del laboratorio di Edinburgh, già stato a Bletchley Park con Turing durante la guerra) e Roger Needham (informatico inglese, 1935-2003, all’Università di Cambridge).

Lighthill divide il campo dell’AI in tre categorie:

A — Advanced Automation: applicazioni industriali e scientifiche di tecniche computazionali, come riconoscimento di pattern, controllo industriale, ottimizzazione. Lighthill considera questa categoria utile e degna di finanziamento.
B — Building robots / Bridge between A and C: programma di ricerca che vorrebbe costruire sistemi general-purpose, robot intelligenti, sistemi che ragionino in modo flessibile su problemi aperti. È la categoria che ha ricevuto più hype e che, secondo Lighthill, ha mantenuto meno.
C — Computer-based central nervous system research: ricerca ispirata alla biologia del cervello, che studia computazionalmente i meccanismi neurali. Lighthill ammette il valore scientifico ma la considera lontana da risultati applicativi.

Il giudizio più duro va alla categoria B. Lighthill scrive: Most workers in AI research and in related fields confess to a pronounced feeling of disappointment in what has been achieved in the past twenty-five years. […] In no part of the field have the discoveries made so far produced the major impact that was then promised.

Identifica come causa principale la combinatorial explosion: gli algoritmi che funzionavano nei microworlds non scalavano a problemi reali, e nessun progresso teorico alla data del rapporto sembrava in vista per superarla.

L’effetto è devastante per la AI britannica. Il SRC interrompe quasi tutti i finanziamenti per progetti di “categoria B” nel Regno Unito. Solo il laboratorio di Edinburgh, che era stato il principale beneficiario, sopravvive con un drastico ridimensionamento. La AI britannica entra in un decennio di marginalita. Una ripresa parziale arriverà solo con il programma Alvey (1983-1990), reazione politica britannica al programma giapponese Fifth Generation Computer System del 1982.

Il Lighthill debate è il dibattito televisivo trasmesso dalla BBC nel 1973 nella serie “Controversy”, in cui Lighthill argomenta la sua posizione contro tre interlocutori: McCarthy, Michie e Richard Gregory (psicologo inglese, 1923-2010, autore di lavori classici sulla percezione). Nella percezione del pubblico generale e di buona parte della comunità scientifica britannica, Lighthill prevale. Il dibattito è uno dei pochi casi nella storia in cui una valutazione tecnica di un campo scientifico avviene in prime time televisivo, ed è un episodio simbolico dell’inverno: l’AI viene messa pubblicamente sotto accusa, e non riesce a difendersi efficacemente.

Le risposte critiche degli interpellati nel volume del 1973 meritano una nota. McCarthy contesta soprattutto la categorizzazione A/B/C: sostiene che la separazione è artificiale e che molti dei risultati di “categoria A” non esisterebbero senza la ricerca di base “categoria B” che Lighthill vorrebbe defundare. Michie risponde con una difesa puntuale dei progressi di Edinburgh in robotica e in formal proof, sottolineando che il rapporto sottostima sistematicamente i risultati che non sono ancora applicativi ma sono solidi metodologicamente. Needham, da Cambridge, fa una difesa più sobria: ammette i problemi di scalabilità ma propone che il finanziamento venga ridiretto verso aree promettenti, non semplicemente tagliato. Nessuna di queste risposte sposta la decisione del SRC. La storia mostra spesso che una difesa tecnicamente corretta arriva dopo che la decisione politica è già stata presa.

Una postilla di lungo periodo. Il rapporto Lighthill viene oggi citato da molti come l’esempio paradigmatico di “valutazione esterna che spegne un campo”. È anche, però, un esempio di valutazione che ha colto bene una difficoltà reale: gli algoritmi di ricerca degli anni Sessanta non scalavano, e nessun progresso teorico era in vista nel 1973 per superarla. La svolta arriverà con altre vie — sistemi esperti basati su KR (anni Ottanta), apprendimento statistico (anni Novanta), apprendimento profondo (2010 in poi) — e nessuna di queste vie era prevedibile dalle informazioni disponibili a Lighthill. La diagnosi era corretta, la prognosi (impossibilita di superare la combinatorial explosion) si rivelerà errata, ma in un orizzonte temporale che eccede di decenni quello rilevante per il decisore politico del 1973.

Le cause profonde tecniche

I tre trigger formali — ALPAC, Perceptrons, Lighthill — agiscono da grilletto. Ma sotto di essi ci sono cause tecniche reali che la comunità aveva sottostimato. Vediamole una per una.

La combinatorial explosion è il fatto che lo state space di un problema cresce tipicamente come funzione esponenziale del numero di variabili in gioco.

Per la torre di Hanoi con $n$ dischi servono $2^n - 1$ mosse: con 10 dischi, 1023 mosse risolvibili in millisecondi; con 64 dischi (il problema mitologico originale), circa $1{,}8 \times 10^{19}$ mosse, oltre il miliardo di miliardi. Il branching factor di una posizione di scacchi è tipicamente intorno a 35; il numero di partite di scacchi distinte (Shannon number) è stimato intorno a $10^{120}$ , contro circa $10^{80}$ atomi nell’universo osservabile. Una conversazione naturale ha branching factor ad ogni turno nell’ordine delle migliaia di token plausibili al primo passo, e cresce moltiplicativamente per ogni passo successivo: praticamente illimitato.

Le euristiche aiutano, ma non bastano per problemi reali se la struttura del problema non è compatibile con qualche forma di pruning radicale. La lezione è epistemologica oltre che ingegneristica: certe strutture di problema sono intrinsecamente non comprimibili tramite ricerca generale, e per affrontarle serve cambiare paradigma — riducendo la rappresentazione, scegliendo astrazioni gerarchiche, oppure abbandonando la ricerca esatta in favore di approssimazioni statistiche. Negli anni Settanta nessuna di queste vie era ancora abbastanza matura per costituire un’alternativa industriale.

Il frame problem, posto da McCarthy e Hayes nel 1969 in “Some Philosophical Problems from the Standpoint of Artificial Intelligence”, è il problema di rappresentare ciò che NON cambia quando un’azione viene eseguita.

Esempio: stato $s_0$ — una scatola rossa sul tavolo, un libro sullo scaffale, fuori piove. Azione: l’agente sposta la scatola dal tavolo alla sedia. Stato $s_1$ — la scatola sulla sedia. In una formalizzazione predicativa di stile situation calculus, oltre ad asserire che dopo l’azione move(box, table, chair) vale on(box, chair) e non vale on(box, table), devi anche asserire che il colore della scatola è lo stesso, che il libro è ancora sullo scaffale, che fuori sta ancora piovendo, che il PIL della Norvegia è invariato, e così via.

Per ogni azione, esplicitare ciò che non cambia richiede un numero astronomico di assiomi. Diverse soluzioni proposte (situation calculus con frame axioms, default logic di Reiter 1980, event calculus, predicate completion non-monotona) attenuano il problema ma non lo risolvono completamente. È un sintomo strutturale di una difficoltà della rappresentazione esplicita.

Il common sense reasoning è il nome che la comunità finisce per dare al problema più generale: la quantità immensa di conoscenza implicita sul mondo che ogni essere umano possiede (i liquidi cadono, gli oggetti continuano a esistere quando non li guardi, le persone non passano attraverso i muri, si muore se non si beve per giorni) è troppo grande, troppo tacita, troppo sfumata per essere formalizzata a mano in modo completo.

Doug Lenat (informatico statunitense, 1950-2023) avvia il progetto Cyc nel 1984 proprio per affrontare frontalmente questo problema, codificando milioni di assiomi di common sense. Cyc resta in attività per decenni, con risultati discussi e tuttora oggetto di valutazioni divergenti in letteratura. (Il confronto fra l’approccio di Cyc e l’apprendimento statistico di common sense da grandi corpora è discusso in “Applicazioni pratiche”.)

L’hardware. Un PDP-10 dei primi anni Settanta aveva nell’ordine di pochi megabyte di memoria e velocità di pochi MIPS (milioni di istruzioni per secondo). Per i microworlds di SHRDLU andava bene. Per qualsiasi cosa avvicinabile a un dominio aperto era paurosamente insufficiente.

Il primo Cray-1 (1976) era una macchina industriale costosissima, non disponibile alla comunità AI accademica salvo per pochi progetti speciali. Nel 1973 nessuno poteva immaginare seriamente di addestrare modelli con miliardi di parametri: la distanza tra il compute disponibile a un laboratorio AI dell’epoca e quello richiesto da un sistema neurale di scala industriale è di molti ordini di grandezza, una distanza che nessun ottimismo del 1970 poteva colmare con la sola ingegneria del software. (Una stima quantitativa del divario, datata, è in “Applicazioni pratiche”.)

Infine, una causa “umana” merita una riga: il fenomeno wishful mnemonics, denunciato da Drew McDermott in “Artificial Intelligence Meets Natural Stupidity” (SIGART Newsletter, 1976). McDermott nota che dare a un’unita interna di un programma il nome UNDERSTAND, o a un fatto il nome SOLUTION, non significa che il programma capisca o che il fatto sia una soluzione: è un’ottica che illude i ricercatori e il pubblico. La critica è interna, severa, e diventa un classico: ogni generazione di AI la riscopre.

Il punto di McDermott merita di essere approfondito perché tocca un meccanismo cognitivo che si ripresenta puntualmente. Quando un ricercatore chiama una sotto-routine UNDERSTAND, sta facendo due cose insieme: sta dando un identificativo tecnico a una procedura, e sta importando nella propria mente — e in quella di chi legge il codice — l’intero campo semantico del verbo “comprendere”. Il rischio è che, dopo qualche mese di lavoro su quel codice, il ricercatore inizi a parlare e a pensare come se la procedura facesse davvero comprendere qualcosa, invece di limitarsi a eseguire una serie ben definita di trasformazioni simboliche. La nomenclatura crea aspettative. Le aspettative diventano metriche informali. Le metriche informali generano storie pubblicabili. Le storie pubblicabili attraggono finanziamenti. E poi, quando qualcuno fa il bilancio di cosa la procedura fa davvero, lo iato tra il nome e la cosa esplode.

McDermott proponeva una disciplina tecnica concreta: chiamare le procedure con nomi neutri (G0034 invece di UNDERSTAND, oppure nomi puramente strutturali come pattern_matcher_v3), almeno fino a quando non si fosse dimostrato che la procedura merita il nome che le si vuole dare. La sua disciplina non ha attecchito allora, e non ha attecchito oggi: il marketing dei prodotti AI continua a usare verbi mentali (“ragiona”, “comprende”, “decide”) con leggerezza. Ma il consiglio resta valido per chi scrive codice: meglio un nome modesto che dovra essere promosso, piuttosto che un nome ambizioso che dovra essere ridimensionato.

Cosa sopravvisse

L’inverno non spense la ricerca: la ridimensiono. Diverse linee proseguirono e in alcuni casi si rafforzarono, costituendo il sostrato su cui costruira la ripresa.

La programmazione logica. Prolog (PROgrammation en LOGique) viene definito nel 1972 da Alain Colmerauer (informatico francese, 1941-2017) all’Università di Marsiglia, con contributi teorici fondamentali di Robert Kowalski (logico anglo-americano, n. 1941) all’Università di Edinburgh. Prolog è un linguaggio di programmazione in cui un programma è un insieme di clausole logiche di Horn, e l’esecuzione è una ricerca di refutazione. Diventa una piattaforma di ricerca pesantemente usata in Europa e in Giappone, e sarà la base del Fifth Generation Computer System Project giapponese del 1982.

La rappresentazione della conoscenza (KR). Marvin Minsky pubblica nel 1974 “A Framework for Representing Knowledge” (MIT-AIM-306), dove introduce i frames: strutture rappresentazionali che organizzano informazione attorno a concetti prototipici, con slot, valori di default, ed ereditarietà. Roger Schank (informatico statunitense, 1946-2023, a Yale) e Robert Abelson (psicologo, 1928-2005) pubblicano nel 1977 “Scripts, Plans, Goals and Understanding” introducendo gli scripts: rappresentazioni di sequenze stereotipiche di eventi (es. lo script “ristorante”: entrare, sedersi, ordinare, mangiare, pagare, uscire). Frames e scripts diventeranno antenati concettuali di molte strutture di rappresentazione successive — dagli ontology in OWL alle structured outputs di sistemi più recenti.

I sistemi esperti embrionali. DENDRAL, avviato a Stanford da Edward Feigenbaum (informatico statunitense, n. 1936) nel 1965, si era già rivelato un caso di successo per la chimica analitica. Nel 1972-1976 da DENDRAL nasce MYCIN, sistema esperto per la diagnosi di infezioni batteriche, sviluppato da Edward Shortliffe (medico-informatico, n. 1947) come parte della sua tesi di dottorato a Stanford. MYCIN sarà il prototipo dell’expert system commerciale degli anni Ottanta — argomento del prossimo slug sistemi-esperti.

Altri sopravvissuti. Il Boyer-Moore theorem prover (1973) di Robert Boyer e J. Strother Moore diventa influente nella verifica formale del software. Le Hopfield networks (1982): John Hopfield (fisico statunitense, n. 1933) introduce reti neurali ricorrenti analizzate con strumenti della meccanica statistica, segnando l’inizio della rinascita connessionista. Il backpropagation pratico: Rumelhart, Hinton e Williams 1986 in Nature, che riapre la stagione delle reti profonde.

Nel mondo connessionista, alcune scuole sopravvissero a margine. Hinton stesso lavora sulle Boltzmann machines a meta degli anni Ottanta. Stephen Grossberg e Gail Carpenter sviluppano le ART networks. Teuvo Kohonen, in Finlandia, sviluppa le self-organizing maps. La ricerca neurale non muore: si sposta in periferia accademica, sopravvive in laboratori isolati, riemerge venti anni dopo con la potenza di calcolo necessaria a fiorire.

Una sopravvivenza che merita una nota specifica è il simulated annealing (Kirkpatrick, Gelatt, Vecchi, 1983, Science). Tecnica di ottimizzazione globale ispirata al raffreddamento dei metalli, sviluppata in ambito fisico e poi rapidamente adottata in AI per problemi di soddisfacimento di vincoli e di routing. Non è “AI” in senso stretto, ma è un esempio di come, durante l’inverno, idee provenienti da fisica statistica entrarono nel toolkit dell’AI a riempire alcuni vuoti lasciati dal collasso dell’agenda generalista. La fisica statistica influenzerà anche, pochi mesi dopo, le Boltzmann machines di Hinton e Sejnowski.

Va menzionato anche un sopravvissuto più sotterraneo: il knowledge engineering come professione. Il termine emerge alla fine degli anni Settanta a Stanford, in particolare con il lavoro di Edward Feigenbaum, e descrive il mestiere di estrarre conoscenza da esperti umani per codificarla in regole utilizzabili da un sistema esperto. Diventa una vera e propria figura professionale negli anni Ottanta. La pratica del knowledge engineering è antenata di molte attività moderne — dalla progettazione di prompt e tool schemas per agenti, alla curation di dataset di fine-tuning. Il filo si vede, anche se il nome è cambiato.

Estensione temporale

Per ancorare il lettore, questi sono i confini convenzionali dell’inverno.

In Stati Uniti l’inverno propriamente detto va dal 1974 circa al 1980 circa. La transizione di DARPA dal modello “block funding” al modello “specific deliverables” sotto le direzioni di Lukasik e Heilmeier intorno al 1974 è un punto di svolta: i finanziamenti vengono legati a obiettivi misurabili a breve termine, e la ricerca di base in AI ne soffre.

Nel Regno Unito l’inverno è più profondo e dura più a lungo: 1973-1983. Edinburgh sopravvive con difficoltà. La Carnegie Mellon e Stanford, in USA, sopportano meglio perché hanno fonti di finanziamento più diversificate.

Resto del mondo: la Francia, con Prolog, mantiene una scuola attiva. Il Giappone, con il Fifth Generation Project (1982-1992), reagisce alla depressione occidentale con un investimento massiccio — che però finirà male e contribuira al secondo inverno. La storia di quel programma giapponese è parte del capitolo successivo a quello sui sistemi esperti.

Va notato che parlare di “inverno” in modo monolitico nasconde sotto-cicli interni. La machine translation in USA va in inverno già nel 1966 (otto anni prima del resto della AI). Le reti neurali entrano in inverno nel 1969-1970, restano sotto la neve fino al 1986 e poi al 2012, con due brevi primavere intermedie (Hopfield 1982, MLP+backprop 1986-1990, kernel methods anni Novanta come parziale “alternativa neurale” senza backprop). I sistemi esperti hanno una mini-primavera (1980-1987) prima di crollare nel secondo inverno. La storia dell’AI non è una stagione unica, è un mosaico di stagioni sfasate per sotto-campo. Tenere distinte le stagioni è un’abitudine analitica utile anche per leggere le ondate successive: ciascuna ha il suo orologio.

Esempi

Esempio 1: la geometria di XOR

Riprendiamo l’esempio del piano $(x_1, x_2)$ visto sopra, perché è il cuore concettuale del libro di Minsky-Papert. Quattro punti, agli angoli del quadrato unitario:

$(0, 0) \to 0$ (rosso)
$(0, 1) \to 1$ (blu)
$(1, 0) \to 1$ (blu)
$(1, 1) \to 0$ (rosso)

I due rossi stanno su una diagonale; i due blu sull’altra. Una retta nel piano divide il piano in due semipiani convessi. Per separare i rossi dai blu, dovresti tracciare una retta che lasci $(0,0)$ e $(1,1)$ da una parte, e $(0,1)$ e $(1,0)$ dall’altra. Provaci: qualunque retta che separi $(0,0)$ da $(0,1)$ separa anche $(1,0)$ da $(1,1)$ con la stessa orientazione, ma allora i due rossi finiscono sullo stesso lato dei due blu. Non funziona.

La generalizzazione naturale — funzione di parita di $n$ bit, che vale $1$ se il numero di bit accesi è dispari, $0$ altrimenti — è analogamente non separabile da un singolo iperpiano. Minsky-Papert mostrano che qualsiasi percettrone a singolo strato che voglia calcolare la parita su input visivi ha bisogno di un numero di pesi che cresce più rapidamente di una funzione polinomiale del numero di pixel. È un risultato negativo forte.

Lo stesso identico problema si risolve con due strati. La rete che mostra il superamento del limite è minima: due unita nascoste che calcolano AND e OR, una unita di output che calcola la differenza con soglia. Quattro pesi, tre soglie, problema risolto. Concettualmente, il messaggio è: la profondità produce potere espressivo. È lo stesso messaggio che il deep learning del 2012 in poi renderà la propria bandiera.

Esempio 2: una predizione mancata di Simon

Herbert Simon, “The Shape of Automation for Men and Management” (Harper & Row, 1965): Machines will be capable, within twenty years, of doing any work a man can do. Scadenza implicita: 1985.

Realtà nel 1985: i sistemi esperti commerciali (XCON/R1 di Digital Equipment Corporation, configuratore automatico di sistemi VAX) automatizzavano una piccolissima frazione del lavoro di un configuratore umano specializzato. Ciò che Simon aveva annunciato come “qualsiasi lavoro che un uomo può fare” non era arrivato. La predizione era sbagliata di almeno un ordine di grandezza temporale e la sua versione forte non è oggi una descrizione accurata di alcun sistema esistente.

Predizioni analoghe di Marvin Minsky (“entro una generazione il problema dell’AI sarà sostanzialmente risolto”, 1967) e di Newell e Simon (un computer campione mondiale di scacchi entro il 1967, predizione del 1957: realmente Deep Blue batte Kasparov nel 1997, trent’anni in ritardo) costituiscono il fondo culturale che il rapporto Lighthill mette in conto. Quando Lighthill scrive che “in nessuna parte del campo le scoperte fatte hanno prodotto l’impatto promesso”, sta puntando il dito proprio a queste estrapolazioni.

Esempio 3: combinatorial explosion in numeri

Per fissare l’intuizione, mettiamo accanto tre problemi di crescente complessità.

Torre di Hanoi a 10 dischi: $2^{10} - 1 = 1023$ mosse. Risolvibile in pochi millisecondi anche su hardware del 1970. È un problema “didatticamente perfetto”: uno state space pulito, un algoritmo ricorsivo elegante, dimensione gestibile.
Albero di gioco degli scacchi: il numero di Shannon stima il totale delle partite distinte intorno a $10^{120}$ . Per riferimento, il numero di atomi nell’universo osservabile è nell’ordine di $10^{80}$ . Una partita di scacchi è combinatorialmente più vasta dell’universo fisico osservabile per un fattore di $10^{40}$ .
Conversazione naturale aperta: ad ogni turno, lo spazio di possibili continuazioni grammaticalmente lecite è nell’ordine delle migliaia di token plausibili al primo passo, e cresce moltiplicativamente per i passi successivi. Praticamente illimitato.

Per quasi nessun problema realmente interessante una ricerca esaustiva è praticabile. L’AI degli anni Sessanta lo aveva intuito (Shannon nel 1950 distingueva strategia Type A da Type B per gli scacchi proprio per questa ragione); ma sottovalutava sistematicamente quanto le euristiche sviluppate per microworlds non si trasportassero al mondo aperto.

Vale la pena osservare che la via che alla fine ha “domato” il problema degli scacchi non è stata la ricerca puramente esaustiva ne le euristiche puramente simboliche. Deep Blue (1997) usava entrambe in modo aggressivo, ma su hardware specializzato di valore industriale. AlphaZero (2017) ha cambiato del tutto strategia: rete neurale che valuta posizioni, MCTS guidato dalla rete, addestramento via self-play. Lo state space resta lo stesso $10^{120}$ ; ciò che cambia è la qualità della valutazione dei nodi e la profondità dell’esplorazione effettiva. La combinatorial explosion non è stata “vinta”: è stata aggirata ridefinendo cosa si esplora. La lezione, per chi affronta problemi combinatorialmente esplosivi oggi (planning agentico, code search, scheduling), è la stessa: non cercare di esplorare tutto lo spazio, cerca una funzione di valutazione che renda l’esplorazione dirigibile.

Esempio 4: Eliza, l’imitazione che illude

Un episodio vicino al cuore dell’autocritica di McDermott riguarda ELIZA, il programma scritto da Joseph Weizenbaum (informatico tedesco-statunitense, 1923-2008) al MIT tra il 1964 e il 1966. ELIZA simulava una sessione di terapia rogeriana tramite un semplice meccanismo di pattern matching su parole chiave: se l’utente diceva “mia madre mi odia”, ELIZA rispondeva “parlami di tua madre”. Il programma non comprendeva nulla. Era un sistema di sostituzione testuale.

Il fatto sorprendente fu la reazione degli utenti. La segretaria di Weizenbaum, dopo poche conversazioni con ELIZA, gli chiese se poteva uscire dalla stanza per parlare in privato con il programma. Weizenbaum, sconvolto, scrisse poi nel libro “Computer Power and Human Reason” (1976) un attacco frontale alla AI symbolica, sostenendo che attribuire comprensione a programmi di pattern matching era un errore epistemico ed etico grave. ELIZA divenne il caso paradigmatico del fenomeno che oggi chiamiamo ELIZA effect: la tendenza umana ad attribuire intenzionalita e comprensione a sistemi che non ne hanno.

Per il primo inverno, ELIZA conta come monito. Mostra che un programma può apparire intelligente a un utente comune senza esserlo affatto, e che la “verifica per chat” è un metro fragile. È un effetto strutturale dell’interazione conversazionale, non legato a una tecnologia specifica: ricomparirà in ogni generazione di sistemi che superano la soglia di plausibilità linguistica.

Esempio 5: il frame problem in pratica

Considera una formalizzazione naive del cambiamento di stato. Stato $s_0$ : una scatola rossa sul tavolo, un libro sullo scaffale, fuori piove. Azione: l’agente sposta la scatola dal tavolo alla sedia. Stato $s_1$ : la scatola sulla sedia.

In una formalizzazione predicativa di stile situation calculus, devi scrivere assiomi del tipo:

on(box, table, s0).
on(book, shelf, s0).
raining_outside(s0).

result(move(box, table, chair), s0) = s1.
on(box, chair, s1).
not on(box, table, s1).

Ma per sapere che il libro è ancora sullo scaffale, che fuori piove ancora, che il colore della scatola è lo stesso, devi aggiungere ulteriori assiomi:

on(book, shelf, s1).
raining_outside(s1).
color(box, red, s1).
gdp(norway, 5e11, s1).
... (e così via, per ogni proprieta del mondo)

Per ogni azione e per ogni proprietà del mondo, devi esplicitare che la proprietà non è cambiata. Il numero di assiomi necessari diventa rapidamente intrattabile. Soluzioni come la default logic di Reiter (1980) cercano di rendere assiomatico per default il “non cambia”, ma il problema mostra una difficoltà intrinseca della rappresentazione esplicita della conoscenza. (Strategie successive che eludono — non risolvono — il frame problem apprendendo statisticamente da grandi corpora sono discusse nelle “Applicazioni pratiche”.)

Applicazioni pratiche

Cinque lezioni dell’inverno che restano attive oggi nel lavoro quotidiano.

Pattern hype-bust ricorrente. Il primo inverno è l’archetipo del ciclo “promessa eccessiva, delusione, taglio brusco, ripresa selettiva”. Lo stesso pattern si vede in altri settori (criptovalute 2018-2019, web3 2022, metaverso 2023).

Per chi oggi lavora con LLM e agenti, conoscere questa dinamica aiuta a calibrare aspettative quando un nuovo paper o un nuovo prodotto suscita un’ondata di entusiasmo. La domanda “quale benchmark sta misurando questa promessa?” è lo strumento di igiene fondamentale. Una promessa ancorata a un benchmark trasparente e riproducibile è una promessa che si può testare; una promessa ancorata a una demo curata o a una grafica suggestiva è una promessa che vive in uno spazio meno verificabile.

Importanza di benchmark realistici. La lezione del 1973 è che valutazioni esterne, scomode, indipendenti, possono salvare un campo da auto-illusioni.

Le moderne suite di eval (MMLU, GPQA, SWE-bench, GAIA, ARC-AGI) hanno questa funzione, e meritano la stessa qualità scientifica delle valutazioni tecniche interne. Vedi la Parte XIX della wiki, dedicata alla valutazione: il filo che parte da ALPAC arriva fino li. Una buona suite di eval non è solo uno strumento di marketing per dimostrare che il proprio modello è migliore di quello del concorrente: è un’arma di igiene contro l’auto-inganno collettivo.

Ciò che sopravvive ai tagli non è ciò che è più hyped. Prolog, frames, KR, sistemi esperti embrionali sono sopravvissuti perché modesti, utili in nicchie chiare, indipendenti dalla narrativa “general AI”. Quando il mondo dell’AI commerciale ha avuto la sua prima ondata di tagli, ha trovato in quegli strumenti una base.

Anche oggi, in un ecosistema dominato dagli LLM, le tecniche “umili” (RAG, structured outputs, planner deterministici, tool use ben architettato) sono spesso quelle che mantengono il valore in produzione, mentre le più hyped (agenti completamente autonomi che “fanno qualunque cosa”) faticano a uscire dalla demo. Per chi costruisce sistemi reali, la domanda da porsi periodicamente è: se domani sparissero le narrazioni più ambiziose, cosa di ciò che ho costruito continuerebbe a valere? La risposta indica la parte di portafoglio più robusta.

La divulgazione conta tecnicamente. “Perceptrons” è un libro tecnico corretto; la sua interpretazione culturale ha pesato più del suo contenuto.

Per chi pubblica risultati di ricerca, di valutazione, di limiti dei modelli, vale la lezione: il modo in cui un risultato viene incorniciato può determinare in gran parte come la comunità lo userà. Un titolo o un abstract eccessivamente forte può trasformare un risultato negativo specifico in una chiusura percepita di un intero programma. Una grafica scelta male può far sembrare un trade-off una sentenza.

Diversificare le fonti di finanziamento riduce la fragilita. Il MIT, Stanford e CMU hanno superato l’inverno meglio di Edinburgh anche perché avevano fonti di finanziamento più varie (industria privata, fondazioni, NSF, contratti applicativi specifici) oltre a DARPA.

Per chi oggi costruisce gruppi di ricerca o startup nell’AI, la stessa logica vale: dipendere da un unico cliente o da un unico contratto pubblico significa esporsi al rischio che un singolo cambio di policy spazzi via la propria base. La resilienza istituzionale è una caratteristica di portafoglio, non di prodotto. La stessa lezione si traduce per i professionisti individuali: avere più di una skill, più di una nicchia di applicazione, più di un network professionale, riduce drasticamente l’esposizione a inverni settoriali.

Distinguere tra hype-bust del settore e valore intrinseco delle competenze. Un altro effetto utile della rilettura del primo inverno è separare due piani che la fase ascendente di un ciclo tende a confondere. La popolarita pubblica di un campo (espressa in titoli di giornale, valutazioni di startup, sussidi pubblici) può crollare anche quando il valore intrinseco delle competenze tecniche resta alto. Chi nel 1976 sapeva scrivere bene un dimostratore automatico di teoremi non era diventato meno bravo perché i giornali avevano smesso di scriverne. La sua skill era ancora preziosa per applicazioni industriali, in nicchie meno visibili. Lo stesso vale oggi: se domani arrivasse un raffreddamento dell’hype LLM, le competenze in retrieval, in valutazione, in tool design, in system prompt engineering rimarrebbero comunque preziose. Cambierebbero solo i contratti di finanziamento e la copertura mediatica. Sapere distinguere l’uno dall’altro è un vaccino contro lo scoraggiamento.

Dove si rompe

Diverse interpretazioni semplicistiche del primo inverno meritano correzione esplicita.

“Minsky uccise le reti neurali con Perceptrons” è un’esagerazione. Il libro è tecnicamente corretto e i percettroni a singolo strato hanno limiti reali; il problema vero del 1969 era che non c’era backpropagation pratica. Olazaran 1996 mostra inoltre che il programma percettrone era già in difficoltà intrinseca prima del libro. La narrazione “single villain” semplifica una dinamica che includeva mancanza di teoria, mancanza di hardware, e riallocazione di fondi per cause solo in parte sovrapponibili al libro.

“L’inverno ha fermato l’AI” è falso. Prolog 1972, frames 1974, scripts 1977, MYCIN 1976, Boyer-Moore 1973: ricerca sostanziale continuo. Quello che si fermo fu l’agenda generalista finanziata pubblicamente con block funding e con promesse di breakthrough imminenti. Chi guarda solo ai titoli vede un buco; chi guarda al lavoro tecnico vede una transizione verso domini più modesti e produttivi.

“Era ovvio in retrospettiva che fossero predizioni sbagliate” è falso. Negli anni Sessanta i risultati visibili (Logic Theorist, GPS, SHRDLU, DENDRAL) giustificavano un certo ottimismo. La scoperta che le tecniche dei microworlds non si trasportavano al mondo aperto matura nel decennio successivo.

La saggezza retrospettiva è un bias: chi nel 1965 aveva visto SHRDLU che capiva istruzioni in linguaggio naturale poteva ragionevolmente estrapolare. Che l’estrapolazione fosse sbagliata è chiaro oggi; non era ovvio allora. La domanda corretta non è “perché non se ne sono accorti?” ma “quali strumenti epistemici avrebbero permesso di accorgersene più in fretta?”. A quella domanda il capitolo prova a rispondere indicando la combinazione di benchmark esterni, valutazioni indipendenti, e disciplina di nomenclatura.

“Solo l’occidente ha avuto un inverno” è parziale. Il Giappone reagi nel 1982 con il Fifth Generation Computer System Project, un investimento massiccio in macchine dedicate alla programmazione logica e all’AI simbolica. Quel programma finirà male e contribuira al secondo inverno della fine degli anni Ottanta. La Francia (Prolog) e l’URSS mantennero scuole proprie con piccola scala. La narrativa “occidente in crisi, oriente in espansione” si rompe sui dati più fini.

“L’inverno fu causato dalla mancanza di hardware” è parzialmente vero ma incompleto. Il muro hardware era reale, ma se fosse stata l’unica causa, l’arrivo di hardware più potente negli anni Ottanta-Novanta avrebbe risolto tutto. Non è andata così. La rinascita del connessionismo è stata abilitata dall’hardware (in particolare dalle GPU dal 2010 in poi), ma è stata anche abilitata da scoperte algoritmiche (backpropagation 1986, dropout 2012, batch normalization 2015, attention 2014-2017) e da infrastrutture di dato (ImageNet 2009, web-scale text corpora). Attribuire all’hardware da solo la responsabilità di un’epoca tecnologica è un riduzionismo che disabilita altre lezioni utili.

“I limiti dimostrati da Minsky-Papert valgono per tutte le reti neurali” è falso. Valgono per percettroni a singolo strato. Le reti multi-strato con attivazioni non-lineari sono universal approximator (teoremi di Cybenko 1989, Hornik 1991): possono approssimare arbitrariamente bene qualsiasi funzione continua su un compatto. Il problema all’epoca del libro era solo l’addestramento, risolto poi col backpropagation.

“ALPAC fu sbagliato perché oggi la traduzione automatica funziona” è un anacronismo. ALPAC nel 1966 stava valutando lo stato della MT nel 1966, non profetando il 2026. La sua valutazione era corretta sui dati disponibili allora; la transizione MT statistica anni Novanta e poi neurale 2014-2017 ha cambiato il campo radicalmente, ma con tecniche che nessuno nel 1966 poteva prevedere. Confondere una valutazione di stato con una profezia è un errore frequente quando si guarda indietro.

“L’inverno fu causato dalla cattiva fede dei ricercatori”. Falso. Le previsioni di Simon, Minsky, Newell erano in larga parte oneste estrapolazioni — non promesse cinicamente esagerate per ottenere fondi. La fiducia degli autori nei propri risultati era reale.

Ciò che mancava era una consapevolezza adeguata della differenza tra performance su microworld e performance su mondo aperto. La cattiva fede è una spiegazione comoda; la spiegazione vera è epistemologica e scomoda. Per la stessa ragione è poco utile attribuire moralmente la “colpa” dell’inverno a singoli individui: le dinamiche istituzionali — finanziamento per promesse, cicli di hype mediatico, asimmetrie di informazione tra ricercatori e decisori — sono strutturali e si ripresentano puntualmente con altri attori.

“Il primo inverno ha insegnato la lezione, dunque non si ripeterà”. Falso. Il secondo inverno (1987-1993) ripete la dinamica con i sistemi esperti come bersaglio. Chi avesse imparato la lezione del primo avrebbe anticipato il secondo con almeno qualche anno di margine; quasi nessuno lo fece.

La memoria istituzionale dei campi tecnologici è corta, e ogni generazione tende a credere che la propria ondata sia esente dal pattern. Le ragioni psicologiche sono comprensibili: chi entra in un campo durante una sua fase ascendente lo vede principalmente attraverso le proprie esperienze, e le storie di crisi precedenti suonano come materiale storiografico, non come pattern attivi. La lezione che il primo inverno tramanda non è che gli inverni si possano evitare con la pura volontà. È che si possono prevedere se si presta attenzione ai segnali — e che pianificare per la loro possibilità (diversificazione, riserve, pivoting di carriera) è un’igiene professionale, non un pessimismo. Capitolo secondo-inverno-ai.

Collegamenti

ai-simbolica-anni-60 — capitolo immediatamente precedente. I successi che generano la fiducia che poi crollerà (Logic Theorist, GPS, SHRDLU). La continuita narrativa con questo capitolo è diretta.
dartmouth-1956 — la fondazione del campo da cui parte l’ottimismo che dieci-quindici anni dopo si trasforma in over-promise. Senza Dartmouth non c’è ne hype ne inverno.
preistoria-intelligenza — radice del programma simbolico (Leibniz, Boole, Frege, Turing, McCulloch-Pitts) che entra in crisi qui. Capitolo utile per il lettore che voglia ricostruire l’origine delle scommesse messe alla prova.
sistemi-esperti — quello che sopravvive all’inverno e che produrrà una mini-ripresa anni Ottanta. MYCIN e XCON sono i casi paradigmatici. Anche quella ondata finirà male nel 1987.
secondo-inverno-ai — il pattern si ripete. Il 1987-1993 sarà un secondo round della stessa dinamica, con i sistemi esperti come bersaglio.
reti-neurali-80-90 — la ripresa connessionista parte da qui: rivendica spazio sopravvissuto a Perceptrons, usa backpropagation 1986, prepara terreno per quanto verrà dopo.
imagenet-alexnet-2012 — la ripresa definitiva del connessionismo dopo decenni di marginalita. La lunga distanza temporale tra “Perceptrons” 1969 e AlexNet 2012 misura la profondità dell’inverno per il sotto-campo neurale.
agi-definizioni (Parte II) — il dibattito su cosa significhi “macchine che fanno qualunque lavoro umano” risale alle previsioni di Simon e Minsky discusse qui. La definizione moderna di AGI è figlia (anche) di questa storia.
logica-proposizionale (Parte VII) — la programmazione logica (Prolog) è uno dei sopravvissuti dell’inverno; le sue radici tecniche si appoggiano qui.
eval-homegrown (Parte XIX) — la lezione del primo inverno per le valutazioni moderne: serve misurare bene per non sovra-promettere. Il filo metodologico parte da ALPAC e Lighthill.

Una nota di chiusura sull’oggi

L’esercizio di leggere il primo inverno serve solo se si trasferisce ad osservazioni su ciò che si sta vivendo nel proprio presente. Nel 2026, mentre questo capitolo viene scritto, il settore AI vive una fase nettamente ascendente. Investimenti in ordine di centinaia di miliardi di dollari l’anno fluiscono nei principali laboratori. Le promesse pubbliche si stanno facendo audaci: AGI entro pochi anni, automazione di interi mestieri intellettuali, super-intelligenza all’orizzonte.

Non sapremo, dal punto di osservazione del 2026, se queste promesse si materializzeranno. Quello che la storia del primo inverno suggerisce è di tenere d’occhio tre indicatori. Primo: il rapporto tra promesse pubbliche degli executive dei laboratori e benchmark indipendenti — se la divergenza cresce, attenzione. Secondo: le valutazioni esterne commissionate da finanziatori istituzionali (governi, grandi cliente enterprise) — se cominciano a circolare report critici, il pattern del 1966-1973 si sta riformando. Terzo: la diversificazione delle fonti di finanziamento dei principali player — se diventa eccessivamente concentrata, la fragilita aumenta.

Nessuno di questi indicatori predice un inverno con certezza. Insieme, però, forniscono un cruscotto più utile della pura sensazione di “questa volta è diverso”, che a posteriori si rivela sempre un cattivo predittore.

Una postilla. Le condizioni del 2026 sono diverse da quelle del 1969 in modi che potrebbero rendere un nuovo inverno meno probabile o, al contrario, più severo. Più probabile la non-occorrenza: il valore commerciale immediato dell’AI moderna è incomparabilmente maggiore di quello dei sistemi simbolici degli anni Sessanta — milioni di paganti reali, contratti enterprise, integrazione in prodotti consumer di massa. Più probabile la severita di un eventuale crollo: il livello di esposizione finanziaria è enormemente maggiore, le interdipendenze tra giocatori (cloud provider, lab, startup application-layer) sono fitte, un crollo di un anchor (un laboratorio principale, un cloud provider) avrebbe effetti di rete che il 1973 non poteva avere. Quale di queste due forze prevarra non è prevedibile dal punto di vista del 2026; ma entrambe meritano di stare nel modello mentale di chi pianifica.

Per andare oltre

“Languages and Machines: Computers in Translation and Linguistics” — ALPAC, National Research Council Publication 1416, 1966. Il rapporto originale, leggibile online. Lettura primaria per capire il primo trigger formale dell’inverno; circa 130 pagine, tono asciutto da rapporto governativo.
“Perceptrons: An Introduction to Computational Geometry” — Marvin Minsky, Seymour Papert, MIT Press, 1969 (edizione espansa 1988). Il libro tecnico al centro della controversia. L’edizione 1988 contiene un prologo e un epilogo che rispondono direttamente alle critiche storiche, ed è la versione consigliata per chi voglia leggere il dibattito completo.
“Artificial Intelligence: A General Survey” (Lighthill Report) — Sir James Lighthill, in “Artificial Intelligence: a paper symposium”, Science Research Council, 1973. Disponibile online tramite Chilton Computing. Insieme alle risposte di McCarthy, Michie e Needham nello stesso volume, da una vista a 360 gradi del momento di crisi.
“Artificial Intelligence Meets Natural Stupidity” — Drew McDermott, SIGART Newsletter n. 57, aprile 1976. Breve, tagliente, autocritica interna alla comunità AI. Il documento da cui parte la riflessione metodologica sui “wishful mnemonics” e sull’igiene concettuale del campo.
“A Sociological Study of the Official History of the Perceptrons Controversy” — Mikel Olazaran, Social Studies of Science 26(3), 1996. Riletture sociologica della controversia sui percettroni. Argomenta che la narrazione “Minsky uccise le reti neurali” è troppo semplice. Lettura consigliata per chi voglia disinnescare la narrativa “single villain”.
“What Computers Can’t Do” — Hubert Dreyfus, Harper & Row, 1972 (poi “What Computers Still Can’t Do”, MIT Press, 1992). Critica filosofica esterna basata sulla fenomenologia. Per anni considerato un irritante dalla comunità AI, oggi rivalutato perché molte delle sue intuizioni sull’importanza dell’embodied cognition si sono dimostrate fondate.
“AI: The Tumultuous History of the Search for Artificial Intelligence” — Daniel Crevier, Basic Books, 1993. Storia divulgativa generale del campo dal 1956 ai primi anni Novanta, scritta su numerose interviste con i protagonisti. Capitolo dedicato all’inverno, con aneddoti di prima mano.
“Talking Nets: An Oral History of Neural Networks” — James A. Anderson, Edward Rosenfeld (eds.), MIT Press, 1998. Interviste a protagonisti del periodo connessionista che ricordano l’effetto di Perceptrons del 1969 e dei tagli successivi. Lettura complementare a Olazaran 1996 per chi voglia voci di prima persona.
“Some Philosophical Problems from the Standpoint of Artificial Intelligence” — John McCarthy, Patrick Hayes, in “Machine Intelligence” 4 (eds. B. Meltzer, D. Michie), Edinburgh University Press, 1969. Pone esplicitamente il frame problem. Documento tecnico fondamentale per le cause profonde dell’inverno; lettura impegnativa ma centrale per chi voglia toccare con mano il problema della rappresentazione esplicita.