Dartmouth Workshop e la nascita del campo

Una proposta firmata da quattro persone nell’agosto del 1955, otto settimane di discussioni nell’estate del 1956, una decina di partecipanti che entrano ed escono: è il momento in cui un mucchio di tradizioni separate riceve un nome unico — “artificial intelligence” — e una manciata di referenti che ne dirigeranno l’agenda per i due decenni successivi.

Perché questo capitolo

Dartmouth è il punto in cui un campo di ricerca esiste come istituzione. Prima del 1956 c’era cibernetica, c’era teoria degli automi, c’era pattern recognition, c’era game theory, c’erano simulazioni di neural net, c’era computer chess, c’era heuristic search. Ognuna con la sua bandiera, le sue venue, i suoi vocabolari. Dopo il 1956 c’è “artificial intelligence” come etichetta unica sotto cui tutte queste cose possono essere raggruppate, e c’è una piccola comunità — McCarthy, Minsky, Newell, Simon, Selfridge, Samuel, Solomonoff, Rochester — che nei dieci anni successivi guiderà i tre laboratori dominanti del campo (MIT AI Lab, Carnegie Mellon, Stanford AI Lab) e gestira le commissioni che assegnano i fondi militari.

Capire Dartmouth importa per due ragioni. La prima è storica: senza sapere chi ha messo l’etichetta e perché, è impossibile decifrare la geografia del campo. Quando un paper degli anni Sessanta dice “AI” e un altro dice “cybernetics”, non sta scegliendo sinonimi; sta scegliendo una scuola e una controversia. La seconda è di agenda-setting: la proposta del 1955 elenca sette aree di ricerca che, decenni dopo, restano riconoscibili come sotto-campi vivi dell’AI. La mappa che McCarthy, Minsky, Rochester e Shannon tracciano nell’estate del 1955 ha avuto una persistenza eccezionale; quanta di quella persistenza sia merito loro e quanta sia coincidenza è discusso più avanti.

C’è anche una ragione di igiene mitologica. Dartmouth viene spesso raccontato come il “Big Bang” dell’AI: in un’estate di otto settimane sarebbe nato tutto. Non è così. Quasi tutti i pezzi erano già lì (la macchina di Turing del 1936, il neurone formale di McCulloch-Pitts del 1943, il test di Turing del 1950, SNARC di Minsky del 1951, il checkers program di Samuel demo a febbraio 1956, Logic Theorist hand-simulated nel gennaio 1956). Dartmouth ha dato un nome e ha radunato persone; non ha inventato i contenuti. Distinguere “fondazione concettuale” e “fondazione organizzativa” è un’abilità storiografica che torna utile ogni volta che un evento successivo viene raccontato come “Big Bang” di un nuovo campo.

Contesto

Il panorama in cui Dartmouth nasce è stato preparato dai capitoli precedenti. La tradizione logica e quella ingegneristica che si chiudono con Turing sono trattate in preistoria-intelligenza; il programma filosofico di Turing 1950 e l’ambiente intellettuale a cavallo della Seconda Guerra Mondiale sono in turing-macchina-mente. Qui ci concentriamo su cosa stava succedendo nel 1955-56 e su chi erano le persone che si misero a un tavolo a Hanover, New Hampshire.

Tre tradizioni convergono nel 1955. La prima è la tradizione logico-matematica: Boole, Frege, Russell, Godel, Turing, Church. Ha prodotto la nozione precisa di calcolabilita e i primi sistemi formali di derivazione.

La seconda è la tradizione computer-engineering: il primo computer elettronico general-purpose (ENIAC, 1945), l’architettura stored-program di John von Neumann (matematico ungherese-americano, 1903-1957) formalizzata nel “First Draft of a Report on the EDVAC” (1945), e i primi computer commerciali (UNIVAC I del 1951, IBM 701 del 1952).

La terza è la cibernetica: Norbert Wiener (matematico statunitense, 1894-1964) pubblica nel 1948 “Cybernetics, or Control and Communication in the Animal and the Machine”, fondando una disciplina dedicata ai sistemi di controllo e comunicazione, sia biologici sia artificiali, con loop di feedback come concetto unificante.

Le Macy Conferences (1946-1953), una serie di incontri organizzati dalla Macy Foundation a New York, sono il forum in cui questa scuola si raduna: vi partecipano Wiener, Warren McCulloch (il neurofisiologo già visto nel capitolo sulla preistoria), Margaret Mead (antropologa statunitense, 1901-1978), Heinz von Foerster (fisico austriaco, 1911-2002), e altri.

Nel 1955 i computer general-purpose esistono da meno di un decennio. L’IBM 701 ha circa 2.000 parole di memoria a tubi catodici (~9 kilobyte). Il Fortran arriverà nel 1957, il Lisp nel 1958-1960.

Programmare significa scrivere assembly per macchine specifiche. Eseguire un programma significa prenotarsi per una sessione su una macchina che vale milioni di dollari. In questo contesto un workshop di otto settimane non può essere un progetto di implementazione massiva; è inevitabilmente un progetto di concettualizzazione.

I quattro organizzatori incarnano diverse miscele delle tre tradizioni. Vediamoli con il decoder minimo che il lettore nuovo ha bisogno di avere a portata di mano.

John McCarthy (matematico e logico statunitense, 1927-2011), nel 1955 è assistant professor di matematica al Dartmouth College da febbraio. Ha un PhD in matematica da Princeton (1951) e ha già lavorato a temi di logica e calcolabilita.

È il principale promotore del workshop e l’autore della frase chiave della proposta. Lascerà Dartmouth nel 1958 per il MIT, dove fonderà con Minsky il MIT AI Project (poi AI Lab, oggi CSAIL) nel 1959 e inventerà il Lisp (1958-1960). Nel 1963 si trasferira a Stanford e fonderà lo Stanford AI Laboratory (SAIL).

Marvin Minsky (matematico e scienziato cognitivo statunitense, 1927-2016) nel 1956 è Junior Fellow alla Society of Fellows di Harvard. Ha un PhD da Princeton (1954) con una dissertazione su sistemi di rinforzo neuro-analoghi.

Nel 1951 ha costruito SNARC (Stochastic Neural Analog Reinforcement Calculator), la prima macchina di apprendimento basata su una rete neurale randomicamente cablata. Sara fondatore con McCarthy del MIT AI Lab nel 1959 e sarà per decenni la voce più influente sull’AI simbolica. Il suo libro “Perceptrons” (con Seymour Papert, 1969) contribuira al primo inverno delle reti neurali.

Nathaniel Rochester (ingegnere informatico statunitense, 1919-2001) nel 1955 lavora a IBM Poughkeepsie. Ha co-progettato l’IBM 701 con Jerrier Haddad ed è autore del primo assembler simbolico della storia.

Nel 1956 sta già eseguendo simulazioni di neural network ispirate alle teorie di Hebb su un IBM 704. Continuerà a supervisionare progetti AI a IBM (incluso il checkers di Samuel, il chess di Bernstein, il geometry theorem prover di Gelernter).

Claude Shannon (matematico e ingegnere statunitense, 1916-2001) nel 1955 è a Bell Labs. Ha già pubblicato la sua tesi del 1937 sull’algebra di Boole nei circuiti, il paper del 1948 sulla teoria dell’informazione, e il paper del 1950 “Programming a Computer for Playing Chess”.

È una star: la sua presenza da credibilita istituzionale al progetto. La sua partecipazione effettiva al workshop sarà breve.

Il 31 agosto 1955 i quattro firmano e sottopongono alla Rockefeller Foundation un documento di poche pagine intitolato “A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence”. Chiedono circa 13.500 dollari per dieci uomini per due mesi. La Rockefeller, dopo qualche esitazione (il direttore Robert Morison “non era sicuro che si dovessero stanziare fondi per un progetto così visionario”), ne concede circa 7.500.

L’intuizione

Angolo organizzativo: nasce un campo come comunità

Il primo modo di guardare Dartmouth è come un atto di rebranding e di consolidamento di comunità. Prima dell’estate 1956 c’erano molte persone che lavoravano su “macchine che pensano”, ma nessuna etichetta condivisa, nessuna agenda comune, nessuna lista di referenti istituzionali.

La cibernetica esisteva ma era percepita come dominio di Wiener e dei suoi seguaci, con un focus su feedback analogici, controllo motorio, sistemi biologici. La automata theory esisteva ma era percepita come matematica pura. Il computer engineering esisteva ma era percepito come ingegneria applicata. Il pattern recognition esisteva ma era percepito come ingegneria militare (Lincoln Lab al MIT, dove Oliver Selfridge lavorava).

Coniare il termine “artificial intelligence” significava staccare un’agenda di ricerca da queste etichette esistenti e darle vita propria. McCarthy fu esplicito sulla scelta.

In un’intervista del 1988 disse: “uno dei motivi per cui ho inventato il termine ‘artificial intelligence’ era sfuggire all’associazione con la cibernetica. La sua associazione con il feedback analogico mi sembrava fuorviante, e desideravo evitare di dover accettare Wiener come guru o di dovergli litigare contro.”

Wiener era considerato dispotico nelle sue idee ed era già in conflitto con Shannon sulla teoria dell’informazione. Coniare un termine nuovo fu un atto politico oltre che concettuale: separare un’agenda digitale-simbolica da un’agenda analog-cibernetica.

L’effetto fu duraturo. La cibernetica come tradizione si frammento negli anni Sessanta-Settanta e oggi è studiata principalmente come storia della scienza. L’AI come tradizione divenne il nome egemonico per quasi tutto ciò che riguardava macchine intelligenti. Tutti i laboratori universitari che si sarebbero aperti (MIT 1959, CMU, Stanford 1963, Edinburgh 1965), tutte le conferenze accademiche (IJCAI dal 1969, AAAI dal 1980, NeurIPS dal 1987), tutte le riviste (Artificial Intelligence dal 1970, JAIR dal 1993) avrebbero portato il nome di McCarthy.

Angolo concettuale: si fissa l’agenda dei sotto-problemi

Il secondo modo di guardare Dartmouth è come un atto di divisione del lavoro intellettuale. La proposta del 1955 prende un problema ingestibile in monoblocco — “intelligenza” — e lo spezza in sette sotto-problemi specifici, ciascuno con domande operative e citazioni alle persone già attive su quel sotto-problema. La mossa è tipica della scienza moderna: trasformare una grande domanda metafisica in una serie di micro-domande tecniche.

Le sette aree sono: (1) automatic computers, (2) language use, (3) neuron nets, (4) theory of size of a calculation, (5) self-improvement, (6) abstractions, (7) randomness and creativity. Vedremo ciascuna in dettaglio nella sezione “La meccanica”. Quel che conta dire qui è che questa partizione si è rivelata sorprendentemente robusta. Settant’anni dopo, i sotto-campi dell’AI accademica e industriale del 2026 mappano ancora bene su queste sette aree. Ciò che è cambiato non è la mappa, ma l’equilibrio tra le aree (le neuron nets e la self-improvement hanno divorato il resto), il modo in cui le aree comunicano (statistica e gradient descent al posto di logica simbolica), e la scala (miliardi di parametri al posto di poche dozzine di neuroni).

La cosa è notevole se la si paragona ad altre divisioni alternative che si sarebbero potute fare. McCarthy avrebbe potuto dividere “intelligenza” per modalità (visione, audio, linguaggio, motorio) — non lo fece. Avrebbe potuto dividere per applicazione (medica, militare, scientifica) — non lo fece. Avrebbe potuto dividere per metodo (logica, statistica, neurale) — non lo fece. Scelse di dividere per funzione cognitiva computazionalizzabile: capacità di calcolo, capacità di linguaggio, capacità di apprendere, capacità di astrarre, capacità di essere creativo. Questa scelta riflette l’intuizione che ogni capacità cognitiva è suscettibile a una formalizzazione separata. Se l’intuizione fosse stata sbagliata, l’agenda di Dartmouth sarebbe morta nei vent’anni successivi. Non lo è.

La meccanica

La proposta del 1955

Il documento ha la forma di una richiesta di finanziamento scritta in inglese piano. Comincia con una frase che è diventata la frase fondativa del campo:

We propose that a 2 month, 10 man study of artificial intelligence be carried out during the summer of 1956 at Dartmouth College in Hanover, New Hampshire. The study is to proceed on the basis of the conjecture that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it.

Tre dettagli linguistici meritano attenzione. “Conjecture”: McCarthy non afferma, congettura. La cautela è utile, perché una congettura è falsificabile: si può cercare un controesempio. “In principle”: la frase non parla di fattibilita pratica entro 1956, ma di descrivibilita formale. “Simulate”: non si afferma identità ontologica tra macchina e mente; si afferma simulazione comportamentale, in linea con la cortesia behaviorista che Turing aveva proposto nel 1950 con il test di imitazione.

Vale anche la pena segnalare ciò che la frase NON dice. Non dice che ogni aspetto dell’intelligenza e’ un calcolo. Dice che può essere “descritto così precisamente” da poter essere simulato. La differenza è filosoficamente importante: McCarthy non è un computazionalista forte alla Putnam (che diceva: la mente e’ un programma). È un funzionalista pragmatico: gli interessa che il comportamento sia riproducibile, non gli interessa metafisicamente cosa sia la mente. Questa cautela ricorre in tutta la successiva tradizione di AI ingegneristica e separa McCarthy dalle posizioni più radicali della filosofia della mente.

Il documento prosegue elencando sette argomenti di studio, ognuno dei quali apre piste che attraverseranno tutta la storia successiva del campo.

Area 1 — Automatic computers. McCarthy scrive che “se una macchina può fare un lavoro, allora un calcolatore automatico può essere programmato per simulare la macchina. Le velocità e le capacità di memoria dei computer attuali possono essere insufficienti per simulare molte delle funzioni superiori del cervello umano, ma l’ostacolo maggiore non è la mancanza di capacità della macchina, bensi la nostra incapacita di scrivere programmi che sfruttino appieno ciò che abbiamo.”

Tesi: il bottleneck non è l’hardware ma il software. La tesi sarà contestata e ri-contestata per decenni. Negli anni Duemiladieci tornerà in primo piano in forma rovesciata: lo scaling delle GPU sblocca capacità che gli algoritmi del 2010 non potevano sbloccare con hardware del 2010. Ma la tesi originale di McCarthy — algoritmi e formalizzazione contano almeno quanto compute — non è mai stata invalidata, solo bilanciata.

Area 2 — Computer use of language. “Si può speculare che gran parte del pensiero umano consista nel manipolare parole secondo regole di ragionamento e regole di congettura. Da questo punto di vista, formare una generalizzazione consiste nell’ammettere una nuova parola e alcune regole per cui le frasi che la contengono ne implicano altre e ne sono implicate.”

È la prima formulazione esplicita dell’idea che il linguaggio possa essere il cuore del pensiero macchina. Sara raccolta da Noam Chomsky (linguista statunitense, n. 1928) in “Syntactic Structures” (1957), poi da NLP simbolico (SHRDLU di Winograd, 1972), poi da modelli statistici (HMM, n-gram), infine da transformer e LLM dal 2017 in poi. Settant’anni dopo, GPT-4 e Claude 4 sono — riformulato — esattamente ciò che l’area 2 chiedeva.

Area 3 — Neuron nets. La proposta cita esplicitamente Uttley, Rashevsky’s group, Farley-Clark, Pitts-McCulloch, Minsky, Rochester e John Holland. La domanda: “Come può essere disposto un insieme di (ipotetici) neuroni per formare concetti?”

È la domanda che Frank Rosenblatt (psicologo statunitense, 1928-1971) tentera di risolvere due anni dopo con il perceptron (1957-1958), che Marvin Minsky e Seymour Papert chiuderanno apparentemente nel 1969 con il loro libro “Perceptrons”, che David Rumelhart, Geoffrey Hinton e Ronald Williams riapriranno nel 1986 con la riscoperta della backpropagation, e che Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton porteranno al successo definitivo nel 2012 con AlexNet. È la storia più lunga del campo.

Area 4 — Theory of the size of a calculation. “Come possiamo misurare la complessità di un calcolo? Sembra che il primo passo per ottenere una teoria sia trovare le definizioni giuste.”

È l’anticipazione esplicita della teoria della complessità computazionale. Juris Hartmanis e Richard Stearns formalizzano P, NP, classi temporali nel 1965; Stephen Cook (1971) e Richard Karp (1972) introdurranno la NP-completeness. Una versione molto più debole di questa idea, riformulata in chiave statistica, è alla base delle moderne scaling laws (Kaplan et al. 2020, Hoffmann et al. 2022).

Area 5 — Self-improvement. “Probabilmente una macchina veramente intelligente svolgera attività che possono essere descritte come auto-miglioramento. Alcuni schemi per fare questo sono stati proposti e meritano ulteriore studio.”

Il termine moderno è machine learning, coniato da Arthur Samuel nel 1959 nel paper “Some Studies in Machine Learning Using the Game of Checkers” (IBM Journal of Research and Development). Discendenza diretta: tutta l’attuale ML, supervised e unsupervised, reinforcement learning, RLHF, self-play (come AlphaZero del 2017), agentic self-correction (come Reflexion del 2023). È l’area che ha divorato tutte le altre.

Area 6 — Abstractions. “Diversi tipi di astrazione possono essere distintamente definiti e diversi altri meno distintamente. Un tentativo diretto di classificarli e di descrivere metodi macchina per formare astrazioni da dati sensoriali e altri sembrerebbe utile.”

È la formulazione embrionale del representation learning. Discendenza: PCA (anni Sessanta), autoencoder (anni Ottanta), embedding distribuzionali (word2vec 2013, GloVe 2014), self-supervised learning (BERT 2018, contrastive learning 2020, CLIP 2021). Ciò che McCarthy chiamava “abstraction” oggi lo chiamiamo “embedding”: una rappresentazione vettoriale densa che cattura caratteristiche salienti dei dati.

Area 7 — Randomness and creativity. “Una congettura abbastanza attraente ma chiaramente incompleta e che la differenza tra pensiero creativo e pensiero competente non immaginativo stia nell’iniezione di una certa casualità. La casualità deve essere guidata dall’intuito per essere efficiente.”

Questo è il nucleo dei generative models stocastici. Discendenza: Monte Carlo methods, simulated annealing, stochastic gradient descent, sampling con temperatura in un LLM (top-k, top-p, nucleus), GAN (Goodfellow 2014), diffusion models (Sohl-Dickstein 2015, Ho-Jain-Abbeel 2020). Quando oggi un’API di LLM ti permette di scegliere temperature 0.7 invece di 0, stai applicando l’area 7 della proposta del 1955.

Gli organizzatori e i partecipanti

Oltre ai quattro organizzatori (McCarthy, Minsky, Rochester, Shannon, già introdotti nella sezione “Contesto”), il workshop attiro nel corso delle otto settimane una ventina di persone. Le più rilevanti per il futuro del campo:

Allen Newell (informatico statunitense, 1927-1992), nel 1956 lavora sia alla RAND Corporation a Santa Monica sia al Carnegie Institute of Technology (poi Carnegie Mellon University) a Pittsburgh, dove ha appena cominciato il dottorato sotto la supervisione di Herbert Simon. Sara con Simon il fondatore della scuola di AI a CMU. Riceverà il Turing Award nel 1975 con Simon per il loro lavoro sull’AI simbolica.

Herbert A. Simon (politologo, economista e informatico statunitense, 1916-2001), professore al Carnegie Institute of Technology dagli anni Quaranta. È una figura intellettuale enorme: riceverà il premio Nobel per l’Economia nel 1978 per la teoria della razionalità limitata, oltre al Turing Award 1975 con Newell. Al workshop di Dartmouth porta il programma più concreto presentato all’evento: il Logic Theorist.

Cliff Shaw (programmatore statunitense, 1922-1991) lavora alla RAND Corporation. È il terzo autore di Logic Theorist con Newell e Simon, ed è colui che ha effettivamente programmato il sistema sul JOHNNIAC (la copia RAND dell’architettura IAS di von Neumann). Newell stesso disse: “Cliff was the genuine computer scientist of the three.” Non viene a Dartmouth.

Arthur Samuel (ingegnere statunitense, 1901-1990) lavora a IBM. Nel 1952 ha scritto il primo programma di dama per IBM 701; il suo programma con apprendimento è completato nel 1955 e dimostrato in TV il 24 febbraio 1956 (l’evento fa salire il titolo IBM di 15 punti in un giorno). Conierà il termine “machine learning” nel 1959 nel suo paper sui checkers. La sua presenza a Dartmouth porta il know-how IBM e la prova vivente che i programmi possono migliorare automaticamente.

Oliver Selfridge (matematico anglo-statunitense, 1926-2008, nipote del fondatore dei magazzini Selfridges) lavora al Lincoln Laboratory del MIT. È stato studente di Norbert Wiener (senza completare il PhD). Sara chiamato “padre della machine perception”. Nel 1958 presenterà “Pandemonium: A Paradigm for Learning” al Symposium di Teddington nel Regno Unito: un’architettura gerarchica di “demoni” paralleli per riconoscimento di pattern, pioniera del supervised learning per riconoscimento di caratteri. La sua presenza a Dartmouth pianta il seme dell’area di pattern recognition.

Ray Solomonoff (matematico statunitense, 1926-2009), studio sotto Carnap e Fermi a Chicago. Al workshop circola un report intitolato “An Inductive Inference Machine”. Nei quattro anni successivi svilupperà l’algorithmic probability e la teoria dell’inferenza induttiva universale (paper del 1960 “A Preliminary Report on a General Theory of Inductive Inference”), antenati della Kolmogorov complexity e della moderna teoria dell’apprendimento bayesiano universale. È uno dei tre partecipanti che resta per tutta l’estate; il suo taccuino è la cronaca giorno per giorno più dettagliata che abbiamo dell’evento.

Trenchard More (matematico statunitense, n. 1930), allora dottorando al MIT in logica. Partecipa alle discussioni teoriche; ricorderà l’aneddoto del dizionario consultato in gruppo per cercare la definizione di “heuristic”.

John Holland (informatico statunitense, 1929-2015), allora a IBM, sarà poi professore a Michigan. Svilupperà negli anni Sessanta gli algoritmi genetici (formalizzati nel libro “Adaptation in Natural and Artificial Systems”, 1975). La sua presenza a Dartmouth lo allinea presto al programma di self-improvement (area 5).

Julian Bigelow, W. Ross Ashby, W.S. McCulloch, John Nash, Abraham Robinson, Alex Bernstein, Bernard Widrow: passano per il workshop. Bigelow è un ingegnere che aveva lavorato con Wiener e von Neumann. Ashby è uno psichiatra e cibernetico britannico, autore dell‘“Introduction to Cybernetics” (1956). McCulloch è il neurofisiologo del paper del 1943 con Pitts. Nash è il futuro premio Nobel per l’Economia (per l’equilibrio di Nash). Bernstein lavora a IBM su un programma di scacchi. Widrow inventerà l’ADALINE (Adaptive Linear Neuron) nel 1960 con Marcian Hoff a Stanford.

La presenza simultanea di queste figure è significativa. Non era un gruppo coeso ne tantomeno un team. Era un campionario eterogeneo di intellettuali della prima generazione del dopoguerra, ciascuno con la propria agenda. Bigelow rappresentava il filo che da Wiener andava all’engineering militare. Ashby rappresentava la cibernetica britannica. Nash rappresentava la teoria dei giochi che la RAND stava applicando alla strategia nucleare. Bernstein e Samuel rappresentavano IBM e la sua scommessa industriale sull’AI. Widrow portava il filo dei sistemi adattivi che si sarebbe sviluppato a Stanford. Il workshop fu meno una “scuola” che un punto di incrocio in cui questi fili, per la prima volta, si toccarono fisicamente. Cosa accadde in seguito a ciascun filo dipese più dalle istituzioni di base dei partecipanti che dalle conversazioni di Dartmouth.

L’evento

Il workshop si svolge ufficialmente dal 18 giugno al 17 agosto 1956, occupando l’intero piano superiore del Math Department di Dartmouth. Le sessioni si tengono in giorni feriali nella main math classroom.

Solo McCarthy, Minsky e Solomonoff restano per l’intero periodo. Gli altri vanno e vengono. McCarthy a un certo punto perde la lista dei partecipanti; cinquant’anni dopo, ricostruendo a memoria, manderà a Solomonoff una lista preliminare di 47 nomi tra partecipanti, visitatori e persone interessate.

L’atmosfera è descritta come “interessante, stimolante, eccitante” da Arthur Samuel. Le sessioni quotidiane attirano da tre a otto persone. Non c’è curriculum, non ci sono paper sottoposti a peer review, non ci sono proceedings.

C’è Trenchard More che ricorda di essersi radunato con Selfridge, Minsky, McCarthy e Solomonoff intorno a un dizionario “per cercare la parola heuristic”. Il dizionario, decenni dopo, era ancora a Dartmouth Hall.

C’è Gloria Minsky, moglie di Marvin, che guida regolarmente da Boston (dove è fellow di pediatria) per visitare il marito. Non è ufficialmente listata tra i partecipanti, ma è una presenza costante. Ricorda Marvin che le ripete: “Devi vedere una cosa in più di un modo per capirla.” È una frase che riassume bene lo spirito dell’evento: più un brainstorming aperto che un progetto strutturato.

Ci sono divisioni già visibili. Da una parte i “neuron net people” (Minsky, McCulloch, Rochester, Holland) che continuano l’agenda McCulloch-Pitts. Dall’altra i “symbolic logic people” (McCarthy, Newell, Simon) che vedono nel ragionamento simbolico la via maestra.

Le due fazioni cooperano formalmente ma divergono di fatto. Nei quindici anni successivi la fazione simbolica vincerà politicamente; il libro “Perceptrons” di Minsky-Papert (1969) diventerà il pretesto per il primo inverno dei neural net.

Ci sono anche divisioni con ciò che NON viene discusso. Il lavoro di Bletchley Park di Turing, Welchman, Flowers e altri sulla decrittazione di Enigma e Lorenz è classificato e quindi assente.

Anche se Turing è morto nel 1954, il suo contributo bellico non sarà declassificato fino agli anni Settanta. I partecipanti di Dartmouth conoscono il Turing del 1936 e del 1950 ma non sanno nulla del Turing 1939-1945. La storia dell’AI è per decenni amputata di un capitolo importante.

E ci sono assenze sistemiche. Tra i ventuno partecipanti formali non c’è una donna. Gloria Minsky è presente di fatto ma non listata. L’esclusione delle donne e delle minoranze dalla scienza americana degli anni Cinquanta è un problema sistemico, non specifico di Dartmouth, ma il workshop lo riflette al cento per cento. Il campo nasce con una composizione demografica che si rivelerà difficile da cambiare; se ne porterà lo strascico per decenni.

Cosa NON viene raggiunto. La proposta del 1955 affermava che “un avanzamento significativo può essere fatto in uno o più di questi problemi se un gruppo accuratamente selezionato di scienziati lavora insieme per un’estate”. Questo non succede. Nessuna delle sette aree riceve un avanzamento decisivo durante il workshop. Logic Theorist, l’unico sistema funzionante presentato, era già stato hand-simulated nel gennaio 1956 e già in esecuzione su JOHNNIAC; non è un risultato del workshop. La maggior parte dei contributi importanti dei partecipanti (Lisp di McCarthy, Pandemonium di Selfridge, Pandemonium-influenced perceptron di Rosenblatt, GPS di Newell-Simon, Samuel checkers paper, algoritmi genetici di Holland) arriverà negli anni successivi, in altre sedi, e in larga parte indipendentemente dalle interazioni di Dartmouth. Il workshop ha un valore organizzativo e simbolico, non scientifico immediato.

Vale la pena fissare con precisione la cronologia dei cinque anni successivi al workshop, perché è qui che l’eredità di Dartmouth si materializza in istituzioni e prodotti concreti. 1957: Newell, Shaw e Simon estendono Logic Theorist a General Problem Solver (GPS), un sistema che applica l’idea della means-ends analysis — risolvere un problema scegliendo a ogni passo l’azione che riduce più di tutte la differenza tra stato corrente e stato obiettivo — a domini diversi dalla sola logica proposizionale. Sempre nel 1957 Frank Rosenblatt al Cornell Aeronautical Laboratory progetta il Perceptron, primo modello operativo di neural network apprendente, basato su un singolo strato di unita McCulloch-Pitts modificate con regola di apprendimento. 1958: McCarthy lascia Dartmouth e diventa associate professor of communication science al MIT. Comincia a progettare un linguaggio di programmazione che chiamerà Lisp, basato sul lambda calcolo di Church. Selfridge presenta Pandemonium al Symposium di Teddington. 1959: McCarthy e Minsky fondano l’AI Project al MIT (presto rinominato MIT AI Lab, oggi CSAIL). Samuel pubblica il paper sui checkers e conia il termine “machine learning”. 1960: McCarthy pubblica “Recursive Functions of Symbolic Expressions and Their Computation by Machine, Part I”, il paper che definisce ufficialmente Lisp. 1963: McCarthy si trasferisce a Stanford e fonda lo Stanford AI Lab (SAIL). La prima generazione post-Dartmouth, in cinque anni, ha già messo in piedi tutta l’infrastruttura istituzionale che reggerà il campo per i successivi venti.

Logic Theorist

Logic Theorist (LT) merita una sezione a se. È il primo programma deliberatamente progettato per fare ragionamento automatico, ed è la dimostrazione di esistenza che le ambizioni della proposta del 1955 non erano deliranti.

LT è scritto da Allen Newell, Herbert Simon e Cliff Shaw alla RAND Corporation tra fine 1955 e prima meta 1956. Il dominio scelto è il capitolo 2 dei Principia Mathematica di Whitehead e Russell (1910), che contiene 52 teoremi della logica delle proposizioni. L’obiettivo è dimostrarli automaticamente.

Architettura. LT mantiene una working memory di proposizioni “note” — gli assiomi più i teoremi già derivati. Dato un teorema-obiettivo, tenta di produrre una catena di proposizioni che lo colleghi agli assiomi tramite quattro operazioni:

Substitution: rimpiazzare uniformemente una variabile con un’espressione (es. da $p \to p$ ottenere $(\neg q) \to (\neg q)$ ).
Detachment (modus ponens applicato all’indietro): se l’obiettivo è $B$ e si possiede $A \to B$ , allora basta dimostrare $A$ .
Forward chaining: applicare modus ponens in avanti dagli assiomi noti, generando nuove proposizioni che potrebbero servire più tardi.
Backward chaining: lavorare a ritroso dall’obiettivo verso le premesse note.

La novità sono le euristiche. Una proposizione candidata è considerata promettente se “somiglia” sintatticamente al goal: la similarita è misurata contando i simboli condivisi. Le proposizioni non promettenti vengono potate.

Senza questo criterio, la ricerca esploderebbe: lo spazio dei teoremi raggiungibili da pochi assiomi tramite quattro regole è rapidamente astronomico. Con le euristiche, lo spazio diventa esplorabile.

Lo spazio di ricerca di LT può essere visto come un grafo orientato. I nodi sono proposizioni; gli archi sono applicazioni di una delle quattro regole. Una dimostrazione è un cammino che collega l’obiettivo agli assiomi.

Le euristiche assegnano un punteggio a ciascun nodo e visitano per primi quelli con punteggio più alto: è essenzialmente una forma di best-first search, anche se il termine si standardizzera dopo.

La sequenza Newell-Simon-Shaw apre il capitolo della heuristic search che dominerà l’AI simbolica per due decenni e che oggi rivive in chiave moderna nei modelli di reasoning con search-based decoding (MCTS su token, tree-of-thoughts, o3 e DeepSeek-R1).

Implementazione. LT è scritto in IPL (Information Processing Language), un linguaggio inventato dagli stessi Newell-Shaw-Simon che introduce la list-based memory: dati strutturati come liste di puntatori, ciascuna lista una sequenza di simboli.

IPL è l’antenato concettuale del Lisp di McCarthy (1958-1960). Lisp avrà un design molto più pulito basato sul lambda calcolo, con recursion nativa e garbage collection automatica, ma l’idea di base — la lista come struttura dati primaria per rappresentare programmi e dati indistintamente — è di IPL.

Hand-simulation. La prima esecuzione di LT avviene nel gennaio 1956, prima che il programma esista su una macchina reale. Newell e Simon distribuiscono le specifiche su carta a Newell’s wife e tre figli, più alcuni dottorandi; ciascuno fa da “componente del programma” eseguendo a mano le operazioni richieste.

La prova passa, passo dopo passo. Il programma reale comincia a girare su JOHNNIAC alla RAND Santa Monica entro estate 1956.

Risultati. LT dimostra 38 dei 52 teoremi del capitolo 2 dei Principia. Per il teorema 2.85 trova una dimostrazione più corta di quella di Russell-Whitehead. Simon scrive a Russell mostrandogli la nuova prova; Russell risponde con entusiasmo.

Quando Simon e Newell sottopongono un paper sulla nuova prova al Journal of Symbolic Logic, viene rifiutato — apparentemente i revisori non considerarono di interesse il fatto che uno degli autori fosse un programma. Aneddoto ricorrente nelle storie del campo, raccontato come segno della resistenza istituzionale alle nuove discipline.

Ricezione a Dartmouth. La presentazione di Newell-Simon al workshop è tepida. Simon ricorderà anni dopo: “loro non volevano sentirci, e noi sicuramente non volevamo sentire loro.” Il gruppo neuron net non era interessato all’approccio simbolico; il gruppo simbolico era diviso.

Logic Theorist non viene celebrato come il risultato dell’evento. La sua centralità storica viene riconosciuta solo decenni dopo, quando si guarda indietro e ci si accorge che era il primo programma a fare qualcosa che, da fuori, sembrava ragionare.

Le predizioni e l’ottimismo

Nell’autunno 1957 Herbert Simon pronuncia un discorso (poi pubblicato nel 1958 con Newell come “Heuristic Problem Solving: The Next Advance in Operations Research”, Operations Research vol. 6 n. 1) in cui formula quattro predizioni con orizzonte dieci anni.

Entro dieci anni un computer digitale sarà campione del mondo di scacchi (a meno che le regole lo escludano dal torneo).
Entro dieci anni un computer dimostrerà un nuovo teorema matematico importante.
Entro dieci anni un computer comporra musica considerata di valore estetico significativo dai critici.
Entro dieci anni la maggior parte delle teorie psicologiche prenderà la forma di programmi per computer.

Risultati a oggi (2026):

Scacchi: Deep Blue batte Kasparov nel 1997, quarant’anni invece di dieci.
Teoremi: il Four Color Theorem è dimostrato con assistenza computazionale nel 1976 (Appel-Haken); dimostrazioni completamente automatiche di teoremi importanti restano rare; sistemi moderni come Lean, Coq, Isabelle sono assistenti, non scopritori autonomi (anche se i progressi del 2024-2026 con LLM-based theorem provers come AlphaProof e DeepSeek-Prover stanno cambiando lo scenario).
Musica: AIVA, MuseNet, Suno e altri sistemi compongono musica gradevole; il giudizio di “valore estetico significativo” è contestato.
Psicologia: il cognitivismo computazionale (ACT-R, SOAR di Newell stesso) ha avuto influenza ma non è diventato il framework egemonico della psicologia accademica.

L’errore di Simon — e di McCarthy, e di Minsky, e di tutti i primi protagonisti — non era nei singoli obiettivi ma nei tempi. Sottovalutarono di almeno un ordine di grandezza la difficoltà.

L’errore non è isolato: è lo stesso pattern che si ripete a ogni ondata di entusiasmo (anni Sessanta, anni Ottanta con i sistemi esperti, anni Duemila prima di AlexNet, anni Venti dopo ChatGPT). Le predizioni di breve termine sono sistematicamente troppo ottimistiche; le predizioni di lungo termine sono sistematicamente troppo pessimistiche. È una regolarità statistica del campo, non una stranezza di Simon.

Le conseguenze furono pesanti. L’ottimismo di Simon e dei colleghi convinse la DARPA (allora ARPA) e altri finanziatori militari a sostenere generosamente l’AI per dieci-quindici anni.

Quando i risultati promessi non arrivarono, lo stesso ottimismo divento il pretesto per i tagli (rapporto Lighthill 1973 nel Regno Unito, riduzione dei fondi DARPA nel 1969-1974 negli USA). È il primo inverno dell’AI, che vedremo nel capitolo dedicato. Le predizioni di Dartmouth sono il seme di quell’inverno.

Esempi

Esempio 1 — Una dimostrazione tipo Logic Theorist

Per fissare le idee, vediamo come LT avrebbe affrontato un teorema semplice del capitolo 2 dei Principia. Prendiamo il teorema 2.01:

$(p \to \neg p) \to \neg p$

Detto in parole: se assumendo $p$ si arriva alla sua negazione, allora $p$ è falso. È una versione propositional della reductio ad absurdum.

Il sistema dei Principia ha cinque assiomi (semplificati):

(1.2) $p \lor p \to p$
(1.3) $q \to (p \lor q)$
(1.4) $(p \lor q) \to (q \lor p)$
(1.5) $(p \lor (q \lor r)) \to (q \lor (p \lor r))$
(1.6) $(q \to r) \to ((p \lor q) \to (p \lor r))$

LT applica backward chaining. Per dimostrare il goal $(p \to \neg p) \to \neg p$ , cerca un assioma o un teorema già derivato che, sostituendo opportunamente le variabili, produca la stessa forma del goal. La definizione di $\to$ usata nei Principia è $A \to B \equiv \neg A \lor B$ . Quindi $(p \to \neg p)$ è $\neg p \lor \neg p$ . Per l’assioma (1.2) con sostituzione $p \mapsto \neg p$ , si ottiene $\neg p \lor \neg p \to \neg p$ , che è esattamente $(p \to \neg p) \to \neg p$ — il goal. La dimostrazione è un singolo passo di sostituzione.

LT non sa “perché” cerca questo passo. Non ha intuizione semantica. Ha solo un punteggio sintattico di “vicinanza” tra proposizioni candidate e il goal. Che funzioni è la lezione: una grande quantità di ragionamento formale è search guidata da euristiche superficiali. Non c’è bisogno di profondità semantica per coprire il capitolo 2 dei Principia. Questa intuizione attraverserà tutta l’AI simbolica successiva. La sua eco nelle tecniche contemporanee è discussa nelle “Applicazioni pratiche”.

Esempio 2 — Tabella sinottica delle 7 aree e loro discendenza moderna

Le due sezioni che seguono (“Esempio 2” e “Esempio 3”) sono dichiaratamente di eredità: confrontano la proposta del 1955 con lo stato dell’arte odierno. Il presentismo qui è lo scopo. Il corpo storico delle sezioni precedenti tratta la proposta nel suo tempo; questo confronto serve solo a verificare cosa di quella mappa è sopravvissuto e cosa no. Le menzioni di tecniche e modelli post-2020 sono datate aprile 2026 e invecchieranno.

La tabella riassume la mappa 1955 → oggi.

#	Area Dartmouth 1955	Discendente moderno principale	Esempio concreto 2026
1	Automatic computers	Hardware AI: GPU, TPU, NPU; scaling compute	NVIDIA H100/B200, training cluster da 100k+ chip
2	Computer use of language	NLP, transformer, LLM	GPT-4, Claude 4.7, Gemini 2
3	Neuron nets	Deep learning, neural network architectures	Transformer, MoE, diffusion
4	Theory of size of a calculation	Computational complexity, scaling laws	Chinchilla scaling laws, compute-optimal training
5	Self-improvement	Machine learning, RL, RLHF, self-play	RLHF post-ChatGPT, AlphaZero self-play
6	Abstractions	Representation learning, embedding	Word2vec, CLIP, sentence embeddings
7	Randomness and creativity	Generative models, stochastic sampling	GPT sampling con temperature, diffusion image gen

Ogni discendente moderno richiede una storia di decenni per arrivare dove è arrivato. Ma la partizione del problema è ancora quella di McCarthy 1955. Cambiare la partizione si è rivelato difficile: nessun manifesto successivo è riuscito a rifondare la mappa. Le proposte alternative (organizzare l’AI per modalità, per applicazione, per metodo) restano subordinate.

Esempio 3 — Confronto: McCarthy 1955 vs stato dell’arte 2026

Affianchiamo la visione del 1955 con i risultati del 2026 area per area.

Area 1 (Automatic computers). McCarthy 1955: bottleneck è il software, hardware probabilmente sufficiente ma non sfruttato. 2026: l’hardware è diventato di nuovo il bottleneck per i modelli frontier (la capacità di fab TSMC, l’energia, il networking determinano cosa si può addestrare). Il pendolo è oscillato. Sia McCarthy sia il 2026 hanno una mezza ragione: alcune capacità aspettavano il software (transformer 2017), altre aspettavano il compute (modelli da trilione di parametri post-2023).

Area 2 (Language use). McCarthy 1955: pensa in termini di regole esplicite e sostituzione di parole. 2026: i modelli linguistici migliori del mondo non hanno regole esplicite, hanno trilioni di parametri appresi statisticamente. La direzione è cambiata radicalmente. Tuttavia il problema (capire e generare linguaggio) è lo stesso che McCarthy aveva identificato.

Area 3 (Neuron nets). McCarthy 1955: cita McCulloch-Pitts e Holland, immagina reti di poche dozzine di unita. 2026: reti dense da centinaia di miliardi di parametri, MoE da trilioni, architetture ibride attention+SSM. Tutta la storia delle architetture neural è qui dentro, in 70 anni di iterazione.

Area 4 (Calculation size). McCarthy 1955: cerca una “teoria della dimensione di un calcolo”. 2026: abbiamo la teoria della complessità computazionale (Cook-Karp 1971-1972) e abbiamo le scaling laws empiriche (Kaplan, Chinchilla). Le due sono complementari: l’una dice cosa è impossibile in tempo polinomiale, l’altra dice come scalano le performance con compute e dati.

Area 5 (Self-improvement). McCarthy 1955: speculazione vaga. 2026: ML/RL è il paradigma dominante, con sotto-aree come supervised learning, self-supervised, RL, RLHF, instruction tuning, model merging. Le frontiere sono RL su reasoning traces (o3, DeepSeek-R1), constitutional AI, agentic self-improvement.

Area 6 (Abstractions). McCarthy 1955: classificare tipi di astrazione e progettare metodi macchina. 2026: gli embedding sono lo strumento standard. Una rete neurale impara astrazioni implicitamente nei suoi layer intermedi; rappresentazioni distribuite vincono sulle rappresentazioni simboliche. La strada concettuale dal “concept formation” simbolico immaginato da McCarthy alle rappresentazioni distribuite di word2vec è lunga, e nemmeno lui sospettava che si sarebbe finita li. Ma la domanda — come una macchina forma astrazioni utili — è la stessa.

Area 7 (Randomness and creativity). McCarthy 1955: l’ottica è “iniettare casualità guidata”. 2026: i modelli generativi più potenti del mondo (LLM, diffusion, GAN) sono tutti stocastici. La temperatura di sampling è la randomness; il modello addestrato è la guida. McCarthy non poteva immaginare la forma specifica, ma il principio è confermato.

Una considerazione trasversale alle sette aree. Il fatto che la mappa del 1955 si sia rivelata così robusta non è una coincidenza ma il risultato di una scelta deliberata: McCarthy partizionava il problema per funzione cognitiva computazionalizzabile, non per modalità o per applicazione. Una partizione per modalità (visione, audio, linguaggio, motorio) sarebbe invecchiata male: oggi i modelli multi-modali combinano modalità all’interno della stessa rete. Una partizione per applicazione (medica, militare, educativa) sarebbe diventata obsoleta a ogni nuova ondata di applicazioni. Una partizione per funzione, invece, si aggancia a categorie cognitive che restano riconoscibili anche quando le tecniche cambiano. Il principio metodologico — astrarre dalla tecnica e organizzare per funzione — è un’eredità procedurale di Dartmouth che vale come contenuto separato dall’agenda specifica.

Dove abbiamo cambiato direzione:

Da symbolic AI (McCarthy, Minsky) a statistical/neural AI (post-1990) come paradigma dominante.
Da knowledge engineering manuale (sistemi esperti anni Ottanta) a learning from data (post-2000).
Da search nello spazio dei programmi/dimostrazioni (LT, GPS) a search nel parameter space via gradient descent.
Dai logici-filosofi che progettano regole (McCarthy, Minsky) ai data engineer che curano dataset e ai ML engineer che tunano training run (anni Duemiladieci/Venti).

Applicazioni pratiche

La terminologia come categoria amministrativa

“Artificial intelligence” è oggi una categoria di paper alle conferenze (NeurIPS, ICML, ICLR, AAAI), una categoria di laboratori universitari (MIT CSAIL, Stanford AI Lab, CMU, Berkeley AI Research, Mila, FAIR), una categoria di organizzazioni industriali (OpenAI, Anthropic, DeepMind, Meta AI, xAI). Tutto questo eredità direttamente dalla scelta lessicale di McCarthy nel 1955. Senza quella scelta avremmo probabilmente “computational intelligence” (termine usato da Rosenblatt) o “machine intelligence” (termine usato in UK), o forse “cybernetics” sarebbe rimasta egemonica e avremmo cybernetic engineers invece di AI engineers. La scelta del termine ha effetti di lungo periodo sulla geografia istituzionale.

Agenda di ricerca persistente

Le sette aree del 1955 mappano ancora ai sotto-campi dell’AI accademica e industriale del 2026. Quando uno studente di informatica decide cosa studiare in AI, sceglie tra NLP (area 2), computer vision (area 6), reinforcement learning (area 5), neural network architectures (area 3), efficient computing (area 1), formal verification e complexity (area 4), o generative models (area 7). La mappa cambia un po’ ma le partizioni di base restano. Quando un’azienda decide su quale linea di prodotto AI investire, sceglie dentro la stessa mappa.

Modello istituzionale del workshop estivo

Il workshop estivo come formato di scambio in AI sopravvive nell’organizzazione moderna del campo. NeurIPS workshop, ICML workshop, le summer schools (Mila, MILA, CIFAR Deep Learning Summer School, AAAI tutorials), i Dagstuhl seminars in Germania, i Banff Centre Workshops in Canada: il modello “raduniamoci per qualche giorno o settimana, definiamo l’agenda, dividiamo il problema in sottoproblemi” è rimasto come pratica. L’idea che lo scambio intellettuale concentrato in spazio e tempo produca progressi è un’eredità di Dartmouth.

Dualita simbolico/connessionista come asse permanente

L’opposizione tra fazione simbolica (McCarthy, Newell, Simon) e fazione neural (Minsky, McCulloch, Rochester, Holland) già visibile a Dartmouth è un asse permanente del campo. Negli anni Sessanta-Settanta vince il simbolico. Negli anni Ottanta riemergono i connessionisti (PDP group, backpropagation). Negli anni Novanta vince la statistica (HMM, SVM). Negli anni Duemiladieci vince il neural deep (AlexNet 2012, transformer 2017). Negli anni Venti del Duemila si parla di neuro-simbolico, di tornare a integrare le due tradizioni. L’asse non scompare; oscilla. Conoscere Dartmouth aiuta a leggere ogni nuova oscillazione come parte di un dibattito di settant’anni, non come scoperta nuova.

Heuristic search come pattern ricorrente

Logic Theorist introduce un pattern — search guidata da euristiche — che è rimasto al cuore di tutta l’AI per settant’anni in forme diverse. Negli anni Sessanta divento A* (Hart-Nilsson-Raphael 1968) e poi le sue varianti. Negli anni Settanta-Ottanta si materializzo come search nei sistemi esperti e nei planning engine. Negli anni Novanta-Duemila divenne MCTS (Monte Carlo Tree Search), che porto AlphaGo a battere Lee Sedol nel 2016. Negli anni Venti del Duemila è tornato come search-based reasoning sopra LLM: tree-of-thoughts (Yao 2023), graph-of-thoughts, o1/o3 con search interno guidato da reward model. La forma cambia, l’idea di base — usare valutazioni euristiche per potare uno spazio di possibilità altrimenti astronomico — resta. Quando lavori con un agente che ragiona “step by step” e che si auto-corregge, stai usando una versione 2026 di un pattern che Newell-Simon-Shaw hanno introdotto a Dartmouth.

Dove si rompe

Mito: “Dartmouth è il Big Bang dell’AI”

È la metafora più comune e la più fuorviante. Un Big Bang implica che prima non ci fosse niente.

A Dartmouth, prima c’era moltissimo: McCulloch-Pitts 1943, Turing 1936/1950, Shannon 1948/1950, SNARC di Minsky 1951, Logic Theorist hand-simulated nel gennaio 1956, il checkers di Samuel demo a febbraio 1956, le Macy Conferences di cibernetica 1946-1953. Dartmouth ha dato un nome unificatore e ha radunato persone in uno stesso posto; non ha inventato i contenuti.

Una metafora migliore sarebbe il Concilio di Nicea: un evento in cui già esistenti dottrine vengono codificate, gerarchicizzate e affidate a un canone. Non un Big Bang, una costituzione.

Mito: “Tutti i partecipanti rimasero per le otto settimane”

Falso. Solo McCarthy, Minsky e Solomonoff. Gli altri venivano e andavano, alcuni per qualche giorno, altri per qualche settimana. Newell e Simon, per esempio, sono presenti “per le prime due settimane”, secondo Solomonoff. Le sessioni quotidiane attiravano da tre a otto persone, non venti. Il workshop era più fluido di quanto le narrative successive lascino intendere. McCarthy stesso, riguardando indietro mezzo secolo dopo, scrisse: “il workshop si svolse come pianificato, ma gli effetti furono diversi da quelli previsti”.

Mito: “Logic Theorist fu sviluppato a Dartmouth”

Falso. LT fu scritto da Newell-Simon-Shaw alla RAND tra fine 1955 e prima meta 1956. Era hand-simulato a gennaio 1956 e in esecuzione su JOHNNIAC entro l’estate. Newell e Simon lo presentarono a Dartmouth, ma il sistema esisteva indipendentemente dal workshop. Attribuirgli paternità Dartmouth significa forzare la cronologia.

Dispute con la cibernetica di Wiener

L’opposizione tra AI (di McCarthy) e cibernetica (di Wiener) è raccontata in modo sanitizzato dalle storie ufficiali. Era invece personale e politica.

Wiener era percepito come dispotico: si era già scontrato con Shannon sulla teoria dell’informazione, voleva imporre la propria narrativa sui contributi altrui, non tollerava critiche. McCarthy disse esplicitamente in un’intervista del 1988 che parte del motivo per coniare “AI” era “evitare di dover accettare Wiener come guru o di dovergli litigare contro”.

Coniare un termine fu un atto di separazione. Cibernetica come tradizione si frammentò e perse rilevanza; AI come tradizione divenne egemone. (Una notazione contemporanea sul ritorno di pattern cibernetici nelle architetture agentiche è in “Applicazioni pratiche”.)

Il rapporto con Bletchley Park

A Dartmouth non si discusse il lavoro di Bletchley Park durante la Seconda Guerra Mondiale (decrittazione di Enigma e Lorenz, costruzione delle macchine Bombe e Colossus). Era classificato e sarebbe rimasto tale fino agli anni Settanta.

I partecipanti del 1956 conoscevano il Turing del 1936 e del 1950 ma non sapevano del Turing 1939-1945. La storia ufficiale dell’AI fu per decenni amputata di un capitolo intero: il primo grande progetto di “machine intelligence” applicata della storia, fatto in segreto in Inghilterra.

Quando il segreto cadde negli anni Settanta, l’integrazione retroattiva nella storia ufficiale fu lenta e incompleta. Anche oggi, chi parla di Dartmouth raramente menziona che mentre i partecipanti si sedevano nel Math Department, la macchina Colossus, la prima calcolatrice elettronica programmabile a valvole, era stata costruita dodici anni prima da Tommy Flowers per decifrare il cifrario di Lorenz, e nessuno dei presenti lo sapeva.

L’esclusione di donne e minoranze

Tra i ventuno partecipanti formali non c’era una donna. Gloria Minsky era presente di fatto come accompagnatrice ma non listata. Non c’erano persone di colore. La composizione demografica dell’evento era omogenea: maschi, bianchi, ebrei o WASP, formati nelle università d’elite della Ivy League. L’esclusione non era specifica di Dartmouth ma rifletteva la composizione della scienza americana degli anni Cinquanta. Le sue conseguenze furono di lunga durata: il campo dell’AI nasce con un certo profilo demografico e culturale, e impiegherà decenni a diversificarsi. Quando si discutono oggi i bias dei sistemi AI, vale la pena ricordare che il campo che li ha progettati nasce con una composizione che esclude sistematicamente la maggior parte dell’umanità.

Le predizioni furono devastantemente sbagliate

Le quattro predizioni di Simon del 1957 (scacchi, teorema, musica, psicologia in dieci anni) si rivelarono sbagliate di un fattore quattro o cinque sui tempi. Tutti i quattro obiettivi sono stati raggiunti in qualche forma, ma con tempi e modi diversi da quelli previsti.

L’errore non era nei singoli obiettivi ma nella stima della difficoltà. Sottovalutarono di almeno un ordine di grandezza il problema del commonsense reasoning, della rappresentazione della conoscenza, e dell’apprendimento da pochi dati che si sarebbe rivelato necessario.

L’ottimismo prematuro divenne il pretesto per i tagli che produssero il primo inverno dell’AI (anni Settanta). Il rapporto Lighthill del 1973 nel Regno Unito raccomando di tagliare drasticamente i finanziamenti AI; la DARPA negli USA fece tagli simili tra 1969 e 1974.

Le predizioni di Dartmouth-Simon-McCarthy non furono sciocche, ma furono premature. La distinzione è cruciale per leggere le predizioni AI di oggi (AGI in tre anni? in dieci? in cinquanta?): l’errore tipico non è sull’an ma sul quando.

Il limite “Dartmouth spiega tutta l’AI moderna”

Falso. La maggior parte delle scelte ingegneristiche specifiche dell’AI moderna (architettura transformer, attention mechanism, RLHF, tool use, MCP) non è derivabile dalla proposta del 1955. L’agenda di Dartmouth fissa la partizione dei problemi; non fissa le soluzioni. Le soluzioni sono il prodotto di settant’anni di iterazione, di ondate di entusiasmo e disillusione, di breakthrough specifici (backprop riscoperto 1986, AlexNet 2012, transformer 2017). Conoscere Dartmouth è condizione necessaria per leggere la storia del campo, non sufficiente.

Collegamenti

preistoria-intelligenza — i tre secoli di tradizione logica, ingegneristica e cognitiva che precedono Dartmouth e ne forniscono i mattoni concettuali. Senza quella preistoria, la proposta del 1955 sarebbe stata incomprensibile.
turing-macchina-mente — Turing 1950 (“Computing Machinery and Intelligence”) è il documento filosofico di riferimento dei quattro organizzatori; il test di imitazione è il backdrop concettuale del workshop. La cautela operativa di McCarthy (“simulate”) richiama direttamente la cortesia behaviorista di Turing.
ai-simbolica-anni-60 (Parte I) — il decennio post-Dartmouth è dominato da Logic Theorist, GPS (Newell-Simon 1957-1959), microworlds, SHRDLU (Winograd 1972). È la verifica empirica delle ambizioni del 1955 per le aree 2, 4, 5.
primo-inverno-ai (Parte I) — le predizioni di Simon-McCarthy del 1957 si rivelano wildly off; la delusione produce il primo inverno (anni Settanta) con il rapporto Lighthill 1973 e i tagli DARPA. Dartmouth ne è la causa remota.
agi-definizioni (Parte II) — la frase di McCarthy del 1955 sul “every aspect of learning or any other feature of intelligence” è l’antenato concettuale delle definizioni moderne di AGI. La continuita lessicale è notevole.
storia-sintesi (Parte 0) — Dartmouth è un nodo centrale di qualsiasi sintesi della storia AI in dieci minuti. La sezione “1956” di quella sintesi è la versione ultra-condensata di questo capitolo.
reti-neurali-perceptron (Parte VIII) — l’area “neuron nets” della proposta del 1955 cita esplicitamente McCulloch-Pitts e Holland; due anni dopo arriva il perceptron di Rosenblatt, primo erede operativo di quella linea.
scaling-laws (Parte XI) — l’area “theory of the size of a calculation” del 1955 è l’antenato concettuale (debole) delle moderne scaling laws (Kaplan 2020, Chinchilla 2022). La continuita non è diretta ma la domanda di base — quanto compute serve per quanta capacità — è la stessa.
transformer-2017 (Parte I) — il “Big Bang” del 2017, in scala, è analogo a quello di Dartmouth: un evento che fissa una nuova partizione del problema. Vale la pena leggere i due episodi in parallelo.
chatgpt-2022 (Parte I) — il “momento pubblico” del 2022 è un altro tipo di evento fondativo: a differenza di Dartmouth, non riguarda la comunità scientifica ma l’opinione pubblica. La differenza tra atto fondativo accademico e atto fondativo culturale è istruttiva.

Per andare oltre

A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence di McCarthy, Minsky, Rochester, Shannon (1955). Versione integrale sul sito di McCarthy. Lettura obbligatoria, una decina di pagine. La frase fondativa e l’elenco delle sette aree sono nelle prime tre pagine.
The Dartmouth Workshop — as planned and as it happened di John McCarthy (slide retrospettive, 2006). Link Stanford. Memoir di prima mano dell’organizzatore principale, mezzo secolo dopo. Tono asciutto, dettagli precisi.
What They Did That Summer in Dartmouth di Tekla S. Perry, IEEE Spectrum, 2024. Link. Ricostruzione narrativa con aneddoti, foto, e citazioni dirette dei partecipanti sopravvissuti.
Some Studies in Machine Learning Using the Game of Checkers di Arthur L. Samuel, IBM Journal of Research and Development, vol. 3 n. 3, 1959. Il paper che conia il termine “machine learning”. Tecnico ma leggibile.
John McCarthy: a Biographical Memoir di Nils J. Nilsson, National Academy of Sciences, 2012. PDF. Biografia ufficiale di uno dei quattro organizzatori, con dettagli su Dartmouth, l’invenzione di Lisp, la fondazione di SAIL.
Voce Wikipedia “Dartmouth workshop”. Link. Sintesi solida con bibliografia ampia, utile come punto di partenza per ulteriore esplorazione.