Il problema del symbol grounding: Harnad 1990 e l'eco lunga di una domanda

Un parlante monolingue inglese, chiuso in una stanza con un solo dizionario cinese-cinese, deve imparare il cinese. Apre il dizionario e legge: ogni voce è definita in termini di altre parole cinesi, che a loro volta rinviano ad altre. Stevan Harnad nel 1990 prende questa immagine e la trasforma nel problema più discusso della filosofia della mente computazionale: i simboli formali, manipolati solo in base alla forma, possono mai acquisire significato senza un punto di ancoraggio fuori dal sistema?

Perché questo capitolo

Princeton, fine anni Ottanta. Stevan Harnad, scienziato cognitivo canadese di origine ungherese (1945-), siede al suo tavolo con dieci anni di commentari del Behavioral and Brain Sciences davanti. Harnad ha fondato BBS nel 1978 e l’ha trasformato in piattaforma di riferimento per i grandi dibattiti interdisciplinari della cognitive science. Nel 1980 ha curato il dossier su “Minds, Brains, and Programs” di John Searle: 28 commentari, una replica dell’autore, un decennio di dibattito sull’argomento della Stanza Cinese. Ha letto tutto, ha pesato tutto. Quel che gli manca è una formulazione costruttiva del problema. Searle ha mostrato che la sintassi non basta. Ma cosa serve, esattamente? E come si fa? Nel 1990 pubblica su Physica D, rivista di sistemi non lineari, un articolo di dodici pagine che dà nome alla questione e propone una direzione operativa di soluzione. Il paper si intitola “The Symbol Grounding Problem” e ha oggi oltre ottomila citazioni in Google Scholar.

Il problema del symbol grounding è centrale per capire i limiti del computazionalismo classico (trattato in computazionalismo) e le ragioni per cui il programma di ricerca successivo si è frantumato in molte direzioni: connessionismo, embodied cognition, robotica reattiva alla Brooks, semantica distribuzionale, neuro-simbolico, modelli multimodali. Ognuno di questi filoni può essere letto come una risposta diversa alla stessa domanda di Harnad. Il capitolo ricostruisce la domanda, espone la proposta originale di Harnad, e mappa le risposte alternative, riservando alla sezione “Eredità oggi” il dibattito contemporaneo sui large language models.

Il capitolo presuppone la lettura di stanza-cinese-searle, perché Harnad costruisce esplicitamente sul terreno preparato da Searle, e di computazionalismo, perché il problema del grounding è un attacco interno al computazionalismo classico. Una conoscenza minima di funzionalismo aiuta a inquadrare la posizione filosofica generale, ma non è strettamente richiesta. Il capitolo è scritto in modo che un developer senza background filosofico possa seguirlo, con qualche pazienza nelle sezioni più astratte.

Va dichiarato in apertura un punto storiografico. Il problema del symbol grounding non nasce ex nihilo nel 1990. Anticipazioni precise sono in Searle 1980 (la “Robot Reply” del paper della Stanza Cinese affronta direttamente la questione del grounding sensoriale), in Newell-Simon 1976 (il concetto di “designation” nella PSSH è il problema implicito), in Wittgenstein 1953 (il rule-following e i nomi privati pongono questioni analoghe), addirittura in Frege 1892 (il famoso “Über Sinn und Bedeutung” distingue Sinn e Bedeutung in modo che anticipa la questione). Harnad è il punto di cristallizzazione, non l’origine assoluta. Lo nominiamo con il suo nome perché è il termine canonico in cognitive science e AI, e perché il paper del 1990 è il riferimento bibliografico standard. Ma il problema ha radici profonde nella filosofia del linguaggio del Novecento.

Contesto

Il decennio 1980-1990 è particolarmente attivo sulla questione semantica nel computazionalismo. Tre paper si muovono in parallelo e configurano il campo.

Searle 1980 “Minds, Brains, and Programs” (BBS vol. 3, n. 3, settembre 1980, pp. 417-457). L’argomento della Stanza Cinese sostiene che la sintassi formale non è sufficiente per la semantica. Bersaglio diretto: i programmi di natural language understanding di Roger Schank (informatico americano, 1946-2023) al Yale AI Lab, in particolare SAM (Script Applier Mechanism). Bersaglio indiretto: la Strong AI in generale e il funzionalismo computazionale di Putnam-Fodor in particolare. La sezione 4 del paper, la “Robot Reply”, discute la mossa difensiva computazionalista più rilevante per il nostro capitolo: mettere il programma in un robot con sensori e attuatori, in modo che i simboli siano connessi causalmente al mondo. Searle replica che anche così il sistema riceve solo nuovi simboli (encoding sensoriali) che manipola formalmente; la connessione causale al mondo non aggiunge intenzionalità. Trattato a fondo in stanza-cinese-searle.

Newell-Simon 1976 “Computer Science as Empirical Inquiry: Symbols and Search” (CACM vol. 19, n. 3, marzo 1976, pp. 113-126). La Physical Symbol System Hypothesis definisce un sistema simbolico fisico come capace di “designation”: un’espressione designa un oggetto se “data l’espressione, il sistema può influenzare l’oggetto stesso o comportarsi in modo dipendente dall’oggetto”. Nel paper la designation è introdotta come proprietà costitutiva, ma non è spiegato come emerga: il programmatore la stabilisce dall’esterno, oppure il sistema la apprende? La PSSH lascia il punto indeterminato. È una porta aperta che il problema del grounding attraverserà. Trattato in computazionalismo.

Harnad 1990 “The Symbol Grounding Problem” (Physica D vol. 42, nn. 1-3, giugno 1990, pp. 335-346). Il paper canonico. Harnad formula esplicitamente la domanda, propone l’analogia del dizionario cinese-cinese, e articola una proposta costruttiva di soluzione (sistema ibrido neuro-simbolico). Articolo breve (dodici pagine), denso, scritto per un pubblico interdisciplinare di scienziati cognitivi. La rivista Physica D è specializzata in sistemi non lineari (caos deterministico, dinamica complessa, reti neurali): la collocazione editoriale segnala la connessione con il filone connessionista che Harnad propone come parte della soluzione.

Va aggiunto un quarto attore parallelo, che non lavora sullo stesso problema con lo stesso lessico ma converge sulle stesse conclusioni con un programma di ricerca complementare.

Brooks 1986 “A Robust Layered Control System for a Mobile Robot” (IEEE Journal of Robotics and Automation, vol. 2, n. 1, marzo 1986, pp. 14-23) introduce la subsumption architecture al MIT AI Lab. L’idea: costruire robot autonomi con livelli di moduli sensorimotori reattivi, organizzati in una gerarchia di competenze (avoid obstacles, wander, explore, collect cans). Niente rappresentazione centrale del mondo, niente planner simbolico, solo accoppiamento diretto fra sensori e attuatori. Il paper tecnico è del 1986. Il manifesto filosofico, Brooks 1991 “Intelligence Without Representation” (AI Journal vol. 47, pp. 139-159), esplicita le implicazioni: l’intelligenza non richiede rappresentazioni interne complesse, e una conseguenza della tesi è che il problema del grounding semplicemente non si pone se non si parte da simboli da grounded.

Stevan Harnad: chi è

Harnad nasce nel 1945 a Budapest. La famiglia sopravvive all’Olocausto e migra in Canada quando lui è bambino. Cresce a Montreal, si laurea a McGill (BSc 1968), prende il PhD in psicologia a Princeton nel 1973 con una tesi sotto la supervisione di Julian Jaynes (psicologo americano, 1920-1997, autore del controverso libro speculativo The Origin of Consciousness in the Breakdown of the Bicameral Mind, 1976). Dopo il PhD resta a Princeton come assistant professor.

La svolta editoriale è del 1978: fonda Behavioral and Brain Sciences (BBS) per Cambridge University Press e ne diventa editor. Il formato peculiare — un target article di trenta-cinquanta pagine, seguito da venticinque-trentacinque commentari aperti di esperti invitati, seguito da una replica dell’autore — è invenzione di Harnad. Il giornale diventa la piattaforma standard per i grandi dibattiti interdisciplinari della cognitive science. Il dossier Searle 1980 è uno dei primi grandi successi del formato. Harnad resta editor di BBS fino al 2002, ventiquattro anni di curatela continua di un dibattito vivente.

Nel 1990 si trasferisce all’Université du Québec à Montréal, nel 1994 alla University of Southampton (UK) dove dirige il Cognitive Sciences Centre. Negli anni Duemila si fa noto come pioniere dell’open access scientifico: il movimento del “self-archiving” di paper accademici nei repository istituzionali è in larga parte sua iniziativa.

Lavoro principale: cognitive science, categorical perception (ha contribuito al paradigma sperimentale con studi su discriminazione percettiva di colori e fonemi), symbol grounding, evoluzione del linguaggio, coscienza. È uno scienziato cognitivo di formazione classica, non un filosofo puro. Il paper del 1990 ha taglio interdisciplinare: cita psicologia sperimentale, AI, filosofia analitica, linguistica, in proporzioni equilibrate.

Una nota: quando scrive “The Symbol Grounding Problem” nel 1990, Harnad ha vissuto per dieci anni nel cuore del dibattito post-Stanza Cinese. Ha letto tutti i commentari, ha curato le repliche, ha fatto da arbitro fra filosofi e AI researcher. Il paper non è una reazione esterna al problema, è la sintesi di un decennio di letture organizzate. Questo spiega perché il taglio sia diverso da Searle: dove Searle attacca dall’esterno con un argomento filosofico, Harnad propone dall’interno una via costruttiva.

L’intuizione

Due angoli, complementari ma diversi nel registro.

Angolo 1 — Filosofico: il significato non può essere solo nelle definizioni circolari

Apri qualunque dizionario di una lingua e segui una catena di rimandi. Cerca cane. Trovi: “mammifero quadrupede domestico della famiglia dei canidi”. Cerca mammifero. Trovi: “vertebrato a sangue caldo che allatta i piccoli”. Cerca vertebrato. Trovi: “animale dotato di colonna vertebrale”. Cerca animale. E così via.

Se sei un parlante della lingua, segui senza problemi la catena perché in qualche punto incontri una parola che già conosci: hai esperienza diretta di un cane, hai visto un mammifero, sai cosa è un animale dall’infanzia. La catena di definizioni si appoggia, prima o poi, su qualcosa che hai imparato per ostensione (qualcuno ha indicato un cane e ha detto “cane”), per esperienza diretta, per uso pratico. Le definizioni sono utili come precisazioni o estensioni, non come fondamenta.

Ma immagina di essere un parlante monolingue inglese che vuole imparare il cinese, e l’unico strumento che hai è un dizionario cinese-cinese. Apri alla parola 狗 (cane). Trovi una definizione in cinese. Apri le parole della definizione: ancora cinese. Continui: cinese, cinese, cinese. Non incontri mai una parola che già conosci, non vedi mai un cane indicato da qualcuno, non hai mai esperienza diretta di niente. Il dizionario è un labirinto chiuso. Le parole stanno in relazione fra loro, ma il loro contenuto resta inaccessibile.

Questa è l’analogia di Harnad. Il punto filosofico è semplice e potente: definire ogni cosa in termini di altre cose è insufficiente. Serve, da qualche parte, un’uscita dal sistema. Un punto di ancoraggio fuori dai simboli stessi.

Per Harnad, un sistema computazionale puramente simbolico — uno dei sistemi presupposti dal computazionalismo di Fodor o dalla PSSH di Newell-Simon — è esattamente in questa situazione. Le sue rappresentazioni interne sono definite l’una in termini dell’altra: regole formali, ontologie, knowledge base, slot-filler structures. Ma nessuna è ancorata a percezione del mondo. Il sistema è, metaforicamente, un parlante intrappolato in un dizionario cinese-cinese, senza uscita.

Angolo 2 — Pragmatico: un sistema che manipola “cane” senza aver mai visto un cane

C’è un secondo angolo, più operativo, che funziona meglio per chi viene da un background tecnico. Considera un sistema di natural language understanding degli anni Settanta: SAM, ELI, MARGIE, qualunque sistema simbolico che processa storie in inglese. Il sistema ha nel suo knowledge base la voce “DOG” connessa a “MAMMAL”, “FOUR-LEGS”, “BARKS”, “PET”, e così via. Riceve la storia “John has a dog. The dog is hungry.” e produce inferenze plausibili.

Il sistema “sa” cosa è un cane? Per certi aspetti sì: sa quali altre voci della knowledge base sono connesse a “DOG”, quali inferenze sono autorizzate, quali domande può rispondere. Ma c’è qualcosa che il sistema non sa: come è fatto un cane. Non lo sa nel senso che, se gli mostri l’immagine di un cane, non sa riconoscerla; se ne registri il latrato, non lo sa identificare; se ne tocchi il pelo, non sa che cosa stai toccando. Il simbolo “DOG” del sistema è, per il sistema, solo un nodo in un grafo. La connessione fra il nodo e i cani reali del mondo è in testa al programmatore, non nel sistema.

Harnad sostiene che questa è la situazione di tutti i sistemi puramente simbolici, indipendentemente dalla loro complessità. Aggiungere più simboli, più regole, più nodi nel grafo non risolve il problema: aggiunge più cinese al dizionario cinese-cinese.

Va marcato il registro della tesi: è un’affermazione strutturale, non empirica. Harnad non sta dicendo “i sistemi simbolici di oggi sono insufficienti, quelli di domani potrebbero bastare”. Sta dicendo che, in linea di principio, nessun sistema interamente simbolico può grounded i suoi simboli, perché il grounding richiede qualcosa di non-simbolico (la percezione sensoriale, almeno). È una mossa filosofica che vale a prescindere dalla scala.

I due angoli convergono. Il primo dice perché il problema è inevitabile in qualunque sistema simbolico chiuso. Il secondo dice come si manifesta concretamente in un sistema di NLU. Insieme delimitano il problema in modo che il lettore lo veda da almeno due lati prima di affrontare la formalizzazione.

La meccanica

Sei sotto-sezioni. Setup formale del problema; analogia del dizionario; distinzione da Stanza Cinese; proposta hybrid neural-symbolic di Harnad; critiche al computazionalismo classico (LOT internalist e PSSH); soluzioni alternative (Brooks, embodied, connessionismo, distribuzionale, language games, neuro-simbolico moderno); critiche al problema stesso (Wittgenstein, eliminativismo, holismo).

Setup formale del problema (Harnad 1990)

Harnad nel paper formula la domanda due volte. La prima formulazione è in apertura, p. 335:

“How can the semantic interpretation of a formal symbol system be made intrinsic to the system, rather than just parasitic on the meanings in our heads?”

In parole: come può l’interpretazione semantica di un sistema formale di simboli essere intrinseca al sistema, e non solo parassita rispetto ai significati che stanno nelle nostre teste?

La seconda formulazione è più operativa, p. 339:

“How can the meanings of the meaningless symbol tokens, manipulated solely on the basis of their (arbitrary) shapes, be grounded in anything but other meaningless symbols?”

In parole: come possono i significati dei simboli (privi di significato in sé), manipolati solo in base alla loro forma (arbitraria), essere ancorati a qualcosa che non sia altri simboli privi di significato?

Le due formulazioni rispondono a due preoccupazioni diverse ma complementari. La prima è metafisica: che tipo di proprietà è la semantica? Intrinseca al sistema, oppure attribuita dall’esterno? La seconda è strutturale: come si esce dal regresso simbolo-rinvia-a-simbolo?

Tre presupposti del setup vanno esplicitati per non confondere il lettore.

Primo presupposto: i simboli formali sono “arbitrari” nel senso saussuriano. Ferdinand de Saussure (linguista svizzero, 1857-1913, Cours de linguistique générale, postumo 1916) distingue significante (la forma del segno: la sequenza di lettere “cane”) e significato (il concetto a cui il segno rimanda). L’arbitrarietà del segno saussuriana dice che il significante non somiglia al significato: la parola “cane” non assomiglia a un cane (a differenza di una sua immagine). I simboli computazionali sono arbitrari nello stesso senso: la stringa “DOG” non somiglia a un cane.

Secondo presupposto: le regole sintattiche operano sulla forma dei simboli, non sul loro contenuto. Una regola del tipo “se x è un simbolo della classe A, allora produci y dalla classe B” identifica i simboli per shape (per forma), non per meaning (per significato). È il presupposto base del computazionalismo formale (capitolo computazionalismo, sezione “L’intuizione”).

Terzo presupposto: il sistema è chiuso. Non riceve input da fuori che non siano già simboli formali. Se ricevesse input sensoriali grezzi (una stream di byte da una telecamera), questi sarebbero comunque codificati come simboli prima di essere processati. La “Robot Reply” alla Stanza Cinese cerca di rompere questo presupposto, ma la replica searleana mostra che encoding sensoriale è ancora encoding simbolico per il sistema.

Dati i tre presupposti, il problema strutturale è inevitabile. Le definizioni interne sono circolari per costruzione: ogni simbolo è definito in termini di altri simboli (relazioni del knowledge base, regole di inferenza, ontologia). Il regresso non si chiude.

L’analogia del dizionario cinese-cinese

L’analogia è introdotta nella sezione 3 del paper. Harnad la propone così. Considera un parlante monolingue inglese che voglia imparare il cinese. Ha due strumenti possibili.

Strumento A: un dizionario bilingue cinese-inglese. Il parlante apre la parola cinese, trova la traduzione inglese, e poiché conosce l’inglese capisce. Il dizionario funziona perché c’è un punto di ancoraggio (le parole inglesi che il parlante già conosce per esperienza diretta).

Strumento B: un dizionario monolingue cinese-cinese. Il parlante apre la parola cinese, trova una definizione in cinese, apre le parole della definizione, trova altre parole cinesi, e così via. Senza un punto di ancoraggio fuori dal cinese, il parlante non impara nulla. Resta intrappolato nel circolo dei simboli.

Harnad sostiene che un sistema computazionale puramente simbolico è esattamente nella situazione dello strumento B. Le sue rappresentazioni interne sono definite l’una in termini dell’altra. Non c’è un dizionario “bilingue” che traduca i simboli interni in qualcosa di esterno e già grounded.

Va notato un punto sottile. L’analogia non è perfetta: per il parlante umano “intrappolato” nel dizionario cinese-cinese c’è almeno la possibilità di uscire (uscire dalla stanza, vedere oggetti, sentire parole pronunciate da nativi). Per il sistema computazionale puramente simbolico questa via di uscita non esiste per costruzione: il sistema è progettato per essere chiuso. La situazione del sistema è dunque peggiore di quella del parlante: è un parlante che non può mai uscire dalla stanza, mai vedere niente, mai sentire un nativo. È intrappolato per sempre nei simboli.

Distinzione dalla Stanza Cinese

Harnad cita esplicitamente Searle 1980 e ne riconosce il debito. Ma la sua mossa è diversa per registro e per esito.

Searle attacca dall’esterno, con un argomento negativo. La conclusione è: “i programmi non sono di per sé sufficienti per la mente”. La proposta positiva è vaga: servono i “giusti poteri causali” del cervello biologico. Non è chiaro cosa siano, e la posizione è chiusa: per Searle nessun sistema artificiale potrà mai veramente capire, salvo quello che replicasse esattamente i processi causali biologici.

Harnad accetta la diagnosi (la sintassi non basta) ma è costruttivo. Non identifica il “qualcosa in più” con biologia specifica, ma con grounding sensoriale. Propone architetturalmente il modo in cui il grounding può avvenire (sistema ibrido neuro-simbolico). Il taglio è da scienziato cognitivo: si chiede “come può un sistema artificiale acquisire grounding?”, non “perché i computer non possono mai pensare?”.

Differenza pratica importante: il programma di ricerca searleano è chiuso. Il programma di ricerca harnadiano è aperto. Un sistema ibrido grounded potrebbe, almeno in linea di principio, acquisire semantica nel senso di Harnad (anche se non nel senso searleano di intenzionalità intrinseca).

Searle stesso, nei suoi lavori successivi, mantiene la posizione: anche un sistema con grounding sensoriale resta un sistema formale (i sensori producono dati, i dati sono encoding simbolici, il sistema manipola encoding). Quindi il grounding sensoriale non aggiunge intenzionalità intrinseca. Il dibattito Searle-Harnad continua per anni senza convergenza.

Vale la pena marcare la classe di affermazioni: la relazione fra Searle 1980 e Harnad 1990 è filiazione di problema, non di soluzione. Harnad parte dalla diagnosi searleana, la accetta, ma propone una via che Searle stesso rifiuta. Le due posizioni sono parenti ma non sovrapponibili.

La proposta di Harnad: hybrid neural-symbolic

Nelle sezioni 4-5 del paper Harnad propone un’architettura concreta. Tre livelli di rappresentazione, organizzati gerarchicamente.

Livello 1 — Iconic representations. Rappresentazioni analogiche degli input sensoriali: l’immagine retinica, lo spettro audio, il pattern tattile. Conservano la struttura analogica dello stimolo. Sono “iconiche” nel senso che la struttura della rappresentazione riflette (in qualche modo) la struttura dello stimolo. Non sono ancora categorie, sono il dato grezzo.

Livello 2 — Categorical representations. Pattern di tratti che il sistema apprende per discriminare categorie (cane vs gatto, mela vs pera, rosso vs verde). Implementate da una rete neurale connessionista che impara da esempi etichettati. Le categorie sono “compresse” rispetto alle iconiche: dimensionalità ridotta, estraggono le feature rilevanti. Ma sono ancora connesse via apprendimento agli input sensoriali: ogni categoria è una funzione che mappa input sensoriali a un cluster.

Livello 3 — Symbolic representations. Etichette delle categorie (“cane”, “gatto”), manipolate da un sistema simbolico classico. Le etichette sono grounded perché fanno riferimento direttamente ai cluster percettivi del livello 2. Il sistema simbolico opera sopra le etichette con regole composizionali (se x è cane allora x è mammifero), ma il significato di base delle etichette è ancorato al livello 2.

L’architettura risolve il problema del regresso così: quando il sistema usa il simbolo “cane”, la catena di rimandi non è più infinita. In un punto si arresta su una categoria percettiva, che è ancorata a pattern di attivazione neurale, che sono causati da input sensoriali del mondo. Il simbolo è grounded perché la sua interpretazione semantica è intrinseca al sistema (è l’attivazione del cluster percettivo “cane”, che il sistema può accedere e usare).

Esempio concreto. Un robot con telecamera e sistema ibrido. La rete neurale è addestrata su immagini di animali con etichette. Impara a discriminare cani da gatti. Quando vede un nuovo input visivo (frame da telecamera), attiva il cluster “cane” o “gatto” o nessuno dei due.

L’etichetta simbolica “cane” è connessa al cluster: per il sistema, “cane” significa “il pattern percettivo che attiva il cluster cane”.

Sopra le etichette, il sistema simbolico costruisce frasi: “il cane abbaia”, “tutti i cani sono mammiferi”, “questo cane è grande”. La composizione è simbolica, ma le etichette base sono grounded.

Harnad’s hybrid neural-symbolic architecture: vertical three-layer diagram. Bottom layer labeled “iconic representations: raw sensory analog patterns (retinal images, audio spectra)” with icons of an eye and an ear. Middle layer labeled “categorical representations: connectionist network learns categories from sensory input” with a small neural network diagram. Top layer labeled “symbolic representations: category labels manipulated by formal rules” with text tokens like “DOG”, “CAT”, “MAMMAL”, and rule-like notation. Vertical arrows pointing upward connect layers. A horizontal arrow on the right side, parallel to the layers, labeled “grounding chain: top symbols anchored down to sensory input through the middle layer”. Clean technical illustration style, English labels

Critica autocritica di Harnad nel paper stesso

Harnad nello stesso paper riconosce due limiti.

Primo limite: non tutte le categorie sono percettive direttamente. Categorie astratte come “giustizia”, “libertà”, “numero quattro”, “capitalismo” non sono ancorabili a pattern sensoriali specifici. Per queste, Harnad propone un grounding indiretto: definirle in termini di categorie già grounded. “Giustizia” potrebbe essere definita come “trattamento equo di persone in situazioni X”, dove “persona”, “trattamento”, “situazione” sono già grounded percettivamente. La definizione è simbolica, ma poggia su simboli già grounded. È un grounding mediato, non diretto.

Critica al critico: le definizioni mediate possono essere lunghe, indirette, e in alcuni casi forzate. “Numero quattro” definito a partire da percezione è plausibile (vedi quattro oggetti, conta), ma “infinito” o “transfinito” diventano problematici. Harnad ammette che il programma di grounding indiretto richiede ulteriore elaborazione.

Secondo limite: il sistema ibrido non è sufficiente per intenzionalità nel senso searleano. Searle continuerà a obiettare che anche con grounding sensoriale il sistema è ancora un sistema formale che processa pattern. Harnad accetta l’obiezione ma la considera fuori dal proprio target: il suo obiettivo è risolvere il regresso simbolico, non l’intenzionalità intrinseca. Il primo problema è cognitivamente trattabile; il secondo, secondo Harnad, potrebbe essere mal posto.

Critiche al computazionalismo classico

Il problema del symbol grounding è strutturalmente un attacco al computazionalismo classico. Due bersagli specifici.

Language of Thought di Fodor. Jerry Fodor (filosofo americano, 1935-2017) in The Language of Thought (Crowell, 1975) propone che la mente operi su simboli mentali (Mentalese) con sintassi composizionale. Il LOT presuppone che i simboli abbiano semantica intrinseca. Fodor difende questa posizione con un argomento “internalist”: la semantica è una proprietà intrinseca dei simboli mentali, fondata su relazioni causali interne al sistema cerebrale.

Critica esternalista, indipendente da Harnad ma convergente. Hilary Putnam (filosofo americano, 1926-2016) nel famoso esperimento mentale di Twin Earth (“The Meaning of ‘Meaning’”, in Putnam, Philosophical Papers vol. 2, Cambridge University Press, 1975), propone: immagina un pianeta gemello identico alla Terra in tutto, eccetto che quello che gli abitanti chiamano “acqua” è chimicamente XYZ invece di H2O. Comportamento, percezione, uso linguistico: identici sulla Terra e su Twin Earth. Stato mentale interno di un parlante terrestre e del suo gemello: identico. Eppure il significato di “acqua” è diverso: sulla Terra si riferisce a H2O, su Twin Earth a XYZ. Conclusione di Putnam: “meanings just ain’t in the head”. Il significato dipende da connessione esterna, non solo da stato interno.

Conseguenza per il LOT: l’internalismo è insufficiente. Il grounding deve essere esterno (sensoriale, ambientale). Harnad si pone esplicitamente nella linea esternalista, e il suo grounding sensoriale è una versione operativa dell’esternalismo. La filiazione concettuale è chiara: Putnam fornisce l’argomento filosofico, Harnad ne propone l’implementazione cognitiva.

Physical Symbol System Hypothesis di Newell-Simon. Come visto in computazionalismo, la PSSH definisce designation come capacità del sistema di influenzare l’oggetto designato. Ma il paper non spiega come la designation possa emergere senza un programmatore esterno. Harnad argomenta che senza grounding la designation è solo nominale: il sistema “designa” perché il programmatore ha detto così, non perché il sistema abbia un accesso semantico al designato.

Va marcata la classe: la critica di Harnad alla PSSH è una critica interna, non un rifiuto. Harnad accetta che i sistemi simbolici siano possibili e utili. Sostiene solo che, da soli, non possono grounded i loro simboli. Serve un livello sotto-simbolico (la rete neurale) che fornisca il grounding. È la posizione hybrid, equidistante da computazionalismo puro e connessionismo puro.

Soluzioni alternative

Il paper di Harnad apre un campo. Negli anni successivi (e in parte già contemporanei) emergono almeno sei posizioni alternative al hybrid harnadiano.

Brooks: anti-rappresentazionalismo

Rodney Brooks (roboticista australiano-americano, 1954-, MIT) propone una via radicale: niente rappresentazioni simboliche affatto. La subsumption architecture, introdotta in Brooks 1986 e teorizzata in Brooks 1991, costruisce robot che operano nel mondo senza modello interno del mondo.

Esempio canonico: il robot Allen (MIT, fine anni Ottanta), che naviga in un ambiente d’ufficio evitando ostacoli. Ha tre livelli di comportamento. Il livello base evita ostacoli (sensori a infrarossi misurano distanza, attuatori muovono il robot in direzione di minor ostacolo). Il livello superiore “wander” muove il robot in direzioni casuali quando non c’è da evitare. Il livello ancora superiore “explore” sceglie destinazioni e cerca di raggiungerle. Ogni livello opera direttamente su sensori-attuatori, e quando un livello superiore vuole agire può “subsume” (ricoprire, prendere il controllo) i livelli inferiori temporaneamente.

Niente knowledge base, niente planner, niente rappresentazione del layout dell’ufficio. Il robot non sa “dove sono”, perché’ “dove sono” implicherebbe una rappresentazione spaziale. Sa solo “ostacolo a destra, gira a sinistra”. L’aggregato dei comportamenti reattivi produce navigazione robusta.

Brooks 1990 in “Elephants Don’t Play Chess” (Robotics and Autonomous Systems vol. 6, pp. 3-15) esplicita la polemica: gli elefanti sono intelligenti (riconoscono parenti, usano strumenti, ricordano percorsi per decenni) e non giocano a scacchi. L’intelligenza scacchistica (simbolica, formale) non è centrale per intelligenza generale. La frase chiave del paper: “the world is its own best model”. Il robot non ha bisogno di rappresentare il mondo perché il mondo è disponibile e sempre aggiornato attraverso i sensori.

Implicazione per il problema del symbol grounding: il problema non si pone. Senza simboli da grounded, non c’è grounding da fare. Brooks dissolve il problema invece di risolverlo.

Limiti dell’approccio. Funziona bene per behavior reattivo (navigazione, avoidance, manipolazione semplice), molto meno bene per task che richiedono planning a lungo termine, ragionamento astratto, comunicazione linguistica. Costruire una casa non è solo coordinare riflessi sensorimotori; scrivere un saggio nemmeno. Negli anni Duemila Brooks stesso integra subsumption con elementi più ricchi (Cog, Kismet hanno componenti di apprendimento e interazione sociale), e riconosce che l’estremismo del 1991 era probabilmente una posizione retorica utile per smuovere il campo, non un programma definitivo.

Embodied cognition (Varela, Thompson, Rosch)

Francisco Varela (neurobiologo cileno-francese, 1946-2001), Evan Thompson (filosofo canadese, 1962-) e Eleanor Rosch (psicologa americana, 1938-, nota per gli studi sui prototipi cognitivi) pubblicano nel 1991 The Embodied Mind: Cognitive Science and Human Experience (MIT Press). Il libro è il manifesto della embodied cognition.

Tesi centrale: la cognizione non è manipolazione di simboli astratti su un substrato qualunque. È accoppiamento dinamico fra corpo e ambiente. Il “mondo” non è dato all’organismo come oggetto da rappresentare; è co-costituito dall’attività dell’organismo (il termine usato è enaction, da “enactive cognition”). Il colore rosso non è una proprietà oggettiva delle superfici, è un effetto dell’interazione fra struttura del sistema visivo umano e proprietà fisiche della luce. Cambia la struttura del sistema visivo, cambia il rosso (alcune specie animali vedono nell’ultravioletto, hanno un mondo cromatico diverso).

Conseguenza per il problema del symbol grounding: il problema è mal posto se presume disembodiment di partenza. Un sistema embodied non ha simboli astratti da grounded. Ha schemi sensorimotori che strutturano il suo accoppiamento al mondo. Il significato non è una connessione fra simbolo e referente, è un pattern di azione situato.

Influenze filosofiche del libro: Maurice Merleau-Ponty (filosofo francese, 1908-1961, Phénoménologie de la perception, Gallimard, 1945, fenomenologia del corpo); ecological psychology di James Gibson (psicologo americano, 1904-1979, The Ecological Approach to Visual Perception, Houghton Mifflin, 1979, teoria delle “affordances”: il significato di un oggetto è ciò che l’oggetto offre all’azione, una sedia “offre” il sedersi per chi ha gambe e taglia adeguate); buddhismo madhyamika (Nagarjuna, II secolo, lettura non-dualista, in dialogo con la fenomenologia occidentale).

Sviluppi successivi: Andy Clark (filosofo britannico, 1957-) in Being There: Putting Brain, Body, and World Together Again (MIT Press, 1997) sviluppa l’embodied cognition con esempi tecnici e robotici; Lawrence Shapiro in Embodied Cognition (Routledge, 2011) ne fornisce una trattazione manuale; Mark Rowlands in The New Science of the Mind (MIT Press, 2010) propone una teoria della “mente estesa” che integra embodied, embedded, enactive, extended (le “4E”).

Va marcata la classe: la relazione fra Harnad e embodied cognition è affinità tematica con divergenza di programma. Entrambi accettano che il grounding sensoriale è centrale. Harnad lo integra in un’architettura ibrida che mantiene un livello simbolico. Embodied cognition rifiuta il livello simbolico, considerandolo derivato dal sensorimotor. Le due posizioni dialogano ma non si fondono.

Connessionismo / distributed representations

Paul Smolensky (scienziato cognitivo americano, 1949-), in “On the Proper Treatment of Connectionism” (Behavioral and Brain Sciences vol. 11, n. 1, marzo 1988, pp. 1-23), introduce il concetto di livello subsimbolico. Le rappresentazioni delle reti neurali sono distribuite su pattern di attivazione: non c’è una corrispondenza uno-a-uno fra unità interna e concetto, ogni concetto è codificato in un pattern che coinvolge molte unità, e ogni unità contribuisce a molti concetti.

Conseguenza per il grounding: in un sistema connessionista puro, l’attivazione di una unità non è “circa” qualcosa nel senso simbolico classico. È un parametro statistico che contribuisce alla discriminazione di pattern in input. Il grounding è “di default” nel senso che le attivazioni sono sempre causate da qualche input. Ma non c’è grounding referenziale chiaro: non si può dire “questa unità si riferisce a cane”.

Il connessionismo non risolve direttamente il problema di Harnad nei termini di Harnad (che richiede simboli grounded), ma lo dissolve sostituendo i simboli con pattern distribuiti. È una mossa simile a Brooks ma a un livello diverso (dentro la rappresentazione, non eliminando la rappresentazione).

Semantica distribuzionale

Filiazione: John Rupert Firth (linguista britannico, 1890-1960), in “A Synopsis of Linguistic Theory 1930-1955” (in Studies in Linguistic Analysis, Blackwell, Oxford, 1957), enuncia il principio: “You shall know a word by the company it keeps”. Il significato di una parola è il pattern di co-occorrenza con altre parole.

Implementazioni: Latent Semantic Analysis (Deerwester et al. 1990), Hyperspace Analogue to Language (Burgess-Lund 1996), word2vec (Mikolov et al. 2013, trattato in word2vec-2013), GloVe (Pennington et al. 2014), embedding contestuali (BERT 2018, ELMo 2018), large language models (GPT da 2018 in poi).

Il grounding distribuzionale ancora i simboli a statistiche di co-occorrenza in corpora testuali enormi. È grounding nel senso che le parole non sono isolate: sono incorporate in una struttura geometrica che riflette l’uso linguistico. La similarità geometrica fra “cane” e “gatto” nello spazio degli embedding cattura la similarità semantica nel corpus.

Va marcata la classe di affermazione: word2vec discende dalla semantica distribuzionale di Firth nel senso storiografico forte (Mikolov et al. citano la tradizione, vedi capitolo dedicato). La relazione fra semantica distribuzionale e symbol grounding di Harnad è invece affinità funzionale: entrambi affrontano la questione di come ancorare i simboli a qualcosa, ma in modi diversi (statistiche linguistiche vs percezione sensoriale). Harnad cita LSA nel suo paper del 1990 come tentativo di grounding non sensoriale, e lo trova insufficiente: per Harnad il grounding distribuzionale è ancora grounding in altri simboli (le parole del corpus), quindi non risolve il regresso. Il dibattito riemerge potentissimo nell’era LLM (vedi sezione “Eredità oggi”).

Steels: language games e robot

Luc Steels (informatico belga, 1952-, allora Sony Computer Science Laboratory Paris e Vrije Universiteit Brussel) conduce dagli anni Novanta una serie di esperimenti con popolazioni di robot fisici che sviluppano lessici condivisi tramite interazione.

Esperimento canonico: Talking Heads (1999-2001), installato in spazi pubblici (Anversa, Parigi, Tokyo). Due robot con telecamere puntano oggetti fisici esposti in scena, propongono nomi (sequenze fonetiche generate casualmente all’inizio), si correggono se non concordano. Il protocollo è un “guessing game” minimale: un robot indica un oggetto con la telecamera, l’altro deve indovinare quale (fra quelli in scena) e nominarlo; se sbagliano, si scambiano feedback e aggiornano il lessico.

Risultato: dopo migliaia di interazioni, il gruppo di robot converge su un lessico condiviso. Ogni parola è “grounded” perché è ancorata a una categoria percettiva costruita autonomamente dal robot (cluster di pixel, feature di colore-forma-posizione). Il lessico non è programmato: emerge dall’interazione.

Steels 2008 (“The Symbol Grounding Problem Has Been Solved, So What’s Next?”) sostiene provocatoriamente che il problema teorico è chiuso: gli esperimenti dimostrano che robot fisici possono generare e condividere simboli grounded senza programmazione esplicita di significato. Quel che resta è ingegneria: scalare a vocabolari più grandi, gestire robustezza, integrare grammatica, sviluppare semantica composizionale.

Critica: gli esperimenti sono limitati (poche centinaia di parole, oggetti semplici). La scalabilità a vocabolari di decine di migliaia di parole, a categorie astratte, a strutture sintattiche complesse, è una questione empirica largamente aperta. Steels stesso lavora dal 2010 al 2020 sulla “Fluid Construction Grammar” per estendere il programma a sintassi composizionale. I risultati sono interessanti ma circoscritti.

Va marcata la classe: la relazione fra Steels e Harnad è filiazione di programma. Steels lavora esplicitamente sul programma harnadiano, lo sviluppa e lo reinterpreta. La differenza è che Steels aggiunge la dimensione sociale: i simboli sono grounded non solo perceptualmente ma anche socialmente, attraverso convergenza in una popolazione di agenti.

Neuro-simbolico moderno

Linea di ricerca dal 2010 in poi che combina reti neurali (per percezione, apprendimento di regolarità statistiche) con strutture simboliche (per inferenza, composizionalità, ragionamento). Esempi tecnici: Neural Theorem Provers (Rocktäschel et al. 2017), DeepProbLog (Manhaeve et al. 2018), Logic Tensor Networks (Serafini-d’Avila Garcez 2016), Differentiable Neural Computers (Graves et al. 2016), pareri programmatici di Gary Marcus dal 2018.

La filiazione di Harnad è esplicita: l’architettura ibrida è la stessa (rete neurale + simboli), e i lavori di area citano regolarmente Harnad 1990. La differenza è che le tecnologie sono enormemente più potenti (reti deep, gradient-based learning, GPU, dataset grandi) e che le applicazioni mirano a task di NLP, visione, ragionamento.

Trattata in dettaglio nello slug futuro neuro-simbolico (Parte VII).

Critiche al problema stesso

Tre tradizioni filosofiche sostengono che il problema del symbol grounding è mal posto.

Wittgensteinian. Ludwig Wittgenstein (filosofo austriaco-britannico, 1889-1951), nelle Philosophische Untersuchungen (postumo, Blackwell, Oxford, 1953), sostiene che il significato di una parola è il suo uso in un “language game”. Il significato non è una connessione fra parola e referente (concezione “agostiniana” del linguaggio che Wittgenstein critica nel paragrafo 1 delle PI), ma un pattern di uso socialmente condiviso. Conseguenza per il symbol grounding: il problema è mal posto se assume una relazione diadica simbolo-referente. Il significato è triadico almeno: simbolo, uso, comunità. Ground i simboli al mondo è la cosa sbagliata da chiedere; va groundata la pratica linguistica nel suo insieme. La critica wittgensteinian è forte ma resta fuori dal mainstream cognitivista, e Harnad non vi risponde direttamente.

Eliminativismo. Paul Churchland (filosofo canadese, 1942-) e Patricia Churchland (filosofa canadese, 1943-), in vari lavori dal 1981 in poi (Paul Churchland, “Eliminative Materialism and the Propositional Attitudes”, Journal of Philosophy vol. 78, n. 2, febbraio 1981, pp. 67-90), sostengono che “significato” è un concetto della folk psychology, una teoria pre-scientifica destinata a essere sostituita da neuroscienza matura. Non c’è niente da grounded perché non c’è “significato” in senso letterale, c’è solo attività neuronale. Posizione minoritaria ma elimina il problema dissolvendolo. Nessun computazionalista mainstream l’accetta: rinunciare a “significato” sembra rinunciare a troppo.

Holismo semantico. Willard Van Orman Quine (filosofo americano, 1908-2000), in “Two Dogmas of Empiricism” (Philosophical Review vol. 60, n. 1, gennaio 1951, pp. 20-43), e in Word and Object (MIT Press, 1960), sostiene che il significato di un termine dipende dall’intera rete di credenze in cui è inserito. Non c’è grounding atomico (un simbolo a un oggetto). C’è solo grounding olistico: l’intera teoria al mondo, attraverso predizioni empiriche complessive. Implicazione per il symbol grounding: il problema è mal posto se cerca grounding term-by-term. Deve essere holistic.

L’olismo quineano è preso sul serio anche dalla tradizione computazionalista: Fodor in The Elm and the Expert (MIT Press, 1994) cerca di rispondere a Quine difendendo una versione moderata di atomismo semantico. Il dibattito è tecnico e largamente irrisolto.

Esempi

Tre esempi concreti, eterogenei, per fissare il problema.

Esempio 1 — Il dizionario cinese-cinese in pratica

Considera l’esperimento mentale in versione concreta. Sei un parlante monolingue inglese e ti danno un dizionario cinese-cinese (per esempio il Xinhua Zidian, il dizionario standard del cinese semplificato). Apri alla pagina della parola 狗 (gǒu, cane). La definizione (semplificata) recita: 一种家畜，肉食性动物，听觉嗅觉灵敏，性机警，易训练，可帮助人狩猎、放牧或看守门户.

Se non conosci il cinese, vedi una sequenza di caratteri. Apri 一种 (yīzhǒng, “un tipo di”): trovi una definizione in cinese che usa altri caratteri. Apri 家畜 (jiāchù, “animale domestico”): altri caratteri ancora. Continui per ore. Non incontri mai una parola che già conosci, mai un disegno, mai un’immagine, mai un esempio fuori dal cinese. Il dizionario è completo (puoi cercare qualunque parola) ma chiuso (non c’è uscita).

Aggiungere altre risorse (un dizionario cinese-cinese più grande, una grammatica cinese, una storia della lingua cinese, tutte in cinese) non aiuta. Più simboli, stesso labirinto. Per uscire serve un dizionario bilingue (un’uscita all’inglese, che già conosci) oppure qualcuno che indichi un cane e dica gǒu (un’uscita alla percezione condivisa).

Il punto di Harnad: un sistema computazionale puramente simbolico è in questa situazione, e non gli si può dare nessun “dizionario bilingue” interno, perché qualunque cosa tu gli dia è ancora un simbolo per lui.

Esempio 2 — Il robot insetto di Brooks

Considera il robot Allen del MIT AI Lab, fine anni Ottanta. Hardware: una piattaforma mobile con sensori a infrarossi disposti intorno, sensori di urto frontali, attuatori a ruote. Software: tre livelli di subsumption.

Livello 0 — Avoid. Legge i sensori a infrarossi. Se rileva un ostacolo a distanza minore di 30 cm, sterza nella direzione opposta. Se rileva ostacolo frontale a contatto (sensori urto), inverte. Loop continuo, frequenza alta.

Livello 1 — Wander. Genera periodicamente direzioni casuali e le invia agli attuatori. Se il livello 0 sta gestendo un ostacolo, il livello 0 ha priorità (subsume).

Livello 2 — Explore. Sceglie destinazioni in base a metriche euristiche (zone non ancora visitate, sorgenti luminose). Quando attivo, dirige il robot. Il livello 1 (Wander) viene subsumed; il livello 0 (Avoid) resta sempre attivo.

Risultato osservabile: il robot vaga per l’ufficio, evita i piedi delle persone, esplora corridoi nuovi, torna indietro quando incontra muri. Sembra “sapere” dove va, ma non sa nulla nel senso simbolico. Non ha mappa dell’ufficio, non ha rappresentazione di “muro” o “persona” o “corridoio”. Ha solo configurazioni di sensori che attivano risposte motorie, organizzate in livelli.

Il robot di Brooks non ha simboli, quindi non ha problema di grounding. La sua “intelligenza” è situata: vive nel coupling diretto fra sensori e mondo. Brooks sostiene che molta intelligenza animale (insetti, mammiferi non-umani) è di questo tipo. Solo l’intelligenza linguistico-simbolica dell’umano è un’eccezione, e forse non così centrale come la tradizione AI ha assunto.

L’esempio mostra una via di soluzione (o dissoluzione) del problema di Harnad alternativa al hybrid. Funziona per task percettivo-motori; meno chiaramente per ragionamento astratto.

Esempio 3 — Un LLM moderno e la parola “cane”

GPT-4, Claude, Gemini sono addestrati su corpora testuali enormi (decine di trilioni di token: web, libri, codice, dialoghi). Imparano embedding di parole in spazi di alta dimensione (12000+ dimensioni). Quando processano la parola “cane” (o “dog”), la mappano a un vettore. Il vettore è ottimizzato per predire le parole circostanti nel corpus di addestramento.

Cosa “sa” l’LLM di un cane? Sa moltissimo, in senso distribuzionale. Sa che i cani abbaiano (perché in milioni di frasi nel corpus “cane” co-occorre con “abbaia”). Sa che hanno padroni, code, peli, denti. Sa che esistono razze (labrador, pastore tedesco, bulldog). Sa che vivono in case con umani, mangiano cibo per cani, vanno dal veterinario. Sa anche cose più sottili: che “il cane è migliore amico dell’uomo” è un cliché, che “menare il can per l’aia” è un idioma italiano, che Snoopy è un cane famoso dei fumetti.

Cosa non sa? Non ha mai visto un cane. Non ha mai sentito un cane abbaiare. Non ha mai toccato il pelo di un cane. La sua conoscenza è interamente di seconda mano: deriva da testi scritti da umani che, a loro volta, hanno avuto esperienza diretta dei cani.

È grounded? Dipende da cosa intendi.

In senso distribuzionale (Firth, word2vec, embedding moderni), sì: il vettore “cane” è ancorato a un pattern statistico di co-occorrenze. Non è un simbolo isolato.

In senso harnadiano (sensorimotor), no: il sistema non ha mai percepito un cane. Tutto il suo grounding è parassita rispetto al grounding sensorimotorio degli umani che hanno scritto i testi.

Bender et al. 2021 (“Stochastic Parrots”) usano questa distinzione per criticare gli LLM. Bender e Koller in un paper precedente (2020, ACL, “Climbing Towards NLU: On Meaning, Form, and Understanding in the Age of Data”) propongono l’octopus thought experiment: un polipo iperintelligente intercetta cavi sottomarini e impara a impersonare un parlante umano dalle sole conversazioni testuali. Quando uno dei due interlocutori chiede aiuto perché un orso lo sta attaccando, il polipo non sa cosa rispondere: non ha grounding del mondo fisico, non sa cosa è un orso o un attacco o un soccorso. La fluenza linguistica è ingannevole: simula comprensione senza averla.

Il dibattito è aperto. Vedi sezione “Eredità oggi”.

Three responses to the symbol-grounding problem compared: horizontal three-column infographic. Left column “Hybrid neural-symbolic (Harnad 1990)”: small diagram with sensors at bottom, neural net middle, symbols on top, captioned “ground symbols by anchoring labels to perceptual categories”. Center column “Anti-representational (Brooks 1986-91)”: diagram with sensors and actuators connected directly through behavior layers, no symbol layer, captioned “dissolve the problem: no symbols, no grounding needed”. Right column “Distributional (Firth 1957, word2vec 2013, LLMs)”: cloud of words connected by similarity arrows in a dense graph, captioned “ground symbols statistically through co-occurrence in large corpora; debated as sufficient (Bender 2021)”. Subtitle reads “three families of solution to the same problem”. Clean editorial style, English labels

Eredità oggi

[DATATO 2026-04] Le sezioni che seguono fotografano il dibattito al primo trimestre 2026. Il campo evolve rapidamente: ogni nuova generazione di modelli riformula la questione.

Il problema del symbol grounding non è stato “risolto” in senso pieno. È stato riconfigurato a ogni nuovo paradigma dell’AI. La sezione fa lo snapshot delle riconfigurazioni in corso al 2026.

LLM testuali e grounding distribuzionale

I large language models contemporanei (GPT-4, Claude 3.7, Gemini, Llama 3, DeepSeek, Mistral) sono per la maggior parte addestrati su corpora testuali. La rappresentazione interna di un concetto è un vettore in uno spazio di alta dimensione, ottimizzato per predire la parola successiva data il contesto. Per la sezione “Esempi” abbiamo già discusso il caso “cane”.

Il dibattito è polarizzato. Posizione “grounding distribuzionale è sufficiente”: Manning, Mikolov, autori vicini all’industria. Argomento: gli embedding catturano relazioni semantiche fini (analogie, sinonimi, frame, sentiment), basta a fini pratici. Posizione “grounding distribuzionale è insufficiente”: Bender, Marcus, autori vicini a critica linguistica e cognitive science. Argomento: l’octopus test mostra che senza grounding nel mondo fisico ci sono limiti strutturali.

Empiricamente, gli LLM hanno comportamenti misti. Sono notoriamente buoni in task linguistici puri (parafrasi, sintesi, traduzione, scrittura creativa). Sono meno robusti in task che richiedono ragionamento spaziale fine, comprensione fisica naive, riconoscimento di causalità nel mondo materiale. Le hallucinazioni (asserzioni fluenti ma fattualmente errate) sono spesso interpretate come sintomo del grounding insufficiente.

VLM, modelli multimodali, grounding visivo

Vision Language Models (GPT-4V, Claude 3 con visione, LLaVA, Gemini, Flamingo) combinano un encoder visivo (tipicamente Vision Transformer pre-addestrato in stile CLIP) con un language model. Token visivi e token testuali entrano nello stesso spazio rappresentazionale. Il modello può ricevere un’immagine in input e produrre testo che fa riferimento a quel che vede.

In senso harnadiano sono “più grounded” dei testuali puri: hanno accesso a immagini, possono associare parole a percetti visivi statici. Vedere “cane” e vedere un cane sono ora connessi nel modello.

Limiti: non hanno percezione attiva (non possono cambiare il punto di vista), non possono manipolare oggetti, non hanno feedback motorio. Vedono ciò che gli viene mostrato. Per Harnad, il grounding è ancora parziale: manca l’azione.

Embodied LLM e robotic foundation models

RT-2 (Google DeepMind 2023, Brohan et al. “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”), OpenVLA (Stanford-Toyota 2024), PaLM-E (Google 2023, Driess et al.), Helix (Figure AI 2025), AutoRT, RT-X. Architetture che fondono large language model con controllo robotico. Il modello prende input visivo e linguistico, produce comandi motori per robot reali (manipolazione, navigazione, pick-and-place).

Grounding sensorimotor diretto: il sistema interagisce fisicamente con il mondo. Il problema di Harnad si sposta a livello robotico: i pattern sensorimotori “significano” qualcosa per il robot? Domanda aperta, ma molto più vicina alla proposta originale di Harnad. Architetturalmente, RT-2 e affini sono implementazioni avanzate del hybrid neural-symbolic che Harnad immaginava nel 1990, con la rete neurale che ha preso il sopravvento e i simboli linguistici che operano sopra le rappresentazioni neurali.

La filiazione concettuale di Harnad è esplicita nei paper di area: la motivazione dichiarata dei robotic foundation models è “ground language in physical world”, linguaggio harnadiano.

Mech interp e circuiti di concetti

Mechanistic interpretability (Olah et al. dal 2017 a OpenAI poi Anthropic, Anthropic dal 2021 in poi). Identificazione di circuiti distribuiti nei modelli che corrispondono a concetti specifici. Esempio celebre: il circuito “Golden Gate Bridge” in Claude (Anthropic 2024, “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”): un set di feature, identificate tramite sparse autoencoders, che si attivano quando il modello processa il ponte di San Francisco.

Sono “grounding interno” nel senso di Harnad? In senso debole: i circuiti sono ancorati a pattern statistici nel training corpus. Non a percezione diretta del Golden Gate Bridge. Resta grounding distribuzionale, ma con la differenza che ora possiamo “vedere” dove vive il concetto nel modello.

La domanda interessante è se i circuiti multimodali (in modelli VLM) abbiano una struttura diversa. Alcuni lavori suggeriscono di sì: feature visive e linguistiche convergono in cluster condivisi che potrebbero essere considerati grounding più ricco. Ma il campo è giovane e i risultati preliminari.

Stochastic parrots debate (Bender 2021)

Il paper Bender et al. 2021 (“On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”, FAccT 2021) ha riportato il problema del grounding al centro del dibattito pubblico. Il termine “stochastic parrots” è entrato nel lessico comune. La tesi: gli LLM sono pappagalli stocastici che ricombinano forme linguistiche senza accesso ai referenti.

Il paper non cita Harnad direttamente, ma lo zeitgeist è esplicitamente harnadiano. Bender in scritti successivi ha riconosciuto il debito.

Il paper ha avuto risonanza politica enorme: la co-autrice Timnit Gebru viene licenziata da Google a fine 2020 per il paper, episodio molto discusso. La controversia ha intrecciato il problema del grounding con questioni di etica, bias, sostenibilità ambientale dei modelli grandi. La parte “grounding” del paper è una sezione, ma è quella che ha lasciato il segno più duraturo nel dibattito tecnico.

Lezione complessiva

Il problema di Harnad non è risolto; è riconfigurato. A ogni nuovo paradigma — connessionismo, deep learning, transformer, LLM, VLM, robotic foundation models — la domanda riemerge in forma trasformata. La risposta dipende sempre da cosa accettiamo come “grounding sufficiente”. Se accettiamo grounding distribuzionale, allora gli LLM moderni sono già grounded. Se richiediamo grounding sensorimotorio, allora siamo solo agli inizi con i robotic foundation models. Se richiediamo intenzionalità intrinseca alla Searle, siamo ancora a zero (e Harnad stesso sosterrebbe che non possiamo arrivare a zero per quella via).

Il valore del paper di Harnad nel 2026 non è darci la risposta. È averci dato una domanda che resta produttiva ad ogni nuova generazione di sistemi.

Dove si rompe

Il problema del symbol grounding ha una sua robustezza, ma una serie di limiti, ambiguità e fraintendimenti vanno esplicitati.

Limite 1 — La definizione di “grounding” è fuzzy

Harnad parla di grounding sensorimotor come connessione causale fra simbolo e categoria percettiva. Ma cosa conta come “connessione causale sufficiente”? I pixel dalla telecamera sono già encoding simbolico per chi è scettico (Searle). Le categorie apprese dalla rete sono ancora pattern numerici per chi è radicalmente anti-rappresentazionale (Brooks). I simboli sopra le categorie sono ancora simboli per chi cerca intenzionalità intrinseca.

La nozione di grounding è scivolosa, e il dibattito post-1990 ha proliferato distinzioni: grounding causale, referenziale, semantico, sensorimotor, distribuzionale, sociale, embodied, intrinseco, derivato. Spesso le discussioni divergono perché gli interlocutori usano “grounding” in sensi diversi senza esplicitare.

Buona pratica: quando si discute di symbol grounding in qualunque sistema (un LLM, un robot, un agente cognitivo), specificare quale tipo di grounding si sta richiedendo o discutendo.

Limite 2 — Approcci diversi spostano il problema, non lo risolvono

Hybrid neural-symbolic (Harnad): sposta il problema al livello della rete neurale. Ma la rete neurale come “grounded” davvero gli input sensoriali, oppure è solo un altro tipo di sistema che li processa formalmente? Searle continuerebbe a obiettare che è ancora processing formale.
Anti-rappresentazionale (Brooks): sposta il problema al livello del coupling sensori-attuatori. Ma cos’è esattamente questo coupling, e perché dovrebbe essere “grounded” in modo che i simboli non sono?
Distribuzionale (LLM): sposta il problema al livello del corpus di addestramento. I simboli sono grounded in statistiche di co-occorrenza, ma queste statistiche sono il riflesso del grounding degli umani che hanno scritto i testi. Il regresso si sposta, non scompare.
Embodied (Varela): sposta il problema al livello dell’accoppiamento corpo-ambiente. Ma in che senso questo accoppiamento è grounding piuttosto che un altro tipo di processo causale?

A ogni livello di analisi, si può sollevare la domanda “ma è davvero grounded, oppure è solo un altro tipo di processing?”. Il problema sembra avere una caratteristica di regresso meta-livello: non solo i simboli rinviano ad altri simboli, ma le proposte di grounding rinviano ad altre nozioni che chiedono a loro volta di essere fondate.

Limite 3 — Searle: anche con grounding non basta

Per Searle 1980 e successivi, il grounding sensorimotor non aggiunge intenzionalità intrinseca. Anche un sistema che riceve input dalla telecamera, processa, agisce sul mondo, è ancora un sistema formale che processa pattern. La connessione causale al mondo non è sufficiente per “aboutness” semantica.

Harnad accetta questa obiezione ma la considera fuori target: il suo obiettivo è risolvere il regresso simbolico, non l’intenzionalità intrinseca. Il primo problema è cognitivamente trattabile; il secondo, secondo Harnad, potrebbe essere mal posto. Il dibattito non si chiude.

Limite 4 — Wittgensteinian: il problema potrebbe essere mal posto

Se accetti la critica wittgensteinian (significato è uso in language games, non corrispondenza simbolo-referente), allora il symbol grounding cerca la cosa sbagliata. Il significato di “cane” non è una connessione fra il simbolo e i cani fisici, è il pattern di uso della parola in pratiche umane (chiamare il cane, comprare cibo per cani, raccontare storie di cani).

In questa prospettiva, ground i simboli al mondo è il primo errore. Bisogna grounded la pratica linguistica nel suo insieme, e questo non è un problema cognitivo individuale ma collettivo-sociale.

La critica è seria ma è poco rappresentata nel mainstream cognitivista, che assume per default una concezione referenziale del significato. Il dibattito fra mainstream cognitivista e wittgensteinian non è mai stato veramente integrato.

Mito 1 — “Embodied AI risolve symbol grounding”

Affermazione ricorrente nei manifesti embodied: dare un corpo all’AI risolve il problema. Falso o impreciso. L’embodied AI sposta il problema a livello sensorimotor: come fanno i pattern sensorimotori a “significare” qualcosa per il sistema embodied? La domanda non scompare, si riformula. Searleani e Wittgensteinian sostengono che a livello sensorimotor il problema persiste.

Affermazione più precisa: l’embodied AI risolve il problema del regresso simbolico (i simboli non rinviano più solo ad altri simboli), ma non risolve il problema dell’intenzionalità intrinseca o del significato come uso.

Mito 2 — “Gli LLM hanno simboli grounded”

Affermazione frequente nella tecnopubblicistica del 2023-2026: i LLM moderni “comprendono” perché’ hanno embedding ricchi che catturano relazioni semantiche fini. Vero solo in senso distribuzionale. Falso in senso harnadiano sensorimotor.

Affermazione più precisa: gli LLM hanno grounding distribuzionale, che è una forma legittima di grounding ma è dibattuta come sufficiente. Per task puramente linguistici è spesso adeguato; per task che richiedono comprensione del mondo fisico è spesso insufficiente.

Mito 3 — “Steels ha risolto il problema nel 2008”

Steels 2008 lo afferma provocatoriamente. Tecnicamente: ha risolto un’istanza ristretta del problema (grounding di lessici di poche centinaia di parole su categorie percettive semplici, in popolazioni di robot fisici). La generalizzazione a vocabolari di scala umana, a categorie astratte, a strutture sintattiche complesse, resta aperta.

Affermazione più precisa: Steels ha mostrato la fattibilità in linea di principio del programma harnadiano. La scalabilità è una questione empirica largamente aperta.

Mito 4 — “Il problema di Harnad è uguale alla Stanza Cinese”

Distinzione importante. Searle 1980 attacca Strong AI con argomento negativo (il computer non potrà mai veramente comprendere). Harnad 1990 accetta la diagnosi ma è costruttivo (propone una via per ottenere grounding). Sono parenti ma non sovrapponibili.

Affermazione più precisa: Harnad sviluppa l’angolo del symbol grounding implicito nella Robot Reply alla Stanza Cinese, ma propone una direzione costruttiva che Searle stesso continua a rifiutare.

LLMs and the symbol-grounding problem at 2026: a diagram with three concentric circles. Outermost circle labeled “linguistic capability (output fluency, syntactic correctness)” with text “LLMs perform very well”. Middle circle labeled “distributional grounding (relations among words via co-occurrence)” with text “LLMs perform very well; word2vec to embeddings to LLMs is a continuous lineage”. Innermost circle labeled “sensorimotor grounding (connection to physical world)” with text “LLMs lack this; VLMs partial; embodied LLMs partial and emerging”. Around the innermost circle, a thought bubble labeled “Bender 2021 stochastic parrots: this is what’s missing”. Subtitle reads “three nested layers of grounding, LLMs cover the outer two but not the innermost”. Clean editorial style, English labels

Collegamenti

stanza-cinese-searle — l’argomento di Searle 1980 è il punto di partenza diretto di Harnad. Il capitolo sulla Stanza Cinese tratta in dettaglio la Robot Reply, che anticipa il problema del grounding. Lettura preliminare consigliata.
computazionalismo — il problema del grounding è un attacco interno al computazionalismo classico, in particolare alla PSSH di Newell-Simon (problema della designation) e al LOT di Fodor (internalism semantico). Lettura preliminare consigliata per inquadrare la posizione bersagliata.
funzionalismo — il computazionalismo è una specie del funzionalismo. Il problema del grounding tocca il funzionalismo nel punto in cui chiede se l’astrazione funzionale possa prescindere dal substrato sensorimotor. Lettura utile ma non strettamente richiesta.
ai-forte-ai-debole — il problema del grounding è un argomento contro Strong AI, almeno nella sua versione computazionalista pura. Per Harnad l’AI può forse essere “forte” se ibrida e grounded.
word2vec-2013 — la semantica distribuzionale è una delle proposte di soluzione al problema del grounding. Word2vec ne è l’implementazione efficiente che ha aperto l’era degli embedding. Il rapporto fra grounding distribuzionale e grounding sensorimotor è uno dei dibattiti centrali del capitolo presente.
ai-simbolica-anni-60 — i sistemi simbolici degli anni Sessanta-Settanta (Logic Theorist, GPS, SHRDLU, MYCIN) sono il bersaglio implicito del problema del grounding. Lettura utile per il contesto storico tecnologico.
reti-neurali-80-90 — il connessionismo degli anni Ottanta è una delle vie alternative al simbolismo. Smolensky 1988 e il livello subsimbolico sono parte del dibattito sul grounding.
intenzionalita (slug futuro Parte II) — l’intenzionalità nel senso di Brentano-Searle è un concetto correlato ma distinto dal grounding. Il rapporto fra i due meriterà una trattazione dedicata.
mente-estesa (slug futuro Parte II) — la tesi di Clark e Chalmers (1998) sull’estensione della mente al di fuori del cranio è una versione moderna del programma embodied-extended che si interseca con il dibattito sul grounding.
cognizione-embodied (slug futuro Parte III) — la cognizione embodied come programma di ricerca cognitivo-scientifico merita una trattazione autonoma. Qui è solo accennata.
semantica-distribuzionale (slug futuro Parte III) — la tradizione che va da Firth 1957 a word2vec 2013 a embedding contestuali merita un capitolo dedicato. Qui è inquadrata come una delle vie di grounding.
ponte-distribuzionale-embeddings (slug futuro Parte III) — capitolo ponte fra semantica distribuzionale e architetture moderne di embedding. Connesso direttamente al dibattito grounding.
neuro-simbolico (slug futuro Parte VII) — la linea di ricerca neuro-simbolico moderna è una filiazione esplicita di Harnad. Trattazione dedicata.

Per andare oltre

Harnad S., “The Symbol Grounding Problem”, Physica D vol. 42, nn. 1-3, giugno 1990, pp. 335-346. Il paper canonico, dodici pagine, dense ma leggibili. Punto di partenza obbligatorio. Disponibile online sul sito personale di Harnad e in molti repository open access.
Harnad S., “Symbol Grounding Problem”, Scholarpedia vol. 2, n. 7, 2007, articolo 2373. URL: http://www.scholarpedia.org/article/Symbol_grounding_problem. Voce scritta da Harnad stesso diciassette anni dopo, riformula il problema in luce del dibattito intervenuto. Più accessibile del paper originale come introduzione.
Steels L., “The Symbol Grounding Problem Has Been Solved, So What’s Next?”, in M. de Vega, A. Glenberg, A. Graesser (eds.), Symbols and Embodiment: Debates on Meaning and Cognition, Oxford University Press, Oxford, 2008, pp. 223-244. La provocazione costruttiva di Steels. Da leggere contro il paper di Harnad per vedere come il programma di ricerca sia maturato in vent’anni.
Bender E.M., Koller A., “Climbing Towards NLU: On Meaning, Form, and Understanding in the Age of Data”, Proceedings of ACL 2020, luglio 2020. Il paper con l’octopus thought experiment. Riformula il problema di Harnad nei termini contemporanei degli LLM.
Brooks R.A., “Intelligence Without Representation”, Artificial Intelligence vol. 47, nn. 1-3, gennaio 1991, pp. 139-159. Il manifesto dell’anti-rappresentazionalismo. Da leggere come contraltare a Harnad: due posizioni diverse sullo stesso problema. Lettura breve e leggibile.