Salta ai contenuti

Cognizione embodied: la mente nel corpo e nel mondo

Nel 1989, in un laboratorio del MIT AI Lab, un robot esapode di nome Genghis cammina. Non ha planner centrale, non ha mappa interna, non ha rappresentazione simbolica del terreno. Ognuna delle sue sei zampe è governata da una macchina a stati finiti accoppiata direttamente ai propri sensori, e il coordinamento del passo emerge dall’interazione fisica fra zampe e suolo. L’anno dopo, il suo costruttore Rodney Brooks pubblica un articolo dal titolo “Elephants Don’t Play Chess” e una frase che diventerà slogan: “the world is its own best model”. È la formulazione ingegneristica più nitida di una tesi che la filosofia continentale aveva proposto mezzo secolo prima e che le scienze cognitive stavano riscoprendo per altre vie: la mente non sta nella testa.

Cambridge, Massachusetts, 1989. Rodney Brooks (1954-, ingegnere australiano, allora associate professor al MIT AI Lab) presenta un robot esapode di poco più di trenta centimetri, costruito con servomotori a basso costo e una pila di microcontroller 8-bit. Si chiama Genghis. Cammina su terreni accidentati, evita ostacoli, segue il calore corporeo umano. Funziona meglio dei robot pianificatori della tradizione GOFAI (Good Old-Fashioned AI) della stessa epoca, che su un terreno reale tipicamente si bloccano per minuti a calcolare il prossimo passo.

Il punto provocatorio non è la performance: è la pretesa filosofica che Brooks ne ricava. Genghis non ha world model. Non c’è una rappresentazione interna del terreno che venga aggiornata e su cui si pianifichi. Ogni zampa è controllata da una piccola macchina a stati che reagisce direttamente ai propri sensori; le zampe non comunicano fra loro tramite una mappa condivisa; si coordinano attraverso il fatto fisico che condividono un corpo e poggiano sullo stesso suolo. Il coordinamento del gait emerge come pattern dinamico, non come piano calcolato. In “Elephants Don’t Play Chess” (1990, Robotics and Autonomous Systems) e in “Intelligence Without Representation” (1991, Artificial Intelligence), Brooks formalizza la mossa: l’intelligenza non richiede rappresentazione esplicita; richiede accoppiamento sensorimotor robusto fra agente e ambiente. “The world is its own best model” — invece di mantenere una rappresentazione interna del mondo che debba essere aggiornata, l’agente percepisce il mondo quando ne ha bisogno.

La frase è uno schiaffo all’AI simbolica dell’epoca. Ma non è un’idea sua. Brooks la lancia in un terreno già preparato da almeno tre decenni di filosofia e di scienze cognitive, e da intuizioni più antiche ancora. Quarant’anni prima, a Parigi, Maurice Merleau-Ponty (1908-1961, filosofo francese formatosi all’École Normale Supérieure) aveva pubblicato la Phénoménologie de la perception (Gallimard 1945), dove sostiene che la percezione non è un evento mentale separabile dal corpo: il corpo non è oggetto fra altri oggetti, è il soggetto stesso della percezione, lo “sguardo” attraverso cui un mondo si apre. Dieci anni prima di Brooks, James Gibson (1904-1979, psicologo americano a Cornell) aveva pubblicato The Ecological Approach to Visual Perception (Houghton Mifflin 1979), dove la percezione visiva è descritta non come inferenza da pixel a oggetti ma come pickup diretto delle affordances dell’ambiente — proprietà relazionali agente-ambiente che invitano all’azione. Due anni dopo Brooks, a Berkeley, tre ricercatori — Francisco Varela (1946-2001, biologo cileno e filosofo), Evan Thompson (1962-, filosofo canadese) e Eleanor Rosch (1938-, psicologa americana, già celebre per il lavoro sulle categorie prototipiche) — pubblicano The Embodied Mind (MIT Press 1991), il manifesto che dà nome al programma e propone l’enactivism: la cognizione è azione, non rappresentazione, e costituisce il proprio mondo attraverso l’interazione sensorimotor.

Negli anni Ottanta, in parallelo, una linea diversa: George Lakoff (1941-, linguista a UC Berkeley) e Mark Johnson (1949-, filosofo a Oregon) pubblicano Metaphors We Live By (University of Chicago Press 1980), e mostrano che il pensiero astratto non è una manipolazione di simboli amodali ma è strutturato da metafore concettuali ancorate all’esperienza corporea. “Spendere tempo”, “investire tempo”, “perdere tempo” non sono modi di dire indipendenti: derivano dalla metafora TIME IS MONEY, e questa a sua volta da TIME IS A RESOURCE, da metafore più basiche ancorate al corpo che si muove e maneggia oggetti. Vent’anni dopo, in Philosophy in the Flesh (Basic Books 1999), Lakoff e Johnson radicalizzano: la filosofia stessa è prodotto di un corpo specifico.

Questa è la materia del capitolo. Una tradizione che ha quattro o cinque tesi distinte sotto un unico nome, una storia che attraversa fenomenologia continentale, ecological psychology americana, robotica AI, neuroscienza, e che dal 2020 in poi torna prepotentemente al centro del dibattito sull’AI tramite due vie: la critica filosofica agli LLM dis-incarnati (Bender-Koller octopus, LeCun JEPA) e la costruzione di modelli di robotica foundation (RT-2, OpenVLA) che, almeno in senso ingegneristico, fanno di un agente una mente con un corpo.

Il capitolo ricostruisce la genealogia, distingue le quattro tesi della cosiddetta 4E cognition (embodied, embedded, enacted, extended), espone le evidenze e le crisi di replicazione, e poi — con cautela — tratteggia il bridge con AI moderna. Il servizio principale: tenere separate le classi delle affermazioni. Alcuni anelli della catena sono filiazione documentata (Brooks 1986 → behavior-based robotics → VLA 2023). Altri sono analogia funzionale. Altri ancora sono equivalenza forzata da marketing (multimodal LLM = embodied) e come tali vanno smontati.

Tre ragioni: una storica, una empirica, una di igiene per chi lavora con sistemi AI.

Storica. Il cognitivismo classico — la teoria che ha dominato la psicologia e l’AI fra il 1956 e gli anni Ottanta — assume che la cognizione sia manipolazione di simboli, in linea di principio implementabile su qualsiasi substrato fisico (è la tesi della multiple realizability del funzionalismo, vedi 40-funzionalismo.md). Sotto questa tesi il corpo è un dettaglio implementativo: cosa conta è la struttura computazionale, non l’hardware. La tradizione embodied propone l’opposto: il corpo non è dettaglio, è strutturalmente costitutivo della cognizione. La tesi sopravvive a sessant’anni di critica nelle sue versioni deboli ed è viva nelle versioni forti. Ricostruire la sua storia significa capire una delle linee di faglia più persistenti delle scienze cognitive.

Empirica. Le evidenze convergono da angolazioni indipendenti. La fenomenologia sperimentale del body schema e dei phantom limbs descrive un’integrazione corporea che non è ricostruibile come somma di modalità sensoriali. La conceptual metaphor theory di Lakoff-Johnson trova conferme cross-linguistiche (Boroditsky 2000): parlanti mandarini ragionano sul tempo lungo un asse verticale perché in mandarino il futuro è “sotto”; parlanti inglesi lungo un asse orizzontale. Le evidenze fMRI di motor activation durante lettura di action verbs (Hauk-Johnsrude-Pulvermüller 2004) suggeriscono che il significato di “kick” sia in parte la riattivazione di pattern motori della gamba. Le affordances di Gibson predicono pattern di percezione ecologica difficili da derivare da modelli purely inferenziali. I mirror neurons di Rizzolatti et al. (1996) mostrano che almeno nel premotor cortex della macaca esistono unità che codificano azioni indipendentemente dalla loro esecuzione vs osservazione. Sono evidenze che convergono su una tesi: cognizione e corpo non sono separabili come il funzionalismo classico assumeva.

Igiene per AI. Dal 2020 la frase “gli LLM mancano di embodiment” circola sia in critiche serie (Bender-Koller, LeCun) sia in commento divulgativo. Sotto la stessa frase si nascondono claim molto diversi. Il capitolo distingue: (a) weak embodiment come tesi che il corpo influisce sulla cognizione — quasi consensus, (b) strong embodiment come tesi che i concetti sono simulazioni motorie — contestato e con replication issues, (c) embodiment ingegneristico alla Pfeifer-Bongard come morfologia che fa parte del calcolo — è la tesi che descrive meglio cosa fa un VLA come RT-2, (d) embodiment enattivista alla Varela come autopoiesi e closure operativa — non si applica a sistemi AI senza metabolismo. Mescolarli è la fonte principale di confusione divulgativa sul rapporto fra LLM e mondo.

Quattro principi che il capitolo fissa. Primo: la mente è embodied in modi caratterizzabili e parzialmente misurabili — il consensus weak è solido, lo strong va caso per caso. Secondo: il mondo è risorsa cognitiva, non solo input — embedded cognition e offloading sono fatti operativi. Terzo: la rappresentazione non è scartabile come Brooks suggeriva, ma non è neppure obbligatoria — la disputa rappresentazionalismo vs enattivismo non si risolve in pareggio, si risolve per dominio. Quarto: la mappatura con l’AI moderna è mista — filiazione tracciabile per la robotica, analogia funzionale per i VLA, equivalenza pericolosa per i multimodal LLM.

1896 — Dewey, “The reflex arc concept in psychology”. John Dewey (1859-1952, filosofo americano pragmatista, allora a Chicago), Psychological Review 3:357-370. Critica del modello stimolo-risposta inteso come catena di unità separate (sensazione, idea, movimento). Dewey sostiene che il loop sensorimotor è strutturalmente un tutto: il movimento determina cosa viene percepito (girare la testa cambia lo stimolo), che a sua volta determina il movimento successivo. È il primo articolo che mette in discussione la separabilità di percezione e azione.

1907-1929 — Husserl, fenomenologia come metodo. Edmund Husserl (1859-1938, filosofo tedesco-cecoslovacco), serie di opere (Logische Untersuchungen 1900-01, Ideen 1913, Cartesianische Meditationen 1929). Fonda la fenomenologia come scienza descrittiva dell’esperienza in prima persona. Importanza qui: prepara il terreno per Merleau-Ponty, anche se Husserl resta più cartesiano.

1945 — Merleau-Ponty, Phénoménologie de la perception. Maurice Merleau-Ponty (1908-1961, filosofo francese formatosi all’École Normale Supérieure, professore al Collège de France dal 1952), Gallimard. Tesi: il corpo non è oggetto fra altri ma soggetto della percezione. Concetti chiave: body schema (lo schema corporeo come sfondo pre-riflessivo dell’azione), flesh (carne, la materialità sensibile come terzo termine fra soggetto e oggetto), chair (struttura inter-corporea). Esempi etnografici: phantom limb come prova che il body schema è entità autonoma rispetto al corpo fisico; il bastone del cieco diventa estensione del corpo. Merleau-Ponty muore improvvisamente a 53 anni nel 1961 lasciando incompiuto Le visible et l’invisible.

1962 — Polanyi, Personal Knowledge. Michael Polanyi (1891-1976, chimico ungherese-britannico convertito alla filosofia), University of Chicago Press. Tacit knowledge: “we know more than we can tell”. Il sapere come abilità incarnata, non come asserzione esplicitabile. Esempio canonico: andare in bicicletta. Influenza indiretta sull’embodied cognition successiva.

1979 — Gibson, The Ecological Approach to Visual Perception. James Jerome Gibson (1904-1979, psicologo americano a Cornell, formatosi alla scuola della Gestalt), Houghton Mifflin. Tesi tripla: (1) la percezione è diretta — l’informazione necessaria per percepire un oggetto è già presente nello structure of light at the eye, non serve inferenza; (2) la percezione è ecologica — gli organismi percepiscono affordances, proprietà relazionali agente-ambiente che invitano all’azione (una superficie orizzontale e solida “afford” walking-on); (3) la percezione è attiva — l’osservatore si muove, e il pattern di trasformazione del campo visivo durante il movimento (optic flow) porta informazione strutturale. Gibson muore poco dopo la pubblicazione, lasciando il programma alla moglie Eleanor Gibson e alla scuola ecological psychology.

1980 — Lakoff-Johnson, Metaphors We Live By. George Lakoff (linguista a UC Berkeley, già famoso per la generative semantics) e Mark Johnson (filosofo a Oregon), University of Chicago Press. Tesi: le metafore non sono ornamento retorico, sono il tessuto del concetto astratto. Domini fonte concreti (corpo, spazio, movimento) si mappano sistematicamente su domini target astratti (tempo, moralità, argomentazione). Non sono metafore vive — sono dead metaphors ormai costitutive del concetto, attive in ogni espressione linguistica del dominio.

1986 — Brooks, “A robust layered control system for a mobile robot”. Rodney Allen Brooks, IEEE J. Robotics and Automation 2:14-23. Introduce la subsumption architecture: layers gerarchici di behaviors finite-state, ognuno accoppiato direttamente a sensori e attuatori, layer alti che possono “sussumere” (sopprimere o modificare output di) layer bassi. Niente world model centrale, niente planner.

1990-1991 — Brooks, “Elephants Don’t Play Chess” e “Intelligence Without Representation”. Brooks, Robotics and Autonomous Systems 6:3-15 e Artificial Intelligence 47:139-159. Manifesti programmatici. Slogan: “the world is its own best model”; “intelligence is in the eye of the observer”; “no representation needed for behavior-based intelligence”. Il MIT Mobile Robots Lab produce una serie di robot (Allen, Herbert, Genghis, Attila, Cog) che incarnano i principi.

1991 — Varela-Thompson-Rosch, The Embodied Mind. Francisco Varela (biologo cileno, già co-autore con Maturana di Autopoiesis and Cognition 1980), Evan Thompson (filosofo canadese), Eleanor Rosch (psicologa americana, autrice degli studi sulle categorie prototipiche), MIT Press. Manifesto enattivista. Sintesi di cognitive science, fenomenologia (Merleau-Ponty), buddhismo Madhyamika. Tesi: la cognizione è enacted — costituisce il proprio mondo attraverso l’interazione sensorimotor. Riprende l’autopoiesi di Maturana-Varela come modello di sistema vivente che mantiene la propria organizzazione attraverso processi che producono i loro stessi componenti.

1996 — Rizzolatti et al., mirror neurons. Giacomo Rizzolatti (1937-, neurofisiologo italiano dell’Università di Parma) con Luciano Fadiga, Vittorio Gallese, Leonardo Fogassi, “Premotor cortex and the recognition of motor actions”, Cognitive Brain Research 3:131-141. Identificazione nel ventral premotor cortex (area F5) della macaca di neuroni che si attivano sia quando l’animale esegue una specifica azione di grasping sia quando osserva lo sperimentatore farla. La scoperta, fatta serendipitously fra 1992 e 1995, viene poi estesa a STS, parietale inferiore, e proposta come base di empatia, theory of mind, apprendimento per imitazione.

1997 — Clark, Being There. Andy Clark (1957-, filosofo britannico, allora a Washington University in St. Louis, poi a Edinburgh e Sussex), MIT Press. Sintesi divulgativa per la comunità di cognitive science. Sottotitolo “Putting Brain, Body, and World Together Again” è programma. Clark argomenta che l’agire intelligente sfrutta sistematicamente l’ambiente come scaffolding e offloading di calcolo.

1998 — Clark-Chalmers, “The Extended Mind”. Andy Clark e David Chalmers (1966-, filosofo australiano, allora a UC Santa Cruz), Analysis 58:7-19. Tesi della extended mind: se un processo esterno svolge funzionalmente lo stesso ruolo di un processo interno, va contato come parte della cognizione. Parity Principle: “if, as we confront some task, a part of the world functions as a process which, were it to go on in the head, we would have no hesitation in recognizing as part of the cognitive process, then that part of the world is part of the cognitive process”. Esempio canonico: Otto, paziente Alzheimer, usa un quaderno come memoria esterna; Inga, sana, usa la propria memoria interna. Per parità funzionale, il quaderno di Otto è parte della sua mente.

1999 — Barsalou, “Perceptual symbol systems”. Lawrence Barsalou (1951-, psicologo cognitivo a Emory poi Glasgow), Behavioral and Brain Sciences 22:577-660. Tesi della grounded cognition: i concetti non sono simboli amodali; sono simulazioni multimodali che riattivano selettivamente le aree percettivo-motorie usate nell’esperienza originale. Il paper è target article BBS, con dozzine di commentari open-peer.

1999 — Lakoff-Johnson, Philosophy in the Flesh. Basic Books. Estensione radicale: la filosofia stessa (Cartesio, Kant, analitici) è prodotto di un corpo specifico, e le sue dispute riflettono metafore corporee non-riconosciute. Tesi forte. Diventa best-seller fra cognitive science e cultural studies.

2001 — O’Regan-Noë, “A sensorimotor account of vision and visual consciousness”. J. Kevin O’Regan (psicologo cognitivo a Paris Descartes) e Alva Noë (filosofo a UC Berkeley), Behavioral and Brain Sciences 24:939-1031. Vedere è padroneggiare contingenze sensorimotorie — sapere come il pattern di stimolazione retinica cambia quando si muove l’occhio o la testa, o quando un oggetto si muove. La coscienza visiva è abilità, non rappresentazione interna.

2004 — Hauk-Johnsrude-Pulvermüller, action verbs e motor cortex. Olaf Hauk (Cambridge), Ingrid Johnsrude (Cambridge poi Western), Friedemann Pulvermüller (Cambridge poi FU Berlin), “Somatotopic representation of action words in human motor and premotor cortex”, Neuron 41:301-307. fMRI: leggere “lick”, “pick”, “kick” attiva regioni motorie corrispondenti a lingua, mano, gamba in distribuzione somatotopica. Citato come evidenza chiave per grounded cognition.

2007 — Pfeifer-Bongard, How the Body Shapes the Way We Think. Rolf Pfeifer (Università di Zurigo, AI Lab) e Josh Bongard (Università del Vermont), MIT Press. Embodiment dal punto di vista AI/robotica. Tesi ingegneristica: la morfologia (forma del corpo, distribuzione dei sensori, biomeccanica) fa parte del calcolo cognitivo. Esempio: il passive dynamic walker di McGeer (1990) cammina in discesa senza motori e senza controllo, sfruttando la sola dinamica della struttura corporea. La cognizione è morphological computation.

2008 — Mahon-Caramazza, critical look at embodied cognition. Bradford Mahon (allora a Harvard) e Alfonso Caramazza (Harvard), Journal of Physiology - Paris 102:59-70. Critica articolata: distingue strong embodiment (concetti SONO simulazioni motorie) da weak embodiment (corpo influisce sulla cognizione). Argomenta che lo strong è incompatibile con dati di neuropsicologia (pazienti con danni motori che mantengono la conoscenza concettuale corrispondente). Propone “grounding by interaction”: le rappresentazioni concettuali sono amodali ma interagiscono con simulazioni sensorimotor.

2009 — Hickok, “Eight problems for the mirror neuron theory”. Gregory Hickok (UC Irvine), Journal of Cognitive Neuroscience 21:1229-1243. Critica forte ai claim funzionali sui mirror neurons: l’evidenza umana è in gran parte fMRI (popolazione, non singolo neurone), i claim su empatia/ToM/linguaggio sproporzionati ai dati, le teorie alternative (associative learning) spiegano altrettanto bene.

2014 — Thompson, Waking, Dreaming, Being. Evan Thompson, Columbia University Press. Riformulazione matura dell’enactivism, con dialogo con neuroscienza e fenomenologia.

2016 — Goldinger et al., “The poverty of embodied cognition”. Stephen Goldinger, Megan Papesh, Anthony Barnhart, Whitney Hansen, Michael Hout (Arizona State), Psychonomic Bulletin & Review 23:959-978. Critica replication: molti effetti embodied (motor priming, action-sentence compatibility) falliscono o si attenuano con maggior potere statistico. Coincide con la più ampia replication crisis della psicologia.

2020 — Bender-Koller, “Climbing towards NLU”. Emily M. Bender (linguista a U. Washington) e Alexander Koller (computational linguist a Saarland), Proceedings of ACL 2020. Octopus thought experiment: un polpo che intercetta cavi telegrafici fra due isolani può imparare distribuzione statistica delle stringhe, ma non il significato, perché manca grounding referenziale-causale al mondo. Argomento contro l’idea che modelli addestrati solo su testo possano avere “understanding”.

2022-2026 — LeCun e JEPA. Yann LeCun (chief AI scientist Meta, professore NYU), “A Path Towards Autonomous Machine Intelligence” (OpenReview 2022) e successivi talks. Tesi: gli LLM sono “dead end” senza world model esplicito appreso da osservazione (potenzialmente sensorimotor). JEPA (Joint Embedding Predictive Architecture) come architettura post-LLM non-generativa che predice in spazio latente. Implicito: l’embodiment passa per world model.

2023 — RT-2. Anthony Brohan et al. (Google DeepMind), “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”, arXiv:2307.15818. Modello foundation co-fine-tuned su web vision-language data e su robot trajectories: il comando linguistico viene mappato a token discreti che includono token di azione robotica. Generalizza a comandi out-of-distribution (chain-of-thought spaziale, oggetti mai visti durante fine-tuning robotico).

2024 — OpenVLA. Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti et al. (Stanford), arXiv:2406.09246. Open-source vision-language-action model, 7B parametri, addestrato su Open X-Embodiment dataset.

2024-2025 — Pi0, Pi0.5, GR00T. Physical Intelligence (Pi0, Pi0.5) e NVIDIA (GR00T): foundation models per humanoid robotics.

L’intuizione, primo angolo: la mente come pratica corporea

Sezione intitolata “L’intuizione, primo angolo: la mente come pratica corporea”

Il primo angolo è filosofico-fenomenologico. Viene da Merleau-Ponty e arriva a Varela.

Si parte da un esperimento mentale. Considera l’azione di prendere una tazza di caffè dal tavolo. Cartesio descriverebbe la sequenza così: i fotoni arrivano alla retina, vengono processati come dati visivi, una rappresentazione mentale della tazza viene costruita, il cervello pianifica una sequenza motoria, comanda i muscoli, il braccio si estende, la mano afferra. Mente → corpo → mondo, in serie, con la mente come punto di partenza.

Merleau-Ponty rovescia l’ordine. La tazza, dice, non è prima percepita come “oggetto cilindrico delle dimensioni X” e poi afferrata; è percepita come afferrabile, in un’unica struttura percettivo-motoria. Il body schema — lo schema corporeo — è un sistema di possibilità motorie pre-riflessive che organizza la percezione. Quando vedo la tazza, vedo già una tazza-da-afferrare-con-questa-mano-da-questa-distanza. La separazione fra “vedere” e “agire” è un’astrazione retrospettiva del filosofo, non un fatto della percezione.

Le evidenze patologiche sono il banco di prova. Un paziente con phantom limb — un arto amputato che continua a essere sentito come presente — ha un body schema che resta integro nonostante l’arto fisico sia sparito. Schmidt e altri negli anni Cinquanta-Sessanta documentano che i phantom limbs sono dolorosi, mobili, articolabili. Merleau-Ponty argomenta che questo prova l’autonomia del body schema rispetto al corpo fisico. Ma c’è un secondo banco di prova, più costruttivo: quando una persona non vedente usa un bastone, dopo un periodo di apprendimento il bastone smette di essere “sentito” come oggetto in mano e diventa estensione del braccio — la sensazione tattile è vissuta nella punta del bastone, non nel palmo. Lo strumento è incorporato nel body schema. È embodiment estesa, esperita in prima persona.

Da qui Varela trae la radicalizzazione enattivista. La cognizione non è elaborazione di informazione ricevuta da un mondo pre-dato; è enaction, costituzione di un mondo attraverso l’interazione di un sistema vivente con il proprio ambiente. Un’ape e un essere umano non vedono lo stesso mondo: l’ape vede un mondo strutturato dalle proprie possibilità sensoriali (UV, polarizzazione) e motorie (volo, raccolta nettare); l’essere umano un altro. Non c’è un mondo neutro che entrambi percepiscono in modo diverso — ci sono due mondi enacted. Il modello di Varela viene da Maturana — il sistema vivente come autopoietico, sistema che mantiene la propria organizzazione attraverso processi che producono i loro stessi componenti. Cognizione e vita sono lo stesso fenomeno, visto a livelli diversi.

Quest’angolo è il più filosoficamente carico, e quello che gli ingegneri trovano più difficile da operazionalizzare. Ma fissa una domanda che torna nel resto del capitolo: che cosa significa che un sistema “ha un mondo”? Per Varela, averlo significa costituirlo attraverso closure operativa e accoppiamento strutturale; per chiunque costruisca un sistema senza metabolismo né autopoiesi, la domanda resta aperta.

L’intuizione, secondo angolo: il mondo come risorsa

Sezione intitolata “L’intuizione, secondo angolo: il mondo come risorsa”

Il secondo angolo è ingegneristico-cognitivo. Viene da Brooks e Clark e arriva a Pfeifer-Bongard.

Si parte da un’osservazione: una formica che torna al formicaio non sta calcolando un percorso ottimo da un world model interno. Sta seguendo un gradiente di feromoni depositato dalle compagne. Il “calcolo” del percorso non è interno alla formica, è distribuito fra formica e ambiente: l’ambiente porta una rappresentazione (la traccia di feromoni), la formica esegue una regola locale (segui gradiente). Il sistema cognitivo, se così si può chiamare, include il suolo del formicaio.

Brooks generalizza: per molti compiti che la GOFAI cercava di risolvere costruendo world model interni e pianificando, esiste una soluzione equivalente o migliore basata su accoppiamento sensorimotor diretto e uso del mondo come “modello di sé stesso”. Genghis cammina senza un planner perché ogni zampa reagisce ai propri sensori in tempo reale, e il mondo (suolo, gravità, peso del corpo) coordina il resto. La rappresentazione interna non è eliminata in toto, ma drammaticamente ridotta.

Clark estende l’idea oltre la robotica. Un essere umano che fa una moltiplicazione lunga su carta non sta tenendo i passi intermedi in working memory; li sta scaricando sulla carta, e la struttura visivo-spaziale della carta organizza i passi successivi. La cognizione è in parte fuori dal cranio. Un musicista che improvvisa al pianoforte non sta calcolando preventivamente le note; il movimento delle dita sulla tastiera è esso stesso parte del processo cognitivo, in un loop fra propriocezione, audio, sceltà successiva. Embedded cognition: la cognizione è radicata in un ambiente strutturato e usa la struttura come scaffolding.

Pfeifer-Bongard portano l’idea al limite ingegneristico. Considera il passive dynamic walker di Tad McGeer (Simon Fraser, 1990): una struttura bipede senza motori, senza sensori, senza controllo, che cammina su una rampa in discesa con un gait umano-simile. Il “calcolo” del walking non è in un controller — non c’è un controller. È nella biomeccanica del corpo. La forma delle gambe, la distribuzione delle masse, la leggera flessibilità delle ginocchia, l’inclinazione del piano, costituiscono un sistema dinamico che, senza intervento, produce un cammino. Pfeifer chiama questo morphological computation — computazione svolta dalla forma del corpo. La cognizione non è solo sgravata sull’ambiente; è in parte sgravata sul corpo stesso.

I due angoli — fenomenologico e ingegneristico — non sono lo stesso. L’uno parla di un soggetto che vive un corpo come sfondo dell’esperienza; l’altro parla di un sistema in cui il calcolo è distribuito fra cervello, corpo, ambiente. Convergono però su un punto: la mente non è separabile dal sistema corpo-ambiente in cui è situata. È la tesi che il capitolo chiama embodiment, e che il framework 4E articola in quattro tesi distinte.

Il termine 4E cognition è stato coniato negli anni Duemila per ordinare le tesi sotto l’ombrello “embodied” in quattro Es. Le tesi si sovrappongono ma non sono identiche; alcune sono in tensione esplicita.

ETesiEsempio canonico
Embodiedla cognizione dipende strutturalmente dal corpometafora HAPPY IS UP (Lakoff-Johnson)
Embeddedla cognizione è accoppiata all’ambientecontare sulle dita, scaffolding ambientale
Enactedla cognizione costituisce il mondo via azionemondo UV-fiore dell’ape (autopoiesi, Varela)
Extendedla cognizione si estende oltre il cranioil taccuino di Otto (Clark-Chalmers 1998)

Tensione esplicita: Enacted ↔ Extended — anti-rappresentazionalismo enattivo vs estensione funzionalista.

E1 — Embodied. La cognizione dipende strutturalmente dal corpo: dalla sua sensoristica, dai suoi attuatori, dalla sua morfologia. Tesi più debole. Quasi consensus oggi anche fra cognitivisti classici. Esempio: i concetti di “alto” e “basso” sono ancorati alla nostra postura eretta; in una specie marina che galleggia in tre dimensioni i concetti corrispondenti sarebbero diversi. Le metafore concettuali di Lakoff-Johnson sono evidenza linguistica per E1.

E2 — Embedded. La cognizione è radicata in un ambiente specifico, accoppiata a esso, e scarica lavoro sull’ambiente (offloading). Esempio: usare le dita per contare, scrivere su carta per fare un calcolo lungo, usare un calendario per ricordare appuntamenti. La cognizione embedded è cognizione che non può essere descritta isolatamente dall’ambiente in cui opera, perché l’ambiente porta parte del lavoro. Anche E2 è relativamente non-controverso.

E3 — Enacted. La cognizione È azione, non rappresentazione. Il sistema cognitivo costituisce il proprio mondo (la propria Umwelt, nel termine di Jakob von Uexküll) attraverso l’interazione sensorimotor. Tesi forte. Carica filosoficamente: presuppone autopoiesi e closure operativa di Maturana-Varela. Esempio: per un’ape, “fiore” non è una categoria astratta; è una struttura UV-riflettente con polline raggiungibile durante una traiettoria di volo specifica. Le proposizioni “il fiore esiste” e “l’ape vede il fiore” non sono separabili come il realismo classico assume.

E4 — Extended. La cognizione si estende oltre il cranio quando un artefatto esterno svolge funzionalmente lo stesso ruolo di un processo interno (parità funzionale di Clark-Chalmers 1998). Esempio paradigma: il quaderno di Otto. Tesi controversa. Adams-Aizawa 2008 obiettano che processi interni hanno marker che processi esterni non hanno (chimica neurotrasmettitoriale, dinamica connessionista) e che la parità funzionale è troppo permissiva: per parità funzionale anche Google sarebbe parte della mia mente.

Le tensioni: E3 (enacted) è anti-rappresentazionalista alla Brooks-Varela; E4 (extended) è funzionalista che estende la sede del calcolo. E3 negherebbe che il quaderno di Otto sia “mente” perché non c’è autopoiesi; E4 lo affermerebbe perché c’è parità funzionale. Tenerle separate è il primo passo per uscire da dispute sterili.

Il concetto di affordance di Gibson è centrale per E1 e E2 e merita trattazione separata. Una affordance è una proprietà relazionale agente-ambiente: una superficie orizzontale, solida, all’altezza giusta, “affords” sitting-on per un essere umano adulto, non per un bambino di un anno. Non è proprietà solo della superficie (che esisterebbe identica in assenza di esseri umani); non è proprietà solo dell’agente (che non potrebbe sedersi senza la superficie). È proprietà del sistema agente-ambiente.

Pseudocodice della percezione gibsoniana, contrastata con la percezione inferenziale classica:

# Percezione inferenziale (Helmholtz, Marr, Bayesian brain)
percepire(stimolo_retinico):
feature_low = estrai_feature_locali(stimolo_retinico)
rappresentazione_3d = inferisci_struttura(feature_low, priors)
oggetti = segmenta(rappresentazione_3d)
affordances = computa_affordances(oggetti, body_schema)
return affordances
# Percezione diretta (Gibson)
percepire(optic_array, movimento_osservatore):
invariants = estrai_invarianti(optic_array, movimento_osservatore)
affordances = pickup_diretto(invariants)
return affordances

Nel primo, le affordances sono il prodotto finale di una catena inferenziale che parte da pixel. Nel secondo, le affordances sono l’oggetto primo della percezione, e l’ambient optic array porta già l’informazione necessaria — niente inferenza, solo pickup. La differenza è grossa: il primo schema implica un cervello che ricostruisce un mondo da dati ambigui; il secondo implica un cervello che risuona con strutture invarianti già disponibili nello stimolo strutturato dal movimento.

La ricerca successiva ha mostrato che la dicotomia è eccessiva. Alcuni aspetti della percezione sono inferenziali (ambiguità, illusioni); altri sono molto più diretti di quanto Helmholtz pensasse (perception of self-motion, optic flow). La sintesi moderna (predictive processing, Friston-Clark) integra entrambi: priors top-down + structure bottom-up. Vedi 73-percezione-priors.md per il discorso completo. Ma il punto gibsoniano resta: la percezione è fatta per servire l’azione, non per fornire una rappresentazione neutra del mondo.

La meccanica: conceptual metaphor e grounded cognition

Sezione intitolata “La meccanica: conceptual metaphor e grounded cognition”

Lakoff-Johnson 1980 propongono che il pensiero astratto sia strutturato da metafore concettuali sistematiche dal corpo allo schema astratto. Una metafora concettuale è un mapping da un dominio fonte (concreto) a un dominio target (astratto) che preserva struttura inferenziale.

Esempio canonico: ARGUMENT IS WAR. Mapping:

  • combattenti → discutenti
  • attacco → confutazione
  • difesa → giustificazione
  • vittoria → persuasione del pubblico
  • terreno → topic della disputa
  • armi → argomenti

Le espressioni linguistiche derivate sono coerenti perché derivano dallo stesso mapping: “ha attaccato la mia tesi”, “le sue affermazioni sono indifendibili”, “ho demolito il punto”, “ha vinto la discussione”, “siamo finiti su un terreno scivoloso”, “armi retoriche”. Una persona che pensasse l’argomento attraverso una metafora diversa (ARGUMENT IS DANCE, per esempio) produrrebbe un linguaggio diverso (“una mossa elegante”, “ha seguito il ritmo”, “ha condotto bene il dialogo”).

Boroditsky 2000 fornisce evidenza cross-linguistica. In inglese il tempo è metaforicamente orizzontale: il futuro è davanti (“looking ahead”), il passato dietro. In mandarino il tempo è anche verticale: il futuro è sotto (xià, “next month” è “lower month”), il passato sopra (shàng). Boroditsky mostra in compiti di priming che parlanti inglesi rispondono più velocemente a domande temporali dopo priming orizzontale (spaziale, frecce davanti/dietro), parlanti mandarini più velocemente dopo priming verticale, e bilingui pattern intermedio. La struttura linguistica della metafora ha effetto misurabile sul ragionamento.

Barsalou estende il programma a una teoria psicologica generale. Perceptual symbol systems (1999): i concetti non sono simboli amodali registrati in un magazzino semantico; sono simulatori che riattivano selettivamente, in modo parametrico e parziale, i pattern percettivo-motori esperiti durante l’apprendimento del concetto. Capire la parola “calcio” coinvolge una simulazione (parziale, automatica, non necessariamente cosciente) di un’azione di calcio.

Hauk-Johnsrude-Pulvermüller 2004 forniscono evidenza fMRI: leggere “lick”, “pick”, “kick” in un compito passivo di lettura attiva regioni motorie corrispondenti a lingua, mano, gamba in distribuzione somatotopica. È evidenza per E1 ed E3 nella loro versione cognitiva-neurale.

La meccanica: subsumption architecture e behavior-based robotics

Sezione intitolata “La meccanica: subsumption architecture e behavior-based robotics”

Brooks 1986. Subsumption architecture come alternativa al pipeline GOFAI percezione → modellazione → pianificazione → esecuzione.

flowchart LR
    S[Sensori: tattile, sonar, calore, forza] --> L0[Layer 0: EVITA OSTACOLI]
    S --> L1[Layer 1: VAGA]
    S --> L2[Layer 2: ESPLORA]
    S --> L3[Layer 3: COSTRUISCI MAPPA]
    L3 -.suppression.-> L2
    L2 -.suppression.-> L1
    L1 -.suppression.-> L0
    L0 --> A[Attuatori: motori, sei zampe]
    L1 --> A
    L2 --> A
    L3 --> A

Figura 2 — Subsumption architecture: layered behaviors stacked vertically; lower layers (avoid obstacles, wander) at bottom, upper layers (explore, build map) at top; arrows showing how upper layers can suppress or replace outputs of lower layers; sensors feeding directly into multiple layers; actuators receiving combined output

Pseudocodice di un layer subsumption:

class Behavior:
def step(self, sensor_inputs):
# Finite-state computation locale
state = self.transition(self.state, sensor_inputs)
action = self.output(state)
return action
class SubsumptionRobot:
def __init__(self):
self.layers = [
AvoidObstacles(), # layer 0, priorita' minima
Wander(), # layer 1
ExploreUnknown(), # layer 2
BuildMap(), # layer 3, priorita' massima
]
def step(self, sensors):
actions = [layer.step(sensors) for layer in self.layers]
# I layer alti possono "suppress" output dei bassi
final_action = self.combine_with_priority(actions)
return final_action

Differenze chiave con GOFAI. Niente world model centrale aggiornato. Niente pianificatore che cerchi nel grafo degli stati. Niente rappresentazione simbolica condivisa. Ogni layer è un sistema reattivo che mappa direttamente sensori a azioni; layer alti aggiungono behaviors complessi senza riprogettare i bassi (vincolo di decomposizione orizzontale vs decomposizione GOFAI verticale).

Genghis (1989, MIT, esapode di trenta centimetri) incarna la mossa. Sei zampe, ognuna controllata da una macchina a stati locale. Layer 0: standup (alza il corpo). Layer 1: walk (alterna zampe in pattern alternating tripod). Layer 2: avoid (ferma il movimento se un sensore tattile rileva ostacolo). Layer 3: hill-climbing (orienta verso il calore corporeo umano). Risultato: il robot cammina su terreni accidentati, evita ostacoli, segue persone. Senza mappa, senza planner, senza simbolo.

Filiazione documentata. Brooks 1986/1991 → behavior-based robotics anni Novanta-Duemila (Arkin, Mataric) → reactive control e dynamical-systems robotics → modern model-free reinforcement learning su robot (DDPG, SAC su sim-to-real) → VLA che reincorporano rappresentazioni grandi ma mantengono il principio di accoppiamento sensorimotor diretto. La catena è tracciabile via paper che si citano. Si nota anche un pendolo: l’AI moderna ha riscoperto rappresentazioni grandi (foundation models) che Brooks rifiutava, ma le combina con accoppiamento sensorimotor che la GOFAI ignorava.

Una sotto-tradizione embodied che merita trattazione separata viene dalla developmental psychology: il dynamic systems approach di Esther Thelen (1941-2004, psicologa dello sviluppo a Indiana University) e Linda Smith (1951-, Indiana University). Il riferimento è A Dynamic Systems Approach to the Development of Cognition and Action (MIT Press 1994).

La tesi: lo sviluppo cognitivo non è programmato dalla maturazione di moduli innati né è apprendimento generale di regole astratte; emerge dall’interazione di multiple sotto-componenti (corporee, ambientali, sociali) operanti su scale temporali diverse. Cognizione, azione, percezione, postura sono soft-assembled in pattern temporanei stabili (attractors nel senso dei sistemi dinamici), non istanziati da programmi.

L’esempio canonico è lo stepping reflex dei neonati. I neonati di poche settimane, sostenuti in posizione eretta con i piedi a contatto con una superficie, eseguono movimenti alternati di stepping che assomigliano al cammino. A circa tre mesi il reflex scompare. La spiegazione classica (maturational): il modulo neurale corticale “matura” e inibisce il pattern subcorticale. Spiegazione di Thelen: le gambe del bambino diventano relativamente più pesanti rispetto alla forza muscolare disponibile, e il pattern di stepping diventa biomeccanicamente impossibile in piedi all’aria. Conferma sperimentale: immergendo il bambino in acqua (riducendo il peso effettivo via spinta di Archimede), il reflex riappare.

Lezione embodied. Quello che sembra un fatto neurale (scomparsa di un modulo) è un fatto sistemico (cambio di rapporto fra forza e massa). La cognizione motoria non è in un controller neurale isolabile; è nel sistema bambino-gravità-suolo. Cambiando uno qualsiasi dei termini, il pattern cambia.

Implicazione metodologica: la ricerca di “moduli” innati o appresi che risiedano nel cervello e producano comportamento è in molti casi mal posta. Il comportamento è proprietà dinamica di un sistema esteso. Filiazione con Brooks (subsumption come pattern emergente) e con Gibson (affordances come proprietà del sistema agente-ambiente).

Clark-Chalmers 1998. Tesi: i confini della mente non coincidono con i confini del cranio. Quando un processo esterno svolge funzionalmente lo stesso ruolo di un processo interno, va contato come parte del processo cognitivo.

Caso paradigma. Inga, sana, vuole andare al MoMA. Ricorda dalla memoria interna che il MoMA è sulla 53rd Street, parte. Otto, paziente Alzheimer, vuole andare al MoMA. Consulta il proprio quaderno (sempre con sé, sempre aggiornato, considerato fonte autoritativa) dove è scritto “MoMA: 53rd Street”, parte. Per Clark-Chalmers, il quaderno di Otto è parte della sua memoria.

Parity Principle (formulazione Clark-Chalmers): “if, as we confront some task, a part of the world functions as a process which, were it to go on in the head, we would have no hesitation in recognizing as part of the cognitive process, then that part of the world is (so we claim) part of the cognitive process”.

Le condizioni che Clark-Chalmers pongono sull’integrazione: (1) l’artefatto è costantemente disponibile; (2) le informazioni sono prontamente accessibili; (3) sono automaticamente endorsate; (4) sono state scelte dall’agente. Il quaderno di Otto soddisfa tutte e quattro; uno smartphone usato saltuariamente meno.

La tesi è controversa. Adams-Aizawa 2008 obiettano che processi interni hanno marker intrinseci (firing patterns neurali, dinamica chimica) che processi esterni non hanno; estendere “mente” a quaderni e smartphone è confondere il funzionalmente-simile con l’identico. Rupert 2004 obietta che la parità funzionale è troppo lasca — applicata seriamente farebbe finire dentro la mente molte cose che non vorremmo. Clark risponde estendendo le condizioni e proponendo “soft assembly” — la mente estesa è un sistema temporaneamente assemblato per un compito, non un’unità ontologica stabile.

Tre esempi eterogenei. Uno linguistico, uno robotico-ingegneristico, uno bridge-AI.

Esempio 1 — Conceptual metaphor “ARGUMENT IS WAR” e linguaggio italiano

Sezione intitolata “Esempio 1 — Conceptual metaphor “ARGUMENT IS WAR” e linguaggio italiano”

Considera espressioni italiane comuni: “ha attaccato la mia tesi”, “le sue affermazioni sono indifendibili”, “non ha mai abbandonato il terreno della discussione”, “ha demolito quel punto”, “non è una posizione difendibile”, “ha sgominato l’avversario”, “i suoi argomenti hanno colpito nel segno”. Sono espressioni indipendenti? No: derivano dallo stesso mapping concettuale ARGUMENT IS WAR.

Test della metafora: prova a rovesciare. Sostituisci sistematicamente i verbi militari con verbi danzanti. “Ha danzato attorno alla mia tesi”, “le sue affermazioni sono eleganti”, “ha seguito il ritmo della discussione”, “il suo argomento ha conservato la grazia del passo”. Le espressioni risultanti non sono incomprensibili ma sono percepite come figurative — esattamente perché violano la metafora dominante. Una metafora concettuale “viva” produce espressioni linguistiche letterali; una “morta” o “sostituita” produce espressioni percepite come marcate.

Implicazione cognitiva (Lakoff-Johnson): se discutessimo davvero come si danza, faremmo discussioni migliori. Cambiare la metafora dominante cambia la cognizione del dominio. È una claim forte e parzialmente verificata cross-linguisticamente (Boroditsky 2000 sul tempo).

Genghis (Brooks et al., MIT 1989). Robot esapode 30 cm × 25 cm, sei zampe a due gradi di libertà ciascuna (alzata/abbassata, avanti/dietro). Sensori: due antenne tattili anteriori, sensore di calore corporeo (piroelettrico), force sensors sui motori delle zampe. Compute: una pila di 4 microcontroller 8-bit che implementano collettivamente 51 macchine a stati finiti.

Pattern del cammino. Il alternating tripod gait (zampe 1-3-5 a terra, zampe 2-4-6 in volo, alternanza) non è programmato. Emerge dalle constraint dinamiche locali: se una zampa è in volo e quella opposta dello stesso lato è in volo, il robot si rovescia; ogni macchina a stati locale ha una transizione “abbassati subito” se la sua zampa è in volo e i load sensors di un certo subset di zampe vicine indicano peso non sostenuto. Il coordinamento globale è la conseguenza dell’esecuzione parallela di vincoli locali.

Aggiunta del comportamento “segui calore”. Layer aggiuntivo: se il sensore di calore registra un gradiente, l’output orienta lievemente il gait verso la sorgente. Il layer non riscrive i sottostanti — li modula leggermente. Brooks chiama questa proprietà decomposizione orizzontale: aggiungere capacità senza riprogettare.

Lezione embodied. Il “calcolo” del walking non è in un controller. È distribuito fra: la macchina a stati di ogni zampa, la biomeccanica delle articolazioni, la gravità, il suolo, le altre zampe. Il sistema cognitivo non coincide col controller; coincide col loop sensorimotor totale. Pfeifer-Bongard 2007 generalizzano la lezione come morphological computation.

Esempio 3 — RT-2 e VLA come bridge contemporaneo

Sezione intitolata “Esempio 3 — RT-2 e VLA come bridge contemporaneo”

[DATATO 2026-04]

RT-2 (Robotics Transformer 2). Brohan et al., Google DeepMind, arXiv:2307.15818 (luglio 2023). Modello foundation per controllo robotico costruito co-fine-tunando un VLM (PaLI-X o PaLM-E) su due distribuzioni: (a) web vision-language data, (b) robot trajectories nel dataset RT-1 e Open X-Embodiment.

Architettura: un transformer multimodale che riceve in input (osservazione RGB, comando linguistico) e produce in output token. Innovazione chiave: i token di azione robotica (delta-pose dell’end-effector, gripper aperto/chiuso, terminate flag) sono codificati come token discreti nella stessa vocabulary del modello linguistico. Predire un’azione è formalmente lo stesso che predire un token di testo — autoregressivamente, con cross-entropy loss.

Pseudocodice del loop di controllo:

def rt2_step(observation_rgb, instruction):
inputs = tokenize_image(observation_rgb) + tokenize_text(instruction)
output_tokens = model.generate(inputs, max_tokens=8)
action_tokens = parse_action_tokens(output_tokens)
delta_pose, gripper = decode_action(action_tokens)
return delta_pose, gripper
while not done:
obs = robot.get_camera()
delta, gripper = rt2_step(obs, "pick up the red apple")
robot.execute(delta, gripper)

Risultato sperimentale chiave: RT-2 generalizza a comandi out-of-distribution (oggetti mai visti durante il fine-tuning robotico, semantic chain-of-thought come “sposta l’oggetto verso lo stemma di Mario”) sfruttando il transfer da web vision-language data.

Classi di affermazioni sul rapporto con l’embodied cognition.

Filiazione documentata (Brooks → behavior-based robotics → sim-to-real → VLA): la catena è tracciabile, anche se RT-2 reintroduce rappresentazioni grandi che Brooks scartava. La continuità è nel principio di accoppiamento sensorimotor diretto e nel discarding di world model simbolico esplicito.

Embodiment ingegneristico: nel senso di Pfeifer-Bongard, RT-2 incarna embodiment. Il modello è addestrato su trajectories di un corpo specifico (braccio robotico Everyday Robots, gripper a due dita, camera RGB su polso); cambiando corpo il fine-tuning va rifatto. La morfologia entra nel calcolo.

Embodiment enattivista: nel senso di Varela, RT-2 non incarna embodiment. Manca autopoiesi, manca metabolismo, manca closure operativa. Il robot non costituisce il proprio mondo nel senso di Varela; lo riceve come dato sensoriale.

Equivalenza pericolosa con multimodal LLM: dire “GPT-4o è embodied perché vede” è scivolare. GPT-4o ha input multimodale ma nessuna azione su mondo, nessun feedback motorio, nessun corpo. RT-2 ha tutto ciò. La differenza è sostanziale: l’azione su mondo cambia ciò che viene percepito alla prossima iterazione, e questo loop è costitutivo del concetto di embodiment. Senza loop, niente embodiment.

[DATATO 2026-04] Sezione di bridge contemporaneo. Filiazioni e analogie esplicitate per classe.

Il dibattito sull’AI 2023-2026 è attraversato da una linea embodied riemersa con forza. Tre filoni.

Filone 1 — Critica filosofica agli LLM dis-incarnati. Posizione filosofica, non consenso. Bender-Koller 2020 con l’octopus thought experiment argomentano che modelli addestrati solo su testo non possono accedere al significato perché manca grounding referenziale-causale. LeCun in serie di talks 2022-2026 sostiene che gli LLM sono “dead end” senza world model + embodiment, e propone JEPA come architettura alternativa. Marcus, Mitchell, Browning hanno linee critiche convergenti. È una posizione argomentata, non un teorema; ricercatori altrettanto seri (Christiano, Hinton in alcune fasi, Sutskever) hanno argomenti contro. Trattarla come fatto è errore.

Filone 2 — Robotics foundation models / VLA. Filiazione documentata da Brooks e behavior-based robotics. RT-2 (Google 2023), OpenVLA (Stanford 2024), Pi0 e Pi0.5 (Physical Intelligence 2024-2025), GR00T (NVIDIA 2024-2025), Octo, RoboCat. Il pattern: foundation models pre-addestrati su web vision-language + co-fine-tuning su robot trajectories del dataset Open X-Embodiment. Embodiment ingegneristico nel senso di Pfeifer-Bongard. Non embodiment enattivista nel senso di Varela.

Filone 3 — World models per robotica e simulation. Generative video models (Sora-style) proposti come simulator per training di policy robotiche. JEPA come architettura non-generativa che predice in spazio latente. Il filone si sovrappone con 79-modelli-mentali.md ma con accento embodied: il world model qui è specificamente sensorimotor, non solo proposizionale.

Browser/computer use agents (Anthropic, OpenAI 2024-2025): una forma minimale di “embodiment” digitale. L’agente vede screenshot e produce click/typing. Loop sensorimotor presente, ma in ambiente digitale strutturato, non fisico. Analogia parziale, non equivalenza. La distinzione importa perché l’embodiment fisico include feedback propriocettivo (forze, contatto, dolore, equilibrio) che l’embodiment digitale non ha. Click + screenshot è una bandwidth molto ridotta del loop sensorimotor totale di un corpo.

Filone 4 — Tool use come embodiment minimale. Una linea di lettura sostiene che il tool use degli LLM (function calling, MCP, API access) sia una forma di embodiment esteso alla Clark-Chalmers. L’agente “estende” la propria mente attraverso tool che fanno cose nel mondo. La lettura è suggestiva ma scivolosa: tool use senza loop di feedback continuo (ricezione, azione, ri-percezione modificata) è più vicino a knowledge query che a embodiment. Vedi ponte-embodied-tool-use (in preparazione) per la disamina dettagliata.

Filone 5 — Multimodal LLM e grounding parziale. GPT-4o, Claude vision, Gemini hanno acquisito grounding visivo-linguistico via co-occorrenza in training. Non sono embodied (manca azione), ma hanno grounding parziale via cross-modal alignment. La posizione filosofica: è grounding sufficiente per “comprensione”? Bender-Koller dicono no; Christiano e altri sono più tolleranti. Il dibattito si chiarisce caso per caso, su task specifici di benchmark di grounding.

Equivalenze pericolose da smontare:

  • “Multimodal LLM = embodied”. GPT-4o, Claude vision, Gemini sono dis-incarnati con sensoristica multimodale. Niente azione, niente feedback motorio. Embodied richiede loop sensorimotor completo.
  • “VLA = embodied cognition (filosofica)”. Embodied ingegneristicamente sì, alla Pfeifer. Embodied enattivisticamente no, alla Varela: manca autopoiesi e metabolismo. Tenere separati i sensi del termine.
  • “JEPA = world model alla Craik”. Filiazione plausibile via citazione esplicita di world model concept, ma cambia il substrato — predizione in spazio latente, non simulazione mentale alla Craik. Vedi 79-modelli-mentali.md per la distinzione.

Sezione ampia. Il programma embodied ha quattro punti di tensione interna e quattro fronti di critica esterna.

Tensione 1 — Strong vs weak embodiment. La tesi debole (corpo influisce sulla cognizione) è quasi consensus oggi. La tesi forte (concetti SONO simulazioni motorie) è contestata. Mahon-Caramazza 2008 osservano che pazienti con danni motori (parkinson, lesioni focali) spesso mantengono la conoscenza concettuale dei verbi d’azione, contro la previsione strong. Propongono “grounding by interaction”: rappresentazioni concettuali amodali interagiscono con simulazioni sensorimotor ma non si identificano con esse.

Tensione 2 — Replication crisis. Goldinger et al. 2016 documentano che molti effetti embodied (action-sentence compatibility, motor priming sul linguaggio) falliscono o si attenuano con maggior potere statistico. È parte della replication crisis più generale della psicologia. Tomasino-Rumiati 2013 review distingue effetti robusti (somatotopia di Hauk-Johnsrude-Pulvermüller, replicata) da effetti fragili. Stato 2026: alcuni claim chiave reggono, altri sono stati ridotti.

Tensione 3 — Mirror neurons, claim sproporzionati. Hickok 2009 critica forte: l’evidenza umana è in gran parte fMRI a livello di popolazione, non di singolo neurone. Qualche conferma single-cell da pazienti epilettici (Mukamel et al. 2010), ma il claim funzionale (mirror neurons come base di empatia, ToM, linguaggio) eccede largamente i dati. Stato 2026: esistenza accettata in F5 macaca, esistenza diretta nel cortex umano dibattuta, claim funzionali ridimensionati.

Tensione 4 — Extended mind e parity principle. Adams-Aizawa 2008: i processi interni hanno marker (chimici, dinamici, temporali) che processi esterni non condividono; estendere la mente a quaderni e smartphone confonde funzionalmente-simile con identico. Rupert 2004: parity principle è troppo lasco — applicato seriamente farebbe parte della mente molte cose. Clark replica con “soft assembly” e condizioni più strette, ma la tesi resta filosoficamente controversa.

Critica esterna 1 — Sostegno per concetti astratti. Strong embodiment ha difficoltà a spiegare concetti senza grounding motorio diretto: giustizia, numero complesso, set teorico, libertà. La risposta embodied (Lakoff, Núñez): anche questi sono ancorati via metafore concettuali a domini concreti. Ma la mossa è ricorsiva, e a un certo punto il grounding deve fermarsi su qualcosa.

Critica esterna 2 — Computazionalismo classico. Pylyshyn, Fodor: la cognizione richiede manipolazione di rappresentazioni simboliche con struttura combinatoria; embodiment è dettaglio implementativo. La critica forte di Fodor-Pylyshyn 1988 sui modelli connessionisti vale anche per le proposte enattiviste: senza struttura compositiva esplicita non si spiega la systematicity del pensiero. Riposta enattivista: la systematicity emerge da accoppiamento dinamico, non da combinatoria simbolica. Dispute vive.

Critica esterna 3 — Equivalenze AI come fatto. La frase “gli LLM mancano di embodiment” è usata sia in critiche serie sia come slogan. Va smontata caso per caso. Embodiment in che senso? Dataset multimodale ricco? RT-2 ce l’ha ma non è enattivista. Loop sensorimotor? VLA ce l’hanno. Autopoiesi? Nessun sistema artificiale corrente ce l’ha, ma forse non ne ha bisogno per molti compiti.

Critica esterna 4 — Embodiment come pre-requisito di intelligenza generale. È empirical question, non a priori. LeCun argomenta sì, sulla base di sample efficiency umana e robustezza. Sutskever, in alcune fasi, argomenta no — text alone potrebbe bastare per molti compiti. Il dibattito è aperto e si chiarirà solo guardando cosa fanno effettivamente i modelli.

Tensione 5 — Embodiment e cultura. Una critica spesso trascurata: la conceptual metaphor theory di Lakoff-Johnson assume universali corporei (gravità, postura eretta, manipolazione manuale) come basi delle metafore. Ma lavori antropologici mostrano variabilità cross-culturale anche su mapping considerati universali (l’asse temporale verticale del mandarino, l’asse est-ovest del Pormpuraaw aborigeno descritto da Boroditsky-Gaby 2010). Strong universalism corporeo va attenuato. Il corpo è un vincolo, non un dettato.

Tensione 6 — Embodiment e linguaggi non-incarnati. La scoperta che modelli linguistici con zero embodiment producono prestazioni sorprendentemente buone su compiti che si pensavano richiedere grounding (analogie spaziali, ragionamento fisico ingenuo, theory of mind benchmark) è un dato empirico che le tesi forti dell’embodiment devono spiegare. Possibili risposte: (a) il corpus testuale internet contiene grounding indiretto sufficiente perché i corpi degli scrittori hanno lasciato traccia; (b) i benchmark misurano superficie, non comprensione profonda; (c) “grounding” è meno necessario di quanto la tradizione embodied assumesse. Le tre risposte non sono equivalenti, e il capitolo lascia la disputa aperta.

Cinque aree dove le tesi embodied hanno implicazione operativa.

Human-Computer Interaction (HCI). Donald Norman (vedi 79-modelli-mentali.md) ha applicato l’idea di affordance gibsoniana al design di interfacce dagli anni Ottanta. Un pulsante con ombra e rilievo “afford” pressing senza che l’utente debba ragionare; un’interfaccia con elementi flat e ambigui forza ragionamento esplicito (“cosa è cliccabile qui?”). Il flat design degli anni 2010 ha indebolito l’affordance tattile-visiva e la ricerca HCI ne ha misurato il costo cognitivo. Il design degli oggetti dell’uso quotidiano (Norman, The Design of Everyday Things 1988) è pieno di esempi di affordances male o bene progettate.

Embodied AI / robotics moderni. Vedi sezione bridge sopra. Il pattern è: foundation models multimodali pre-addestrati su web data + co-fine-tuning su robot trajectories Open X-Embodiment. Il problema aperto al 2026: scaling laws specifici per embodied training (quanti dati servono? Sample efficiency confrontata con LLM?). I dati sono molto più scarsi del web text — Open X-Embodiment ha qualche milione di traiettorie contro trillions di token testuali.

Linguistica computazionale e grounding. Vedi 42-symbol-grounding.md. L’embodied cognition fornisce una delle famiglie di risposte al problema di Harnad: i simboli si grounding via simulazione percettivo-motoria. Bender-Koller 2020 riformulano in termini contemporanei. La risposta dei multimodal LLM (CLIP, Flamingo, GPT-4o) è grounding parziale via co-occorrenza visuo-linguistica; non è grounding sensorimotor pieno alla Harnad-Barsalou.

Educazione e didattica della matematica. Núñez-Lakoff, Where Mathematics Comes From (Basic Books 2000), applicano la conceptual metaphor theory al concetto di limite, infinito, derivata. Tesi: anche la matematica più astratta è ancorata a metafore corporee (movimento lungo un percorso, accumulo, divisione). Conseguenza didattica: insegnare matematica agganciandosi esplicitamente alle metafore corporee migliora la comprensione. È una linea di ricerca didattica viva, parzialmente verificata.

Riabilitazione neurologica. La constatazione che l’azione e la percezione sono accoppiate ha portato a tecniche riabilitative come la mirror therapy (Ramachandran, anni Novanta) per phantom limb pain e ictus: usare uno specchio per riflettere l’arto sano in modo che il paziente “veda” l’arto malato muoversi. Effetti misurabili sul dolore e sul recupero motorio. Embodied cognition tradotta in clinica.

flowchart LR
    S[Sensori: tattile, sonar, calore, forza] --> L0[Layer 0: EVITA OSTACOLI]
    S --> L1[Layer 1: VAGA]
    S --> L2[Layer 2: ESPLORA]
    S --> L3[Layer 3: COSTRUISCI MAPPA]
    L3 -.suppression.-> L2
    L2 -.suppression.-> L1
    L1 -.suppression.-> L0
    L0 --> A[Attuatori: motori, sei zampe]
    L1 --> A
    L2 --> A
    L3 --> A

Figura 2 — Embodiment lineage from philosophy to AI: timeline diagram with nodes Merleau-Ponty 1945, Gibson 1979, Brooks 1986, Varela-Thompson-Rosch 1991, Clark-Chalmers 1998, Pfeifer-Bongard 2007, RT-2 2023, OpenVLA 2024; solid arrows for documented filiation, dashed arrows for functional analogy

  • modelli-mentali: la tensione produttiva fra “world model interno” alla Craik-Ha-Schmidhuber e “world is its own best model” alla Brooks. Le due tradizioni convergono parzialmente in JEPA e in VLA contemporanei.
  • sviluppo-piaget: il sensorimotor stage piagetiano è embodied implicito; la developmental robotics di Lungarella-Pfeifer è filiazione esplicita di Piaget e Vygotskij dentro un programma embodied.
  • mente-estesa: Clark e Chalmers sono protagonisti di entrambi i capitoli; lì la tesi extended è esposta come posizione di filosofia della mente, qui è una delle quattro Es del framework operativo.
  • percezione-priors: la tensione esplicita fra Gibson (percezione diretta, no inferenza) e Helmholtz-Friston (percezione come inferenza bayesiana). La sintesi moderna integra entrambe.
  • cognitivismo-ecologico: Gibson di nuovo, in una trattazione più dedicata all’ecological psychology.
  • symbol-grounding: il problema di Harnad come parente filosofico stretto di embodiment. “Concetti come simulazioni” è una delle risposte al symbol grounding problem.
  • dual-process-kahneman e euristiche-bias: Sistema 1 come fast-embodied; molte euristiche hanno radici corporee (rappresentatività, ancoraggio fisico).
  • ponte-embodied-tool-use (in preparazione): bridge esplicito fra embodied cognition e tool use agentico negli LLM.
  • funzionalismo: l’embodied cognition è nella forma forte (enactivism) un’alternativa al funzionalismo classico; nella forma debole è compatibile con un funzionalismo body-aware.
  • stanza-cinese-searle: l’argomento di Searle può essere letto come critica embodied al computazionalismo (manca intentionality fondata su biologia); o come critica indipendente. Lettura embodied legittima ma non l’unica.

Il capitolo ha esplicitato per quanto possibile la classe di ogni connessione. Riepilogo:

  • Filiazione documentata: Brooks 1986 → behavior-based robotics → sim-to-real → VLA 2023-2026. Catena tracciabile via citazioni paper-a-paper. Anche: Merleau-Ponty 1945 → Varela-Thompson-Rosch 1991 (citato esplicitamente come ispirazione fenomenologica).
  • Filiazione concettuale debole: Gibson 1979 → embodied AI di Pfeifer-Bongard 2007. Pfeifer cita Gibson, ma il programma ingegneristico è autonomo.
  • Analogia funzionale: VLA come RT-2 e embodied cognition di Varela. Embodiment ingegneristico ≠ embodiment enattivista. Tenere separati.
  • Equivalenza pericolosa (da rifiutare): “multimodal LLM = embodied”, “tool use = embodiment esteso (in senso forte)”. Sono mosse retoriche, non identificazioni concettuali sostenibili.
  • Posizione filosofica contestata: la critica di Bender-Koller, LeCun, Marcus agli LLM è argomento, non fatto. Va presentata come tale.
  • Affordance (Gibson 1979): proprietà relazionale agente-ambiente che invita all’azione. Una superficie orizzontale solida “afford” sitting-on per un essere umano adulto.
  • Body schema (Merleau-Ponty 1945): rappresentazione pre-riflessiva del corpo come sfondo dell’azione. Distinto da body image (rappresentazione cosciente del corpo).
  • Enaction (Varela-Thompson-Rosch 1991): processo per cui un sistema vivente costituisce il proprio mondo attraverso accoppiamento sensorimotor.
  • Extended mind (Clark-Chalmers 1998): tesi per cui processi esterni con parità funzionale ai processi interni sono parte della cognizione.
  • Conceptual metaphor (Lakoff-Johnson 1980): mapping sistematico da dominio fonte concreto a dominio target astratto, costitutivo del concetto.
  • Grounded cognition (Barsalou 1999): tesi per cui i concetti sono simulazioni multimodali, non simboli amodali.
  • Subsumption architecture (Brooks 1986): architettura di controllo a layer di behaviors, senza world model centrale.
  • Morphological computation (Pfeifer-Bongard 2007): calcolo svolto dalla forma del corpo, oltre che dal sistema nervoso.
  • Mirror neurons (Rizzolatti et al. 1996): neuroni che si attivano sia eseguendo sia osservando un’azione, identificati in F5 macaca.
  • VLA / Vision-Language-Action (Brohan et al. 2023): modello foundation che mappa osservazione visiva e comando linguistico a traiettoria motoria.
  • Varela, Thompson, Rosch (1991), The Embodied Mind. MIT Press. Manifesto enattivista. Letture di base per E3 (enacted).
  • Clark (1997), Being There: Putting Brain, Body, and World Together Again. MIT Press. Sintesi divulgativa della linea embodied-embedded-extended. Punto di ingresso accessibile.
  • Pfeifer, Bongard (2007), How the Body Shapes the Way We Think. MIT Press. Embodiment dal punto di vista AI/robotica. Indispensabile per la classe ingegneristica della tesi.
  • Lakoff, Johnson (1980), Metaphors We Live By. University of Chicago Press. Conceptual metaphor theory, leggibile anche da non-linguisti. Per la versione radicale, Philosophy in the Flesh 1999.
  • Wilson, Foglia (2017), “Embodied Cognition”, Stanford Encyclopedia of Philosophy. Mappa dello stato dell’arte filosofico, con bibliografia ragionata.
  • Brohan et al. (2023), “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”, arXiv:2307.15818. Per il bridge AI moderno.
  • Bender, Koller (2020), “Climbing towards NLU”, ACL 2020. Per il dibattito su grounding e LLM.