Linguaggio come strumento del pensiero

Nel 1939 un ingegnere di una compagnia assicurativa del Connecticut pubblica un articolo sostenendo che la parola “vuoto” provoca incendi. La tesi, generalizzata, dominerà mezzo secolo di discussione fra linguisti, psicologi e filosofi della mente. Cinquant’anni dopo, in laboratori di machine learning, si scopre che un grande modello linguistico addestrato su corpus prevalentemente inglesi “pensa in inglese” anche quando gli si parla in cinese. Le due osservazioni sono apparentate, ma non sono la stessa cosa.

Apertura

Benjamin Lee Whorf nasce nel 1897 a Winthrop, Massachusetts. Si laurea in ingegneria chimica al MIT nel 1918 e nel 1919 entra alla Hartford Fire Insurance Company in Connecticut, dove lavorerà fino alla morte nel 1941. Il suo titolo ufficiale è fire prevention engineer — ingegnere preventivo per gli incendi. Il suo compito quotidiano è ispezionare magazzini, fabbriche, depositi assicurati, classificare i rischi, scrivere rapporti per l’ufficio sinistri.

La linguistica è il suo passatempo. Studia ebraico per leggere l’Antico Testamento, poi nahuatl, poi maya. Negli anni Trenta scopre la lingua hopi (Arizona) e per corrispondenza, autodidatta, ne ricostruisce la grammatica. Nel 1931 conosce Edward Sapir, professore a Yale (Sapir è di formazione boasiana, allievo di Franz Boas alla Columbia, lavora sulle lingue native americane). Sapir lo accoglie come studente part-time. Whorf insegnerà a Yale qualche corso. Non lascera mai la Hartford Fire Insurance.

L’aneddoto fondante della sua tesi e raccontato in un articolo del 1939, “The relation of habitual thought and behavior to language”. Whorf riferisce di rapporti su incendi originati da magazzini di empty gasoline drums — fusti vuoti di benzina. Gli operai trattano i fusti vuoti con meno cautela di quelli pieni: ci fumano accanto, li urtano con i carrelli, non ne separano lo stoccaggio. Un magazzino brucia. Un altro brucia. Whorf annota: chimicamente, un fusto vuoto è più pericoloso di uno pieno, perché i fumi residui di benzina mescolati ad aria sono nella zona di esplosività, mentre il liquido in massa non lo è. La parola “vuoto” — empty — impone una categoria mentale: assenza, non-pericolo. La categoria, non la realtà fisica, regola il comportamento.

Da questa osservazione di sicurezza industriale Whorf trae una tesi più vasta. Le categorie grammaticali e lessicali di una lingua organizzano l’esperienza del parlante in modi pervasivi e inavvertiti. Un parlante hopi, sosteneva Whorf, vive un mondo senza il “tempo” come asse lineare omogeneo che il parlante di inglese (standard average European, “SAE”, nella sua classificazione) dà per scontato. La tesi — sopravviveranno gli appunti raccolti postumi nel 1956 dall’editor John B. Carroll, MIT Press — diventerà nel lessico delle scienze cognitive l’ipotesi Sapir-Whorf.

Per circa quarant’anni quella tesi sarà contestata, poi data per morta da una generazione anti-Whorfiana, poi ritirata fuori in forma più cauta da una nuova ondata di esperimenti dagli anni Duemila. Parallelamente, dal 1975, una tesi diversa — apparentemente compatibile, in realtà logicamente indipendente — viene proposta da Jerry Fodor: il pensiero stesso ha struttura linguistica, indipendentemente da quale lingua si parli. Nel 2024 un gruppo di Losanna pubblica un probing layer-wise di un grande modello linguistico open-weight: nei layer intermedi del modello, gli stati nascosti corrispondono prevalentemente a embedding inglesi anche quando il prompt è in cinese. Il fenomeno ha aspetto Whorfiano ma è, tecnicamente, un’altra cosa.

Questo capitolo ricostruisce le tre tesi distinte, le evidenze a favore e contro ciascuna, e lo stato del dibattito al 2026.

Perché questo capitolo

Tre ragioni: una storica, una concettuale, una di igiene per chi lavora con sistemi che operano su token linguistici.

La ragione storica è che la coppia “linguaggio e pensiero” è una delle questioni più produttive — e più confuse — delle scienze cognitive del Novecento. Linguistica strutturale, antropologia, psicolinguistica, filosofia della mente, scienze cognitive computazionali si incrociano qui. La storia non è lineare. Sapir e Whorf influenzano l’antropologia americana fino agli anni Sessanta. Chomsky e Fodor smontano l’apparato a fine secolo. Boroditsky, Levinson, Lupyan lo rimontano in forma più sobria nel Duemila. Conoscere i passaggi è l’unico modo per non confondere argomenti che hanno aria di famiglia ma classi di affermazioni distinte.

La ragione concettuale è che le tesi in gioco sono logicamente indipendenti anche se a volte si presentano insieme. Tre questioni separate:

La lingua naturale che parli influenza come pensi? (linguistic relativity, weak Sapir-Whorf)
La lingua naturale che parli determina come pensi? (linguistic determinism, strong Sapir-Whorf)
Il pensiero stesso, indipendentemente dalla lingua naturale, ha struttura linguistica? (language of thought, Fodor)

Si può accettare 1 e rifiutare 2 (posizione moderna mainstream). Si può accettare 3 e rifiutare 1 e 2 (Pinker 1994). Si può rifiutare 3 (connessionismo, embodied cognition) ed essere indipendentemente agnostici su 1. Confondere le tre porta a errori comuni: “Pinker confuta Whorf” è ambiguo (rifiuta 2, è cauto su 1, accetta 3). “Boroditsky riabilita Whorf” idem.

La ragione di igiene per AI è che dal 2022 il pubblico tecnico ha cominciato a fare domande del tipo “GPT pensa in inglese?”, “LLM è mentalese?”, “il chain-of-thought è il language of thought emergente?”. Le risposte richiedono distinguere classi di affermazioni: analogia, filiazione, equivalenza, teorema. Confondere “latent English in multilingual LLM è una manifestazione tecnica di un effetto Whorfiano” (analogia con caveat) e “Wendler 2024 conferma la Sapir-Whorf” (filiazione fittizia) cambia il significato della frase. La sezione “Eredità oggi” del capitolo presenta i dati senza concludere; la sezione “Dove si rompe” elenca le equivalenze pericolose da bloccare.

Quattro principi che il capitolo fissa:

Linguistic determinism stretto è empiricamente falso. Gli esempi originali di Whorf su hopi e tempo sono stati confutati filologicamente (Malotki 1983).
Linguistic relativity debole è empiricamente supportata, in forma selettiva e dipendente dal compito. Boroditsky, Levinson, Lupyan, Gordon hanno mostrato effetti reali ma piccoli.
Il LOT di Fodor non è la Sapir-Whorf. È una tesi sulla struttura computazionale del pensiero, non sull’influenza della lingua naturale.
Le analogie con LLM vanno marcate. Latent English non è Sapir-Whorf, CoT non è LOT, multimodal LLM non è pensiero non-verbale alla Einstein.

Una mappa concettuale prima di entrare nei dettagli

Le tre tesi possono essere collocate su due assi ortogonali. Sull’asse orizzontale, “quanto la lingua naturale conta”: a sinistra, posizioni che la rendono determinante (Whorf strong); a destra, posizioni che la rendono trasparente, semplice veicolo di un pensiero pre-esistente (Pinker forte, Fodor LOT). In mezzo, posizioni che le riconoscono un ruolo modulatorio non determinante (Boroditsky, Levinson, Lupyan, Vygotsky letto in chiave moderna).

Sull’asse verticale, “che cosa è il pensiero”: in alto, posizioni che lo intendono come strutturato linguisticamente al livello sub-personale (Fodor LOT); in basso, posizioni che lo intendono come distribuito, embodied, prevalentemente non-linguistico (connessionismo, embodied cognition di Andy Clark e Lakoff, vedi cognizione embodied).

I quattro quadranti non sono tutti popolati con la stessa densità. Il quadrante “lingua determina, pensiero linguistico” è quasi vuoto — sarebbe Whorf strong + Fodor LOT, posizione internamente quasi incoerente perché Fodor sostiene che il pensiero è già linguistico al di sotto della lingua naturale. Il quadrante “lingua trasparente, pensiero linguistico” è Fodor + Pinker. Il quadrante “lingua modula, pensiero distribuito” è la posizione moderna mainstream nelle scienze cognitive empiriche (Boroditsky, Lupyan, embodied cognition). Il quadrante “lingua trasparente, pensiero distribuito” è il connessionismo radicale e parte dell’embodied cognition.

Capire dove cade un autore aiuta a non confondere argomenti. Pinker contro Whorf: stessa colonna verticale (entrambi in alto, Fodor-style mentalese), diversa colonna orizzontale (lingua determinante vs trasparente). Boroditsky contro Pinker: stessa o vicina riga verticale (entrambi non-determinist sub-personali), diversa colonna orizzontale (lingua modula vs trasparente). Lakoff contro Fodor: stessa colonna orizzontale (entrambi rifiutano determinism stretto), diversa riga verticale (pensiero metaforico-corporeo vs pensiero simbolico-compositionale).

Contesto: la traiettoria 1820-2024

1820s — Wilhelm von Humboldt. Filologo e diplomatico prussiano (1767-1835). Manoscritti postumi sulle lingue del mondo (basco, kawi, nahuatl). La lingua è energeia — attività, atto vivo — non ergon — prodotto morto. Ogni lingua incarna una Weltanschauung (visione del mondo). Posizione idealista romantica, non sperimentale. Influisce su Boas e sull’antropologia americana del Novecento.

1911-1929 — Boas, Sapir. Franz Boas (1858-1942, antropologo tedesco-americano alla Columbia) introduce il relativismo culturale: ogni cultura organizza il mondo secondo categorie proprie, nessuna gerarchia evolutiva. Edward Sapir (1884-1939, allievo di Boas, lavora su lingue takelma, paiute, navajo a Yale) generalizza in chiave linguistica. 1929, Language 5(4), “The status of linguistics as a science”: “Gli esseri umani… sono in larga misura alla mercé della particolare lingua che è diventata il mezzo di espressione per la loro società. Il ‘mondo reale’ e in larga misura inconsciamente costruito sulle abitudini linguistiche del gruppo.”

1936-1941 — Whorf. Benjamin Lee Whorf (1897-1941), gli articoli che diventeranno celebri sono pubblicati negli ultimi cinque anni di vita. Science and Linguistics (1940), Languages and Logic (1941), The relation of habitual thought and behavior to language (1939). Esempi cardine: hopi e tempo, eschimese e termini per neve (esempio in realtà non da Whorf ma cresciuto come leggenda dopo la sua morte), inglese SAE e oggettificazione del tempo (ten days).

1953 — Lenneberg. Eric Lenneberg (1921-1975, psicologo tedesco-americano, Cornell), Language 29(4): critica metodologica fondamentale. Senza un test indipendente del pensiero non-linguistico, l’argomento Sapir-Whorf è circolare. Posto un effetto cognitivo, come distinguere “la lingua causa il pensiero” da “la cultura, di cui la lingua è parte, causa entrambi”?

1956 — Carroll editor. John B. Carroll (1916-2003, psicometrista a Harvard) cura Language, Thought, and Reality: Selected Writings of Benjamin Lee Whorf, MIT Press. Antologia postuma. Da qui in poi la coppia “Sapir-Whorf hypothesis” entra nel lessico — anche se Sapir e Whorf non hanno mai scritto insieme una formulazione esplicita. La distinzione fra strong (linguistic determinism) e weak (linguistic relativity) e introdotta dai recensori, non dagli autori.

1957-1965 — Chomsky. Noam Chomsky (1928-, linguista al MIT) pubblica Syntactic Structures (1957) e Aspects of the Theory of Syntax (1965). La Universal Grammar sposta l’attenzione dalla varietà delle lingue alle invarianti computazionali sottostanti. Programma incompatibile con Whorf nello spirito, anche se Chomsky non ne fa mai un argomento centrale.

1975 — Fodor, The Language of Thought. Jerry Fodor (1935-2017, filosofo della mente, MIT poi Rutgers), Harvard University Press. Tesi: il pensiero ha struttura sintattica, compositionale, produttiva. E mentalese, un sistema di rappresentazione interno con proprietà linguaglie ma sub-personale è innato — non l’italiano nella testa. Argomento centrale dalla compositionalità: chi capisce “Mario ama Lucia” capisce automaticamente “Lucia ama Mario”. La capacità ha proprietà sistematiche che richiedono rappresentazioni con struttura sintattica.

1976 — Roger Brown. Roger Brown (1925-1997, psicolinguista a Harvard), review della letteratura Whorfiana: “non confutata, ma scarsamente supportata”. Verdetto della disciplina di allora.

1983 — Malotki. Ekkehart Malotki, Hopi Time: A Linguistic Analysis of the Temporal Concepts in the Hopi Language, Mouton. Confutazione filologica di Whorf sull’hopi: la lingua hopi ha tempi grammaticali, avverbi temporali (“oggi”, “ieri”, “domani”), sistemi di datazione. La tesi specifica di Whorf su hopi e tempo crolla. La tesi generale sopravvive in forma cauta.

1988 — Fodor-Pylyshyn, “Connectionism and Cognitive Architecture”. Jerry Fodor & Zenon Pylyshyn (1937-, scienziato cognitivo a Rutgers), Cognition 28:3-71. Critica al connessionismo allora emergente (PDP di Rumelhart-McClelland). Argomento: le rappresentazioni distribuite mancano di sistematicità, compositionalità, produttività. Quindi le reti neurali, in linea di principio, non possono essere modelli adeguati della cognizione. Argomento ripreso negli anni Duemila e Duemiladieci da Gary Marcus (psicologo cognitivo a NYU) e Brenden Lake (NYU) contro i deep network.

1994 — Pinker, The Language Instinct. Steven Pinker (1954-, allora MIT, oggi Harvard), William Morrow. Sintesi popolare della Universal Grammar di Chomsky e del LOT di Fodor contro la Sapir-Whorf. Argomenti: i bambini pre-linguistici hanno aspettative cognitive sofisticate (Spelke core knowledge); animali pensano senza linguaggio; afasici severi mantengono pensiero; la traduzione fra lingue è possibile. Posizione: il linguaggio è finestra sul pensiero pre-esistente, non lo plasma. Toni anti-Whorfiani espliciti.

2001 — Boroditsky, “Does language shape thought?”. Lera Boroditsky (allora Stanford, oggi UCSD), Cognitive Psychology 43(1):1-22. Esperimento controllato: parlanti mandarino primano più velocemente in compiti spaziali verticali (mandarino usa shang/xia — sopra/sotto — per metafore temporali, dove l’inglese usa before/after su asse orizzontale). Effetto presente anche dopo controlli per cultura e bilinguismo. Punto di rilancio della linguistic relativity post-Pinker.

2003 — Levinson, Space in Language and Cognition. Stephen Levinson (1947-, Max Planck Institute for Psycholinguistics, Nijmegen), Cambridge University Press. Programma di ricerca sui frame spaziali: lingue con frame assoluti (cardinal directions: Pormpuraaw aborigeni del Queensland, tzeltal del Chiapas) vs relativi (egocentric: italiano, inglese). Risultato: i parlanti di lingue assolute risolvono compiti di memoria spaziale con strategie cardinali anche in laboratorio.

2004 — Gordon e Pica. Peter Gordon (Columbia), Science 306(5695):496-499: i parlanti piraha (Amazzonia) hanno parole solo per “uno”, “due”, “molti”. Falliscono task di matching esatto sopra 3. Pica-Lemer-Izard-Dehaene, Science 306(5695):499-503, companion paper su munduruku: il sistema approssimato del numero (approximate number system, ANS) è indipendente dalla lingua e presente in neonati e primati; il sistema esatto richiede acquisizione del count list linguistico. Il dibattito su piraha e munduruku continua: Frank et al. 2008 mostra che i piraha possono performare in alcuni task, complicando il quadro.

2008 — Casasanto, “Who’s afraid of the Big Bad Whorf?”. Daniel Casasanto, Language Learning 58(s1):63-79. Review delle evidenze post-Boroditsky. Conclusione: la posizione moderna e linguistic relativity debole, selettiva, dipendente dal compito. Non determinismo forte, non assenza di effetti.

2008 — Fodor, LOT 2: The Language of Thought Revisited. Jerry Fodor, Oxford University Press. Riconosce che dopo trent’anni il LOT ha avuto meno frutti empirici del previsto. Mantiene la tesi sintattico-compositionale ma la difende come minima — il pensiero ha qualche struttura combinatoria, qualunque sia l’implementazione.

2012 — Lupyan, “Linguistically modulated perception and cognition”. Gary Lupyan (Wisconsin-Madison), Frontiers in Psychology 3:54. Label-feedback hypothesis: le etichette linguistiche modulano la percezione top-down. Sentire “sedia” attiva il template categoriale che facilita il riconoscimento percettivo, anche di esemplari atipici. Effetto neurale misurabile.

2018 — Lake-Baroni, SCAN benchmark. Brenden M. Lake (NYU) e Marco Baroni (allora Università di Trento, poi Facebook AI Research), ICML 2018. Benchmark SCAN per compositional generalization: training set ha “jump”, “walk”, “walk twice”; test set ha “jump twice”. Reti seq2seq classiche falliscono. Riprende l’argomento Fodor-Pylyshyn 1988 trent’anni dopo, su sistemi reali invece che su critica filosofica.

2023 — Lanham et al., faithful CoT. Tamera Lanham e collaboratori (Anthropic), Measuring Faithfulness in Chain-of-Thought Reasoning. Risultato: il chain-of-thought verbalizzato non sempre riflette il calcolo interno. Perturbare il CoT spesso non degrada la risposta. Il CoT può essere razionalizzazione post-hoc.

2024 — Wendler et al., “Do Llamas Work in English?”. Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West (EPFL Losanna), arXiv:2402.10588 / ACL 2024. Probing layer-wise di Llama-2 (7B, 13B, 70B). Risultato: i layer intermedi del modello attivano vettori più vicini agli embedding inglesi anche per prompt in altre lingue. Fenomeno di latent English come manifestazione tecnica del bias del corpus di training.

L’intuizione, prima del formalismo

Prima di entrare nelle distinzioni tecniche, due angoli che chiariscono la posta in gioco. Il primo è empirico-cross-linguistico: cosa cambia, di misurabile, quando si cambia lingua. Il secondo è computazionale-architetturale: che struttura deve avere il pensiero, indipendentemente dalla lingua naturale, perché abbia le proprietà che osserviamo. Le due intuizioni non sono in competizione: rispondono a domande diverse.

L’intuizione, primo angolo: cosa cambia con la lingua

L’intuizione che la lingua influenzi il pensiero è antica. Ognuno l’ha provata: il bilingue che cambia personalita passando da una lingua all’altra; il termine intraducibile (saudade, Schadenfreude, mamihlapinatapai) che sembra nominare un concetto altrimenti sfuggente; la sensazione che il proprio dialetto materno colga sfumature che l’italiano standard manca. La domanda scientifica e: c’e qualcosa di reale dietro l’intuizione, e in che misura?

L’angolo empirico procede così. Si identifica una differenza grammaticale o lessicale fra due lingue (lingua A ha la distinzione X, lingua B no, oppure le lingue codificano la stessa relazione in modi strutturalmente diversi). Si costruisce un compito non-linguistico — un compito di percezione, memoria, categorizzazione, inferenza — sensibile alla distinzione X. Si misura la performance dei parlanti di A vs B. Se A e B differiscono in modo predicibile dalla differenza linguistica, e i controlli per cultura, bilinguismo, demografia tengono, c’e evidenza di un effetto della lingua sul pensiero.

Esempio canonico: i parlanti di lingue con frame spaziali assoluti (Pormpuraaw, tzeltal) hanno una memoria spaziale cardinale per default. Levinson racconta nel suo libro del 2003 di parlanti tzeltal a cui chiede di riprodurre una sequenza di oggetti dopo essere stati ruotati di 180 gradi: replicano la sequenza in coordinate cardinali, non egocentriche. Un parlante inglese o italiano fa l’opposto: mantiene la sequenza relativa al proprio corpo. Differenza linguistica → differenza nella strategia cognitiva spaziale. Effetto piccolo, replicato, robusto al controllo per istruzione e cultura.

Altro esempio: la categorizzazione del colore. Il russo ha due parole basiche per il blu — goluboy (azzurro chiaro) e siniy (blu scuro) — dove l’inglese ha solo blue. Winawer-Witthoft-Frank-Wu-Wade-Boroditsky 2007 PNAS: i russi sono più rapidi a discriminare due sfumature di blu se cadono in goluboy vs siniy rispetto a quando cadono entrambe nello stesso termine. L’effetto scompare sotto carico verbale (il soggetto deve ripetere mentalmente una sequenza di numeri durante il test): il linguaggio non è categoria fissa, e una risorsa cognitiva attiva.

Un terzo esempio rovescia l’attesa: il numero. I piraha — popolazione amazzonica documentata da Daniel Everett (linguista americano, missionario poi ateo, Illinois State University) — non hanno parole esatte per i numeri. Hanno solo hoi (uno o pochi), ho-i (due o alcuni), baagiso (molti). Peter Gordon 2004 sottopone parlanti piraha adulti a task di matching esatto: “metti tante noci in fila quante sono queste”. Sopra 3 la performance cala molto, mentre il sistema approssimato (stimare se ci sono “circa 7” o “circa 12” noci) funziona normalmente: questo suggerisce che il counting esatto sopra il piccolo range naturale diventa molto più fragile senza un lessico numerico ricco. Frank et al. 2008 complicano però la lettura forte: quando si riduce il carico di memoria di lavoro, i piraha possono riuscire meglio in alcuni task. La tesi difendibile non è quindi “il sistema esatto non esiste”, ma che il linguaggio dei numerali esatti funziona come infrastruttura cognitiva che stabilizza e rende molto più maneggevole il numero preciso.

Questi esempi non riabilitano Whorf nella forma forte. Non dicono che i piraha non possono pensare il sette. Dicono che senza un sistema linguistico per nominare il sette, il sette esatto è meno stabile, meno disponibile spontaneamente e più sensibile al disegno del compito. La differenza fra “non può” e “gli serve più supporto per trattarlo con precisione” è tutta. La prima è linguistic determinism (falsa). La seconda è una forma di linguistic relativity debole e task-dependent, compatibile con il dibattito empirico successivo.

L’intuizione, secondo angolo: il pensiero ha struttura linguistica?

L’angolo computazionale è diverso. Non chiede se la lingua naturale influenza il pensiero. Chiede se il pensiero, qualunque sia il sostrato neurale, debba avere struttura linguistica per spiegare le proprietà osservate del pensiero stesso.

Le proprietà che Fodor 1975 elenca sono tre.

Compositionalita. Il significato di una espressione complessa e funzione del significato delle parti e della loro struttura. “Mario ama Lucia” e “Lucia ama Mario” hanno gli stessi atomi (Mario, ama, Lucia) ma significato diverso, in funzione della relazione strutturale (chi e soggetto, chi oggetto). Stesso vale al livello del pensiero: pensare che Mario ami Lucia è diverso da pensare che Lucia ami Mario. Le rappresentazioni mentali devono codificare questa differenza strutturalmente.

Produttivita. Da un vocabolario finito (concetti primitivi) si possono costruire infinite rappresentazioni complesse — proprio come da un lessico finito si costruiscono infinite frasi. Il pensiero non è un repertorio finito di stati pre-cablati: si pensano cose nuove, sempre.

Sistematicita. Se uno e capace di pensare “A ama B”, e automaticamente capace di pensare “B ama A”. Non c’e un essere umano (o agente cognitivo plausibile) che possa pensare “Mario ama Lucia” ma non “Lucia ama Mario”. Le capacità cognitive vengono in cluster strutturali.

Da queste tre proprietà Fodor 1975 conclude: il sostrato delle rappresentazioni mentali deve avere una sintassi combinatoria. Chiama questo sistema mentalese (Mentalese in inglese), o language of thought — LOT. Il mentalese non è l’italiano nella testa. E un sistema di rappresentazione interno, sub-personale, plausibilmente innato (Fodor era nativista convinto). Sotto, i singoli concetti — CANE, ROSSO, AMARE — sono atomi del mentalese, non costruiti dall’esperienza ma cablati. Sopra, le combinazioni sono governate da regole sintattiche.

Il mentalese e logicamente indipendente dalla Sapir-Whorf. Sapir-Whorf dice che la lingua naturale che parli (italiano, mandarino) influenza le tue categorie cognitive. Fodor dice che sotto la lingua naturale c’e un altro linguaggio, universale è innato, che è già il pensiero. Le due tesi possono coesistere, ma non si implicano. Pinker 1994 le combina senza esitazione: rifiuta Sapir-Whorf e accetta Fodor. La combinazione e coerente: la lingua naturale non plasma il pensiero perché il pensiero è già mentalese, lo stesso per tutti.

L’argomento Fodor-Pylyshyn 1988 — il connessionismo, allora i Parallel Distributed Processing di Rumelhart-McClelland-Hinton del 1986, manca di sistematicità perché le sue rappresentazioni distribuite non hanno struttura sintattica componibile — ha avuto vita lunga. Ripreso da Marcus, Lake e altri contro i deep network. Vedremo nella sezione “Eredità oggi” come il dibattito si riarticola con i large language model.

L’intuizione, terzo angolo: il linguaggio come strumento

C’è un terzo angolo, distinto dai primi due, che attraversa la psicologia sovietica e contemporanea. Il linguaggio non solo modula categorie cognitive (Sapir-Whorf weak) e non solo costituisce la struttura del pensiero (Fodor LOT): è anche strumento attivo che il pensiero usa per compiti che altrimenti non potrebbe portare a termine.

L’intuizione è che parlare a se stessi — a voce alta da bambini, in inner speech da adulti — aiuta a risolvere problemi complessi. Chi ha mai contato sulle dita o ripetuto mentalmente una sequenza di passi per non perdere il filo conosce il fenomeno per esperienza diretta. Vygotsky, lavorando a Mosca negli anni Trenta in condizioni di isolamento dalla psicologia occidentale, ha proposto un meccanismo evolutivo: il bambino impara prima a parlare con altri (linguaggio sociale), poi parla con se stesso ad alta voce mentre risolve problemi (private speech, anche notato da Piaget come “monologo egocentrico”), e infine internalizza in inner speech, una forma compressa, telegrafica, predicativa di parlato interno.

L’inner speech adulto ha proprietà specifiche. È sintatticamente abbreviato — manca tipicamente il soggetto, dato per scontato. È prevalentemente predicativo (verbi, complementi diretti, modificatori). Cambia velocità: è più lento del pensiero non-verbale fluido, ma più strutturato. Si attiva selettivamente in compiti di problem solving difficile, di pianificazione temporale lunga, di auto-regolazione comportamentale. Sokolov 1972 ha misurato attività elettromiografica subvocale nei muscoli laringei durante problem solving silenzioso, mostrando che l’inner speech ha una traccia motoria reale, non è puramente “mentale” in senso disincarnato.

La label-feedback hypothesis di Lupyan unifica le tre piste sotto un meccanismo specifico. Le etichette linguistiche — sia esterne che interne (inner speech) — modulano top-down la percezione e la categorizzazione. Sentire o ripetersi mentalmente “sedia” attiva il template categoriale che facilita il riconoscimento percettivo. L’effetto è neurale, misurabile in compiti di percezione visiva, e fornisce un meccanismo concreto per il modo in cui il linguaggio “tocca” la cognizione non-linguistica. Non è linguistic determinism: la categoria pre-esiste; ma la sua attivazione veloce è influenzata dall’etichetta verbale.

Da questo angolo strumentale emerge una posizione che né Sapir-Whorf forte né Pinker forte coglie: il linguaggio è una cognitive scaffolding, una impalcatura cognitiva. Andy Clark (filosofo della mente, Sussex poi Edimburgo, vedi cognizione embodied) la chiama “magic words”: parole come strumenti, allineate con altri strumenti esterni del pensiero (calcolatrici, taccuini, mappe). Il pensiero esteso si appoggia al linguaggio come si appoggia a un foglio di carta su cui annotare i passi di un calcolo lungo.

La meccanica

Tre meccanismi distinti meritano di essere distinti.

Linguistic relativity (Sapir-Whorf weak). La grammatica e il lessico della lingua materna influenzano quali distinzioni sono cognitivamente disponibili per default in compiti non-linguistici. Meccanismo proposto: l’uso ripetuto di una distinzione linguistica la rende automatica (priming, attivazione veloce). Un parlante russo, abituato a usare goluboy vs siniy nella conversazione quotidiana, attiva più rapidamente la distinzione percettiva blu chiaro vs blu scuro. Sotto carico verbale (linguaggio occupato), l’effetto cala. Quindi la linguistic relativity weak non è una struttura fissa, e un bias attentivo modulabile.

Language of thought (Fodor). Sotto le rappresentazioni linguistiche di superficie, esiste un sistema di rappresentazione mentale con proprietà combinatorie sintattiche. Non è empiricamente accessibile direttamente; e postulato per spiegare le proprietà sistematiche del pensiero. Alternative non-LOT — connessionismo distribuito puro, embodied/enacted cognition — devono spiegare le stesse proprietà diversamente, e qui sta il dibattito.

Inner speech come strumento (Vygotsky). Il linguaggio non plasma solo come categorizziamo (Sapir-Whorf weak), e non è solo la struttura del pensiero (Fodor). E anche strumento attivo del problem solving individuale. Lev Vygotsky (1896-1934, psicologo sovietico, Myshlenie i rech, 1934, Pensiero e linguaggio) propone una traiettoria evolutiva: il bambino impara a parlare con altri (social speech), poi parla con se stesso ad alta voce mentre risolve problemi (private speech, anche osservato da Piaget come monologo egocentrico), poi internalizza in inner speech — un parlare interno, telegrafico, predicativo. L’adulto usa inner speech per pianificare, calcolare, regolare il proprio comportamento.

Sokolov 1972 ha misurato attività elettromiografica subvocale nei muscoli laringei durante problem-solving silenzioso: aumenta con la difficoltà del compito. Hurlburt-Heavey 2006 Exploring Inner Experience hanno applicato il metodo descriptive experience sampling: beep casuali, soggetti annotano cosa stavano “pensando”. Risultato sorprendente: l’inner speech occupa solo circa il 25% dei beep. Il resto e immagini, sensazioni, “unsymbolized thinking”. Il pensiero verbale interno c’e, ma non è tutto il pensiero — vedi sezione “Dove si rompe”.

Lupyan 2012 label-feedback hypothesis unisce le tre piste: l’etichetta linguistica, attivata internamente (inner speech) o ricevuta esternamente, modula top-down la percezione e la categorizzazione, in modo che le categorie linguistiche disponibili biasano ciò che si vede e si ricorda. È un meccanismo specifico, neurale (modulazione top-down da regioni linguistiche a regioni percettive), misurabile.

Compositionalità, produttività, sistematicità — riga per riga

Le tre proprietà dell’argomento Fodor 1975 meritano di essere viste passo passo, perché ricorrono in tutte le riprese successive (Fodor-Pylyshyn 1988 contro il connessionismo, Marcus 2001, Lake-Baroni 2018 sul SCAN benchmark, Dziri et al. 2023 Faith and Fate su LLM).

Compositionalità. Dato un vocabolario di concetti primitivi {MARIO, LUCIA, AMARE, ODIARE, …} e regole sintattiche di combinazione, il significato di una espressione complessa è funzione del significato delle parti e della loro disposizione strutturale. Esempio: AMARE(MARIO, LUCIA) significa “Mario ama Lucia”. Sostituendo gli argomenti — AMARE(LUCIA, MARIO) — si ottiene un significato diverso, derivato dalla stessa regola applicata a parti diverse. Non c’è memorizzazione separata dei due significati: c’è una funzione che, dati gli argomenti, calcola il risultato. La compositionalità è proprietà del meccanismo, non solo del lessico.

Produttività. Da un vocabolario finito di primitivi e da regole finite di combinazione, si possono generare infinite espressioni distinte. Il lessico italiano è finito (circa 250.000 lemmi nel Grande dizionario italiano dell’uso di De Mauro); le frasi italiane grammaticali sono numerabilmente infinite. Lo stesso, sostiene Fodor, vale per il pensiero. Il numero di pensieri possibili distinti che un essere umano può intrattenere non è limitato dall’inventario dei concetti primitivi: cresce combinatorialmente con la lunghezza delle combinazioni ammesse.

Sistematicità. Le capacità cognitive vengono in cluster strutturali. Chi ha la capacità di pensare “Mario ama Lucia” ha automaticamente la capacità di pensare “Lucia ama Mario”. Non c’è essere umano (né, sostiene Fodor, agente cognitivo plausibile) che possa pensare il primo senza poter pensare il secondo. La sistematicità è il vincolo più forte sull’architettura: una mente pensabile deve essere in grado di rimaneggiare gli argomenti delle relazioni che pensa, e questa capacità richiede rappresentazioni con struttura sintattica componibile.

L’argomento Fodor-Pylyshyn 1988 contro il connessionismo si appoggia a sistematicità. Le rappresentazioni distribuite — un vettore in uno spazio ad alta dimensione che codifica “Mario ama Lucia” come pattern di attivazioni — non hanno costituenti separabili. Cambiare argomento richiederebbe ri-imparare il pattern. Quindi, sostengono Fodor e Pylyshyn, un sistema connessionista puro non può avere sistematicità per costruzione, e non è quindi modello adeguato della cognizione. La replica connessionista — Paul Smolensky 1990 con tensor product representations, lavori successivi — è che la sistematicità può essere ottenuta in vettori se si impone la struttura algebrica giusta. Il dibattito non si chiude e ricompare, in forma rivisitata, con i large language model.

Esempi

Tre esempi eterogenei: una popolazione aborigena australiana il cui linguaggio costringe a un certo tipo di memoria spaziale; una popolazione amazzonica il cui linguaggio numerico limitato si traduce in una capacità numerica esatta limitata; un grande modello linguistico che, addestrato prevalentemente in inglese, “pensa in inglese latente” anche quando gli si parla in altre lingue. I tre esempi appartengono a registri diversi — antropologia, psicolinguistica sperimentale, mechanistic interpretability di reti neurali — e i meccanismi causali sono distinti. Ma esibiscono lo stesso pattern di superficie: una lingua dominante modella le rappresentazioni cognitive sottostanti.

Mandarino e il tempo verticale

Il primo esperimento moderno che ha riaperto il dossier Sapir-Whorf è di Boroditsky 2001 Cognitive Psychology. La differenza linguistica esplorata è specifica: l’inglese codifica il tempo prevalentemente in metafore orizzontali — the future is ahead of us, we are looking forward to the meeting, we left that behind us. Il mandarino codifica anche metafore verticali, particolarmente comuni: shang ge yue (il mese sopra = il mese scorso), xia ge yue (il mese sotto = il prossimo mese). Le metafore verticali sono meno produttive in inglese (upcoming esiste ma non è la forma dominante) e centrali in mandarino.

Boroditsky chiede a parlanti monolingui inglesi e a parlanti bilingui mandarino-inglesi di rispondere a domande temporali del tipo “Marzo viene prima di aprile” dopo essere stati primati con disposizioni spaziali orizzontali (verme dietro un altro verme) o verticali (palla sopra un’altra palla). I parlanti inglesi rispondono più velocemente dopo priming orizzontale; i parlanti mandarino, anche bilingui che parlano inglese fluente, rispondono più velocemente dopo priming verticale. La differenza linguistica si traduce in una facilitazione cognitiva specifica per il tipo di asse spaziale congruente con la metafora dominante della lingua materna.

L’esperimento è stato replicato e contestato. Chen 2007 non replica con la stessa robustezza; Boroditsky-Fuhrman-McCormick 2011 replicano con paradigma raffinato. L’effetto netto è piccolo (decine di millisecondi) ma robusto e dipendente dalla lingua materna anche nei bilingui. Coerente con la posizione moderna: linguistic relativity weak, selettiva, dipendente dal compito.

Pormpuraaw: il villaggio che indica sempre il nord

Pormpuraaw è una comunità aborigena di circa 700 persone sulla costa occidentale di Cape York, Queensland, Australia. La lingua locale, kuuk thaayorre, usa esclusivamente direzioni cardinali per la spazialità. Non c’e “destra” o “sinistra”; non c’e “davanti” o “dietro” come uso egocentrico standard. Si dice “c’e una formica sulla tua gamba sud-orientale” o “passa la tazza a nord”. Per parlare la lingua devi sapere costantemente dove sono i punti cardinali.

Boroditsky e Gaby 2010, Psychological Science 21(11):1635-1639, hanno testato l’effetto di questa abitudine su un compito non-linguistico. Mostrano ai parlanti kuuk thaayorre quattro fotografie di una sequenza temporale (una persona che invecchia, una banana che si pela). Chiedono di disporle in ordine cronologico. I soggetti vengono testati in due posizioni: rivolti a sud, poi rivolti a nord. Risultato: i kuuk thaayorre dispongono sempre le carte da est verso ovest, indipendentemente da dove sono rivolti. Quindi quando sono rivolti a sud le dispongono da sinistra (est) a destra (ovest); quando sono rivolti a nord le dispongono da destra (est) a sinistra (ovest). Gli inglesi e americani di controllo dispongono sempre da sinistra a destra, in coordinate egocentriche (left to right, “as we read”).

L’effetto è robusto. Non richiede istruzione, non richiede priming verbale. La memoria spaziale automatica e cardinale per chi parla una lingua cardinale. E linguistic relativity weak in azione: la lingua non determina cosa puoi pensare, modula come pensi spontaneamente.

Pirahã e il limite del numero esatto

I piraha sono una popolazione di circa 350 persone sul fiume Maici, affluente del Rio Madeira, in Amazzonia brasiliana. Il loro linguaggio numerico, secondo la documentazione del missionario-poi-linguista Daniel Everett dagli anni Settanta, e estremamente ridotto: hoi (uno o pochi), ho-i (due o alcuni), baagiso (molti). Non c’e un sistema di numerali esatti.

Peter Gordon 2004 Science ha testato 14 adulti piraha in compiti di matching uno-a-uno. Compito tipo: lo sperimentatore mette una fila di N noci sul tavolo; il soggetto deve mettere altrettante noci in una fila parallela. Per N=1, 2, 3 la performance è accurata. Per N>3 cala vistosamente, con errori sistematici di sovra- e sotto-stima. Compito di confronto: N=10 noci, soggetti chiesti se “approssimativamente quante” sono — risposta nella zona corretta. Il risultato supporta una distinzione forte fra sistema approssimato del numero (approximate number system), che resta intatto, e uso del numero esatto sopra il subitizing range, che senza numerali ricchi diventa più difficile.

Pica-Lemer-Izard-Dehaene 2004 Science hanno replicato il pattern su munduruku, popolazione del Tapajos con numerali fino a circa cinque ma uso impreciso oltre tre. Conclusione: il sistema approssimato del numero è dote universale — Spelke core knowledge, presente in neonati, primati non-umani, popolazioni senza numerali. Il sistema esatto richiede almeno in parte lo strumento linguistico dei numerali per essere costruito e stabilizzato durante lo sviluppo. Il linguaggio dei numerali è infrastruttura cognitiva, anche se non coincide in modo semplice con una capacità on/off.

Il fatto chiave è che il sistema approssimato del numero è invariante cross-linguistico. Bambini di sei mesi (Spelke e collaboratori, anni Novanta-Duemila) discriminano numerosità approssimate; primati non-umani (scimpanzé, macachi) idem; popolazioni senza counting list dettagliato (piraha, munduruku) idem. Quindi una capacità numerica fondamentale è cognitivamente disponibile a tutti, non dipende dal linguaggio. Quello che dipende dal linguaggio è il sistema esatto: la rappresentazione di numerosità precise sopra il subitizing range (3-4) richiede strumenti linguistici per essere costruita.

Stanislas Dehaene (neuroscienziato cognitivo, College de France) nel suo lavoro su “the number sense” (libro omonimo, 1997, Oxford University Press) propone una sintesi: due sistemi numerici, l’approssimato (innato, cross-specie, indipendente dal linguaggio) e l’esatto (umano, dipendente dal linguaggio dei numerali, infrastruttura per matematica formale).

Caveat: il dato piraha è contestato. Frank-Everett-Fedorenko-Gibson 2008 Cognition mostrano che i piraha possono performare meglio in alcuni task, soprattutto quando si riduce il carico di memoria di lavoro e il compito non richiede mantenere a mente una numerosità precisa per troppo tempo. Il dibattito empirico continua. Ma il pattern generale — sistema approssimato indipendente dal linguaggio, trattamento esatto del numero molto facilitato dal counting list linguistico — è mainstream nelle scienze cognitive del numero.

Llama-2 è l’inglese latente

Wendler-Veselovsky-Monea-West 2024 (EPFL Losanna), Do Llamas Work in English?, arXiv:2402.10588 e ACL 2024, hanno applicato a Llama-2 una tecnica di probing layer-wise. Tecnica: dato un prompt non-inglese (per esempio cinese, tedesco, francese), si fa girare il modello e si guarda lo stato nascosto a ogni layer. Si proietta lo stato attraverso la unembedding matrix (la stessa matrice che il modello usa alla fine per predire il prossimo token) e si guarda quali token avrebbero alta probabilita.

Setup tecnico: Llama-2 ha 32 layer transformer (versione 7B). Ogni layer produce un vettore di stato nascosto (hidden state) per ogni posizione di token. Il modello ha una matrice di unembedding alla fine che proietta il vettore finale sui logit del vocabolario, da cui campiona il prossimo token. Wendler et al. applicano la stessa proiezione anche ai layer intermedi e leggono i top-k token più probabili a ogni profondità. Il vocabolario di Llama-2 contiene token in molte lingue, etichettati per lingua dominante; la frazione di top-k che è inglese vs cinese vs altro è quindi calcolabile direttamente.

Risultato schematico. Nei primi layer (vicini all’input), i token a più alta probabilita sono prevalentemente nella lingua del prompt — coerente con un’elaborazione vicina all’input. Nei layer intermedi (intorno a 50-70% della profondita) i token più probabili diventano prevalentemente inglesi, anche se il prompt era in cinese o tedesco. Negli ultimi layer la distribuzione torna verso la lingua del prompt, perché il modello deve produrre output nella lingua dell’utente.

Interpretazione degli autori: Llama-2 elabora in uno spazio concettuale latente geometricamente prossimo all’embedding inglese, residuo dello sbilanciamento del corpus di pre-training (Llama-2 e addestrato prevalentemente su testo inglese). Non e una versione computazionale stretta di linguistic determinism alla Whorf — gli autori sono attenti a marcare la distinzione. Ma il fenomeno e una manifestazione tecnica di un effetto Whorfiano: il modello “pensa” in inglese latente, e questo influenza le sue rappresentazioni intermedie indipendentemente dalla lingua di superficie.

Zona	Tesi	Status	Evidenze rappresentative
Forte (determinismo linguistico)	la lingua determina il pensiero	confutato	Whorf 1940 (tempo Hopi) — confutato da Malotki 1983
Debole (relatività linguistica)	la lingua influenza il pensiero	sostenuto, contestato nei dettagli	Boroditsky 2001 (tempo mandarino), Levinson Pormpuraaw, Gordon 2004 (numerali Pirahã), Lupyan 2012 (label feedback)
Nulla (mentalese universale)	il pensiero è indipendente dalla lingua naturale	mainstream, semplificatorio	Pinker 1994 (Language Instinct), Fodor 1975 (LOT), Spelke core knowledge

Consenso moderno: relatività debole, dipendente dal task.

Language of Thought architecture: surface utterances in English and Italian collapsing into shared mentalese tree, with compositionality / productivity / systematicity properties

Un quarto esempio: il colore russo

Il russo, lingua slava orientale, ha due termini basici per il blu dove l’inglese ha solo blue: goluboy (azzurro chiaro, simile a light blue ma riconosciuto come categoria di base, non sfumatura) e siniy (blu scuro). I termini non sono modificatori opzionali come light e dark in inglese: sono lessemi indipendenti, appresi come parole basiche dai bambini russi, usati senza esitazione nella conversazione quotidiana per oggetti diversamente colorati.

Winawer-Witthoft-Frank-Wu-Wade-Boroditsky 2007 PNAS hanno costruito un compito di discriminazione percettiva. Schermo: tre quadrati colorati. In alto, un quadrato target. Sotto, due quadrati: uno identico al target, uno di una sfumatura leggermente diversa di blu. Il soggetto deve premere il tasto sinistro o destro a seconda di quale dei due in basso corrisponde al target. Le sfumature sono scelte da una scala di blu progressivi che attraversa il confine percettivo russo fra goluboy e siniy.

Risultato. I parlanti russi sono significativamente più rapidi a discriminare quando le due sfumature da confrontare cadono attraverso il confine goluboy-siniy (una è goluboy, l’altra è siniy) rispetto a quando entrambe cadono nello stesso termine. I parlanti inglesi non mostrano la differenza. Quindi: il confine linguistico crea un confine percettivo accelerato. Non è che gli inglesi non possano vedere la differenza — la vedono, solo più lentamente.

Sotto carico verbale (al soggetto si chiede di ripetere mentalmente una sequenza di numeri durante il compito), l’effetto del confine linguistico nei russi scompare. Sotto carico spaziale (memoria visuospaziale impegnata altrove), l’effetto resta. Conclusione: la categoria linguistica è una risorsa attivamente utilizzata in linea, non una struttura percettiva fissa. Il linguaggio è disponibile, finché non lo si occupa con un compito secondario.

L’esempio del blu russo è il caso più replicato e più disciplinato della linguistic relativity weak: stimoli puramente percettivi, manipolazione causale (carico verbale vs spaziale), effetto piccolo ma robusto. Nessun parlante russo “vede colori che gli inglesi non vedono”. Ma la categorizzazione abituale data dalla lingua materna modula la velocità di accesso a distinzioni percettive disponibili a tutti. Questa è esattamente la versione “modesta” della Sapir-Whorf che la disciplina ha digerito a partire dagli anni Duemila.

Applicazioni pratiche

Le tre tesi hanno ricaduta diversa nei domini applicativi. Vale la pena distinguerle anche qui, perché confonderle porta a aspettative sbagliate.

Insegnamento delle lingue seconde. La linguistic relativity weak suggerisce che imparare una lingua diversa cambia, in piccolo e in modo selettivo, le strategie cognitive disponibili. Non rende “più intelligenti” in senso generale (il bilingual advantage è fragile, vedi sezione “Dove si rompe”), ma rende disponibili nuove distinzioni concettuali. Imparare giapponese espone il parlante a un sistema di classificatori numerali; imparare russo, alla distinzione goluboy/siniy; imparare un linguaggio con frame spaziale assoluto, alla disciplina di tracciare costantemente i punti cardinali. La pedagogia delle lingue, in versione cognitivamente informata, può usare queste differenze come leva esplicita.

Traduzione automatica. I sistemi di machine translation moderni — pipeline neurali encoder-decoder, oggi prevalentemente basati su transformer — affrontano il problema della linguistic relativity in modo pragmatico: imparare a mappare strutture cross-linguistiche da corpus paralleli. Quando una lingua sorgente codifica una distinzione che la lingua bersaglio non ha (o viceversa), il modello deve scegliere euristiche di default o omettere informazione. La qualità della traduzione fra lingue tipologicamente distanti (italiano-giapponese, inglese-cinese mandarino) è ancora visibilmente inferiore alla traduzione fra lingue affini (italiano-spagnolo) — non per limitazioni del modello ma per asimmetrie informative inerenti alle lingue.

Design di interfacce e contenuti multilingui. La linguistic relativity weak ha implicazioni per chi progetta UI multilingue. Le metafore spaziali del tempo (l’inglese mette il futuro davanti, il mandarino sopra; alcune lingue dei Andes mettono il futuro dietro perché non si vede, e il passato davanti perché si conosce) cambiano l’intuizione dei diagrammi di Gantt, delle timeline, dei progressi. Localizzare bene non è solo tradurre: è ripensare l’organizzazione visuospaziale dell’informazione.

Diagnosi clinica e linguaggio interno. Le teorie di inner speech hanno ricaduta in psichiatria. La teoria classica delle allucinazioni uditive nella schizofrenia (Frith 1992, Christopher Frith neuroscienziato a UCL) interpreta le voci come inner speech non riconosciuto come proprio: deficit di source monitoring. Il modello ha ricevuto supporto neuroimaging (attivazione di aree linguistiche durante allucinazioni) ed è alla base di approcci terapeutici cognitivo-comportamentali specifici. Capire il funzionamento normale dell’inner speech è prerequisito per capire le sue patologie.

Multilingual NLP e bias linguistico. Il latent English di Wendler 2024 ha implicazioni operative per chi sviluppa applicazioni LLM in lingue diverse dall’inglese. La performance del modello in italiano, cinese, hindi è asimmetricamente inferiore non solo perché il corpus di pretraining è sbilanciato in superficie, ma perché le rappresentazioni intermedie sono geometricamente più vicine all’inglese. Mitigation possibili: continual pretraining specifico per lingua (vedi continual-pretraining in preparazione), fine-tuning su dati nativi, prompt in inglese intermediario e traduzione finale come trick di prestazione. Conoscere il fenomeno aiuta a interpretare i benchmark multilingui senza sorprese.

Educazione del pensiero numerico. Il dato di Gordon su piraha e di Pica-Lemer-Izard-Dehaene su munduruku ha ricaduta diretta sulla pedagogia del numero: l’acquisizione del count list linguistico è infrastruttura cognitiva per l’aritmetica esatta. I bambini che faticano con il sistema numerico esatto possono trarre beneficio da rinforzo sul vocabolario numerico verbale prima ancora che sulle operazioni.

Eredità oggi

[DATATO 2026-04]

I large language model hanno reso urgenti domande che fino a pochi anni fa erano filosofiche. Quattro vanno trattate con cura, perché l’aria di famiglia inganna.

LLM “pensano in linguaggio”? I modelli operano su token discreti come input e output, ma le rappresentazioni intermedie sono vettori in uno spazio continuo ad alta dimensione. La distinzione fra superficie token-based e latente vettoriale è cruciale. Il fatto che l’output sia testo non implica che il “pensiero” interno sia testo. Il fenomeno latent English di Wendler 2024 mostra che le rappresentazioni intermedie hanno proprietà linguistiche misurabili, ma non sono token. Sono vettori in uno spazio dove la geometria e influenzata dal training corpus.

Chain-of-thought come “language of thought” emergente? Tentazione: tracciare filiazione fra Fodor LOT 1975 e CoT 2022 (Wei et al., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models). Argomento per la filiazione: entrambi sostengono che il ragionamento beneficia di un formato simbolico-compositionale; CoT verbalizza esplicitamente passi di ragionamento, esibisce compositionalità (può combinare sub-passi) e produttività. Argomento contro: CoT e output linguistico generato esplicitamente in superficie, mentre il mentalese di Fodor è innato, sub-personale, sub-linguistico. Wei et al. non citano Fodor; non c’e linea di influenza documentata. Quindi: analogia post-hoc, non filiazione. E non equivalenza: Lanham et al. 2023 (Anthropic, Measuring Faithfulness in Chain-of-Thought Reasoning) mostrano che il CoT verbalizzato non sempre riflette il calcolo interno — perturbare il CoT non sempre degrada la risposta corretta, e il CoT può essere razionalizzazione post-hoc.

Probing layer-wise: cosa fa esattamente Wendler 2024. La metodologia merita di essere capita. Llama-2 ha 32 layer transformer (versione 7B). Ogni layer produce un vettore di stato nascosto per ogni token in input. Il modello ha due matrici cruciali agli estremi: una matrice di embedding che mappa token a vettori all’inizio, e una matrice di unembedding (di solito legata all’embedding via weight tying) che mappa vettori a logit di token alla fine. La proiezione attraverso unembedding produce, per ogni vettore, una distribuzione di probabilità sui token del vocabolario.

Il trucco di Wendler-Veselovsky-Monea-West è applicare la unembedding non solo al vettore dell’ultimo layer (uso normale del modello) ma a vettori di ogni layer intermedio. Si dà al modello un prompt in cinese; per ogni layer si decodificano i top-k token più probabili dello stato nascosto. Risultato: nei primi layer, top-k cinesi (coerente con elaborazione vicina all’input). Nei layer intermedi (circa 14-22 su 32), top-k inglesi. Negli ultimi layer, ritorno a cinesi (coerente con preparazione dell’output).

L’interpretazione cauta degli autori è che il modello opera in uno spazio concettuale latente geometricamente più vicino agli embedding inglesi, ereditando la geografia del corpus di pretraining. Non sostengono che il modello “letteralmente pensi in inglese” — la formulazione è metaforica e ammessa come tale. Il fenomeno è suggestivo come parallelo tecnico di un effetto Whorfiano (la lingua dominante struttura le rappresentazioni latenti), ma è una proprietà architetturale di una specifica famiglia di modelli, non un test diretto di Sapir-Whorf su parlanti umani.

Linguistic relativity nei multilingual LLM. Il bias del corpus di training si traduce in asimmetria delle capacità: GPT, Claude, Gemini sono più accurati in inglese che in lingue a basse risorse. Wendler 2024 mostra che la disparita non è solo di superficie ma di rappresentazioni intermedie. E la versione tecnica di un effetto Whorfiano: la “lingua dominante” del modello (l’inglese) modella le sue categorie latenti. Conneau et al. 2020 sui modelli multilingui pre-Llama (mBERT, XLM-R) avevano già osservato cross-lingual transfer asimmetrico. La filiera di ricerca su multilingual interpretability sta crescendo nel 2025-2026.

Inner speech e generazione token-by-token: parallelo o equivalenza? Tentazione di vedere la generazione autoregressiva degli LLM come implementazione computazionale dell’inner speech vygotskijano. Argomenti pro: entrambi sono sequenze linguistiche generate internamente, entrambi accompagnano problem solving difficile (l’inner speech aumenta in compiti complessi; il chain-of-thought aiuta gli LLM su task di reasoning), entrambi sono opzionalmente verbalizzabili (inner speech può essere “esternalizzato” in private speech ad alta voce; CoT è inner speech reso esplicito di un LLM).

Argomenti contro l’equivalenza: l’inner speech umano è opzionale (Hurlburt-Heavey: solo 25% dei beep), telegrafico, predicativo, accompagnato da componenti modali (immagini, sensazioni muscolari). La generazione autoregressiva è obbligata (ogni passo del modello produce un token), sequenziale, esaustivamente verbale, senza componenti modali. Sono pattern di superficie diversi che condividono solo la sequenzialità.

Conclusione: parallelo concettuale interessante, da marcare come analogia e usare con cautela. Non equivalenza architetturale, non filiazione storica documentata.

Compositional generalization. Lake-Baroni 2018 SCAN benchmark: training su “jump”, “walk”, “walk twice”; test su “jump twice”. Reti seq2seq classiche falliscono. L’argomento Fodor-Pylyshyn 1988 ripreso. Aggiornamento 2023+: i modelli grandi (GPT-4, Claude) migliorano ma non risolvono completamente. Dziri et al. 2023 NeurIPS, Faith and Fate, mostrano failure mode su composizione gerarchica (moltiplicazione multi-cifra, problemi di logica composizionale). Il dibattito e: i miglioramenti vengono da memorizzazione su scala (non vera compositionalità) o da emergenza di struttura compositionale (Fodor avrebbe ragione anche per i sistemi distribuiti)? Aperto.

Equivalenze pericolose da bloccare.

“LLM è mentalese” — falso. Il LOT di Fodor è architettura specifica con sintassi simbolica combinatoria; gli LLM hanno rappresentazioni distribuite continue senza struttura simbolica esplicita.
“Wendler 2024 conferma Sapir-Whorf” — analogia, non riedizione. Whorf parla di parlanti umani con sviluppo cognitivo immerso in cultura; Wendler studia un sistema artificiale con corpus sbilanciato. Sono fenomeni distinti che hanno aria di famiglia.
“CoT = LOT” — analogia post-hoc, non filiazione documentata ne equivalenza architetturale.
“Multimodal LLM trascendono il linguaggio” — parziale. I VLM operano su pixel patch + text token, ma il pipeline rimane token-centrico. Non e pensiero non-verbale alla Einstein.

Che cosa servirebbe per parlare seriamente di mentalese artificiale

Il modo corretto di alzare l’asticella non e chiedere se un LLM “pensa davvero”, ma chiedere quali criteri minimi dovrebbero essere soddisfatti prima di usare un vocabolario forte come mentalese, inner speech o linguaggio del pensiero artificiale. Oggi quasi nessun lavoro li soddisfa tutti insieme.

Primo criterio: ruolo causale, non solo leggibilità. Un probe che decodifica inglese dai layer intermedi mostra che una certa informazione è presente o recuperabile. Non mostra ancora che quella informazione giochi un ruolo causale nel calcolo che porta alla risposta. Per fare un passo serio verso il mentalese servono interventi: modificare quella rappresentazione e osservare cambiamenti sistematici, predicibili, non locali nel ragionamento successivo.

Secondo criterio: sistematicità sotto intervento. Fodor non chiede solo che una rappresentazione esista; chiede che abbia proprietà composizionali e sistematiche. Un candidato mentalese artificiale dovrebbe permettere rimaneggiamenti del tipo ruolo-riempitore su casi nuovi: se il sistema tratta bene “Mario ama Lucia” deve trattare bene “Lucia ama Mario” per la stessa ragione strutturale, non perché ha visto abbastanza esempi simili in training. Dimostrare questa differenza in un LLM richiede compiti controllati e manipolazioni mirate, non solo benchmark aggregati.

Terzo criterio: indipendenza parziale dalla superficie linguistica. Se davvero esistesse una lingua del pensiero artificiale, dovremmo vedere una stessa struttura interna ricorrere sotto parafrasi, lingue diverse, ordini sintattici diversi, e persino sotto input multimodali che esprimono lo stesso contenuto. Il latent English di Wendler 2024 è interessante proprio perché tocca questo criterio, ma lo soddisfa solo in modo parziale e ambiguo: mostra una geografia intermedia favorita dall’inglese, non ancora una struttura astratta indipendente dalla superficie.

Quarto criterio: guadagno esplicativo reale. Dire “il modello ha un mentalese” deve spiegare qualcosa che la descrizione standard in termini di rappresentazioni distribuite non spiega altrettanto bene. Per esempio: prevedere in anticipo quali generalizzazioni riusciranno, quali falliranno, quali interventi sui vettori latenti cambieranno la compositionalità, quali no. Se il vocabolario forte non aumenta la capacità predittiva, resta metafora elegante, non teoria.

Questi criteri non servono a vietare le analogie. Servono a disciplinarle. Molte analogie con gli LLM sono utili come strumenti euristici: aiutano a orientarsi, suggeriscono esperimenti, indicano un perimetro di domande. Diventano fuorvianti quando scivolano da euristica a ontologia senza passare per il lavoro sperimentale necessario.

Tre cautele metodologiche per il dibattito moderno

La prima cautela è che i probe leggono, non dimostrano. Una sonda che recupera informazione da un layer intermedio può intercettare una traccia debole, una ridondanza, un effetto collaterale del training. Senza intervento causale, il salto da “questa informazione è decodificabile” a “questa informazione guida il calcolo” resta illegittimo.

La seconda cautela è che l’introspezione umana è rumorosa. Molta letteratura classica su inner speech, insight matematico, immaginazione visiva, da Hadamard a Hurlburt, usa resoconti soggettivi che sono preziosi ma non trasparenti. Quando li confrontiamo con le trace testuali di un LLM rischiamo di mettere a confronto due oggetti già filtrati: un resoconto umano di quello che è sembrato accadere e un output artificiale ottimizzato per apparire plausibile.

La terza cautela è che effetti piccoli non sono effetti banali. Molti risultati robusti sulla linguistic relativity weak sono nell’ordine di millisecondi o pochi punti percentuali. Questo non li rende irrilevanti: significa che la lingua agisce come bias di accesso, non come gabbia ontologica. Saltare da effetti piccoli a metafisica forte è errore; liquidarli perché piccoli è errore simmetrico.

Dove si rompe

Linguistic determinism stretto è empiricamente falso. Whorf strong — la lingua determina il pensiero — non sopravvive al test. I bilingui pensano in due lingue senza schizofrenia cognitiva; le traduzioni funzionano (con perdita, mai totale); afasici severi mantengono pensiero non-verbale documentabile (Lecours-Lhermitte 1976, casi clinici classici); animali pensano. Gli esempi originali di Whorf su hopi e tempo sono confutati filologicamente da Malotki 1983.

Pinker over-reach. Pinker 1994 ha banalizzato Sapir-Whorf in modo che ha aiutato a smontare la versione strong ma ha sottovalutato gli effetti reali della linguistic relativity weak documentati dagli anni Duemila. Posizione “language is just a window onto pre-existing thought” e troppo netta. Nel 2007 Pinker stesso sfuma in The Stuff of Thought.

Inner speech non è tutto il pensiero. Hurlburt-Heavey 2006 descriptive experience sampling: solo circa il 25% dei beep coglie inner speech. Il resto e immagini, sensazioni, “unsymbolized thinking”. Hadamard 1945 An Essay on the Psychology of Invention in the Mathematical Field sondaggio fra matematici (Einstein, Polya, Birkhoff): pensiero matematico spesso non-verbale, immagini e sensazioni muscolari, parole solo dopo. Einstein scrive: “Le entita psichiche che sembrano servire da elementi del pensiero sono certi segni e immagini più o meno chiare… Le parole convenzionali sono cercate solo in una seconda fase.” Ridurre il pensiero al linguaggio è errore di copertura.

Bilingual advantage replication crisis. L’idea che essere bilingui dia un vantaggio di funzioni esecutive ha una storia controversa. Bialystok et al. anni Duemila riportavano effetti positivi; Paap-Johnson-Sawi 2014 Journal of Cognitive Psychology: l’effetto è fragile, dipendente dal compito e dalla popolazione, spesso non replicato. La narrazione popolare del “cervello bilingue migliore” è oversold. Linguistic relativity nei bilingui esiste in forma sottile (Marian-Neisser 2000: la lingua dell’intervista influenza quali memorie autobiografiche affiorano), ma non è vantaggio cognitivo generale.

Anti-Whorf da poltrona. Argomenti del tipo “se Sapir-Whorf fosse vera, la traduzione sarebbe impossibile, ma la traduzione è possibile, ergo Sapir-Whorf è falsa” sono sofismi. Sapir-Whorf weak non dice che la traduzione e impossibile; dice che alcune distinzioni sono cognitivamente più disponibili in alcune lingue. La traduzione è possibile con sforzo aggiuntivo per le distinzioni difficili. Ognuno che ha tradotto poesia lo sa.

Equivalenze AI affrettate. Marcate sopra: latent English di Llama non è Sapir-Whorf, CoT non è LOT, multimodal LLM non è pensiero non-verbale alla Einstein. Sono analogie post-hoc, non filiazioni storiche ne equivalenze formali. Confonderle inquina la conversazione tecnica.

Latent English non è una conferma di Whorf. Tentazione: leggere il fenomeno di Wendler 2024 come “prova ingegneristica” della Sapir-Whorf. Errore di classe di affermazione. Sapir-Whorf è una tesi sui parlanti umani, sviluppati dentro una cultura linguistica, esposti per anni alle distinzioni di una lingua naturale, immersi in pratiche quotidiane di socializzazione. Llama-2 è un sistema artificiale addestrato su un corpus testuale prevalentemente inglese in modo non controllato. Il pattern superficiale è simile (lingua dominante → bias rappresentazionale), il meccanismo causale non lo è. Trattare i due come la stessa cosa è equivalenza pericolosa.

Inner speech non è generazione autoregressiva. Tentazione parallela: dire che la generazione token-by-token degli LLM è la versione computazionale dell’inner speech umano. Errore. L’inner speech è opzionale (presente in circa il 25% dei beep di Hurlburt-Heavey), telegrafico, predicativo, accompagnato da componenti non-verbali (immagini, sensazioni). La generazione autoregressiva di un LLM è obbligata, sequenziale, esaustivamente verbale, senza componenti modali. Sono pattern di superficie diversi che condividono solo la sequenzialità.

Mentalese e LLM. L’errore più sottile è dire “gli LLM hanno un loro mentalese” perché hanno rappresentazioni interne strutturate. Il mentalese di Fodor è uno specifico tipo di rappresentazione: simbolica, compositionale, con sintassi combinatoria esplicita. Gli LLM hanno rappresentazioni distribuite in uno spazio vettoriale continuo. Possiamo (speculare-mente) sostenere che il vettore latente “implementa” qualcosa come mentalese — ma allora bisogna esibire la sintassi compositionale come proprietà emergente dimostrata, non assumerla. L’argomento Fodor-Pylyshyn 1988 si applica intatto: senza struttura sintattica esplicita, non c’è mentalese.

Determinismo culturale via lingua. Tentazione di leggere differenze cognitive cross-culturali come dovute solo alla lingua. Lenneberg 1953 lo aveva già avvertito: cultura, ambiente, pratiche sociali, scolarizzazione sono confondenti. L’effetto della lingua, isolato, è tipicamente piccolo. La narrazione “i giapponesi pensano diversamente perché hanno classificatori numerali” è folk linguistics, non scienza.

Inner speech e cognizione: cosa sappiamo davvero

Il quadro empirico dell’inner speech adulto è sorprendentemente sfumato. La narrazione popolare — “tutti pensiamo in parole” — non sopravvive ai dati sperimentali.

Frequenza. Hurlburt-Heavey 2006 e lavori successivi con descriptive experience sampling: in una settimana di beep casuali, l’inner speech occupa circa il 20-30% dei momenti campionati. Il restante 70-80% è immagini sensoriali, sensazioni corporee, “unsymbolized thinking” (pensiero senza forma simbolica esplicita), pensiero emotivo non verbale.

Compiti che lo elicitano. L’inner speech aumenta in compiti di problem solving difficile, pianificazione temporale lunga, auto-regolazione comportamentale, lettura silenziosa, calcolo aritmetico mentale. Cala in compiti percettivi puri, in flusso motorio fluente, in stati emotivi intensi.

Funzioni proposte. Cinque funzioni emergono dalla letteratura: (1) rehearsal — mantenere informazione attiva nella working memory, vedi memoria-working; (2) planning — pianificare sequenze di azioni nel medio termine; (3) self-regulation — istruzioni a se stessi per modificare il comportamento (“calmati”, “concentrati”); (4) monitoring — meta-cognizione, valutazione del proprio sapere e del proprio fare, vedi meta-cognizione; (5) insight — verbalizzazione interna di una intuizione che facilita il fissarla in memoria.

Variabilità individuale. Le persone differiscono enormemente nella prevalenza di inner speech vs altre modalità. Alcune (Hurlburt riporta il caso di “Bob”) quasi mai usano inner speech; altre quasi sempre. La dimensione introspettiva sembra essere un tratto stabile, possibilmente correlato con stile cognitivo e differenze individuali in working memory verbale. Capire questa variabilità è cruciale per non sovra-generalizzare dal proprio caso.

Tre note storiografiche

Sulla “ipotesi” Sapir-Whorf. Sapir e Whorf non hanno mai scritto un articolo congiunto in cui formulino esplicitamente “l’ipotesi”. Il termine “Sapir-Whorf hypothesis” è retroformazione dei recensori del volume Carroll 1956. Sapir, morto nel 1939, non ha mai usato l’espressione. Whorf, morto nel 1941, neppure. La distinzione fra versione strong e weak — linguistic determinism vs linguistic relativity — è introdotta dai commentatori, non dagli autori. Citare “la Sapir-Whorf” come monolite è anacronistico: è una famiglia di tesi, formulate in tempi diversi, da autori diversi, con vincoli empirici diversi.

Sull’eschimese e i nomi della neve. L’esempio più popolare della linguistic relativity nella cultura di massa — gli eschimesi avrebbero centinaia di parole per la neve — è una leggenda nata dopo la morte di Whorf. Whorf nei suoi articoli cita gli eschimesi come parlanti che distinguono “neve che cade”, “neve sul terreno”, “neve trasportata dal vento” con termini diversi: tre o quattro distinzioni, non centinaia. La cifra esagerata si è diffusa per accrezione giornalistica negli anni Sessanta-Settanta. Geoffrey Pullum (linguista a Edimburgo) ha documentato la storia in un saggio del 1989, “The great Eskimo vocabulary hoax”, Natural Language and Linguistic Theory 7:275-281, mostrando che le lingue eschimo-aleut hanno strutture polisintetiche che combinano radici e affissi liberamente, e quindi qualunque radice può generare molte parole derivate — ma questo vale per ogni concetto, non solo per la neve.

Sull’hopi e il tempo. L’esempio centrale di Whorf — la presunta atemporalità dell’hopi — è stato confutato da Malotki 1983 con documentazione filologica estesa. La lingua hopi ha tempi grammaticali, avverbi temporali (“oggi”, “ieri”, “domani”, “adesso”), sistemi di datazione. Whorf aveva lavorato con informatori per corrispondenza, senza mai visitare la riserva hopi, e aveva sovrainterpretato dati limitati. La tesi specifica crolla, ma la tesi generale di linguistic relativity weak resta in piedi su altri esempi — Pormpuraaw, blu russo, mandarino e tempo verticale, piraha e numeri — che hanno superato controlli più rigorosi.

Collegamenti

Modelli mentali — Johnson-Laird sostiene che il ragionamento procede per costruzione e ispezione di modelli, non per regole linguistico-sintattiche. Tesi opposta al LOT di Fodor; il dibattito modelli mentali vs proof theory è parente diretto del dibattito LOT.
Cognizione embodied — Lakoff-Johnson e la conceptual metaphor theory: le metafore linguistiche sono manifestazioni di mappature concettuali corporee più profonde. Posizione intermedia fra Sapir-Whorf weak e LOT: il linguaggio rivela ma non determina.
Theory of mind — la capacità di attribuire stati mentali ad altri richiede inner speech? Il dibattito è aperto. Bambini sordi senza accesso a lingua dei segni precoce mostrano ritardi su false-belief task — evidenza per ruolo del linguaggio nello sviluppo della ToM (de Villiers 2007).
Sviluppo Piaget — Vygotsky vs Piaget sul rapporto fra linguaggio e pensiero in sviluppo: per Piaget il linguaggio segue il pensiero, per Vygotsky lo struttura. Il dibattito storico è cornice di questo capitolo.
Meta-cognizione — il pensare sul pensiero è tipicamente verbale (inner speech come monitor). Connessione diretta con il ruolo strumentale del linguaggio in Vygotsky.
grammatica-universale-chomsky — la posizione chomskiana: lingue diverse in superficie, deep structure universale. Sfondo del rifiuto pinkeriano della Sapir-Whorf.
sapir-whorf — capitolo dedicato alla storia dell’ipotesi e alle sue versioni; questo capitolo la usa come una delle tre tesi distinte.
semantica-distribuzionale — Firth “you shall know a word by the company it keeps”. Ponte verso word2vec ed embedding LLM. Visione del significato compatibile con il latent English di Wendler.
cot-intro (in preparazione) — chain-of-thought come pratica di prompting; questo capitolo lo discute come analogia con LOT, da non confondere con filiazione.
mech-interp-intro (in preparazione) — probing e interpretazione dei layer intermedi; metodologia usata da Wendler 2024.

Una nota su Vygotsky e Piaget

Vale la pena fissare il dibattito Vygotsky-Piaget perché è cornice diretta di questo capitolo (vedi anche sviluppo Piaget). Per Piaget, il bambino sviluppa pensiero logico-operatorio attraverso interazione con il mondo fisico; il linguaggio è epifenomeno, segue il pensiero. Per Vygotsky, il bambino sviluppa pensiero attraverso internalizzazione del linguaggio sociale; il linguaggio struttura il pensiero, non lo segue. I due hanno scritto in anni vicini (Piaget Le langage et la pensée chez l’enfant 1923; Vygotsky Myshlenie i rech 1934) e hanno avuto poca interazione diretta — la traduzione russa di Piaget arriva tardi a Vygotsky, e Vygotsky muore giovane, a 37 anni, di tubercolosi. Il dibattito si svolge prevalentemente postumo per Vygotsky, attraverso le edizioni occidentali del suo lavoro a partire dagli anni Sessanta.

La sintesi moderna è che entrambi avevano colto qualcosa di reale ma parziale. Il pensiero non-verbale precoce (Spelke core knowledge) dà ragione a Piaget contro lo Vygotsky più radicale. Il ruolo strutturante del linguaggio nello sviluppo della meta-cognizione, della pianificazione, dell’auto-regolazione dà ragione a Vygotsky contro il Piaget più radicale. Il dibattito è storiograficamente cornice della discussione moderna su linguaggio e pensiero.

Pensiero non-verbale: un dossier

Il dato che spesso sorprende chi entra in questo dibattito è quanto pensiero non-verbale sia documentato. Una piccola galleria.

Matematici. Hadamard 1945 raccoglie testimonianze. Henri Poincaré (1854-1912, matematico francese): il momento dell’insight di una soluzione matematica è preceduto da incubazione non-verbale, lampo improvviso, verbalizzazione successiva. Albert Einstein scrive a Hadamard: “Le entità psichiche che mi sembrano servire da elementi del pensiero sono certi segni e immagini più o meno chiare… le parole convenzionali sono cercate solo in una seconda fase.” Nikola Tesla descrive di “vedere” macchine in funzione nella sua mente prima di disegnarle. Il pattern è ricorrente nei resoconti introspettivi di matematici e fisici teorici.

Pittori e architetti. Documentazione meno sistematica ma convergente. Le testimonianze di pittori, scultori, architetti su processi creativi sono prevalentemente non-verbali — manipolazione di forme, colori, volumi nell’immaginazione visiva.

Bambini pre-linguistici. Spelke e collaboratori hanno documentato in neonati di pochi mesi aspettative sofisticate su persistenza degli oggetti, numerosità, agentività, contatto causale. Il core knowledge è disponibile prima del linguaggio.

Animali. Cordi caledoniani fabbricano e usano strumenti specifici per estrarre larve dai tronchi; primati risolvono compiti di transitivity (se A>B e B>C, allora A>C); cani inferenza causale di base. Tutto senza linguaggio nel senso umano.

Conclusione: il pensiero non-verbale non è eccezione, è larga parte del cognitivo. Ridurre il pensiero al linguaggio (in nessuna delle accezioni discusse) è errore di copertura.

Note di metodo: come si testa empiricamente la linguistic relativity

La metodologia per testare linguistic relativity weak ha richiesto trent’anni di affinamento dopo la critica di Lenneberg 1953. Il problema: se misuro il pensiero attraverso compiti che richiedono linguaggio, l’effetto della lingua è ovvio per costruzione e non dimostra niente. Per testare un effetto della lingua sul pensiero servono compiti non-linguistici in superficie ma sensibili a distinzioni che la lingua codifica.

Le strategie sperimentali consolidate sono quattro.

Cross-linguistic priming. Si primano i soggetti con stimoli spaziali, percettivi, motori — non linguistici — e si misura come la lingua materna modula la facilitazione. Esempio Boroditsky 2001 mandarino-inglese: priming con stimolo verticale o orizzontale, poi domanda temporale. La lingua non entra mai nello stimolo o nella risposta esplicita; modula solo la velocità di accesso.

Carico cognitivo selettivo. Si chiede al soggetto di eseguire un compito non-linguistico mentre tiene occupato il sistema linguistico interno (ripetere mentalmente una sequenza di numeri o sillabe) o spaziale (ricordare una matrice). Se l’effetto della lingua scompare sotto carico verbale ma resta sotto carico spaziale, è evidenza che il linguaggio è risorsa attiva utilizzata in linea, non struttura percettiva fissa. Vedi Winawer 2007 sul blu russo.

Cross-population con controlli. Si confrontano popolazioni con lingue diverse ma cultura simile (parlanti inglesi e olandesi) o lingue diverse e culture diverse (americani e Pormpuraaw) cercando di isolare l’effetto specificamente linguistico. Mai facile: cultura, ambiente, scolarizzazione, pratiche quotidiane sono confondenti, e Lenneberg aveva ragione a notarlo.

Bilingui come controllo interno. I bilingui che parlano due lingue con codifiche diverse di una distinzione possono essere testati nelle due lingue (Marian-Neisser 2000 sulle memorie autobiografiche russo-inglesi). L’effetto cambia con la lingua dell’intervista, controllando per il soggetto. È il design più pulito quando funziona.

I risultati robusti dopo anni di replicazione sono pochi e specifici: spazio (Levinson, Pormpuraaw), tempo (Boroditsky, mandarino), colore (Winawer, blu russo), numero (Gordon-Pica, piraha-munduruku). In ciascuno l’effetto è piccolo (decine di millisecondi di facilitazione, qualche punto percentuale di accuratezza), modulato dal carico cognitivo, sensibile alla manipolazione sperimentale. Insieme costituiscono il caso empirico per la linguistic relativity weak — una versione molto più sobria della tesi originale di Whorf, ma non vacua.

Sull’inner speech artificiale

Una domanda emergente nel 2025-2026: i large language model con chain-of-thought attivato — Claude con extended thinking, o1 di OpenAI, DeepSeek-R1 — hanno qualcosa che assomiglia funzionalmente all’inner speech umano? La domanda è interessante ma trappolata. Il chain-of-thought è output linguistico esplicito, non rappresentazione interna; l’inner speech umano è opzionale, telegrafico, multimodale. Le proprietà funzionali in comune sono: ambedue sono sequenze linguistiche generate internamente che facilitano problem solving. Le proprietà non in comune sono molte. Trattare il parallelo come analogia funzionale è legittimo; come equivalenza architetturale, no.

Una sintesi

Il rapporto fra linguaggio e pensiero non è un fatto unitario ma una rete di tre questioni distinte. La domanda Sapir-Whorf (la lingua naturale che parli influenza come pensi?) ha risposta empirica articolata: determinism stretto è falso, relativity debole è supportata in forma selettiva. La domanda Fodor (il pensiero ha struttura linguistica sub-personale?) ha risposta filosofica e architetturale: l’argomento dalla compositionalità, produttività, sistematicità è forte, le alternative connessioniste devono spiegare le stesse proprietà diversamente, il dibattito non si chiude. La domanda Vygotsky (il linguaggio è strumento attivo del pensiero individuale?) ha risposta funzionale: l’inner speech esiste, è misurabile, è strumento opzionale ma reale di problem solving e auto-regolazione.

Sull’asse AI, gli LLM hanno reso urgenti riformulazioni di queste domande. Il fenomeno latent English di Wendler 2024 è una manifestazione tecnica di un effetto Whorfiano in un sistema artificiale, ma non è Sapir-Whorf in senso stretto. Il chain-of-thought è una pratica di prompting che esibisce parallelismi concettuali con il LOT, ma non è language of thought in senso fodoriano. La generazione autoregressiva token-by-token ha somiglianze di superficie con l’inner speech, ma non è inner speech vygotskijano.

Tenere distinte le classi di affermazione — analogia, filiazione, equivalenza, teorema — è prerequisito per non scivolare in equivalenze affrettate. Il capitolo ha cercato di marcarle dove serve.

Una nota su “pensare” e “linguaggio”

Una difficoltà che attraversa tutto il capitolo è terminologica. “Pensare” e “linguaggio” sono parole quotidiane che la disciplina usa con accezioni tecniche specifiche, e a volte le stesse parole denotano cose diverse in autori diversi.

“Pensare” può significare: avere stati mentali con contenuto (cogitare); risolvere un problema (problem solving); avere una rappresentazione cosciente (deliberare, vedere coscienza access phenomenal); ragionare formalmente (reasoning); intrattenere immagini, sensazioni, ricordi. Le diverse accezioni hanno relazioni diverse con il linguaggio. Ragionare formalmente è plausibilmente molto vicino al linguaggio (Fodor); cogitare in senso lato include pensiero non-verbale (Hadamard sui matematici); intrattenere ricordi episodici è prevalentemente sensoriale-immaginativo.

“Linguaggio” può significare: una specifica lingua naturale (italiano, mandarino); il sistema cognitivo umano del linguaggio (faculty of language nel senso chomskiano); la capacità di comunicare in generale; la struttura simbolico-compositionale (Fodor LOT); il flusso di parole interne (inner speech). Le diverse accezioni hanno predicati diversi: si può imparare una specifica lingua, ma non “il linguaggio” in generale; si può perdere l’inner speech (in alcune patologie) mantenendo intatta la faculty of language.

Quando si discute “il rapporto fra linguaggio e pensiero” senza specificare le accezioni, si rischia di parlare di cose diverse. Buona pratica: a ogni asserzione, esplicitare quale “linguaggio” e quale “pensiero” si intende. Il capitolo ha cercato di farlo dove la confusione era più probabile.

Per andare oltre

Whorf, Benjamin Lee (1956). Language, Thought, and Reality: Selected Writings of Benjamin Lee Whorf, ed. John B. Carroll. MIT Press. Antologia postuma. Da leggere per cogliere la voce dell’autore prima del cumulo di critiche e riletture. Saggi consigliati: “Science and Linguistics” (1940), “Languages and Logic” (1941).
Fodor, Jerry A. (1975). The Language of Thought. Harvard University Press. Esposizione originale del LOT. Argomento dalla compositionalità e dalla produttività. Tesi forte ma filosoficamente disciplinata. Per il bilancio cinquant’anni dopo, LOT 2: The Language of Thought Revisited (2008, Oxford).
Boroditsky, Lera (2011). “How language shapes thought”, Scientific American 304(2):62-65. Sintesi divulgativa con esempi (Pormpuraaw, mandarino time, blu russo). Per chi vuole la rassegna empirica della nuova ondata senza cimentarsi con la letteratura tecnica.
Levinson, Stephen C. (2003). Space in Language and Cognition: Explorations in Cognitive Diversity. Cambridge University Press. Programma del Max Planck di Nijmegen. Caso paradigmatico di linguistic relativity weak documentata sperimentalmente.
Wendler, Chris; Veselovsky, Veniamin; Monea, Giovanni; West, Robert (2024). “Do Llamas Work in English? On the Latent Language of Multilingual Transformers”, arXiv:2402.10588. Per il dato AI più citato del 2024 sul tema. Lettura tecnica ma accessibile.