Competenze innate vs apprese: la grammatica universale di Chomsky
Nel 1959 un linguista del MIT di trent’anni pubblica una recensione di sessanta pagine. Bersaglio: il libro più atteso del leader della psicologia americana. Tre anni dopo, il behaviorismo non governa più la teoria del linguaggio. Sessantaquattro anni dopo, lo stesso linguista, novantaquattrenne, firma un editoriale sul New York Times contro ChatGPT. La storia tra le due date è la storia della grammatica universale.
Apertura
Sezione intitolata “Apertura”Noam Chomsky nasce a Philadelphia nel 1928. Studia linguistica con Zellig Harris all’Università della Pennsylvania, poi va al MIT come junior fellow di Harvard. Nel 1957, a ventinove anni, pubblica un libretto di centoventi pagine: Syntactic Structures, presso l’editore olandese Mouton dell’Aia. Il libro mostra che i modelli a stati finiti — gli automi che andavano per la maggiore in informatica e linguistica computazionale — non possono generare le frasi grammaticali dell’inglese, e propone un’alternativa con regole di trasformazione. La frase di prova, divenuta celebre, è colorless green ideas sleep furiously: sintatticamente perfetta, semanticamente assurda, ergo grammaticalità e probabilità sono dimensioni distinte.
Due anni dopo, Chomsky pubblica su Language 35(1) la recensione di Verbal Behavior, il libro del 1957 in cui Burrhus Frederic Skinner — il fondatore del comportamentismo radicale a Harvard, l’uomo che con i piccioni nelle skinner box aveva spiegato l’apprendimento — sosteneva di poter ricondurre il linguaggio umano a stimolo, risposta, rinforzo. La recensione di Chomsky è una demolizione metodica: nessuno dei concetti tecnici di Skinner (stimolo, risposta, rinforzo) sopravvive al trasloco dalla skinner box al parlato umano senza diventare metafora vacua. La produttività linguistica — il fatto che ogni parlante produca e capisca frasi mai sentite prima — non si riduce a generalizzazione associativa. La review viene letta a posteriori come momento fondante della cognitive revolution: la mente smette di essere una scatola nera comportamentista e diventa un sistema di rappresentazioni e regole.
Nei trent’anni successivi Chomsky costruisce un edificio teorico in tre piani: Aspects of the Theory of Syntax (MIT Press, 1965) introduce la distinzione fra deep structure e surface structure; Lectures on Government and Binding (Foris, 1981) propone Principles & Parameters, un’architettura in cui le lingue del mondo si ottengono setando un piccolo numero di parametri binari su un nucleo universale; The Minimalist Program (MIT Press, 1995) riduce tutto a una singola operazione, Merge, che combina due unità in una struttura, più i vincoli di interfaccia con sistemi sensori-motori e concettuali. L’idea cardine, costante attraverso le tre fasi, è che esista una grammatica universale (UG): un dispositivo specifico della specie umana, geneticamente fondato, che spiega come i bambini imparino la lingua a cui sono esposti senza che nessuno gliela insegni esplicitamente, e perché le lingue del mondo, per quanto diverse in superficie, condividano vincoli profondi.
L’8 marzo 2023 Chomsky, ormai novantaquattrenne, firma sul New York Times un editoriale insieme a Ian Roberts (sintatticista a Cambridge) e Jeffrey Watumull (filosofo e matematico, già a Oceanit, oggi a Mercurius AI). Il titolo è The False Promise of ChatGPT. La tesi: i grandi modelli linguistici non sono modelli del linguaggio umano, sono pappagalli stocastici che predicono il prossimo token e imparerebbero indifferentemente lingue umane e lingue marziane impossibili. Pochi mesi dopo Steven Piantadosi, psicolinguista bayesiano a Berkeley, replica con un articolo intitolato Modern language models refute Chomsky’s approach to language: gli LLM dimostrano che il linguaggio è apprendibile da puro input distributivo, dunque l’argomento centrale della grammatica universale crolla. Il dibattito tra le due parti, vivo nel 2026 quando questo libro viene scritto, riapre questioni che la disciplina sembrava aver archiviato.
Questo capitolo ricostruisce la grammatica universale come tesi scientifica: cosa afferma, su quali argomenti si regge, quali contro-tradizioni si sono formate, e cosa significa — onestamente — il successo empirico degli LLM per quel programma di ricerca.
Perché questo capitolo
Sezione intitolata “Perché questo capitolo”Tre ragioni. Una storica, una metodologica, una di igiene per chi lavora con sistemi linguistici artificiali.
La ragione storica è che la grammatica universale è il programma di ricerca dominante in linguistica teorica per circa cinquant’anni, dal 1965 ai primi anni Duemila. La sua influenza si estende oltre la linguistica: filosofia della mente (Fodor), psicologia dello sviluppo (Pinker), neuroscienze (Friederici, Poeppel), informatica (i parser context-free dei primi compilatori, anche se la linea è indiretta). Senza Chomsky non si capiscono i decenni in cui linguistica computazionale, NLP simbolico, parsing formale stanno saldamente nel campo dei sistemi a regole. La transizione verso modelli statistici negli anni Novanta e poi neurali negli anni Duemila si misura come distanza dal programma chomskyano. Conoscere il programma è prerequisito per leggere quella distanza.
La ragione metodologica è che la disputa innatismo-empirismo sul linguaggio è il banco di prova classico per le classi di affermazioni. Si tende a confondere quattro cose distinte: (a) gli umani hanno qualche bias cognitivo innato per imparare il linguaggio, (b) gli umani hanno un modulo dedicato specificamente al linguaggio, (c) il modulo include una grammatica universale specifica con vincoli formali precisi, (d) gli LLM apprendono come gli umani. Si possono accettare (a) e rifiutare (b) (posizione moderna mainstream); si possono accettare (a) e (b) ma rifiutare (c) (revisioni post-Minimalist soft); si può rifiutare (c) senza accettare (d) (Tomasello, Goldberg). Il dibattito Chomsky-vs-Piantadosi del 2023 si gioca su (c) e (d), ma viene spesso letto come dibattito su (a) e (b). Distinguere è la differenza tra una discussione utile e una rissa.
La ragione di igiene per AI è che dal 2022 in poi è diventato comune leggere “ChatGPT ha confutato Chomsky” oppure “gli LLM sono stochastic parrots, Chomsky aveva ragione”. Entrambe le formule sono caricature. Gli LLM imparano qualcosa del linguaggio da puro testo — dato. Il bambino umano impara il linguaggio con quattro o cinque ordini di grandezza di parole sentite in meno, in interazione embodied multimodale — anche dato. Cosa segua dall’una e dall’altra cosa per la disputa UG dipende da quale tesi specifica si sta testando. Gli LLM non discendono dalla grammatica universale: sono empiristi e distribuzionalisti per costruzione, e la loro filiazione tecnica risale a tradizioni che Chomsky ha esplicitamente combattuto (Firth, Harris, distributional semantics, connessionismo). Confondere analogia comportamentale con filiazione tecnica produce equivalenze pericolose. La sezione “Eredità oggi” del capitolo presenta il dibattito attuale; la sezione “Dove si rompe” elenca le equivalenze da bloccare.
Quattro principi che il capitolo fissa:
- L’innatismo lato è quasi consenso. Gli umani hanno qualche bias di apprendimento dedicato (sensibilità a regolarità distribuzionali, preferenza per struttura gerarchica, finestra critica). Anche Tomasello accetta questo. Quello che è contestato è la specificità.
- Il nativismo grammaticale specifico è contestato. La poverty of stimulus classica è stata indebolita empiricamente. Il modulo del linguaggio dissociato dal resto della cognizione è meno chiaro di quanto il programma UG abbia sostenuto.
- Recursion come universale: dibattito ancora aperto, post-Pirahã.
- LLM e UG: l’esistenza degli LLM cambia il paesaggio dell’argomento, ma non lo risolve. Riformula la poverty of stimulus in termini di efficienza dei dati, non solo di sufficienza.
Contesto: la traiettoria 1957-2024
Sezione intitolata “Contesto: la traiettoria 1957-2024”1957 — Skinner, Verbal Behavior. Burrhus Frederic Skinner (1904-1990, psicologo americano a Harvard, il principale teorico del comportamentismo radicale) pubblica un libro che applica al linguaggio gli stessi schemi di rinforzo che aveva studiato sui piccioni. Concetti chiave: mand (richiesta), tact (descrizione), autoclitic (commento sul proprio comportamento verbale).
1957 — Chomsky, Syntactic Structures. Mouton, L’Aia. Chomsky mostra che le grammatiche a stati finiti non generano l’inglese: in particolare, non gestiscono dipendenze annidate del tipo if-then incassate in either-or. Propone le grammatiche trasformazionali. Il libro è breve, tecnico, ma rapidamente diventa centrale in linguistica e informatica.
1959 — Chomsky, review di Skinner. Language 35(1):26-58. Il colpo metodologico decisivo. Chomsky mostra che la terminologia comportamentista, una volta applicata al linguaggio umano, diventa o falsa o vacua. Esempio: chiamare “stimolo” qualunque cosa nel mondo cui un parlante reagisca verbalmente svuota il termine del contenuto operazionale che aveva nelle skinner box.
1960s — la rivoluzione cognitiva. George Miller (psicologo a Princeton, The Magical Number Seven 1956), Jerome Bruner (Harvard), Herbert Simon e Allen Newell (Carnegie Mellon) costruiscono in parallelo il programma cognitivista. Chomsky ne è una voce centrale per il versante linguistico.
1965 — Chomsky, Aspects of the Theory of Syntax. MIT Press. Standard Theory. Distinzione deep structure (struttura sottostante che cattura le relazioni grammaticali e la semantica) vs surface structure (struttura superficiale prodotta dalle trasformazioni). Distinzione competence (la conoscenza tacita del parlante ideale) vs performance (cosa effettivamente diciamo, con errori, esitazioni, limiti di memoria). La grammatica è teoria della competence.
1967 — Lenneberg, Biological Foundations of Language. Eric Lenneberg (1921-1975, psicologo tedesco-americano, Cornell), Wiley. Argomento per la base biologica del linguaggio: maturazione cerebrale, lateralizzazione, sviluppo correlato a milestone fisici, finestra critica per l’acquisizione (l’idea che oltre una certa età, presumibilmente intorno alla pubertà, l’acquisizione di una prima lingua diventa quasi impossibile).
1975 — Royaumont, dibattito Piaget-Chomsky. Conferenza all’Abbaye de Royaumont (Francia), pubblicata 1979 a cura di Massimo Piattelli-Palmarini. Jean Piaget (1896-1980, psicologo svizzero, fondatore dell’epistemologia genetica) sostiene una posizione costruttivista: il linguaggio emerge dall’intelligenza sensori-motoria, non da un dispositivo dedicato. Chomsky risponde: i meccanismi generali di apprendimento non bastano a spiegare l’acquisizione. Il dibattito è rimasto come testo classico del confronto innatismo-costruttivismo.
1975 — Fodor, The Language of Thought. Jerry Fodor (1935-2017, filosofo della mente, MIT poi Rutgers), Harvard University Press. Il pensiero ha struttura sintattica e compositionale, sub-personale, innata. Tesi indipendente da UG ma compatibile e spesso citata insieme. Già trattata in linguaggio come strumento del pensiero.
1977 — Curtiss, Genie. Susan Curtiss (linguista UCLA), Academic Press. Studio del caso Genie, adolescente californiana isolata in casa fino a tredici anni dal padre. Liberata nel 1970, sottoposta a riabilitazione linguistica. Risultato: recupera vocabolario, ma la sintassi adulta non viene mai raggiunta. Letto come evidenza di finestra critica. Caveat etici e metodologici (caso singolo, condizioni traumatiche complessive).
1981 — Chomsky, Lectures on Government and Binding. Foris. Principles & Parameters. La variazione tra le lingue si riduce a parametri binari: head-initial vs head-final (in italiano e inglese il verbo precede l’oggetto, in giapponese e turco lo segue), pro-drop (in italiano si dice “parla”, in inglese serve “he speaks”), e così via. Il bambino arriva al mondo con i principi e seta i parametri sull’esperienza.
1981 — Bickerton, Roots of Language. Derek Bickerton (1926-2018, linguista alle Hawai’i), Karoma. Bioprogram Hypothesis: i bambini esposti a un pidgin (lingua di contatto semplificata, con grammatica minima, prodotta da adulti che non condividono una lingua) generano in una generazione un creolo con grammatica complessa. Bickerton interpreta questo come evidenza che la grammatica complessa è generata internamente dai bambini quando l’input è povero. Critiche successive: i casi reali sono più graduali, l’input è più ricco di quanto Bickerton sostenne.
1986 — Rumelhart-McClelland, past tense paper. David Rumelhart (1942-2011, psicologo cognitivo a UCSD) e James McClelland (allora CMU, oggi Stanford) pubblicano in Parallel Distributed Processing, vol. 2, MIT Press, un modello connessionista a due livelli che impara il passato dei verbi inglesi (regolari come walked, irregolari come went, sovra-regolarizzazioni come goed) senza regole esplicite, solo con apprendimento associativo. Il modello mostra anche la curva U-shaped tipica dei bambini (prima dicono went, poi goed, poi di nuovo went).
1988 — Pinker-Prince, critica al past tense. Steven Pinker (1954-, allora MIT, oggi Harvard) e Alan Prince (Rutgers), Cognition 28:73-193. Demolizione tecnica del modello Rumelhart-McClelland: non riproduce i dati con la fedeltà che dichiara, fallisce su classi specifiche di verbi, ha bisogno di trucchi addestrativi. La controversia rules vs statistics ne esce non risolta ma riaperta.
1990 — Gopnik, famiglia KE. Myrna Gopnik (linguista a McGill), Nature 344:715. Una famiglia londinese in cui circa metà dei membri presenta un disturbo specifico del linguaggio (Specific Language Impairment, SLI): difficoltà nelle inflessioni morfologiche, struttura sintattica complessa, accordi grammaticali. Gopnik lo legge come evidenza di un modulo grammaticale dissociabile. Successivi: Lai, Fisher e colleghi Nature 413 (2001) identificano la mutazione FOXP2. Inizialmente “il gene del linguaggio”. Negli anni successivi il quadro si complica: FOXP2 è espresso in molti tessuti, e il deficit della famiglia KE coinvolge anche capacità non strettamente linguistiche (motorie, memoria procedurale).
1994 — Pinker, The Language Instinct. William Morrow. Sintesi popolare a sostegno di UG e LOT. Argomenti per il pubblico: i bambini pre-linguistici hanno aspettative cognitive sofisticate, gli afasici severi mantengono il pensiero, la traduzione fra lingue è possibile. Posizione: il linguaggio è un istinto, una capacità biologica come la visione binoculare.
1995 — Chomsky, The Minimalist Program. MIT Press. Semplificazione radicale: la facoltà del linguaggio si riduce a Merge (un’operazione che prende due unità e le combina in una nuova unità) più i vincoli imposti dalle interfacce con sistemi cognitivi adiacenti (sensori-motori per la fonologia, concettuali-intenzionali per la semantica). Tutto il resto è esplicabile come ottimizzazione di queste interfacce.
1995 — Goldberg, Constructions. Adele Goldberg (allora UC San Diego, oggi Princeton), University of Chicago Press. Construction Grammar: le costruzioni — pairing di forma e significato, dalla parola al pattern frasale (es. la ditransitive construction X causa Y a ricevere Z) — sono unità primarie del sapere linguistico, non regole sintattiche astratte separate dalla semantica. Programma alternativo non chomskyano.
2002 — Hauser-Chomsky-Fitch, Faculty of Language. Marc Hauser (allora Harvard, biologo evoluzionista), Noam Chomsky, W. Tecumseh Fitch (allora Harvard, oggi Vienna, biologo evoluzionista del linguaggio). Science 298:1569-1579. Distinzione FLB (Faculty of Language Broad: tutto ciò che la cognizione linguistica usa, inclusi sistemi sensori-motori e concettuali condivisi con altre specie) vs FLN (Faculty of Language Narrow: la parte specie-specifica e dominio-specifica, plausibilmente solo recursion). Spostamento parziale rispetto alla UG classica: meno componenti specie-specifiche, più vincoli generali.
2002 — Pullum-Scholz, contro la poverty of stimulus. Geoffrey Pullum (Edinburgh) e Barbara Scholz (1947-2011), The Linguistic Review 19(1-2):9-50. Quattro criteri formali per misurare la PoS, applicati ai casi storici di Chomsky (auxiliary inversion in particolare). Risultato: nessuno dei casi presentati come PoS regge l’analisi empirica sui corpora reali (CHILDES). Argomento metodologico: la PoS richiede misure quantitative, non solo intuizioni.
2003 — Tomasello, Constructing a Language. Michael Tomasello (allora co-direttore Max Planck Leipzig, oggi Duke). Harvard University Press. Sintesi del programma usage-based: i bambini imparano via item-based learning (pattern specifici prima, generalizzazione dopo), joint attention, intention reading, statistical learning, analogia. Niente UG specifica: capacità cognitive generali bastano. Tomasello ha decenni di lavoro sperimentale su bambini e grandi scimmie a sostegno.
2005 — Everett, Pirahã. Daniel Everett (linguista, già missionario evangelico, oggi Bentley University), Current Anthropology 46(4):621-646. La lingua pirahã (parlata da circa quattrocento persone in Amazzonia, dove Everett ha vissuto per anni) sembra mancare di clausole subordinate — quindi sarebbe controesempio alla recursion universale di HCF 2002. Everett interpreta la mancanza come effetto di un vincolo culturale (immediacy of experience principle).
2005 — Pinker-Jackendoff, replica a HCF. Steven Pinker e Ray Jackendoff (Tufts, linguista generativo), Cognition 95:201-236. Risposta a HCF 2002: troppo poco viene assegnato a FLN. Anche fonologia, parola, e altri elementi sono specie-specifici. Discussione interna al campo generativo.
2009 — Nevins-Pesetsky-Rodrigues, contro Everett. Andrew Nevins (allora Harvard, oggi UCL), David Pesetsky (MIT), Cilene Rodrigues (PUC-Rio). Language 85(2):355-404. Riesame dei dati pirahã: trovano costruzioni che soddisfano criteri di subordinazione. Il caso resta contestato. Everett risponde, lo scambio continua.
2018 — Hartshorne-Tenenbaum-Pinker, finestra critica L2. Joshua Hartshorne (Boston College), Joshua Tenenbaum (MIT), Steven Pinker. Cognition 177:263-277. Test online massivo (670.000 partecipanti) sulla grammatica inglese L2. Risultato: la finestra in cui un secondo apprendimento può raggiungere livelli quasi-nativi si chiude verso i 17.4 anni. Evidenza quantitativa robusta per una versione del critical period.
2023 — il debate LLM. Chomsky-Roberts-Watumull NYT 8 marzo. Piantadosi Lingbuzz (poi volume Routledge 2024). Repliche di Roni Katzir (Tel Aviv) e di Jordan Kodner-Sarah Payne-Jeffrey Heinz (Stony Brook). Il punto centrale: cosa segua dal successo empirico degli LLM per il programma UG.
L’intuizione: tre angoli sulla grammatica universale
Sezione intitolata “L’intuizione: tre angoli sulla grammatica universale”Angolo 1: la poverty of stimulus
Sezione intitolata “Angolo 1: la poverty of stimulus”Considera un bambino italiano di tre o quattro anni. Ha sentito qualche milione di parole, prodotte da genitori, fratelli, asilo, televisione. Da quell’input deve inferire la grammatica italiana, che è un sistema astratto con regole come “il soggetto può essere nullo se la persona è recuperabile dal verbo”, “le clitiche pronominali precedono il verbo finito ma seguono l’infinito”, “l’accordo passato avviene con l’ausiliare essere e con l’oggetto se questo precede”. Nessuno gli ha mai esplicitato queste regole. Le sue correzioni dai genitori sono per lo più semantiche (“non si dice ‘mangio scarpa’, le scarpe non si mangiano”) o pragmatiche (“dillo per favore”), raramente sintattiche, e quando sintattiche non sono pedagogicamente sistematiche.
L’argomento Chomsky: l’input è insufficiente per inferire la grammatica con un meccanismo di apprendimento generale (induzione statistica, generalizzazione, regressione). Lo spazio delle ipotesi compatibili con i dati è troppo grande. Quindi qualcosa deve restringerlo a priori. Quel qualcosa è la grammatica universale: un insieme di vincoli innati che riducono lo spazio delle ipotesi prima ancora che il bambino veda un solo esempio. Il bambino non impara la grammatica nel senso pieno; seta i parametri di una grammatica già parzialmente predeterminata.
L’esempio classico, formulato da Chomsky in Rules and Representations (Columbia University Press, 1980), è la subject-auxiliary inversion in domande con relative clause embedded. Si parte da:
the boy who is laughing is happy.Per fare la domanda “il ragazzo che sta ridendo è felice?” il parlante inglese genera:
is the boy who is laughing __ happy?Sposta la seconda is — quella della clausola principale — in posizione iniziale. Non sposta la prima — quella della relative clause. L’ipotesi alternativa, lineare, sarebbe “sposta la prima is che incontri da sinistra”; produrrebbe la frase agrammaticale *is the boy who __ laughing is happy?. L’ipotesi corretta è strutturale: sposta la is della clausola principale, dovunque si trovi linearmente.
Chomsky: il bambino arriva all’ipotesi strutturale fin dall’inizio, mai prova quella lineare. Ma esempi di domande con relative clause embedded sono rari nell’input dei bambini. Quindi la preferenza strutturale non viene appresa dall’input — è innata.
Angolo 2: la base biologica
Sezione intitolata “Angolo 2: la base biologica”Il secondo angolo è biologico. Il linguaggio nel Homo sapiens presenta tutti i marker di una capacità biologica specie-specifica: emerge in modo regolare in tutti i bambini con esposizione minima, segue un calendario di maturazione (lallazione a sei mesi, parole singole a un anno, frasi a due, esplosione lessicale a due-tre anni), è correlato con strutture neurali specifiche (aree di Broca e Wernicke nell’emisfero sinistro per la maggioranza dei destrimani), si compromette in modo selettivo in afasie focali. Lenneberg 1967 raccoglie sistematicamente queste osservazioni.
Argomento di analogia: la visione binoculare nei mammiferi non viene “imparata” nel senso pieno, è un’organizzazione neurale predeterminata che si calibra sull’esperienza visiva durante una finestra critica. Se il piccolo gatto è privato della visione in un occhio durante le prime settimane, l’organizzazione corticale non si recupera nemmeno se l’occhio viene poi liberato (Hubel-Wiesel, anni Sessanta). Il linguaggio, sostiene Chomsky, è organizzato in modo analogo: una facoltà biologica con calendario di maturazione, finestra critica, correlati neurali. Il caso Genie e i dati sull’acquisizione della seconda lingua suggeriscono una finestra simile.
Marcatore di classe: questa è analogia strutturale, non filiazione. Nessuno ha dimostrato che la grammatica universale sia organizzata corticalmente come la visione binoculare. L’analogia ispira il programma di ricerca, non lo conclude.
Angolo 3: il puzzle della creatività linguistica
Sezione intitolata “Angolo 3: il puzzle della creatività linguistica”Il terzo angolo, meno tecnico ma centrale per Chomsky fin dagli anni Cinquanta, è la produttività del linguaggio. Ogni parlante umano produce e capisce ogni giorno frasi che non ha mai sentito prima. Il numero di frasi grammaticali di una lingua come l’italiano è infinito (per la sola ricorsione delle clausole subordinate). Il numero di frasi che un parlante incontra in una vita è finito, dell’ordine di centinaia di milioni di occorrenze. Il rapporto è infinito su finito.
Argomento Chomsky 1959 (e ribadito ovunque): nessun meccanismo di apprendimento per generalizzazione associativa può spiegare la produttività. La generalizzazione associativa estende l’insieme degli stimoli familiari a stimoli simili; non genera infinite strutture nuove con vincoli combinatori specifici. Solo un sistema con regole composizionali — un sistema ricorsivo — può farlo. Il sistema deve essere innato perché lo spazio delle ipotesi compatibili con i dati è troppo ampio per restringersi solo dall’esposizione.
Marcatore di classe: l’argomento dalla creatività è deduttivo, non empirico in senso stretto. Si appoggia sull’osservazione comune (la produttività) e su un’inferenza a-priori (solo regole composizionali la spiegano). I critici post-2010 — incluso il campo neurale — argomentano che le reti neurali con sufficiente capacità approssimano sistemi composizionali con buona accuratezza, anche se senza l’elegante chiusura formale di una grammatica generativa. La controversia è ancora aperta sul piano teorico: Marcus 2003 (NYU) e Lake et al. 2017 (NYU) sostengono che le reti neurali falliscono test di compositional generalization come SCAN e COGS; gli esperimenti più recenti (2023-2024) mostrano che i modelli flagship migliorano molto su questi benchmark, ma non li risolvono.
La meccanica della grammatica universale
Sezione intitolata “La meccanica della grammatica universale”Tre componenti centrali nel programma classico (1965-1995), poi rivisti dal Minimalist Program.
Componente 1: Language Acquisition Device e Principles & Parameters
Sezione intitolata “Componente 1: Language Acquisition Device e Principles & Parameters”Nella formulazione Aspects (1965), il bambino è dotato di un Language Acquisition Device (LAD): un dispositivo che riceve in input dati linguistici primari (frasi della lingua a cui è esposto) e produce in output una grammatica completa di quella lingua. L’LAD contiene una grammatica universale: lo spazio dei sistemi grammaticali umanamente possibili.
Nella riformulazione Government and Binding (1981), l’UG si articola in principi universali invarianti e parametri binari setati dall’esperienza. Esempi di parametri:
- Head directionality: la testa di un sintagma precede o segue i complementi? Inglese e italiano: precede (
mangia la mela,eats the apple). Giapponese, turco, coreano: segue (giapponeseringo o taberuletteralmente mela accusativo mangia). - Pro-drop: il soggetto pronominale può essere omesso? Italiano e spagnolo: sì (
parla,habla). Inglese e francese: no (he speaks,il parle). - Wh-movement: le parole interrogative si spostano a inizio frase? Inglese sì (
what did you eat?). Cinese mandarino: parzialmente in situ (ni chi le shenme?letteralmente tu mangiare PERF cosa?).
Il bambino arriva al mondo con i principi e i parametri non setati. L’esposizione a poche frasi cruciali fornisce l’evidenza per setarli. Il setting di un parametro determina molteplici tratti correlati della lingua, in modo che l’esperienza di poche frasi spieghi il padroneggiamento di costruzioni mai viste. Questa è la promessa empirica di P&P: spiegare l’acquisizione veloce con poco input.
Componente 2: Merge e recursion (Minimalist Program e HCF 2002)
Sezione intitolata “Componente 2: Merge e recursion (Minimalist Program e HCF 2002)”Nel Minimalist Program (1995), Chomsky semplifica radicalmente. Una sola operazione strutturale: Merge, che prende due elementi A e B e produce l’insieme {A, B}. Applicata ricorsivamente, Merge genera tutta la struttura sintattica.
Step 0: theStep 1: Merge(the, boy) = {the, boy} — costituente "the boy"Step 2: Merge(is, happy) = {is, happy} — costituente "is happy"Step 3: Merge({the, boy}, {is, happy}) = {{the, boy}, {is, happy}} — la frase "the boy is happy"La ricorsività di Merge è il cuore della recursion: l’output di Merge può diventare input di un altro Merge, senza limite formale. È questo che permette di produrre frasi annidate di profondità arbitraria (the cat that the dog that the boy chased bit ran away).
In HCF 2002 la recursion diventa il candidato per il contenuto specifico della FLN (Faculty of Language Narrow): la parte specie-specifica e dominio-specifica della facoltà linguistica. Tutto il resto — sistemi sensori-motori per la fonologia, sistemi concettuali per la semantica — è plausibilmente condiviso con altre specie e con altri domini cognitivi (FLB, Faculty of Language Broad). HCF presentano questo come ipotesi, non come tesi consolidata.
Componente 2b: deep structure, surface structure, trasformazioni
Sezione intitolata “Componente 2b: deep structure, surface structure, trasformazioni”Nella formulazione di Aspects (1965), prima del Minimalist Program, l’architettura aveva due livelli rappresentazionali distinti.
- Deep structure: la rappresentazione astratta che cattura le relazioni grammaticali fondamentali (chi è il soggetto, chi l’oggetto, quale verbo regge cosa) e fornisce l’input alla componente semantica. È generata dalle regole di struttura sintagmatica (X-bar).
- Surface structure: la rappresentazione superficiale, prodotta applicando alla deep structure una sequenza di trasformazioni (movimento, cancellazione, inserimento). È l’input alla componente fonologica.
Esempio canonico: la passivizzazione. Le frasi attiva e passiva condividono la stessa deep structure (Mario ha letto il libro) ma differiscono nella surface structure (il libro è stato letto da Mario). Una trasformazione di movimento sposta il libro dalla posizione di oggetto alla posizione di soggetto; una di inserimento aggiunge essere e il by-phrase. La differenza tra le due frasi è sintattica, non semantica: hanno (approssimativamente) lo stesso significato.
Le trasformazioni sono state lo strumento centrale del programma fino al Minimalist Program, che le ha riformulate riducendole essenzialmente a varianti di Merge (Internal Merge per il movimento, External Merge per la composizione). Per la comprensione storica della grammatica generativa, deep structure e trasformazioni sono concetti irrinunciabili. Nei manuali post-1995 il loro ruolo si attenua, ma la traccia rimane in ogni descrizione moderna del movimento sintattico.
Componente 3: competence vs performance
Sezione intitolata “Componente 3: competence vs performance”La grammatica chomskyana è teoria della competence: la conoscenza tacita che un parlante ideale ha della propria lingua. Non è teoria della performance: cioè di cosa il parlante effettivamente produce in tempo reale, con esitazioni, false partenze, errori, limiti di memoria di lavoro. La distinzione è centrale per come l’UG va testata: contro l’intuizione di grammaticalità del parlante nativo (is the boy who is laughing happy? accettabile, *is the boy who laughing is happy? no), non contro la frequenza di occorrenza nei corpora.
Conseguenza metodologica importante: corpus statistics da soli non confutano UG, perché UG è teoria della struttura possibile, non della distribuzione effettiva. Quando i critici (e gli LLM) lavorano su distribuzioni di corpus, lavorano sulla performance. Quando UG predice strutture grammaticali, predice sulla competence. La distanza tra i due piani è argomento ricorrente in tutte le repliche generative agli LLM.
Esempio 1: poverty of stimulus su auxiliary inversion (PoS classica e contro-critica)
Sezione intitolata “Esempio 1: poverty of stimulus su auxiliary inversion (PoS classica e contro-critica)”Contesto. Un bambino inglese di tre anni produce per la prima volta una domanda del tipo “is the boy who is laughing happy?”. Chomsky 1980 sostiene che il bambino non ha sentito abbastanza esempi del genere per indurre la regola strutturale via apprendimento generale. Quindi la preferenza strutturale (sposta l’aux della clausola principale) è innata.
Argomento Chomsky in dettaglio:
- Lo spazio delle ipotesi compatibili con i dati declarativi del tipo “the boy who is laughing is happy” include almeno due regole: lineare (sposta la prima is) e strutturale (sposta la is della main clause).
- Senza dati di domande con relative clause embedded, il bambino non può discriminare tra le due ipotesi.
- Tali domande sono molto rare nell’input dei bambini.
- Quindi un bias innato verso la regola strutturale è necessario.
Contro-critica Pullum-Scholz 2002:
- Quanto rare? Contate. I corpora CHILDES (database aperto di interazioni adulto-bambino) contengono qualche occorrenza di domande con relative clause embedded e di costruzioni strutturalmente analoghe (yes-no questions con embedded clauses).
- Più importante: il bias verso la struttura gerarchica può essere generale, non specificamente grammaticale. Tutti i bambini umani, esposti a sequenze, preferiscono ipotesi strutturali. Il bias esiste ma non è contenuto specificamente grammaticale.
- L’argomento PoS richiede misure quantitative su quanto input è necessario per indurre la regola corretta con bias generali. Pullum-Scholz: la letteratura non fornisce queste misure.
Marcatore di classe: questa è disputa empirica aperta, non risolta. Pullum-Scholz indeboliscono la versione classica della PoS, ma non la falsificano. La risposta dei generativisti (Berwick, Pietroski e altri) è che il problema non è solo quantitativo, è qualitativo: certi bias strutturali devono comunque essere presenti, e quelli sono il contenuto di UG.
Esempio 2: Pirahã e la sfida alla recursion universale
Sezione intitolata “Esempio 2: Pirahã e la sfida alla recursion universale”Contesto. Daniel Everett vive con i Pirahã in Amazzonia per oltre vent’anni a partire dagli anni Settanta. Nel 2005 pubblica su Current Anthropology un articolo che sostiene che il pirahã manca di clausole subordinate (le clausole annidate dentro un’altra clausola, tipo Mario sa [che Lucia è partita]). Senza subordinazione, manca un caso paradigmatico di recursion.
Esempio di costruzione pirahã (dati di Everett, semplificati):
Pirahã reale (Everett 2005):Hi xobaaxai kahaii kaagakaagai xi xahoaxe."He is-skilled arrow making one-of-them buying."
Lettura proposta da Everett:"Lui è abile a fare frecce. Lui le compra."(due clausole indipendenti, paratassi)
Lettura alternativa (Nevins-Pesetsky-Rodrigues 2009):"Lui è abile [nel fare frecce che lui poi compra]."(una clausola con relative o complement clause incassata)Il dibattito tecnico riguarda l’interpretazione dei suffissi nominalizzatori del pirahã (-sai, -saaga). Everett li tratta come marker di paratassi. Nevins, Pesetsky e Rodrigues (Language 2009) li trattano come marker di subordinazione, e mostrano che la lingua pirahã ha più strumenti sintattici di quanto Everett sostenga.
Marcatori di classe: questo è dibattito empirico tecnico, non risolto al 2026. Non è un argomento che dimostra o confuta la recursion universale. È un caso di studio sul cui status si continua a discutere.
Implicazione metodologica: l’universalità di un tratto linguistico non si argomenta da casi singoli. Anche se pirahã mancasse davvero di subordinazione, una posizione minimalista risponderebbe che la capacità di recursion può essere universale anche se non viene utilizzata in tutte le lingue (HCF 2002 lo lasciano esplicitamente aperto). Gli universali UG sono universali della facoltà, non della messa in opera.
Esempio 3: BLiMP e la competenza grammaticale degli LLM
Sezione intitolata “Esempio 3: BLiMP e la competenza grammaticale degli LLM”Contesto. Nel 2020 un gruppo a NYU pubblica BLiMP (Benchmark of Linguistic Minimal Pairs for English), TACL 8:377-392. Sessantasette task, ciascuno una coppia minimale: una frase grammaticale e una agrammaticale che differiscono per un solo tratto strutturale. Esempio:
Grammaticale: The cats annoy Tim.Agrammaticale: * The cats annoys Tim.
(test: subject-verb agreement con soggetto plurale)Per ogni coppia, si valuta se il modello assegna probabilità più alta alla frase grammaticale. Accuracy media su 67 task = competenza grammaticale media del modello.
Risultati riportati negli anni successivi (riassunti, ordini di grandezza):
- Modelli LSTM 2018-2019: accuracy medie intorno al 60-70%.
- BERT-large 2018: intorno all’80-83%.
- GPT-2 large 2019: 80-85%.
- GPT-3 175B 2020: ~85-87%.
- Modelli flagship 2023-2024: nell’ordine del 90-92% medio, con variazioni forti per categoria.
- Umani su task simili: ~96-98% medi.
Categorie su cui i modelli faticano sistematicamente:
- Agreement attraction:
the key to the cabinets *is/are on the table(l’attractor “cabinets” induce errori). - Filler-gap dependencies lunghe:
which boy did Mary say that John believes that Sue likes ___?. - NPI licensing (negative polarity items):
*Anyone went homevsDid anyone go home?.
Linzen-Dupoux-Goldberg 2016 (TACL 4) avevano già mostrato per LSTM che la performance su accordo a distanza degrada con la complessità strutturale e con il numero di attractor.
Lettura prudente. Gli LLM 2024 mostrano competenza grammaticale di alto livello, ma con gap sistematici su strutture rare e su long-distance dependencies — proprio le strutture su cui Chomsky aveva fondato l’argomento per la grammatica universale. La performance media alta è compatibile con due interpretazioni:
- (a) Gli LLM hanno appreso l’essenziale della struttura linguistica da puro input distributivo. La PoS classica è indebolita.
- (b) Gli LLM hanno appreso pattern superficiali corrispondenti alla struttura, ma con dati training che superano di quattro ordini di grandezza l’esposizione di un bambino. La PoS riformulata in termini di efficienza dei dati è ancora rilevante.
Le due interpretazioni sono incompatibili sui titoli ma compatibili sul contenuto. È esattamente ciò che il dibattito Chomsky-Piantadosi 2023 mette in scena.
timeline
title Tre flussi sulla facoltà del linguaggio, 1957-2025
1957 : Generativo — Chomsky, "Syntactic Structures"
1959 : Generativo — Chomsky, recensione di Skinner
1965 : Generativo — Chomsky, "Aspects"
1981 : Generativo — Government & Binding
1986 : Usage-based — Rumelhart-McClelland, past tense connessionista
1995 : Generativo — Minimalist Program
: Usage-based — Goldberg, "Constructions"
2002 : Generativo — Hauser-Chomsky-Fitch, "Faculty of Language"
2003 : Usage-based — Tomasello, "Constructing a Language"
: Neurale — Bengio, neural language model
2009 : Usage-based — Tomasello, "Universal Grammar Is Dead"
2013 : Neurale — Mikolov, word2vec
2017 : Neurale — Vaswani et al., transformer
2020 : Neurale — GPT-3
2022 : Neurale — ChatGPT
2023 : Generativo — Chomsky-Roberts-Watumull, NYT
: Neurale — risposta di Piantadosi (il dibattito 2023)
Figura 3 — Three streams 1957-2025: Generative / Usage-based / Neural-LLM, with the 2023 debate
Esempio 4 (bonus): finestra critica e il caso Genie
Sezione intitolata “Esempio 4 (bonus): finestra critica e il caso Genie”Nel novembre 1970 una bambina di tredici anni viene ricoverata al Children’s Hospital di Los Angeles. Pseudonimo “Genie” (1957-, identità protetta). Il padre, paranoico, l’aveva isolata in una stanza dall’età di venti mesi: legata a una sedia da bagno per gran parte del giorno, in una camera al buio, senza interazione linguistica significativa. L’esposizione a parole adulte era minima: imprecazioni occasionali, sgridate. Quando viene scoperta non parla, non cammina normalmente, pesa meno di trenta chili.
Susan Curtiss (linguista UCLA) la segue per anni come parte di un programma di ricerca su linguaggio e critical period. Il libro Genie: A Psycholinguistic Study of a Modern-Day “Wild Child” (Academic Press, 1977) raccoglie i dati. Risultato sintetico: Genie acquisisce un vocabolario di alcune centinaia di parole nei primi anni dopo la liberazione, ma la sintassi adulta non viene mai raggiunta. Le sue produzioni mostrano un ordine delle parole irregolare, mancanza di morfologia funzionale, difficoltà con strutture complesse (interrogative, relative, passive).
Letture tradizionali: il caso conferma la finestra critica di Lenneberg. Esposizione tardiva all’input linguistico produce competenza lessicale ma non sintattica adulta.
Caveat numerosi e necessari. (1) Caso singolo, generalizzabilità limitata. (2) Genie ha subito traumi gravi non solo linguistici (denutrizione, isolamento sociale, abusi); separare l’effetto puramente linguistico dall’effetto generale è impossibile. (3) Il programma di ricerca su Genie è stato eticamente controverso (conflitti tra interessi clinici, scientifici, custodiali). (4) Le sue capacità sintattiche residue sono dibattute: alcuni autori (Goldin-Meadow) leggono i dati in modo meno netto.
Cosa rimane. Il caso Genie è una evidenza di sostegno debole per il critical period, non una dimostrazione. La dimostrazione robusta è venuta in seguito da studi su grandi numeri (Hartshorne-Tenenbaum-Pinker 2018 con 670.000 partecipanti su L2 grammar). La logica della grammatica universale non sta o cade con Genie: non è il “test esperimento” del programma. Ma il caso rimane parte del discorso storico, e va presentato con i caveat metodologici e etici espliciti.
Eredità oggi
Sezione intitolata “Eredità oggi”Quattro effetti di lungo periodo del programma chomskyano, e il dibattito vivo sugli LLM.
1. La rivoluzione cognitiva e il suo lascito metodologico
Sezione intitolata “1. La rivoluzione cognitiva e il suo lascito metodologico”Indipendentemente dal merito tecnico di UG, Chomsky 1959 chiude l’era behaviorista nello studio del linguaggio. Da quel momento in poi è legittimo, in psicologia e linguistica, parlare di rappresentazioni mentali, regole, strutture interne. Questo cambio di registro è prerequisito per gran parte della scienza cognitiva successiva, inclusi i campi che si oppongono a UG.
2. Il programma di ricerca P&P come modello
Sezione intitolata “2. Il programma di ricerca P&P come modello”P&P propone un metodo: caratterizzare la variazione cross-linguistica come selezione su un set finito di parametri. Decenni di ricerca tipologica e comparativa generativa ne sono scaturiti, con risultati misti (alcuni parametri reggono, altri si sono dissolti). L’idea generale — variazione come selezione su uno spazio strutturato a priori — sopravvive in forme rivedute, anche fuori dalla tradizione chomskyana stretta.
3. Effetti sulle neuroscienze del linguaggio
Sezione intitolata “3. Effetti sulle neuroscienze del linguaggio”L’idea di una facoltà del linguaggio biologicamente determinata, con calendario di maturazione e basi neurali, ha alimentato decenni di neurolinguistica. Studi di imaging (Friederici, Lipsia, anni Duemila) hanno mappato componenti relativamente specializzate per sintassi (BA44, parte di Broca posteriore) e per semantica (BA45, regione temporale superiore). La questione se queste regioni implementino specificamente un modulo grammaticale chomskyano o piuttosto controllino aspetti generali della sequenza e della memoria di lavoro è discussa. Russell Poldrack (Stanford, Neuron 2006) ha mostrato in una review classica che attribuire una funzione cognitiva specifica a una regione cerebrale a partire da imaging è metodologicamente difficile (l’errore di inferenza inversa). I dati neurali sono dunque compatibili sia con UG sia con teorie alternative; non costituiscono né una conferma né una falsificazione netta.
4. La competence/performance distinction
Sezione intitolata “4. La competence/performance distinction”Distinzione metodologica che sopravvive ben oltre UG. Ogni teoria del linguaggio deve oggi rendere conto di entrambi i piani, e la separazione resta utile anche quando l’organizzazione architetturale propost da UG viene rifiutata.
5. Il dibattito 2023-2026 sui modelli linguistici
Sezione intitolata “5. Il dibattito 2023-2026 sui modelli linguistici”[DATATO 2026-04] Il dibattito Chomsky-vs-LLM è il riferimento culturale dominante in ambito di linguistica e AI dal 2023. Le posizioni:
Chomsky-Roberts-Watumull (NYT, 8 marzo 2023): gli LLM non sono modelli del linguaggio umano. Argomento centrale: gli LLM imparano indifferentemente lingue umane e lingue impossibili (a regole non-strutturali, ad esempio una lingua in cui la negazione si forma invertendo le parole della frase). Questo dimostra che non hanno alcun bias verso le strutture grammaticalmente possibili. Per gli umani è diverso: i bambini non imparano lingue impossibili. Quindi LLM e umani implementano cose diverse.
Piantadosi (Lingbuzz 2023, volume Routledge 2024): gli LLM apprendono il linguaggio da puro input statistico, contro la previsione dell’argomento PoS. Quindi il programma UG basato sulla PoS è empiricamente confutato. Punto secondario: la posizione di Chomsky sui dati linguistici è cambiata in modo non falsificabile attraverso le decadi, ed è ora un programma a-priori non verificabile.
Katzir (Lingbuzz 2023): gli LLM falliscono come teorie cognitive per ragioni indipendenti. Hanno ordini di grandezza più dati. Imparano sì lingue impossibili (esperimenti recenti lo confermano: LLM addestrati su lingue artificiali con regole agrammaticali rispetto ai criteri UG performano comparabilmente, mentre i bambini umani non lo farebbero). Spiegano la performance, non l’acquisizione.
Kodner-Payne-Heinz (Lingbuzz/arXiv 2023): linea simile. La linguistica come scienza cognitiva resta utile perché studia cosa viene imparato e come, non solo se è statisticamente apprendibile da grandi dati.
Posizione neutrale (questo capitolo): gli LLM dimostrano che alcuni aspetti della struttura linguistica sono apprendibili da grandi quantità di dati distributivi. Questo indebolisce la PoS classica (versione “il linguaggio è non-apprendibile da puro input”). Non risolve la PoS riformulata (versione “il bambino lo impara con quattro o cinque ordini di grandezza meno parole, in interazione embodied multimodale”). I due gruppi parlano spesso di tesi diverse.
6. Sintesi e lavoro empirico nelle scienze cognitive
Sezione intitolata “6. Sintesi e lavoro empirico nelle scienze cognitive”Le scienze cognitive empiriche post-2010 si sono in gran parte stabilizzate su una posizione moderata: bias innati di apprendimento esistono, ma sono in gran parte di dominio generale (sensibilità statistica, preferenza gerarchica, attenzione condivisa, abilità di intention reading). I bias specifici al linguaggio, se ci sono, sono pochi e sottili. La distinzione classica modulo grammaticale vs cognizione generale tende a sfumare in un continuum. Lavori come quelli di Lila Gleitman (Pennsylvania, 1929-2021), Cynthia Fisher (Illinois), Jennifer Saffran (Wisconsin, esperimenti seminali del 1996 sull’apprendimento statistico nei neonati di otto mesi che riconoscono confini di parola in pochi minuti di esposizione) costruiscono una scienza dell’acquisizione linguistica ricca, che integra elementi di entrambe le tradizioni senza schierarsi.
6b. L’evoluzione del programma chomskyano stesso
Sezione intitolata “6b. L’evoluzione del programma chomskyano stesso”Il programma di Chomsky non è statico: cambia in modo sostanziale ogni decade. Aspects (1965) mette al centro deep structure, surface structure, trasformazioni come operazioni primitive. Government and Binding (1981) sposta il fuoco sui parametri e su moduli interagenti (case theory, theta theory, binding theory, control theory). Minimalist Program (1995) elimina gran parte di quell’apparato e riduce tutto a Merge più vincoli di interfaccia. HCF 2002 esternalizza ulteriormente, lasciando alla FLN solo la recursion. La traiettoria è erosiva: il contenuto specificamente grammaticale assegnato a UG diminuisce nel tempo. Letta in modo benevolo, questa è normale auto-correzione di un programma scientifico maturo. Letta in modo critico (Piantadosi 2023), è un indicatore che il programma rifugge la falsificazione, ritirando le previsioni che incontrano dati contrari. Le due letture non sono mutualmente esclusive.
7. L’innatismo soft come eredità minimale
Sezione intitolata “7. L’innatismo soft come eredità minimale”Quasi tutti, oggi, accettano che gli umani abbiano qualche bias innato per imparare il linguaggio: sensibilità a regolarità distribuzionali, preferenza per struttura gerarchica, finestra critica per la sintassi (Hartshorne et al. 2018). Anche il programma usage-based di Tomasello accetta questo, ne discute però la specificità: bias generali, non un modulo dedicato. Questa convergenza minimale è probabilmente l’eredità più solida del dibattito.
Dove si rompe
Sezione intitolata “Dove si rompe”Quattro punti di rottura, ordinati da più tecnico a più epistemologico.
1. La poverty of stimulus classica è empiricamente indebolita
Sezione intitolata “1. La poverty of stimulus classica è empiricamente indebolita”Pullum-Scholz 2002 e lavori successivi hanno mostrato che la versione classica dell’argomento (l’input è sotto-determinante per l’apprendimento via meccanismi generali) regge male quando i corpora reali vengono contati. La versione contemporanea sopravvive in due forme:
- Specificità del bias: anche se un bias verso la struttura gerarchica è necessario, ciò non implica un modulo grammaticale specifico. Bias generali bastano.
- Efficienza dei dati: il bambino impara con quattro o cinque ordini di grandezza meno parole degli LLM. Questo gap ha bisogno di una spiegazione, ma può essere fornita da meccanismi diversi da UG (interazione embodied, joint attention, multimodalità).
2. La recursion universale resta dibattuta
Sezione intitolata “2. La recursion universale resta dibattuta”Il caso pirahã non è risolto. Più importante: anche assumendo che pirahã abbia recursion, l’idea che la capacità sia universale e specie-specifica non è dimostrabile dai casi singoli. È una tesi sull’architettura cognitiva, non un universale tipologico. La FLN come “solo recursion” è più cauta della UG classica, ma non più verificabile direttamente.
3. Le tradizioni alternative si sono consolidate
Sezione intitolata “3. Le tradizioni alternative si sono consolidate”Usage-based linguistics (Tomasello, Bybee, Goldberg) e Construction Grammar non sono più curiosità marginali. Hanno programmi sperimentali, manuali, riviste, generazioni di studenti. Il presupposto che UG sia il programma di default in linguistica è vero per certi dipartimenti (alcuni gruppi MIT/Harvard/UCLA), falso per altri (Max Planck, Nuova Zelanda, parte di NYU). Lo studente che entra oggi in linguistica sceglie tra programmi rivali, non tra UG e residui.
4. Il dibattito LLM-vs-UG genera equivalenze pericolose
Sezione intitolata “4. Il dibattito LLM-vs-UG genera equivalenze pericolose”Tre formule da bloccare:
- “Gli LLM ha confutato Chomsky”. Caricatura. Hanno indebolito la versione classica della PoS, non l’innatismo lato. Non è chiaro su quale tesi specifica del programma UG la confutazione si applichi.
- “Gli LLM sono stochastic parrots, Chomsky aveva ragione”. Caricatura simmetrica. Gli LLM mostrano competenze grammaticali sistematiche su benchmark come BLiMP, vicine a quelle umane su molti task. Ridurli a “pappagalli” non rende conto dei dati.
- “Gli LLM discendono da idee chomskyane”. Filiazione fittizia. Gli LLM nascono da: distributional semantics (Firth, Harris, anni Cinquanta-Sessanta, anti-Chomsky per costruzione), connessionismo (Rumelhart-McClelland 1986, Bengio neural language model 2003, Mikolov word2vec 2013), transformer (Vaswani 2017). Chomsky è esplicitamente scettico verso tutta questa linea, e la linea è esplicitamente non-chomskyana. La filiazione tecnica è opposta. La filiazione concettuale (esistenza di rappresentazioni interne ricche) è generica e indiretta, non specifica.
5. Equivalenze tra umani e LLM da non fare
Sezione intitolata “5. Equivalenze tra umani e LLM da non fare”Anche assumendo che gli LLM abbiano competenza grammaticale alta, equivalere “competence chomskyana umana” e “performance LLM” è scivoloso. Il bambino impara con interazione, embodiment, intenzioni condivise; l’LLM con corpora testuali. La grammatica del bambino si integra con sistemi semantico-pragmatici che si sviluppano in parallelo (theory of mind, intenzioni, joint attention); quella degli LLM è funzione di sequenze di token. Le due cose possono produrre output simili senza essere lo stesso processo. È differenza tra analogia comportamentale ed equivalenza di meccanismo.
6. Il caso FOXP2 ridimensionato
Sezione intitolata “6. Il caso FOXP2 ridimensionato”Il caso della famiglia KE (Gopnik 1990) e l’identificazione del gene FOXP2 (Lai-Fisher et al. 2001) erano stati letti, nella prima ricezione divulgativa, come “il gene della grammatica”. Quindici anni dopo il quadro è molto più sfumato. FOXP2 è un fattore di trascrizione espresso in numerosi tessuti (polmone, intestino, cervello, in molte specie); la sua mutazione produce un fenotipo che include difficoltà motorie orofacciali, deficit di memoria procedurale, e difficoltà linguistiche, ma non è un disturbo grammaticale puro. Le scoperte successive su FOXP2 in altri primati (Enard et al. 2002, Nature 418:869-872, identificarono due mutazioni amino-acidiche fissate nella linea umana negli ultimi sei milioni di anni) hanno mantenuto FOXP2 nel quadro evolutivo del linguaggio, ma hanno indebolito la lettura “modulo grammaticale dissociabile”. È un esempio utile di come una scoperta inizialmente letta come prova diretta di un’ipotesi specifica si stabilizzi in una posizione più moderata con l’accumularsi dei dati.
7. Lingue impossibili: l’argomento del 2024
Sezione intitolata “7. Lingue impossibili: l’argomento del 2024”Un argomento tornato rilevante nel 2024 è quello delle lingue impossibili. Mitchell-Bowman 2020 e successivi (in particolare Kallini-Papadimitriou-Futrell-Mahowald-Linzen, ICLR 2024, “Mission: Impossible Language Models”) addestrano modelli linguistici a transformer su corpora artificialmente alterati che violano vincoli plausibilmente attribuiti a UG (es. lingue in cui l’inversione interrogativa avviene su criterio puramente lineare e non strutturale, lingue in cui le dipendenze a distanza sono codificate da interi specifici e non da configurazioni gerarchiche). Risultato sperimentale: le lingue “impossibili” si imparano in modo misurabilmente peggiore di quelle “naturali” — i modelli convergono più lentamente, raggiungono perplexity peggiore, falliscono benchmark grammaticali. Lettura prudente: i modelli a transformer hanno qualche bias inductivo che si allinea parzialmente con i vincoli grammaticali umani. Lettura forte (di parte UG): è almeno indicativo che certi vincoli linguistici riflettano qualcosa di reale nelle architetture di apprendimento, non un fatto puramente sociolinguistico. Lettura forte (di parte empirista): i bias dei transformer sono ben caratterizzabili matematicamente (smoothness, locality, sequential structure), non hanno bisogno di essere identificati con UG. Il dibattito 2024-2026 si gioca su questo crinale.
8. La data efficiency umana resta un puzzle aperto
Sezione intitolata “8. La data efficiency umana resta un puzzle aperto”Il bambino raggiunge competenza linguistica di alto livello con qualche decina di milioni di parole sentite (le stime variano: Hart-Risley 1995 stimava range 10-45 milioni nei primi anni, riviste in seguito). Gli LLM 2024 sono addestrati su corpora di 10^12-10^13 token. Il rapporto è di quattro o cinque ordini di grandezza. Un programma di ricerca onesto chiede: cosa permette al bambino di farne così tanto con così poco? Risposte candidate: bias innati specifici, bias innati generali, ricchezza dell’interazione embodied multimodale, integrazione con altri sistemi cognitivi, qualche combinazione. La risposta non è “UG”, ma non è nemmeno “scaling”. È terreno di ricerca aperto.
Collegamenti
Sezione intitolata “Collegamenti”- Linguaggio come strumento del pensiero — Sapir-Whorf, Language of Thought, latent English negli LLM. Tesi distinte ma vicine, da non confondere con UG.
- La mente nel corpo e nel mondo — Lakoff, Langacker, programma anti-Fodor e implicitamente anti-UG. Significato come embodied, conceptual metaphor.
- Fasi di sviluppo cognitivo — il dibattito Piaget-Chomsky 1975 a Royaumont è il confronto innatismo-costruttivismo per eccellenza.
- Theory of mind — modulo separato secondo certi autori, integrato con altri secondo altri.
- Modelli mentali — Johnson-Laird, ragionamento come simulazione, parallelo storico con generative grammar.
- semantica-distribuzionale (in preparazione) — Firth e Harris, la tradizione anti-chomskyana che sopravvive negli LLM moderni.
- sapir-whorf (in preparazione) — categorie linguistiche e categorizzazione cognitiva, dibattito vicino ma logicamente indipendente.
- ponte-distribuzionale-embeddings (in preparazione) — la filiazione tecnica reale degli LLM, da Firth a word2vec.
- creativita-umana (in preparazione) — la creatività linguistica chomskyana e la generazione artificiale.
8. Riassunto onesto
Sezione intitolata “8. Riassunto onesto”Il programma chomskyano della grammatica universale ha trasformato la linguistica e la scienza cognitiva. Ha posto domande precise (apprendibilità, universalità, modularità) che hanno strutturato decenni di ricerca in linguistica, psicologia, neuroscienze, informatica. Le risposte specifiche di Chomsky a quelle domande — UG come modulo specie-specifico con contenuto grammaticale ricco, recursion come unico universale narrow, parametri binari come spazio della variazione — sono in larga parte rivedute, indebolite, contestate. Il programma rivale usage-based ha costruito risultati robusti. Gli LLM hanno cambiato il piano di gioco senza risolverlo. La posizione onesta nel 2026 è: domande chomskyane buone, risposte chomskyane in revisione, dibattito vivo.
Applicazioni pratiche
Sezione intitolata “Applicazioni pratiche”Per chi lavora con sistemi linguistici artificiali — ricerca NLP, costruzione di modelli, valutazione di output, design di benchmark — alcuni effetti pratici della discussione UG sono concreti.
- Benchmarking grammaticale. BLiMP, BLiMP-multilingual, SCAN, COGS, e benchmark recenti sui impossible language models (Kallini et al. 2024) sono strumenti diagnostici che derivano direttamente dalla tradizione che si interroga su quali strutture sono apprendibili e quali sono “naturali”. Conoscere la genealogia aiuta a leggere i risultati: un modello che fa 92% medio su BLiMP non sta dimostrando di “aver capito la grammatica”; sta superando coppie minimali costruite da linguisti per testare costrutti specifici, con caveat di contamination del training data e di bias di costruzione del benchmark.
- Acquisizione efficiente come obiettivo di ricerca. Il fatto che un bambino impari il linguaggio con quattro o cinque ordini di grandezza meno parole degli LLM è un puzzle aperto che ispira programmi di ricerca su data-efficient language models, small language models with structural priors, addestramento con curricola, multimodalità e embodiment (BabyLM challenge 2023-2024).
- Lingue a basse risorse. Il dibattito sull’universalità della struttura linguistica è centrale per ogni tentativo di costruire modelli che funzionino su lingue con poco testo digitale: se molte strutture sono universali, il transfer cross-linguistico ha base solida; se ogni lingua è radicalmente specifica (posizione anti-UG forte), i transfer sono più fragili. La pratica empirica del 2024 mostra transfer significativo ma asimmetrico, compatibile con un’universalità parziale.
- Annotazione e prompt engineering. Anche chi non si occupa di acquisizione ha a che fare con la distinzione competence/performance ogni volta che valuta l’output di un LLM: una frase grammaticalmente possibile ma improbabile è diversa da una agrammaticale, e i due tipi di errori vanno trattati in modo diverso (filtri, reranking, fine-tuning).
Per andare oltre
Sezione intitolata “Per andare oltre”- Chomsky, Noam (1965). Aspects of the Theory of Syntax, MIT Press. La formulazione classica con deep/surface structure e competence/performance. Tecnico ma centrale.
- Pinker, Steven (1994). The Language Instinct, William Morrow. Sintesi popolare a sostegno di UG. Da leggere come introduzione, sapendo che presenta una posizione di parte.
- Tomasello, Michael (2003). Constructing a Language, Harvard University Press. Programma alternativo, usage-based. Da leggere come contraltare a Pinker.
- Hauser, Marc; Chomsky, Noam; Fitch, W. Tecumseh (2002). The Faculty of Language: What Is It, Who Has It, and How Did It Evolve?, Science 298:1569-1579. La riformulazione FLN/FLB. Breve, denso.
- Pullum, Geoffrey; Scholz, Barbara (2002). Empirical assessment of stimulus poverty arguments, The Linguistic Review 19:9-50. La critica empirica alla PoS. Tecnico, ma il modello di come si fa una contro-argomentazione rigorosa.
- Everett, Daniel (2008). Don’t Sleep, There Are Snakes: Life and Language in the Amazonian Jungle, Pantheon. La narrazione personale del lavoro sul pirahã. Saggistica, ma utile per capire il contesto del dibattito 2005-2009 dall’interno.
- Yang, Charles (2016). The Price of Linguistic Productivity: How Children Learn to Break the Rules of Language, MIT Press. Una posizione mediata: bias innati specifici esistono, ma sono parametri di apprendimento (Tolerance Principle), non vincoli grammaticali assoluti.
- Linzen, Tal; Baroni, Marco (2021). Syntactic Structure from Deep Learning, Annual Review of Linguistics 7:195-212. Review accademica su cosa i modelli neurali hanno (e non hanno) imparato della sintassi, da chi del campo conosce sia la linguistica generativa sia il deep learning.
- Piantadosi, Steven (2023). Modern language models refute Chomsky’s approach to language, Lingbuzz preprint, e successivo volume Routledge 2024. Per il dibattito LLM-vs-UG. Da leggere insieme a Katzir 2023 e Kodner-Payne-Heinz 2023 per non farsene un’idea unilaterale.