Memoria dichiarativa e procedurale: sapere che vs sapere come

La differenza tra conoscere le regole degli scacchi e saper giocare; tra spiegare la fisica della bicicletta e pedalare in discesa.

Manchester, primi anni Sessanta. Michael Polanyi, ungherese di origine, chimico di formazione e filosofo di vocazione tarda, cammina nel parco riflettendo su un fenomeno che lo perseguita da anni: come facciamo a riconoscere il volto di un amico tra mille passanti? Non possediamo nessuna formula, nessuna lista di tratti, nessun manuale interno. Eppure lo riconosciamo in una frazione di secondo, e nessuno tra coloro a cui chiediamo di descrivere il proprio amico riesce a farlo in modo che un estraneo lo riconosca davvero. Polanyi distillerà l’osservazione nella formula che diventerà la chiave del libro “The Tacit Dimension” (1966): “we can know more than we can tell”, sappiamo più di quanto sappiamo dire. Sotto la superficie del sapere articolato sta un sapere tacito, non verbalizzato, ed è il sapere tacito a fare il lavoro pesante.

Quindici anni prima, a Oxford, Gilbert Ryle (1900-1976), filosofo del linguaggio ordinario, pubblicava “The Concept of Mind” (1949), un attacco frontale al dualismo cartesiano. Ryle introdusse una distinzione che pareva ovvia una volta enunciata: c’è il knowing-that (sapere che la regina si muove in tutte le direzioni) e c’è il knowing-how (saper effettivamente giocare a scacchi e vincere una partita). Le due forme di conoscenza non si riducono l’una all’altra. Si può conoscere a memoria il regolamento e perdere ogni partita; si può non saper articolare alcuna teoria del nuoto e nuotare benissimo.

Polanyi e Ryle, indipendentemente, identificarono il problema centrale di questo capitolo: la mente umana ospita almeno due forme distinte di conoscenza, e tutto ciò che riguarda apprendimento, expertise e trasmissione di competenze ha a che fare con la loro interazione.

Perché questo capitolo

Il capitolo precedente, memoria-lungo-termine, ha tracciato la mappa neuroscientifica della LTM: medial temporal lobe, ippocampo, casi clinici come H.M., LTP, consolidamento, tassonomia di Squire-Knowlton 1995. Quel capitolo risponde a “che forma ha il magazzino lungo”. Questo capitolo risponde a una domanda diversa e indipendente, che si lascia leggere senza prerequisiti neuroanatomici: come funziona la differenza tra ciò che si sa raccontare e ciò che si sa fare?

La distinzione interessa per tre ragioni operative.

Primo, la teoria dell’apprendimento di skill (Fitts e Posner 1967, Anderson 1982) si gioca esattamente qui: imparare significa, in larga misura, trasformare conoscenza dichiarativa in conoscenza procedurale. Ogni programmatore senior che non sa più articolare cosa fa quando legge codice ha vissuto il fenomeno in prima persona.

Secondo, l’expertise umana è massimamente procedurale e tacita, e questo ha conseguenze concrete su come la conoscenza si trasmette: per apprendistato, per dimostrazione, non solo per testo. La domanda “come si insegna a un sistema (umano o artificiale) ciò che un esperto sa ma non sa dire?” è centrale.

Terzo, la mappatura analogica con i sistemi AI moderni è seducente e rischiosa. I pesi di un LLM dopo training assomigliano a memoria procedurale — competenza fluente, non articolabile esplicitamente. Il context window assomiglia a memoria dichiarativa attiva — fatti richiamabili nel turno corrente. Il RAG assomiglia a memoria dichiarativa esterna. L’analogia chiarisce; spinta troppo oltre, inganna. Distinguere bene questo passaggio è il payoff finale del capitolo.

Contesto: una linea che attraversa filosofia, psicologia e neuroscienze

La distinzione DECL/PROC ha tre genealogie convergenti, non una sola filiazione lineare. Conviene tenerle separate.

Filo filosofico-comportamentale. Ryle 1949 introduce knowing-that vs knowing-how come distinzione concettuale: il sapere come è una disposizione comportamentale, non un insieme di proposizioni nascoste. Polanyi 1958/1966 raddoppia con tacit knowledge: ogni sapere esplicito poggia su uno strato tacito che non viene verbalizzato. Né Ryle né Polanyi si occupano di neuroni; lavorano con esempi quotidiani (riconoscere volti, guidare, riconoscere un buon vino, fare diagnosi mediche).

Filo psicologico-computazionale. John Anderson (1947-), psicologo cognitivo americano alla Carnegie Mellon, in “Language, Memory, and Thought” (1976) traduce la distinzione di Ryle in architettura computazionale: declarative knowledge come chunks proposizionali, procedural knowledge come production rules (regole “se-allora”). Diventa ossatura di ACT, poi ACT-R, già discussa in architetture-cognitive. Anderson 1982, “Acquisition of cognitive skill” su Psychological Review, formula la proceduralization: durante l’apprendimento la conoscenza migra da forma dichiarativa (lenta, esplicita, verbalizzabile) a forma procedurale (rapida, implicita, automatica).

Filo neuroscientifico. Larry Squire (1941-), neuropsicologo americano alla UCSD, in “Mechanisms of memory” (Science 1986) consolida la distinzione su base anatomica, tema centrale del capitolo precedente. La convergenza con Anderson è teorica, non lineare: Squire arriva alla distinzione studiando pazienti amnestici, Anderson arriva da modelli computazionali del problem solving. Si incontrano a metà strada.

Antecedenti che spesso si dimenticano. William James, in “The Principles of Psychology” (1890), capitolo “Habit”, aveva già notato che la pratica trasforma azioni inizialmente coscienti e laboriose in azioni automatiche; descriveva l’abitudine come “the enormous flywheel of society”. Edward Thorndike, primi del Novecento, formula la law of effect osservando gatti in puzzle box: il comportamento seguito da soddisfazione viene rinforzato. Sono semi della distinzione, ancora dentro un quadro pre-cognitivista.

Nel mondo della psicologia comportamentista degli anni Trenta-Cinquanta, la distinzione DECL/PROC viene di fatto ignorata: il comportamentismo radicale di Watson e Skinner studia solo comportamenti osservabili, e la “memoria” come categoria mentalistica esce dalla scena. La rivoluzione cognitiva degli anni Cinquanta-Sessanta (Miller, Chomsky, Newell-Simon) reintroduce stati interni e crea lo spazio concettuale per Anderson e Squire.

Tre date intermedie da fissare:

1967: Paul Fitts e Michael Posner pubblicano “Human Performance” e propongono i tre stadi di skill acquisition (cognitive, associative, autonomous). Vincolo empirico forte sulla teoria.
1973: William Chase e Herbert Simon pubblicano “Perception in chess” su Cognitive Psychology, rivelando la natura chunked dell’expertise.
1993: Anders Ericsson, Ralf Krampe e Clemens Tesch-Römer pubblicano “The role of deliberate practice in the acquisition of expert performance” su Psychological Review, fissando la teoria della pratica deliberata.

Queste tre date strutturano la teoria moderna di expertise e skill, e sono il vero centro del capitolo.

L’intuizione: due angoli prima del formalismo

Angolo 1: comportamentale-fenomenologico (Ryle, Polanyi)

Provate a spiegare a parole, senza gesti, come si fa il nodo alle stringhe delle scarpe. Quasi nessuno ci riesce in modo che un estraneo riesca davvero a farlo. Lo si sa fare — lo si fa da decenni due volte al giorno — ma il sapere non è in forma di proposizioni richiamabili. Provate poi a spiegare in che lingua sognate, perché trovate sgradevole un certo accento, come capite se una battuta è ironica. Stessa cosa: la competenza è massima, l’articolazione è sotto zero.

Provate ora a spiegare la regola dell’arrocco a scacchi, o il teorema di Pitagora, o quale presidente USA c’era nel 1990. Qui la situazione è opposta: la conoscenza è proposizionale, articolabile, condivisibile via testo. Si può dimenticarla senza perdere capacità motorie; si può riacquistarla leggendo.

Le due forme di conoscenza non sono solo “due tipi di contenuto”: sono due modi in cui il contenuto è in noi. Knowing-how è una disposizione, knowing-that è uno stato proposizionale. Polanyi aggiunge: sotto ogni knowing-that c’è uno strato di knowing-how (saper leggere, saper interpretare i simboli matematici, saper percepire come un esperto del dominio percepisce).

Angolo 2: clinico-dissociativo

Se due forme di conoscenza fossero la stessa cosa sotto nomi diversi, sarebbe difficile romperne una senza rompere l’altra. La neuropsicologia clinica fornisce invece un argomento empirico forte chiamato doppia dissociazione: paziente A ha funzione X compromessa e Y intatta, paziente B ha Y compromessa e X intatta. Se lo schema regge, X e Y poggiano su sistemi distinti.

Per il caso DECL/PROC la doppia dissociazione si manifesta nitidamente:

Sindrome di Korsakoff (alcolismo cronico, deficit di tiamina, lesioni dei corpi mammillari e del talamo): memoria dichiarativa devastata, in particolare quella episodica. Eppure il paziente conserva skill professionali apprese prima della malattia (un meccanico continua a saper riparare motori). Conferma: il sapere come non passa per i sistemi danneggiati.
Morbo di Parkinson (degenerazione della substantia nigra, deplezione dopaminergica nei gangli base): motor learning compromesso, dichiarativa relativamente preservata. Il paziente sa raccontare la storia familiare ma fatica ad apprendere nuove sequenze motorie.

Quando i due quadri si sovrappongono come una matrice 2x2, la diagnosi è clinica e teorica insieme: i due sistemi sono separabili. È bene ribadire la classe dell’affermazione: si tratta di un argomento empirico molto solido, non di una dimostrazione filosofica completa che le due funzioni siano perfettamente indipendenti. La doppia dissociazione mostra separabilità anatomica almeno parziale.

Double dissociation: Korsakoff vs Parkinson, declarative vs procedural memory, 2x2 matrix with impaired/spared cells

Angolo 3 (bonus): la dimensione della prestazione

C’è un terzo angolo, meno citato ma operativamente importante. Un sistema bi-modale ha una firma temporale: il knowing-that è lento e costoso, il knowing-how è veloce e a basso consumo attentivo. Misurazioni di tempi di reazione (Posner, Mitchell 1967 e successori) mostrano differenze sistematiche di centinaia di millisecondi tra task che richiedono retrieval dichiarativo e task in cui la skill è automatizzata.

Il dato è importante per due ragioni. Primo, fornisce misure oggettive della distinzione, non solo intuizioni introspettive. Si può quantificare quando una skill si è proceduralizzata osservando il calo di tempi e di errori. Secondo, ha implicazioni di design per qualunque sistema interattivo (umano-umano o umano-AI) che operi sotto vincolo di latenza: se un certo passaggio richiede retrieval dichiarativo, costa centinaia di ms; se è proceduralizzato, costa decine. Per task ad alta frequenza (typing, navigation, gioco), proceduralizzare è imperativo prestazionale, non solo cognitivo.

La meccanica: skill acquisition, expertise, tacit knowledge

I tre stadi di Fitts e Posner (1967)

Paul Fitts (psicologo dell’aviazione, U.S. Air Force, poi University of Michigan) e Michael Posner (allora a Wisconsin, poi Oregon, padre della moderna scienza dell’attenzione) sintetizzano decenni di studio su training militare e civile in tre stadi.

Cognitive stage. Il principiante riceve istruzioni esplicite e le verbalizza. Chi impara a guidare ripete a se stesso “frizione, prima, gas, lascia la frizione gradualmente”. L’esecuzione è lenta, gli errori sono frequenti, l’attenzione conscia è massima. La conoscenza è dichiarativa.
Associative stage. La verbalizzazione diminuisce, le componenti motorie si fondono, gli errori si riducono. Il guidatore non recita più la sequenza ma compone i movimenti.
Autonomous stage. L’esecuzione è automatica, fluida, richiede pochissima attenzione. Il guidatore esperto cambia marcia mentre conversa e ascolta la radio. Aneddoto noto come effetto centipede: chiedere all’esperto di articolare cosa fa rallenta o degrada la performance, come il millepiedi che si paralizza interrogato su quale zampa muova quando.

Anderson 1982 rilegge i tre stadi dentro ACT*: il passaggio da cognitive a autonomous è proceduralization. La rappresentazione iniziale è dichiarativa (chunks proposizionali, retrieve e applica), ma con la pratica il sistema crea production rules specializzate che incorporano i chunks recuperati. La sequenza “retrieve regola + applica regola” diventa una singola production che fa tutto in un colpo solo. Si chiama production compilation, ed è il meccanismo formale dietro l’osservazione fenomenologica di Fitts-Posner.

Fitts-Posner stages of skill acquisition: cognitive, associative, autonomous, with errors, conscious attention, speed curves

Il viaggio inverso: dichiararizzazione

La proceduralization (dichiarativo → procedurale) è la direzione più studiata, ma il viaggio inverso esiste. Un esperto può dichiararizzare una skill quando le condizioni cambiano: se mi chiedono di insegnare a guidare a un nipote, devo spacchettare cosciemente movimenti che ho automatizzato da decenni. È esercizio cognitivamente costoso, spesso imperfetto (ricostruisco una versione razionalizzata di ciò che faccio, non sempre fedele). I corsi avanzati di didattica delle scienze e dello sport addestrano specificamente alla dichiararizzazione.

Implicazione importante: la migrazione DECL ↔ PROC non è a senso unico, ed è una skill in sé. Coach professionisti, autori di manuali, mentori senior sono persone che hanno imparato a fare il viaggio inverso. È una capacità rara, e spiega perché grandi atleti spesso non sono grandi allenatori, e viceversa.

La power law of practice (e la sua critica)

Allen Newell (1927-1992, Carnegie Mellon, padre dell’AI simbolica insieme a Simon) e Paul Rosenbloom (allora suo studente) nel 1981, in “Mechanisms of skill acquisition and the law of practice”, consolidano un’osservazione empirica accumulata da Crossman 1959 (montatori di sigari cubani), Snoddy 1926 (mirror tracing), e molti altri: il tempo di esecuzione di una skill segue una legge di potenza.

T = a + b · N^-c

dove T è il tempo per esecuzione, N è il numero cumulativo di pratiche, e a, b, c sono parametri specifici al task. La curva è impressionante: vale per battere a macchina, leggere testi rovesciati, montare sigari, risolvere problemi geometrici. Diventa pilastro empirico della teoria dell’apprendimento di skill — al punto che alcuni autori parlano di “legge”.

Critica importante, da non saltare. Andrew Heathcote, Scott Brown e D. J. Mewhort nel 2000, in “The power law repealed: the case for an exponential law of practice” su Psychonomic Bulletin & Review, mostrano che a livello di singolo soggetto la curva è meglio descritta da un’esponenziale (T = a + b · e^-cN), non da una potenza. Il power law emerge come artefatto dell’aggregazione tra soggetti con curve esponenziali di parametri diversi.

Distinzione importante che il capitolo ribadisce: il power law è un fenomeno aggregato, non individuale. La classe dell’affermazione “la pratica segue una legge di potenza” è quindi generalizzazione empirica con caveat metodologico, non legge universale.

Expertise: chunks, deliberate practice, e i 10.000 ore mal capiti

Nel 1973 William Chase e Herbert Simon pubblicano “Perception in chess” sulla rivista Cognitive Psychology. L’esperimento è semplice e iconico. Tre soggetti — un master, un giocatore di classe A, un principiante — guardano per cinque secondi una scacchiera, poi devono ricostruire la posizione su una seconda scacchiera vuota. Si testano due condizioni:

Posizione da partita reale: il master ricostruisce circa 16 pezzi, il principiante circa 4.
Posizione casuale (pezzi sparsi senza struttura di gioco): tutti e tre ricostruiscono 3-4 pezzi.

La conclusione è netta. Il master non ha memoria visiva migliore in generale; ha chunks specifici al dominio. Quando vede una posizione reale percepisce pattern (struttura di pedoni, sviluppo siciliano, re arroccato), ognuno dei quali pacchetta più pezzi in una unità. Quando i pezzi sono casuali i chunks non si applicano e il vantaggio svanisce. Stime successive parlano di 50.000-100.000 chunks per un master scacchista.

Il risultato generalizza: radiologi che leggono una TAC, sommelier che riconoscono vitigni al cieco, programmatori senior che leggono codice “a colpo d’occhio”. L’expertise è massimamente percettiva e procedurale, fatta di chunks pre-compilati che il sistema percettivo applica senza deliberazione.

Vent’anni dopo, K. Anders Ericsson (1947-2020), psicologo svedese-americano alla Florida State, con Ralf Krampe e Clemens Tesch-Römer in “The role of deliberate practice in the acquisition of expert performance” (Psychological Review, 1993), studia violinisti dell’accademia di Berlino. Trovano una correlazione forte tra ore di pratica deliberata accumulate e livello raggiunto. I top performers hanno accumulato circa 10.000 ore entro i vent’anni.

Cosa rende deliberate la pratica? Non è semplice ripetizione. Richiede:

obiettivi specifici e misurabili,
feedback immediato sulla performance,
focus sostenuto,
pratica al limite delle proprie capacità correnti (non al livello già padroneggiato).

Il cliché 10.000 ore. Malcolm Gladwell, in “Outliers” (2008), popolarizza il numero come regola universale: 10.000 ore e diventi esperto in qualunque dominio. Ericsson stesso ha pubblicamente preso le distanze da questa lettura. Una meta-analisi di Brooke Macnamara, David Hambrick e Frederick Oswald (2014, Psychological Science) ha quantificato il punto: la pratica deliberata spiega circa il 26% della varianza in giochi, il 21% in musica, il 18% in sport, il 4% in educazione, l’1% in professioni complesse. Tutto tranne che 100%. Talento, contesto, partenza precoce, qualità del coach contano. La regola dei 10.000 ore è un’analogia popolare, non una legge — distinzione di classe da fare a voce alta.

Cosa non è deliberate practice

Per chiarezza, vale elencare cosa la deliberate practice non è. Non è la semplice ripetizione (un musicista che suona ogni giorno gli stessi pezzi senza spingersi oltre il già padroneggiato non sta facendo deliberate practice). Non è la pratica per il gusto della pratica (jogging rilassato non è deliberate practice per un maratoneta competitivo). Non è la pratica senza feedback (allenarsi senza coach o senza misurazione su task complessi raramente porta al top). Non è la pratica al massimo sforzo continuo (deliberate practice è cognitivamente costosa e il sostenibile è poche ore al giorno).

Distinzione importante perché il cliché “10.000 ore di qualunque cosa fanno l’esperto” si rompe immediatamente quando si introduce la qualifica “deliberate”. Un programmatore con vent’anni di esperienza che scrive lo stesso CRUD in una codebase legacy non accumula 10.000 ore di deliberate practice in design di sistemi.

Long-term working memory: come gli esperti aggirano i limiti

Ericsson e Walter Kintsch nel 1995, in “Long-term working memory” su Psychological Review, propongono che gli esperti aggirino i limiti classici della working memory (Miller 7±2, già discusso in memoria-working) costruendo strutture di indicizzazione in LTM accessibili rapidamente quasi quanto la WM standard. Il chess master “tiene in mente” l’intera posizione perché ogni chunk evoca strutture LTM pre-formate; il radiologo “vede” la TAC perché ogni pattern visivo si aggancia a categorie diagnostiche già strutturate.

Concetto importante per due ragioni. Primo, mostra che memoria dichiarativa e procedurale interagiscono: l’expert ha sia conoscenza dichiarativa massiva (anatomia, regole) sia organizzazione procedurale che la rende rapidamente accessibile. Secondo, fornisce un ponte concettuale verso il context engineering moderno (vedi sotto, “Eredità oggi”).

Tacit knowledge: cosa si perde nella trasmissione, e cosa è costato impararlo

Vale insistere su Polanyi perché il punto è meno ovvio di quanto sembri. La frase “we can know more than we can tell” non descrive un limite contingente del linguaggio, ma una proprietà strutturale della conoscenza. Polanyi sostiene che ogni atto di comprensione integra tacitamente molti elementi (le subsidiaries) in un focus (il focal target). Quando guardo un volto, integro tacitamente migliaia di micro-tratti percettivi nel riconoscimento del volto come unità. Posso spostare l’attenzione su un singolo tratto (subsidiarie diventano focali), ma allora perdo il volto come totalità. Non posso essere consapevole di tutto contemporaneamente.

Polanyi: “we can know more than we can tell”. La conseguenza pratica è epistemica e ha ricadute organizzative concrete. Trasmettere conoscenza esplicita è facile e scala (libri, MOOC, documentazione). Trasmettere conoscenza tacita richiede demonstration, partecipazione, apprendistato.

Jean Lave e Etienne Wenger nel 1991, in “Situated Learning: Legitimate Peripheral Participation”, documentano come l’apprendista sarto in Liberia o l’apprendista ostetrica in Yucatán imparino non per istruzione formale ma per partecipazione periferica legittima: stare accanto al maestro, fare prima i compiti semplici (consegnare strumenti, tagliare), poi gradualmente i compiti centrali, ricevere correzioni in situazione. La conoscenza tacita si trasmette, ma non per testo.

Ricaduta importante per chiunque progetti curricula, onboarding, o sistemi di trasferimento di expertise: la documentazione testuale è la punta dell’iceberg. Sotto sta tutto ciò che il senior “sa fare” senza saperlo articolare.

Esempio operativo dal mondo della medicina. Un radiologo senior ha sviluppato in vent’anni di pratica un’enorme libreria di pattern visivi (tumori in stadi diversi, varianti anatomiche, artefatti di acquisizione tipici di vari macchinari). Chiedergli “come fai a riconoscere un tumore al primo sguardo” produce risposte parziali: “c’è qualcosa di asimmetrico… ho un’impressione… la consistenza è strana”. L’articolazione esplicita non rende giustizia alla competenza percettiva. Per trasmettere la skill a un junior il metodo che funziona è esposizione massiva a casi etichettati con feedback dell’esperto, non manuale di descrizioni testuali. È, non a caso, lo stesso schema di un dataset di training per un classificatore visivo.

Tipi di memoria procedurale: una tassonomia minima

La parola “procedurale” pacchetta categorie eterogenee. Conviene distinguerle, perché basi neurali e proprietà funzionali differiscono in modo non banale.

Motor skills: suonare uno strumento, scrivere a tastiera, dribbling. Cerebellum e motor cortex centrali, gangli base coinvolti per le sequenze.
Perceptual skills: il radiologo che legge una TAC, il sommelier al cieco, il twitcher che riconosce uccelli al volo. Sono procedurali nel senso di automatizzato e non completamente verbalizzabile, anche se non motori.
Cognitive skills: parsing sintattico durante la lettura, calcolo mentale automatico (8 × 7 = 56 senza derivazione cosciente), shortcut algoritmici di un programmatore senior.
Habit formation: Wendy Wood e Dennis Rünger (2016), “Psychology of Habit” su Annual Review of Psychology, distinguono habit (comportamento triggerato da contesti, indipendente dal goal corrente) da skill (comportamento goal-directed, sotto controllo intenzionale anche se automatico). Esempio: ti ritrovi con il telefono in mano senza ricordare quando l’hai preso (habit), oppure suoni una sonata senza pensare alle dita (skill).
Classical conditioning: John Watson e Rosalie Rayner (1920) “Conditioned emotional reactions”, il famoso esperimento Little Albert con la fobia condizionata al ratto bianco. Risposte emotive condizionate, base sub-corticale (amigdala). È procedurale nel senso ampio: appreso, automatico, non verbalmente dichiarabile.
Priming: l’esposizione precedente a uno stimolo facilita il riconoscimento o il completamento successivo. Il soggetto presentato con frammenti di parole (“ele___”) tende a completarli con parole viste poco prima (“elefante” se aveva visto “elefante” un’ora prima, anche senza ricordarlo esplicitamente). Sistema indipendente sia da MTL sia da gangli base, sembra coinvolgere la corteccia perceptiva specifica.

Tutte queste forme hanno in comune tre proprietà: sono acquisite con la pratica, sono automatiche all’esecuzione, e sono resistenti alla verbalizzazione completa. Tutte sono conservate in pazienti amnestici con lesioni MTL pure (per quel poco che lesioni cerebrali sono mai pure).

Basi neurali differenziate: una mappa minima

Il dettaglio anatomico è in memoria-lungo-termine. Qui basta la mappa funzionale, perché serve a capire la doppia dissociazione clinica.

Memoria dichiarativa: medial temporal lobe (hippocampus, perirhinal cortex, parahippocampal cortex) per il binding episodico e l’encoding di nuovi fatti, neocorteccia (specie temporale e prefrontale) per lo storage a lungo termine.
Memoria procedurale motoria: cerebellum per il timing fine e la motor adaptation; motor cortex (M1) per l’esecuzione; supplementary motor area per le sequenze.
Memoria procedurale habit/skill: gangli base (striato in particolare), modulati dal segnale dopaminergico della substantia nigra. Coinvolti nell’apprendimento per rinforzo di sequenze e nell’azione abituale.
Conditioning: amigdala (fear conditioning, base di Watson-Rayner 1920), cerebellum (eyeblink conditioning).

Il punto importante è la non sovrapposizione: lesioni di MTL non distruggono motor learning, lesioni di gangli base e cerebellum non distruggono memoria episodica. Da qui la dissociazione clinica.

Model-free vs model-based RL: un parallelo computazionale

Bradley Doll, Nathaniel Daw e collaboratori, in lavori 2010-2015 (in particolare Doll, Simon, Daw 2012 “The ubiquity of model-based reinforcement learning”), formalizzano una distinzione computazionale che mappa parzialmente sulla distinzione DECL/PROC e che è influente per chi viene da reinforcement learning.

Model-free RL: il sistema impara associazioni stato-valore o stato-azione-valore (Q-values) per via di prove ed errori; non rappresenta esplicitamente il modello del mondo. Veloce all’esecuzione, lento all’apprendimento, rigido al cambiamento. Implementato neurobiologicamente nei gangli base con segnali TD dopaminergici.
Model-based RL: il sistema costruisce un modello esplicito delle transizioni (T(s,a,s’)) e delle ricompense, e pianifica via simulazione interna. Lento all’esecuzione, flessibile, robusto a cambiamenti improvvisi della reward function. Implementato in PFC e hippocampus.

Il parallelo: model-free ≈ procedurale habit/skill, model-based ≈ dichiarativo + planning. È una analogia con base computazionale, non un’identità: model-free non cattura tutto il procedurale (motor learning ha componenti che non sono RL), e model-based non cattura tutta la memoria dichiarativa (semantica generale non è planning).

L’utilità per chi disegna agent system è notevole. Riconoscere quando un task richiede policy learnt da rollout (model-free) o pianificazione esplicita (model-based) è una decisione architetturale ricorrente — vedi policy-gradient (in preparazione) e markov-decision-process (in preparazione) per il dettaglio formale.

Implementazione computazionale: ACT-R nel dettaglio essenziale

ACT-R di Anderson e Christian Lebiere (“The Atomic Components of Thought”, 1998) è l’implementazione computazionale più matura della distinzione DECL/PROC. Vale la pena vedere il meccanismo nelle sue mosse essenziali, perché la sua eleganza chiarisce cosa significhi davvero “due sistemi”.

Declarative module: contiene chunks (strutture con campi e valori, “Padova è in Veneto” è un chunk con campi luogo=Padova, regione=Veneto). Ogni chunk ha un’activation A, calcolata come

A = B + Σ Wj · Sji

dove B è la base level (dipende da frequenza e recency dei richiami precedenti, segue una funzione di tipo logaritmico nel numero di richiami), Wj è il peso dato all’elemento j del contesto corrente, e Sji è la strength of association tra j e il chunk i. Tradotto: un chunk è più probabile da recuperare quanto più è stato usato di recente e quanto più il contesto corrente lo evoca. La probabilità di retrieve effettivo segue una funzione logistica dell’activation.

Procedural module: contiene production rules nella forma “IF condizione THEN azione”. Ogni production ha una utility U, aggiornata via un meccanismo simile a Q-learning (Bellman-Equation update, vedi equazione-bellman in preparazione): U_new = U_old + α · (reward - U_old). Quando più production matchano la condizione corrente, vince quella con utility più alta (con un po’ di rumore stocastico).

Production compilation: il meccanismo formale dietro la proceduralization di Anderson 1982. Due production frequentemente eseguite in sequenza, con un retrieve dichiarativo in mezzo, vengono fuse in una production singola che incorpora il chunk recuperato come literal. Esempio: la regola generale “per moltiplicare X·Y, retrieve la cella corrispondente delle tabelline, applica” viene compilata in 36 production specifiche del tipo “se moltiplicare 7 per 8 allora rispondi 56”. Il bambino passa da “derivare 7×8 contando” a “saperlo immediatamente”. Il sistema modella così il fenomeno empirico documentato da decenni in studi sull’aritmetica mentale dei bambini.

Per il dettaglio architetturale vedi architetture-cognitive. Qui basta tenere fermo: la distinzione DECL/PROC ha un’implementazione computazionale funzionante, fitting di dati comportamentali fini (tempi di reazione su task specifici, curve di apprendimento, pattern di errore), non è solo intuizione filosofica. ACT-R modella in dettaglio quantitativo task come visual search, problem solving aritmetico, memoria di liste, risoluzione di puzzle.

Tre esempi concreti

Esempio 1: il master di scacchi di Chase-Simon

Già descritto nella meccanica. Il punto da scolpire: la differenza non è quantitativa (“memoria migliore”) ma qualitativa (chunks specifici al dominio). Quando si tolgono le strutture, l’esperto perde ogni vantaggio. Implicazioni: l’expertise non trasferisce gratis tra domini.

Annotazione di classe: filiazione documentata tra Chase-Simon 1973 e Ericsson-Krampe-Tesch-Römer 1993 (gli autori si citano direttamente, lavorano nello stesso lab Carnegie Mellon negli anni ‘70-‘80). Analogia invece tra chunks di chess e features in mech interp di un LLM (entrambe rappresentazioni intermedie): è solo somiglianza didattica, non lineage.

Replica metodologica importante. L’esperimento di Chase-Simon è stato replicato decine di volte in domini diversi: bridge (Charness 1979), Go (Reitman 1976), programmazione (McKeithen et al. 1981 — i programmatori esperti ricostruiscono codice ben formato meglio dei novizi, codice scrambled allo stesso livello), elettronica, basket, danza. Pattern unico: il vantaggio dell’esperto è strutturale, sparisce quando si rimuove la struttura del dominio. Generalizzazione robusta, di rado smentita.

Esempio 2: doppia dissociazione clinica Korsakoff vs Parkinson

Un paziente Korsakoff sessantenne, ex-meccanico, non ricorda di aver pranzato due ore fa, confabula sul presidente in carica, ma di fronte a un motore smontato sa esattamente cosa fare e come rimontarlo. Sa fare ciò che non sa raccontare di aver imparato.

Un paziente Parkinson all’inizio della malattia ricorda nomi di amici, fatti storici, può discutere un libro, ma fatica visibilmente ad apprendere una nuova sequenza motoria (suonare una scala su tastiera). Knowlton, Mangels e Squire (1996, Science) testano lo stesso paziente Parkinson con il weather prediction task: quattro carte con simboli astratti predicono “sole” o “pioggia” con probabilità nascoste, il soggetto vede una combinazione e indovina, riceve feedback. Dopo molte prove i soggetti sani imparano a indovinare bene senza saper articolare le probabilità (apprendimento implicito/procedurale). I pazienti Parkinson non imparano. Per contro, i pazienti amnestici (lesione MTL, dichiarativa danneggiata) imparano normalmente la versione probabilistica, ma falliscono se gli si chiede di ricordare quali tentativi specifici hanno fatto.

Doppia dissociazione esibita: due lesioni distinte, due deficit complementari. Argomento empirico forte per sistemi distinti.

Esempio 3: un LLM che genera Python ma non sa articolarne le regole

Provate questo esperimento (è ripetibile su qualunque LLM moderno al 2026). Chiedete a un LLM di scrivere una funzione Python complessa con type hints, gestione delle eccezioni, decoratori. La output è impeccabile, idiomatica, sintatticamente perfetta.

Chiedete poi: “Elenca tutte le regole grammaticali precise di Python che governano la collocazione dei type hints rispetto a default arguments e a *args/**kwargs. Fornisci la grammatica BNF rilevante.” La risposta sarà parzialmente corretta, parzialmente confusa, occasionalmente contraddittoria.

Il modello sa fare ciò che fatica a dire. La competenza è procedurale (codificata nei pesi, applicata fluentemente). La verbalizzazione è un compito separato che richiede di ricostruire dichiarativamente ciò che è disponibile solo in forma applicativa. È il pattern di Polanyi al contrario: l’LLM “knows more than it can tell”, non perché lo nasconda ma perché la rappresentazione interna non è proposizionale articolabile.

Annotazione di classe: questa è analogia esplicativa, non equivalenza meccanica. Il modello non ha memoria procedurale come un cervelletto. La somiglianza è funzionale, non strutturale. Distinzione che riprenderemo nella prossima sezione.

Esempio 4: il pianista che impara una sonata in tre fasi

Chiudo con un esempio che illustra Fitts-Posner in tempo reale.

Settimana 1, fase cognitive. Il pianista che affronta una sonata di Beethoven nuova legge la partitura, conta i tempi a voce alta, identifica il tonalità, le modulazioni, i passaggi tecnici critici. La diteggiatura è scelta a tavolino, segnata sul foglio. L’esecuzione è lenta, frammentata, frequente bisogno di fermarsi per pensare.

Settimane 4-8, fase associative. La diteggiatura non è più consultata, le frasi musicali emergono come unità, alcune sezioni sono già fluide, altre richiedono ancora attenzione locale. L’errore tipico cambia: non più “che nota viene dopo?”, ma “questo passaggio mi è scappato a velocità di esecuzione”.

Mese 6+, fase autonomous. La sonata è suonabile in concerto. Il pianista pensa all’interpretazione (dinamica, fraseggio, agogica), non più alle note. Se a metà del concerto qualcuno dietro le quinte gli chiede “che nota fai sul terzo tempo della battuta 47?”, spesso non sa rispondere senza tornare al pianoforte e suonare. Il sapere è migrato in forma procedurale, dove è massimamente accessibile per l’esecuzione e minimamente per l’introspezione verbale.

Annotazione di classe: questa è descrizione fenomenologica (resoconti di pianisti professionisti documentati in letteratura, e.g. Chaffin, Imreh, Crawford 2002 “Practicing Perfection”), non teorema. Le tre fasi sono utile schema, non tappe deterministiche.

Sotto-dettaglio interessante dello studio di Chaffin: i pianisti professionisti, per recuperare un punto specifico in una sonata, usano performance cues — punti di riferimento espliciti (un’entrata di tema, una modulazione, un cambio di dinamica) che permettono di “ripartire” da metà brano. È una struttura dichiarativa sovrapposta alla competenza procedurale, indispensabile per recuperare in caso di errore in concerto. La skill matura non è solo procedurale: ha una griglia dichiarativa di riferimento che non è verbalizzazione delle note, ma una mappa funzionale del percorso musicale. Si presta molto bene all’analogia con il modo in cui un programmatore esperto naviga una codebase: non ricorda ogni riga, ma ha una mappa funzionale dei punti di ingresso da cui può ripartire.

Eredità oggi: una mappatura analogica AI, con caveat scolpiti

[DATATO 2026-04] Questa sezione discute il rapporto tra la distinzione DECL/PROC umana e i sistemi AI 2024-2026. È sidebar deliberata: il resto del capitolo non dipende da queste analogie. Lettori interessati al solo nucleo cognitivo possono saltare alla sezione “Dove si rompe”.

L’analogia tra memoria umana e architettura LLM è ovunque, dai paper di interpretability ai blog post divulgativi. È utile se ben governata, dannosa se lasciata libera. La governance richiede di dichiarare ogni volta la classe (analogia esplicativa, parallelo computazionale parziale, equivalenza meccanica) e di non scivolare da una all’altra nello stesso paragrafo.

La mappatura più produttiva tra memoria umana e sistemi LLM moderni è la seguente.

Concetto umano	Componente LLM	Note operative
Memoria procedurale	Pesi del modello dopo training/fine-tuning	Conoscenza fluente, non articolabile esplicitamente
Memoria dichiarativa attiva	Context window	Fatti accessibili nel turno corrente
Memoria dichiarativa esterna	RAG / retrieval su KB	Knowledge interrogabile via query
Long-term WM espansa (Ericsson-Kintsch)	Prompt caching + chunks pre-strutturati	Strutture pre-formate richiamate rapidamente
Skill acquisition (passaggio cognitive→autonomous)	Pretraining + SFT + RLHF	Esposizione ripetuta, generalizzazione, fluenza

ANALOGIA, NON EQUIVALENZA. Il mapping qui sotto è produttivo come heuristic, non come identità di meccanismo: pesi, contesto e retrieval rispecchiano grossolanamente memoria procedurale, dichiarativa attiva e dichiarativa esterna — ma i substrati sottostanti non sono equivalenti.

Memoria umana	Stack LLM (2026)	Cosa hanno in comune
Memoria procedurale	Pesi del modello (post-training)	Skill fluente, non articolabile esplicitamente
Memoria dichiarativa (attiva)	Context window	Fatti accessibili nel turno corrente
Memoria dichiarativa (esterna)	Retrieval / RAG su knowledge base	Conoscenza interrogabile via query

Funziona qualitativamente. Un programmatore esperto e un LLM al 2026 condividono un fenomeno fenomenologico: entrambi generano output fluenti senza saper articolare completamente le regole sottostanti. La conoscenza è “dentro” e non si lascia leggere proposizionalmente.

Il pattern che si osserva guardando un programmatore senior che usa Claude Code o Cursor nel 2025-2026 è interessante. Il senior interagisce con il sistema come si interagirebbe con un junior procedurale: dà direzione, lascia eseguire, corregge solo dove il sistema sbaglia. La conoscenza dichiarativa del task (cosa va fatto, perché, vincoli) sta nel prompt e nei file di contesto. La conoscenza procedurale (come si scrive Python, come si naviga una codebase, come si applica un diff) sta nei pesi e nell’addestramento. La divisione del lavoro non è teoricamente garantita, ma fenomenologicamente funziona, ed è precisamente la divisione DECL/PROC sotto altro nome.

Caveat strutturali, da non saltare se non si vuole scivolare da analogia a equivalenza.

Primo: nessuna separazione architetturale netta nei pesi. Un LLM moderno non ha un “declarative module” e un “procedural module” anatomicamente distinti come ACT-R. Tutto è interleaved nei layer del transformer. Mech interp può estrarre features (le sparse autoencoders di Anthropic 2023-2024 trovano direzioni semantiche corrispondenti a concetti specifici), ma non c’è una linea anatomica che separi “fatto” da “skill” come c’è nel cervello tra hippocampus e basal ganglia. La separazione umana è una distinzione di sistema fisicamente realizzata, quella LLM è — al meglio — una distinzione funzionale leggibile via interpretability.

Secondo: training non equivale a proceduralization umana in senso meccanico. Resta analogia esplicativa: esposizione ripetuta produce competenza fluente che il sistema non sa “spiegare” alla prima persona. Ma la proceduralization umana ha una sequenza temporale tipica (cognitive → associative → autonomous nell’arco di minuti, ore, anni di pratica del singolo individuo) che non si applica al pretraining (singolo training run su corpus massivo, niente fasi cognitive deliberate). Equivalenze del tipo “il pretraining è proceduralization” sono cliché da evitare.

Terzo: in-context learning è un caso strano. Il modello “impara” pattern dal contesto stesso, durata limitata al turno. Si potrebbe ipotizzare un livello “meta-procedurale”: il pretraining ha installato la capacità di apprendere in-context, capacità che ora opera su contenuto dichiarativo presente nel context window. È analogia che merita riflessione, non equivalenza dimostrata. La letteratura 2023-2025 non ha consenso; conviene quindi trattarla come ipotesi di lavoro prudente, utile per pensare il fenomeno ma non ancora stabilizzata come analogia forte.

Quarto: sleeper agents come tacit knowledge? Hubinger et al. (Anthropic 2024) “Sleeper Agents” mostrano che backdoor introdotti via training persistono attraverso safety training e si manifestano solo sotto trigger specifici. Tentazione di vedere qui un parallelo con tacit knowledge: il sistema “sa” qualcosa che non si manifesta sotto interrogazione esplicita. Analogia suggestiva ma rischiosa. I meccanismi sono completamente diversi: il sleeper agent è una contaminazione intenzionale di training, il tacit knowledge umano è una proprietà naturale della cognizione. Affermare equivalenza qui è errore di classe (analogia spinta a filiazione causale senza evidenza).

Quinto: scaling laws ≠ power law of practice. La somiglianza superficiale delle curve è seducente. Ma il power law umano è di ripetizione della stessa skill in un individuo (curve di apprendimento individuali, peraltro meglio descritte da esponenziali secondo Heathcote 2000). Le scaling laws AI (Kaplan 2020, Hoffmann/Chinchilla 2022) sono leggi su dati e parametri in un singolo training run. Curve simili, fenomeni distinti.

Sesto: fine-tuning come “proceduralization mirata”? Un’analogia parziale. Un modello base ha capacità generaliste; il fine-tuning su dataset di un dominio specifico (codice, medicina, legale) produce competenza fluente in quel dominio, spesso accompagnata da perdita di flessibilità su altri (catastrophic forgetting parziale). Sembra simile alla proceduralization umana: si guadagna fluenza specialistica, si perde versatilità. Ma la sequenza temporale è completamente diversa (fine-tuning è un singolo training run, non un’esperienza accumulata in tempo reale dal sistema), e il fenomeno di forgetting non corrisponde a nulla nella proceduralization umana. Analogia con valore didattico, non equivalenza meccanica.

Settimo: skills nei pesi vs skills nel prompt. Una distinzione operativa rilevante per chi disegna agent: cosa va messo nei pesi (via fine-tuning) e cosa va lasciato al prompt? La risposta del 2025-2026 sembra orientarsi verso: conoscenza stabile, generale, costosa da articolare → pesi; conoscenza specifica, mutevole, contestuale → prompt + RAG. È una versione operativa della distinzione DECL/PROC: ciò che è proceduralizzabile va proceduralizzato (nei pesi), ciò che è dichiarativo e situazionale va lasciato dichiarativo (nel context). Nota di classe: questa è euristica di design, non legge dimostrata. Le frontiere si stanno muovendo (con context-window sempre più grandi e prompt caching efficiente, sempre più cose stanno restando nel prompt).

Sub-pattern interessante: agent skills come quelle di Claude Code (skill files in markdown caricati dinamicamente) sono un terzo livello, dichiarativo procedurizzato: testo esplicito che descrive una procedura, attivato on-demand. Non è memoria nei pesi, non è solo dato nel context: è una forma intermedia che ricorda l’apprendistato umano (“guarda come si fa, ora prova”). Se la categorizzazione DECL/PROC fosse binaria pulita questa terza forma non sarebbe ben localizzabile; in realtà è una zona di interesse pratico crescente.

Ottavo: il transfer di tacit knowledge a un modello richiede demonstration, non testo. Implicazione operativa concreta: se un’organizzazione vuole trasferire expertise procedurale a un agent, dataset di sole regole testuali non basta. Servono trace di esecuzione, demo di sessioni reali (cosa l’esperto guarda, in che ordine, su cosa torna indietro). È la versione AI dell’apprendistato di Lave-Wenger. La pratica emergente di SFT su trace di sessioni di expert (Cursor, Claude Code, Copilot Workspace al 2026) va precisamente in questa direzione.

Sintesi della classe: tutta questa sezione propone analogie esplicative, dichiarate come tali. Una equivalenza meccanica tra distinzione DECL/PROC umana e architettura LLM non c’è e non è sostenibile con l’evidenza al 2026.

Una nota su come non scrivere su questo tema. Frasi come “i pesi degli LLM sono memoria procedurale” o “il context è memoria dichiarativa” sono utili come slogan didattici a condizione di marcarle. Senza marcatura diventano cattiva metafisica: lasciano credere che si sia spiegato qualcosa di profondo quando si è solo proposto un parallelo. Chi scrive su agent design dovrebbe abituarsi a dichiarare la classe ogni volta: “analogia produttiva”, “parallelo computazionale parziale”, “metafora didattica”. Costa due parole e protegge da errori di ragionamento successivi.

Dove si rompe

La distinzione DECL/PROC è utile e separabile clinicamente, ma ha bordi sfilacciati. Le sezioni qui sotto raccolgono i casi limite e gli errori di classe più comuni.

La dicotomia è troppo netta. Skill complesse hanno componenti dichiarative e procedurali interleaved. Un chirurgo richiama anatomia (DECL) e ha skill motori e percettivi (PROC) costantemente intrecciati. Un programmatore senior richiama API specifiche e ha pattern visivo-strutturali per leggere codice. La realtà è continuum, non binario. La distinzione vale come astrazione utile, non come scoperta di due cassetti puliti.

Tacit/explicit non equivale a dichiarativo/procedurale. Le due distinzioni si incrociano, non coincidono. Esistono conoscenze procedurali parzialmente articolabili (un programmatore esperto può articolare molte sue scelte se ci pensa) e conoscenze dichiarative tacite (sappiamo che un quadrato ha quattro lati senza richiamarlo come fatto esplicito ogni volta). Polanyi parlava di tacit/explicit come continuum epistemico; Anderson parlava di DECL/PROC come architettura di rappresentazione. Sovrapporle è scivolata di classe.

10.000 ore non è una legge. Già discusso. Macnamara et al. 2014 hanno quantificato: la pratica deliberata spiega tra l’1% e il 26% della varianza a seconda del dominio. È un fattore importante, non il fattore. Ericsson stesso ha sempre rifiutato l’interpretazione popolare.

Power law of practice è aggregato. Heathcote, Brown, Mewhort 2000: a livello di singolo soggetto la curva è esponenziale, il power law emerge dall’aggregazione. Affermazione “la skill segue una power law” ha quindi statuto descrittivo aggregato, non legge naturale individuale.

Proceduralization non è sempre desiderabile. Un esperto altamente proceduralizzato perde flessibilità. Effetto Einstellung (Luchins 1942): chi ha una procedura collaudata fatica a vedere soluzioni più semplici a varianti del problema. Set bias: il pattern dominante blocca alternative. Quando il dominio cambia, l’autonomia procedurale è una palla al piede. Un programmatore con vent’anni su un linguaggio ha uno svantaggio iniziale nel passare a un paradigma radicalmente diverso, contrariamente a un junior che parte fresco.

Equivalenze AI/umano da non fare. Ribadito: “training = proceduralization umana”, “fine-tuning = consolidamento procedurale”, “RAG = recupero dichiarativo umano”, “scaling laws = power law of practice”, “sleeper agents = tacit knowledge” sono tutte equivalenze di classe sbagliata. Restano analogie esplicative utili a condizione di dichiararne lo statuto.

Conoscenza tacita non è “minore” né “primitiva”. È tentazione (sia cartesiana sia rationalista) considerare il knowing-how come knowing-that ancora non articolato — come se bastasse pensarci abbastanza per “tirarlo fuori”. Polanyi argomenta il contrario: il tacito è epistemicamente fondamentale, non residuo. Anche le scienze più esatte poggiano su pratiche tacite (saper leggere uno strumento, saper isolare un campione, riconoscere un buon esperimento). Trattare il tacito come “documentazione mancante” è errore epistemologico ricorrente nelle organizzazioni che credono che basti scrivere la procedura per averla.

La distinzione non scala uniformemente tra discipline. In motor skills la separazione DECL/PROC è nettissima (chi nuota e chi spiega come fa il rana sono spesso persone diverse). In skill cognitive ad alto livello (matematica, scrittura, programmazione) la separazione è meno netta: l’esperto può articolare buona parte di ciò che fa, anche se non tutto. La distinzione vale come strumento di analisi calibrato alla disciplina, non come dogma uniforme.

Doppia dissociazione non dimostra indipendenza completa. L’argomento empirico è forte ma ha limiti metodologici noti. Lesioni cerebrali raramente sono pure (un paziente Korsakoff ha lesioni multiple, non solo MTL); funzioni “preservate” possono avere deficit sottili non rilevati dai test standard. La separabilità è almeno parziale, non perfetta.

Distinzione utile per chi e per cosa. L’utilità della distinzione DECL/PROC dipende dalla domanda. Per neurologo clinico è essenziale (orienta diagnosi e terapia). Per psicologo dell’apprendimento è strutturante (informa la teoria di skill acquisition). Per filosofo è punto di partenza necessario per discutere la mente. Per chi disegna agent system è un’analogia produttiva con caveat. Per chi disegna interpretability di LLM è metafora sospetta da maneggiare con cura. La distinzione non è “vera” o “falsa” in assoluto: è un attrezzo, valutabile per come funziona nelle mani giuste.

Critica radicale (Dreyfus, fenomenologia). Hubert Dreyfus, in “What Computers Can’t Do” (1972) e successivi, sostiene che la riduzione di knowing-how a production rules (Anderson, ACT) misclassifica il fenomeno. La skill esperta, per Dreyfus, non è composizione di regole compilate ma coping fluente con un mondo che si presenta direttamente significativo, senza mediazione rappresentazionale. È critica filosofica seria che ha generato dibattito; ne accenno qui senza poterla risolvere. Per il lettore: la distinzione DECL/PROC è il consenso operativo del cognitivismo classico; non è l’ultima parola.

Applicazioni pratiche

Il quadro teorico ha ricadute operative concrete in domini diversi. Le raccolgo qui senza pretese di esaustività.

Progettazione di curricula e onboarding. Se la conoscenza professionale è in larga parte tacita e procedurale, scrivere “manuali completi” è strategia perdente. Funziona meglio l’apprendistato strutturato: assegnare junior a senior, mostrare sessioni reali, dare feedback in situazione, far accumulare pratica deliberata su task progressivamente più complessi. Le aziende che si sono accorte di perdere conoscenza critica al pensionamento dei senior (manifattura specializzata, medicina chirurgica, trading) hanno reintrodotto pratiche di mentoring strutturato dopo aver constatato il fallimento delle “knowledge bases” testuali.

Trasferimento di expertise tra domini. L’expertise non transfera gratis: il chess master non è automaticamente bravo a Go, il radiologo non legge bene una TAC pediatrica senza training specifico. I chunks sono dominio-specifici. Chi disegna percorsi di carriera o ricollocazione professionale dovrebbe assumere che la skill procedurale richieda re-investimento sostanziale, non semplice “rebranding”.

Diagnosi differenziale neurologica. La distinzione DECL/PROC è clinicamente operativa. Pazienti che lamentano “non ricordo” vanno valutati su entrambi gli assi: quale memoria è compromessa, quale conservata? La diagnosi orienta verso lesioni MTL vs gangli base vs cerebellum, con implicazioni terapeutiche e prognostiche diverse.

Riabilitazione. Pazienti con amnesia anterograda profonda (tipo H.M.) possono comunque apprendere skill procedurali nuove se istruiti per dimostrazione e ripetizione, senza richiamo esplicito. Programmi di riabilitazione moderni sfruttano questo principio: apprendimento implicito su task ricorrenti della vita quotidiana, con il paziente che non “ricorda” di averli fatti ma migliora oggettivamente.

Design di sistemi AI di assistenza. Un sistema che assiste un esperto ha bisogni opposti rispetto a uno che insegna a un principiante. L’esperto vuole automazione fluida sullo strato procedurale (autocompletion, suggerimenti contestuali, assenza di frizione esplicativa). Il principiante ha bisogno di esposizione dichiarativa (perché questa scelta? quali sono le alternative?) e di feedback graduale. Non distinguere produce assistenti che irritano gli esperti e disorientano i novizi.

Funzione adattiva: perché due sistemi e non uno

Vale chiedersi, prima di chiudere, perché un’architettura biologica avrebbe due sistemi anziché uno solo. La risposta più diffusa nella letteratura di neuroscienze evolutive (McClelland, McNaughton, O’Reilly 1995, “Why there are complementary learning systems in the hippocampus and neocortex”) va così:

Un sistema rapido e specifico (ippocampo, dichiarativo episodico) serve a registrare singoli eventi senza interferenza con la conoscenza precedente. Costoso ma flessibile, permette one-shot learning.
Un sistema lento e generale (neocorteccia, semantica; gangli base e cerebellum, procedurale) serve a estrarre regolarità statistiche su molte esperienze e a stabilizzare comportamenti adattivi. Lento ad acquisire, robusto al rumore, generalizzante.

I due sistemi cooperano in fasi distinte: l’ippocampo registra in tempo reale, durante il sonno consolida via replay nelle aree neocorticali e nei circuiti procedurali. La separazione è soluzione architetturale al plasticity-stability dilemma: se un sistema unico imparasse rapidamente, sovrascriverebbe la conoscenza esistente (catastrophic forgetting); se imparasse lentamente, non potrebbe registrare eventi unici. Due sistemi specializzati risolvono il dilemma.

Notazione di classe: questa è ipotesi computazionale-evolutiva con supporto empirico, non teorema. Esistono critiche (Hassabis, Kumaran 2007 e altri) e raffinamenti. La presento come quadro interpretativo robusto al 2026, non come verità definitiva.

Implicazione interessante per AI: i sistemi LLM al 2026 non hanno questa separazione architetturale. Hanno un unico training lento sul corpus, niente sistema episodico rapido. RAG e long-term memory esterna (MemGPT, Letta, Zep) sono tentativi di bolt-on di un sistema episodico, non di un sistema architetturalmente integrato come l’ippocampo. È plausibile che future architetture cognitive AI introducano qualcosa di analogo a complementary learning systems — vedi long-term-memory (in preparazione) per il dettaglio degli approcci.

Una sintesi in cinque punti

Due modi di sapere, non due contenuti. Knowing-that e knowing-how (Ryle 1949) si distinguono per il modo in cui la conoscenza è in noi: stato proposizionale richiamabile vs disposizione comportamentale.
Il tacito è epistemicamente fondamentale. Polanyi: ogni sapere esplicito poggia su uno strato tacito. Implicazione organizzativa: l’expertise non si trasferisce solo con documentazione, serve apprendistato.
La proceduralization è un processo reale, sequenziato, misurabile. Fitts-Posner (cognitive → associative → autonomous), Anderson 1982 (production compilation in ACT-R), Newell-Rosenbloom (curve di pratica con caveat di Heathcote 2000).
L’expertise è chunked e specifica al dominio. Chase-Simon 1973 sui chess master è il prototipo. Ericsson 1993 quantifica con la deliberate practice. Macnamara 2014 ridimensiona la 10.000-hour rule a un fattore tra molti.
L’analogia con i sistemi AI è produttiva ma non meccanica. Pesi ≈ procedurale, context ≈ dichiarativo attivo, RAG ≈ dichiarativo esterno. Funziona qualitativamente. Equivalenze meccaniche (training = proceduralization, scaling = power law of practice, sleeper agents = tacit knowledge) sono errori di classe da non commettere.

Collegamenti

memoria-lungo-termine — tassonomia neuroscientifica completa, casi clinici, LTP, consolidamento. Questo capitolo presuppone quello come sfondo.
memoria-working — limiti di WM e long-term WM di Ericsson-Kintsch.
architetture-cognitive — implementazione computazionale della distinzione (ACT-R declarative e procedural module, production compilation).
cervello-basi — gangli base, cerebellum, hippocampus.
dual-process-kahneman (in preparazione) — Sistema 1 / Sistema 2 ha forti affinità con automatic/deliberate, anche se non perfettamente sovrapponibile a procedurale/dichiarativo.
ponte-s1-s2-llm (in preparazione) — il parallelo con cache vs reasoning.
ponte-memoria-agenti (in preparazione) — come questa distinzione informa il design di sistemi di memoria per agent.
memoria-agentica (in preparazione, Parte XVI) — short, long, episodic, semantic, procedural come tassonomia agentica.
transformer-2017 — architettura dei pesi che fanno da analogo procedurale.
in-context-learning (in preparazione) — meta-procedurale o solo dichiarativo attivo?
rag-base (in preparazione) — declarative external storage in pratica.
lora-peft (in preparazione) — fine-tuning come “proceduralization mirata”.
backdoored-models (in preparazione) — sleeper agents e l’analogia rischiosa con tacit knowledge.

Una postilla sulla terminologia

La letteratura usa termini che si sovrappongono e che vale la pena distinguere a voce alta, perché il lettore le incontrerà mescolate.

Dichiarativo / procedurale (Anderson 1976, Squire 1986): la coppia centrale di questo capitolo. Architettura cognitiva e tassonomia neuroscientifica.
Esplicito / implicito (Schacter 1987): l’esplicito è ciò che si manifesta in compiti di richiamo o riconoscimento intenzionale; l’implicito si manifesta in cambiamenti di performance senza richiamo cosciente. Coppia parzialmente sovrapposta a DECL/PROC ma non identica: il priming è implicito ma non procedurale in senso classico.
Tacit / explicit (Polanyi 1958/1966): coppia epistemologica. Il tacito è la componente non verbalizzabile di qualunque conoscenza. Si incrocia con DECL/PROC senza coincidervi.
Knowing-that / knowing-how (Ryle 1949): coppia filosofica originaria. La più ampia delle quattro.
Conscious / unconscious processing: terminologia di Sistema 1 / Sistema 2 (Kahneman 2011), parzialmente sovrapposta ma con focus su attenzione e elaborazione, non su tipo di rappresentazione.
Habit / goal-directed behavior (Wood-Rünger 2016, Dickinson): coppia comportamentale. Habit è triggerato dal contesto, goal-directed è valutato rispetto a outcome desiderati. Habit ⊂ procedurale, ma non tutto il procedurale è habit.

Quando si scrive su questi temi vale la pena dichiarare quale coppia si sta usando e perché. Mescolare le quattro produce confusione che si propaga a chi legge.

Una nota sul lettore di questo capitolo

Chi legge questo capitolo cercando ricette operative (“come trasferire knowledge in un’organizzazione”, “come progettare il fine-tuning di un agent”) trova qualche euristica utile ma non un manuale. La domanda centrale del capitolo è cognitiva e filosofica: cosa sono le due forme di sapere e come si rapportano. Le ricadute operative arrivano poi, e sono trattate altrove (memoria-agentica, lora-peft, fs-as-memory, agent-skills). Per chi scrive questa wiki, l’ordine è preciso: prima capire il fenomeno cognitivo, poi mappare le architetture AI con onestà di classe, infine progettare. Saltare al terzo passo senza i primi due genera quei cliché (“training = proceduralization”, “context = working memory”) che riempiono i blog post divulgativi e impoveriscono il pensiero progettuale.

Per andare oltre

Anderson, John R. (1982). “Acquisition of cognitive skill”. Psychological Review, 89(4), 369-406. Lettura primaria, denso ma leggibile.
Ericsson, K. Anders, Krampe, Ralf T. & Tesch-Römer, Clemens (1993). “The role of deliberate practice in the acquisition of expert performance”. Psychological Review, 100(3), 363-406. Il paper di riferimento sull’expertise, con i violinisti di Berlino.
Polanyi, Michael (1966). The Tacit Dimension. University of Chicago Press. Breve, denso, lo si legge in un pomeriggio.
Squire, Larry R. & Kandel, Eric R. (1999/2009). Memory: From Mind to Molecules. Roberts and Company. Manuale accessibile sull’intera architettura della memoria.
Macnamara, Brooke N., Hambrick, David Z. & Oswald, Frederick L. (2014). “Deliberate practice and performance in music, games, sports, education, and professions: A meta-analysis”. Psychological Science, 25(8), 1608-1618. Per il contraddittorio sulla 10.000-hour rule.
Anderson, John R. & Lebiere, Christian (1998). The Atomic Components of Thought. Lawrence Erlbaum. Manuale tecnico di ACT-R, denso ma definitivo.
Knowlton, Barbara J., Mangels, Jennifer A. & Squire, Larry R. (1996). “A neostriatal habit learning system in humans”. Science, 273(5280), 1399-1402. Il weather prediction task in versione paper originale.
Lave, Jean & Wenger, Etienne (1991). Situated Learning: Legitimate Peripheral Participation. Cambridge University Press. Per chi è interessato all’apprendistato e al contesto sociale dell’apprendimento.
McClelland, James L., McNaughton, Bruce L. & O’Reilly, Randall C. (1995). “Why there are complementary learning systems in the hippocampus and neocortex”. Psychological Review, 102(3), 419-457. Il paper sull’argomento adattivo per due sistemi.
Dreyfus, Hubert L. (1972). What Computers Can’t Do. Harper & Row. Critica fenomenologica, da leggere per capire il dibattito sulla rappresentazione delle skill.
Heathcote, Andrew, Brown, Scott & Mewhort, D. J. (2000). “The power law repealed: the case for an exponential law of practice”. Psychonomic Bulletin & Review, 7(2), 185-207. La critica metodologica al power law of practice.
Wood, Wendy & Rünger, Dennis (2016). “Psychology of Habit”. Annual Review of Psychology, 67, 289-314. Stato dell’arte sull’habit, distinzione operativa habit/skill.
Chase, William G. & Simon, Herbert A. (1973). “Perception in chess”. Cognitive Psychology, 4(1), 55-81. Il paper iconico sui chunks dei chess masters.
Newell, Allen & Rosenbloom, Paul S. (1981). “Mechanisms of skill acquisition and the law of practice”. In Anderson J. R. (ed.), Cognitive Skills and Their Acquisition. Lawrence Erlbaum. Riferimento storico per il power law.