Salta ai contenuti

Architetture cognitive: ACT-R, SOAR, e la promessa di una teoria unificata della mente

Il programma di costruire un’unica architettura esecutabile capace di spiegare percezione, memoria, ragionamento, linguaggio e apprendimento — nato con Allen Newell nel 1987, sviluppato per quarant’anni in SOAR, ACT-R, CLARION, Sigma — e il suo difficile rapporto con i modelli linguistici monolitici che oggi dominano la scena.

Il 23 aprile 1987, in un’aula della Memorial Hall di Harvard, Allen Newell (1927-1992, informatico e psicologo cognitivo americano alla Carnegie Mellon University, Turing Award 1975 con Herbert Simon) sale sul podio per la prima delle otto William James Lectures che terrà nei mesi successivi. Settantotto anni dopo William James, settantotto anni dopo The Principles of Psychology del 1890, Newell affronta la stessa domanda di James — cosa è la mente, come funziona — con una mossa che la psicologia cognitiva del Novecento non aveva mai realmente tentato. “You can’t play twenty questions with nature and win” dice in apertura, citando il titolo di un suo paper del 1973: la psicologia ha prodotto centinaia di micro-modelli per micro-fenomeni — un modello per il priming, uno per la memoria a breve termine, uno per la ricerca visiva, uno per le illusioni, uno per la decisione binaria — e zero teorie integrate. La cognizione, dice Newell, va studiata intera: bisogna costruire architetture cognitive unificate, sistemi computazionali eseguibili che catturino simultaneamente più fenomeni mentali.

Le otto lezioni diventeranno, tre anni dopo, Unified Theories of Cognition (Harvard University Press, 1990, xx + 549 pagine). Il libro presenta come esemplare candidato di teoria unificata l’architettura SOAR — sviluppata da Newell con i suoi allievi John Laird (oggi alla University of Michigan) e Paul Rosenbloom (oggi alla USC) a partire dal 1983. Newell morirà nel 1992 di cancro, a soli 65 anni, lasciando il programma all’inizio della sua maturità. Quarant’anni dopo la prima lezione, le architetture cognitive che da quel programma discendono — SOAR, ACT-R di John Anderson, CLARION di Ron Sun, Sigma di Rosenbloom, e altre — esistono, sono attivamente sviluppate, hanno una letteratura tecnica solida; e tuttavia, allo stato 2026, sono diventate una nicchia accademica, mentre il proscenio dell’AI applicata è interamente occupato da modelli linguistici monolitici che con le architetture cognitive condividono il nome di “modello della mente” e quasi nient’altro.

Questo capitolo ricostruisce quel programma. Non come archeologia, ma come orientamento: chi oggi costruisce agent harness — runtime modulari attorno a un LLM, con memoria persistente, tool, planner, decision loop — ricostruisce ingegneristicamente componenti che le architetture cognitive avevano formalizzato psicologicamente trent’anni prima. Capire cosa erano (e cosa volevano essere) le architetture cognitive aiuta a leggere meglio la stagione 2024-2026 e a non confondere strutturazione ingegneristica con teoria della mente.

Tre ragioni: una di accuratezza storica, una di igiene concettuale, una di mappa per il lavoro contemporaneo.

L’accuratezza storica: la storia dell’AI è costellata di programmi di ricerca che hanno avuto enorme rilevanza accademica e poi sono stati eclissati senza mai essere davvero confutati. Le architetture cognitive sono uno di questi: ACT-R ha ancora una comunità attiva di centinaia di ricercatori, decine di paper l’anno, modelli che predicono dati psicologici al millisecondo. Eppure sotto i 30 anni quasi nessun praticante di AI ne ha sentito parlare. Vale la pena restituire visibilità a un programma che ha prodotto cose serie e che non è stato superato in tutti i modi in cui pensiamo lo sia stato.

L’igiene concettuale: il dibattito 2024-2026 sugli agent scivola con sospetta facilità nell’idea che “agent harness con memoria, tool e planner” sia equivalente a “architettura cognitiva”. Non lo è. La somiglianza strutturale è reale e interessante (e il framework CoALA del 2024 la rende esplicita), ma le architetture cognitive classiche erano teorie psicologiche con vincoli quantitativi (predicono tempi di reazione, pattern di errore, decadimento della memoria); gli agent harness moderni sono artefatti ingegneristici per fare lavoro utile. Sono cose diverse. Marcare le classi di affermazioni — analogia strutturale, filiazione documentata, equivalenza formale — non è pedanteria, è la condizione per parlare con precisione.

La mappa: chi progetta sistemi modulari attorno a LLM dovrà decidere come gestire memoria di lavoro, memoria a lungo termine episodica e semantica, attenzione, controllo, apprendimento procedurale. Le architetture cognitive hanno trent’anni di esperimenti su queste domande. Non daranno la risposta, ma offrono vocabolario, distinzioni, e un repertorio di errori già fatti.

Le date che strutturano la storia delle architetture cognitive si dispongono lungo una linea relativamente compatta, dal 1976 al 2017, con ramificazioni successive.

1976 — Newell e Simon, Physical Symbol System Hypothesis. Sul Communications of the ACM (vol. 19 n. 3, marzo 1976, pp. 113-126), Allen Newell e Herbert Simon (1916-2001, economista e informatico americano alla CMU, Nobel per l’Economia 1978, Turing Award 1975) pubblicano “Computer Science as Empirical Inquiry: Symbols and Search”, la lezione del Turing Award 1975. Affermano la Physical Symbol System Hypothesis: “a physical symbol system has the necessary and sufficient means for general intelligent action”. Sotto questa tesi forte (necessaria E sufficiente), il programma è chiaro: per fare AI generale serve un sistema fisico che manipoli simboli secondo regole. Le architetture cognitive nascono come operazionalizzazione di quella tesi.

Stesso anno, John Anderson (1947-, psicologo americano allora a Yale, poi a CMU) pubblica la prima versione di ACT (Adaptive Control of Thought), una teoria della memoria umana basata su nodi e attivazione che si propagano. ACT diventerà ACT* (1983) e poi ACT-R (1993), una linea di sviluppo che dura ancora.

1983 — SOAR, ACT, e The Architecture of Cognition*. Anno cardine. John Laird (allora dottorando di Newell), Allen Newell e Paul Rosenbloom pubblicano la prima versione di SOAR (originariamente acronimo di “State, Operator, And Result”, oggi solo nome proprio). Lo stesso anno John Anderson pubblica The Architecture of Cognition (Harvard University Press), che usa per la prima volta in modo programmatico il termine “architettura” applicato alla mente. Il termine è preso esplicitamente in prestito dalla computer architecture di Bell e Newell (Computer Structures, McGraw-Hill 1971): l’idea è che esista, sotto i mille programmi mentali specifici, un’infrastruttura fissa — registri, set di istruzioni, regole di esecuzione — che rimane costante mentre cambiano i contenuti.

1987-1990 — Newell alle William James Lectures e Unified Theories of Cognition. Otto lezioni alla Harvard ad aprile-maggio 1987, libro nel 1990. Manifesto di un programma che ridefinisce il livello di ambizione della psicologia cognitiva: niente più micro-teorie isolate, ma teorie eseguibili che spieghino simultaneamente più fenomeni e siano falsificabili comparando predizioni quantitative ai dati. La lista dei 13 criteri che una vera architettura unificata deve soddisfare — flessibilità comportamentale, performance in tempo reale, comportamento adattivo, uso di vasta conoscenza, robustezza all’errore, uso del linguaggio naturale, coscienza e auto-consapevolezza, apprendimento dall’ambiente, sviluppo, autonomia, comunità sociali, auto-replicazione, realizzabilità nel cervello — è diventata il punto di riferimento per misurare l’ambizione di ogni proposta successiva.

Generic cognitive architecture schematic with modules, buffers, and decision cycle

1998 — Anderson e Lebiere, The Atomic Components of Thought. Anderson e Christian Lebiere (allora postdoc, oggi alla CMU) pubblicano la versione canonica di ACT-R 4.0. La novità rispetto a SOAR è la presenza esplicita di un livello sub-simbolico (attivazione dei chunk, utilità delle regole) che governa probabilisticamente ciò che a livello simbolico appare deterministico. Il libro contiene modelli quantitativi di decine di task psicologici — memoria a breve termine, problem solving, apprendimento di skill — tarati per fittare dati di soggetti umani al millisecondo.

2004 — Anderson, Bothell, Byrne, Douglass, Lebiere, Qin, “An Integrated Theory of the Mind”, Psychological Review 111(4): 1036-1060. Versione 5.0 di ACT-R, con il modular layout esplicito: moduli per visione, audizione, motricità manuale, dichiarativo, goal, imaginal, ognuno con un buffer (capacità tipica: un solo chunk). E un mapping diretto fra moduli e regioni cerebrali identificate via fMRI: il modulo dichiarativo nella corteccia prefrontale ventrolaterale, il modulo manuale nella corteccia motoria primaria, il modulo goal nella corteccia prefrontale dorsolaterale.

2017 — Common Model of Cognition. Sull’AI Magazine 38(4): 13-26, John Laird, Christian Lebiere e Paul Rosenbloom pubblicano “A Standard Model of the Mind: Toward a Common Computational Framework across Artificial Intelligence, Cognitive Science, Neuroscience, and Robotics”. Originato da un workshop al 2013 AAAI Fall Symposium, il paper non propone una nuova architettura: cerca un consenso post-hoc tra ACT-R, SOAR e Sigma su quali componenti debbano esserci in qualunque architettura cognitiva seria. Il paper sarà poi rinominato Common Model of Cognition per ridurre l’enfasi sul carattere “standard”. Lista consensuale: working memory, declarative LTM, procedural LTM, perception, motor, attention/control. Gli stessi sei componenti che, con altri nomi, riapparivano nella psicologia cognitiva da Atkinson-Shiffrin 1968 in avanti.

2023-2024 — CoALA. Theodore Sumers, Shunyu Yao, Karthik Narasimhan e Thomas Griffiths (Princeton, gruppo di Griffiths, psicologo computazionale) pubblicano “Cognitive Architectures for Language Agents” (arXiv:2309.02427, settembre 2023; Transactions on Machine Learning Research 2024). Il framework CoALA rilegge retrospettivamente gli agenti basati su LLM nei termini delle architetture cognitive classiche: working memory ~ context window; long-term memory ~ vector store + file system; procedural memory ~ skill files e prompt templates; episodic memory ~ chat history e replay; action space interno (memoria) + esterno (tool); decision loop come ciclo planning-execution. Esplicitamente: gli autori parlano di “drawing on” la storia delle architetture cognitive, non di filiazione meccanica.

Quarant’anni dal 1976 al 2017 portano da una tesi filosofica forte (Physical Symbol System Hypothesis) a un consenso modesto ma operativo (Common Model). I sette anni successivi — 2017-2024 — vedono il proscenio occupato da una tecnologia (gli LLM) che con quel programma ha solo un’aria di famiglia, e un tentativo (CoALA) di rileggere quella tecnologia con il vecchio vocabolario.

Prima dei nomi degli architettura e dei meccanismi, due angoli diversi servono a capire cosa cerca un’architettura cognitiva.

Pensa a un sistema operativo. Ha componenti fissi: scheduler dei processi, gestore della memoria virtuale, file system, stack di rete, sottosistema di I/O. Ognuno fa una cosa specifica. Sopra questo strato fisso girano applicazioni diverse — un browser, un compilatore, un gioco — che usano gli stessi meccanismi di base in modi diversi. Lo strato fisso è l’architettura: cambia raramente, è studiato a parte, ha una sua disciplina (operating system design). Le applicazioni cambiano sempre, ma riposano tutte sui meccanismi dell’architettura.

Newell e Anderson pensano alla mente nello stesso modo. Sotto i mille task cognitivi specifici (leggere una mappa, risolvere un’equazione, decidere se attraversare la strada, ricordare un appuntamento, capire una metafora), c’è un’infrastruttura cognitiva fissa: un buffer di working memory di capacità limitata, una memoria a lungo termine con meccanismi di retrieval e consolidamento, un set di regole di produzione che matchano pattern e producono azioni, un sistema di selezione dell’azione, moduli percettivi e motori. Le architetture cognitive sono il tentativo di scrivere quel “sistema operativo” della mente, in modo eseguibile, e usarlo come base per modellare task specifici.

L’angolo software ha una conseguenza importante: un’architettura cognitiva non è l’AI di un dominio. Non è “sistema esperto per la diagnosi medica” (vedi sistemi-esperti) né “modello di linguaggio”. È uno strato sotto, su cui si possono costruire molti modelli specifici. SOAR e ACT-R sono piattaforme; un singolo modello SOAR di un task — diciamo, risolvere il puzzle “Tower of Hanoi” — è un’applicazione che gira sopra la piattaforma.

Considera invece la prospettiva della psicologia sperimentale. Un soggetto umano, in laboratorio, esegue un compito: guarda lo schermo per 200 ms, vede una matrice di lettere, deve dire se contiene una T. Lo psicologo misura il tempo di reazione (RT). I dati mostrano che RT cresce linearmente con il numero di distrattori: ~30-50 ms per distrattore aggiunto. Cosa significa quel coefficiente? Cosa lo produce?

La psicologia cognitiva pre-Newell rispondeva con teorie locali: una teoria della ricerca visiva (ad es. Treisman 1980, feature integration theory), una teoria della memoria a breve termine (Atkinson-Shiffrin 1968), una teoria della selezione della risposta (Posner 1978). Ognuna fittava i suoi dati con i suoi parametri. Nessuna era costretta a essere consistente con le altre.

Newell sostiene che questo approccio “venti domande con la natura” non può produrre una teoria della mente, perché la mente è un solo sistema integrato. Una teoria che spieghi la ricerca visiva ma sia incompatibile con ciò che sappiamo della memoria a breve termine non è una buona teoria di nessuna delle due cose. Le architetture cognitive sono il tentativo di costruire teorie che siano contestualmente consistenti: stesso meccanismo di working memory usato per la ricerca visiva e per il problem solving e per la lettura; stesso meccanismo di retrieval usato per il riconoscimento di parole e per il ricordo di episodi.

Ciò che si guadagna: predizioni quantitative vincolate. Un modello ACT-R di ricerca visiva non può inventare un proprio meccanismo di working memory ad hoc; deve usare quello che il resto di ACT-R usa per altri task. Ciò che si paga: la difficoltà di sviluppo. Costruire un modello specifico in ACT-R richiede mesi di lavoro per uno specialista; in psicologia cognitiva tradizionale, una teoria locale può nascere in un pomeriggio.

La meccanica: dai production systems al Common Model

Sezione intitolata “La meccanica: dai production systems al Common Model”

Apriamo ora il merito tecnico. Procediamo per accumulo: prima il primitivo comune (production systems), poi le quattro architetture canoniche (SOAR, ACT-R, CLARION, Sigma), poi la sintesi del 2017 (Common Model), poi i 13 criteri di Newell che servono come metrica di completezza.

Quasi tutte le architetture cognitiva classiche hanno al cuore un production system. Il termine viene da Emil Post (1897-1954, logico polacco-americano, allievo di Cassius Jackson Keyser alla City College di New York), che negli anni 40 aveva introdotto i Post production systems come modello formale di calcolo equivalente alle macchine di Turing. Newell li aveva ripresi nel 1973 come modello psicologico in “Production systems: Models of control structures” (Visual Information Processing, Academic Press).

Una production rule ha forma canonica IF condition THEN action, oppure più precisamente:

IF
buffer-1 contains pattern-X
AND buffer-2 contains pattern-Y
THEN
modify buffer-3 to pattern-Z
request retrieval from declarative memory
fire motor action M

Il sistema funziona in cicli. A ogni ciclo:

  1. Guarda lo stato corrente della working memory (i contenuti di tutti i buffer).
  2. Trova tutte le regole le cui condizioni matchano (matching phase).
  3. Fra le regole matchanti, ne seleziona una (conflict resolution).
  4. Esegue le azioni della regola selezionata, modificando lo stato.
  5. Torna al punto 1.

Su questo scheletro semplice, ogni architettura aggiunge complicazioni significative: meccanismi di selezione (deterministica vs probabilistica), meccanismi di apprendimento (chunking, utility update, base-level activation), moduli specializzati (perception, motor, episodic memory), livelli sub-simbolici. Ma il cuore — match, select, fire, repeat — è lo stesso.

SOAR: subgoaling universale e chunking come unico meccanismo di apprendimento

Sezione intitolata “SOAR: subgoaling universale e chunking come unico meccanismo di apprendimento”

SOAR nasce nel 1983 con un’idea distintiva: universal subgoaling. Quando il sistema arriva a uno stato in cui non sa cosa fare — in gergo, un’impasse, di cui SOAR distingue quattro tipi: no-change (nessuna regola matcha), tie (più regole matchano con priorità equivalente), conflict (regole producono azioni incompatibili), no-operator (nessun operatore proposto) — SOAR genera automaticamente un sottogoal il cui scopo è risolvere quell’impasse. Il sottogoal è a sua volta uno stato del sistema, che genera nuovo subgoaling se necessario, ricorsivamente.

Questa scelta di design ha una conseguenza profonda: in SOAR non c’è un modulo planner separato. Pianificare non è un meccanismo distinto; è subgoaling automatico applicato a un’impasse di tipo “non so che operatore scegliere”. Questo unifica problem solving e meta-ragionamento sotto un unico meccanismo.

Il secondo tratto distintivo è il chunking come unico meccanismo di apprendimento. Quando un sottogoal viene risolto, SOAR sintetizza una nuova production rule che cattura come la risoluzione è avvenuta: condizioni = stato che ha causato l’impasse + dati usati nella risoluzione; azione = il risultato che ha risolto. La prossima volta che lo stesso pattern ricorre, la nuova regola firerà direttamente, evitando il subgoaling. È una forma di compilazione di procedure: con l’esperienza, comportamenti che inizialmente richiedono ragionamento esplicito diventano esecuzione di regole compilate, più rapide e meno costose.

Newell sostiene — è una tesi forte e contestata — che il chunking è l’unico meccanismo di apprendimento necessario, perché ogni altro tipo di apprendimento (associativo, percettivo, motorio) può essere ridotto a chunking applicato al giusto tipo di impasse. La storia di SOAR è in larga parte la storia del tentativo di reggere questa tesi monocultural.

flowchart TD
    A[Input dall'ambiente] --> B[Elaborazione: tutte le produzioni in match scattano]
    B --> C[Proposta: operatori candidati]
    C --> D{Decisione: un solo operatore migliore?}
    D -- Operatore unico --> E[Applicazione: operatore applicato alla working memory]
    D -- Impasse: tie / no-change / conflict / no-operator --> F[Sottogoal generato automaticamente]
    F --> G[Ciclo decisionale ricorsivo sul sottogoal]
    G --> H[Sottogoal risolto]
    H --> I[Chunking: nuova regola di produzione che cattura la risoluzione]
    I --> E
    E --> J[Output verso l'ambiente]
    J --> A

Figura 2 — SOAR processing cycle and impasse-driven subgoaling

Esempio canonico: il problema “monkey and bananas” (scimmia in una stanza, banane appese al soffitto, scatola sul pavimento, deve combinarli per raggiungere le banane). Un sistema SOAR non istruito su questo specifico problema, dotato delle sole regole base sugli operatori (move, push, climb, grasp), incontra un’impasse al primo tentativo (nessun operatore raggiunge le banane). Il subgoaling automatico esplora alternative, scopre che spostare la scatola sotto le banane e poi salirci sopra funziona, e contestualmente genera un chunk: “se devi raggiungere oggetto-alto e c’è oggetto-supportabile, sposta supporto sotto target poi sali”. La prossima volta che incontra una variante del problema, applica direttamente il chunk.

Versioni moderne di SOAR (post-2008, descritte in Laird 2012, The Soar Cognitive Architecture, MIT Press) hanno aggiunto episodic memory, semantic memory, un spatial-visual system, reinforcement learning, e un sistema di appraisal-based emotion. Ma il cuore — production system + universal subgoaling + chunking — è rimasto.

Applicazione documentata su scala: TacAir-Soar (anni 90, Soar Technology Inc., SoarTech), modello SOAR del comportamento tattico di piloti di caccia in esercitazioni militari simulate, con migliaia di production rules e capacità di operare in scenari di combattimento aria-aria con altri agenti. Citato all’epoca come dimostrazione che SOAR scala oltre micromondi di laboratorio.

ACT-R discende dalla linea ACT di Anderson 1976. La differenza più importante rispetto a SOAR è la presenza esplicita di un livello sub-simbolico che governa probabilisticamente ciò che a livello simbolico appare discreto.

A livello simbolico, ACT-R assomiglia a SOAR: ci sono chunk in memoria dichiarativa, ci sono production rule in memoria procedurale, c’è un ciclo che matcha condizioni e applica azioni. La novità è che ogni chunk ha un’activation numerica che decade nel tempo secondo una legge esponenziale, viene rinforzata dall’uso, riceve spreading activation dai chunk associati. La latenza di recupero di un chunk è funzione esplicita della sua activation: chunk più attivi sono recuperati più velocemente, chunk meno attivi richiedono più tempo o falliscono il recupero.

Analogamente, ogni production ha un’utility che governa la selezione probabilistica quando più regole matchano: la regola con utility più alta ha probabilità maggiore di essere scelta, ma non probabilità 1. L’utility viene aggiornata online da un meccanismo di reinforcement learning: regole che hanno portato a successi visti aumentano utility, regole che hanno portato a fallimenti la perdono.

ACT-R 5.0 (Anderson-Bothell-Byrne-Douglass-Lebiere-Qin 2004) introduce la struttura modulare a buffer: ogni modulo specializzato (visivo, motorio manuale, dichiarativo, goal, imaginal) ha un buffer di capacità tipicamente unitaria (un solo chunk), e i buffer sono il mezzo attraverso cui i moduli comunicano fra loro e con il sistema centrale di production. Il fatto che ogni buffer contenga un solo chunk è la versione ACT-R del “collo di bottiglia” della working memory studiato dalla psicologia da Miller (1956, “The magical number seven, plus or minus two”) in poi.

Il mapping ai dati neurali è un punto di forza distintivo di ACT-R rispetto a SOAR. Anderson 2007 (How Can the Human Mind Occur in the Physical Universe?, Oxford University Press) mostra come ogni modulo possa essere associato a una regione cerebrale identificata via fMRI: modulo dichiarativo -> corteccia prefrontale ventrolaterale (BA 45/47); modulo manuale -> corteccia motoria primaria (BA 4); modulo goal -> corteccia prefrontale dorsolaterale (BA 9/46); modulo imaginal -> corteccia parietale posteriore. Questo permette a un modello ACT-R di un task di produrre simultaneamente predizioni di RT (al millisecondo) e di attivazione BOLD (per regione cerebrale), entrambe confrontabili con dati sperimentali.

Esempio concreto canonico: il modello ACT-R di visual search (cercare una T fra L distrattori in una matrice). Il modello combina (a) il buffer visivo che alloca attenzione su una posizione alla volta, (b) il modulo visivo che identifica forme con costo proporzionale all’eccentricità, (c) il modulo dichiarativo che recupera informazioni sulla forma target, (d) il modulo procedurale che cicla sulla matrice. Il modello predice tempi medi di reazione in funzione del numero di distrattori (slope 30-50 ms/distrattore), curve psicometriche di errore, ed effetti di pop-out. La validazione: scarto tipico < 50 ms dai dati di soggetti adulti sani su task standard.

CLARION: dual-process esplicito a livello architetturale

Sezione intitolata “CLARION: dual-process esplicito a livello architetturale”

Ron Sun (oggi al Rensselaer Polytechnic Institute) propone CLARION (Connectionist Learning with Adaptive Rule Induction ON-line) nel 2002. Il tratto distintivo: dual-process esplicito incorporato nell’architettura.

CLARION ha due livelli paralleli e comunicanti:

  • Top level: rappresentazioni esplicite, regole simboliche, accessibili alla coscienza nel senso pre-teorico.
  • Bottom level: rappresentazioni implicite, reti connessioniste addestrate con back-propagation, non direttamente accessibili.

I due livelli si coordinano in modo bidirezionale: bottom-up rule extraction (regole vengono sintetizzate dalle reti quando le loro decisioni si stabilizzano), top-down rule refinement (regole esplicite vengono usate per generare esempi di training per le reti). Il sistema completo ha quattro sottosistemi: ACS (Action-Centered Subsystem), NACS (Non-Action-Centered Subsystem, semantica), MS (Motivational Subsystem), MCS (Meta-Cognitive Subsystem).

Il legame con la letteratura di dual-process theory — Daniel Kahneman (1934-2024, psicologo israeliano-americano, Nobel per l’Economia 2002) e Keith Stanovich (psicologo canadese alla University of Toronto), che distinguono Sistema 1 (veloce, automatico, intuitivo) e Sistema 2 (lento, controllato, deliberativo) — è diretto e dichiarato. Sun (2016, Anatomy of the Mind, Oxford University Press) presenta CLARION come l’unica architettura cognitiva con dual-process architettonicamente incorporato, anziché come modalità operative emergenti su un substrato unico.

Paul Rosenbloom (USC Institute for Creative Technologies) propone Sigma a partire dal 2008 (libro: Rosenbloom 2013, On Computing: The Fourth Great Scientific Domain, MIT Press). L’ambizione di Sigma è diversa da quella di SOAR e ACT-R: tentare un’unificazione computazionale trasversale, dove production rules, neural networks, Bayesian networks e planning vengono ricondotti a un unico substrato di factor graphs (grafi probabilistici di Loeliger 2004).

L’idea ricorda la “grand unification” della fisica: invece di avere meccanismi distinti per ogni tipo di cognizione, avere un meccanismo computazionale unico (message passing su factor graph) sotto cui le diverse forme cognitive emergono come configurazioni particolari. Sigma è il più giovane delle quattro architetture canoniche e ha la comunità più piccola; al 2026 è un progetto vivo ma minoritario.

Una linea esplicitamente AGI-oriented è quella di Ben Goertzel (1966-, informatico americano, autore di una vasta letteratura su AGI), con OpenCog (anni 2000+) e l’evoluzione OpenCog Hyperon (post-2020). I componenti distintivi:

  • AtomSpace: knowledge graph eterogeneo con nodi tipizzati, link, valori (verità, confidenza, importanza).
  • PLN (Probabilistic Logic Networks): inferenza probabilistica sopra logica del primo ordine.
  • MOSES: program induction evolutionary.
  • ECAN (Economic Attention Networks): meccanismo di attenzione che alloca risorse computazionali sui nodi più “importanti”.

OpenCog occupa un posto particolare: rispetto a SOAR e ACT-R che nascono dalla psicologia cognitiva sperimentale e mantengono claim psicologici, OpenCog nasce con l’obiettivo dichiarato di costruire AGI e ha vincoli psicologici molto più deboli. La comunità accademica è divisa sull’effettiva portata dei risultati.

  • ICARUS (Pat Langley, Stanford-ish anni 2000): enfasi su skill learning gerarchico.
  • 4CAPS (Marcel Just, CMU): mapping forte a fMRI di task linguistici.
  • Companions (Ken Forbus, Northwestern): enfasi su analogia e structure mapping (Gentner-Forbus-Markman).
  • LIDA (Stan Franklin, University of Memphis): cicli cognitivi di ~200 ms, esplicitamente ispirata alla Global Workspace Theory di Bernard Baars (1988, A Cognitive Theory of Consciousness, Cambridge University Press), una teoria della coscienza secondo cui i contenuti coscienti sono quelli che hanno “vinto” l’accesso a uno spazio di lavoro globale broadcastato a tutti i moduli specializzati. LIDA traduce questa metafora in cicli computazionali espliciti.

Dopo trent’anni di ricerca su architetture rivali, John Laird, Christian Lebiere e Paul Rosenbloom (2017, “A Standard Model of the Mind”, AI Magazine 38(4): 13-26) tentano una sintesi consensuale. L’osservazione di partenza: ACT-R, SOAR e Sigma, pur partendo da radici filosofiche e tecniche diverse, sono converge su una lista comune di componenti minimi. Il Common Model (originariamente “Standard Model of the Mind”, rinominato dopo 2017) li elenca:

  1. Working memory centrale (capacità limitata, contenuti accessibili a tutti i processi).
  2. Procedural long-term memory (regole, skills).
  3. Declarative long-term memory (fatti, episodi).
  4. Perception modules (visione, audizione, ecc.).
  5. Motor modules (vocale, manuale).
  6. Attention / control (selezione dell’azione, allocazione delle risorse).

Il Common Model non è un’architettura nuova; è una meta-specifica. Non dice come implementare working memory, dice solo che deve esserci. Il valore: dopo decenni di confronti vetrosi tra ACT-R-isti, SOAR-isti e Sigma-isti, registra che la differenza è sui meccanismi, non sui componenti.

flowchart TD
    A[Input dall'ambiente] --> B[Elaborazione: tutte le produzioni in match scattano]
    B --> C[Proposta: operatori candidati]
    C --> D{Decisione: un solo operatore migliore?}
    D -- Operatore unico --> E[Applicazione: operatore applicato alla working memory]
    D -- Impasse: tie / no-change / conflict / no-operator --> F[Sottogoal generato automaticamente]
    F --> G[Ciclo decisionale ricorsivo sul sottogoal]
    G --> H[Sottogoal risolto]
    H --> I[Chunking: nuova regola di produzione che cattura la risoluzione]
    I --> E
    E --> J[Output verso l'ambiente]
    J --> A

Figura 2 — Comparison table SOAR vs ACT-R vs CLARION vs Common Model 2017 vs LLM agent harness

Le William James Lectures del 1987 elencano (capitolo 8 del libro 1990) 13 criteri che la cognizione umana esibisce e che una vera architettura unificata deve replicare:

  1. Behavioral flexibility (flessibilità comportamentale).
  2. Real-time performance (azione in tempo reale).
  3. Adaptive behavior (comportamento adattivo).
  4. Use vast amounts of knowledge (uso di vasta conoscenza).
  5. Behave robustly in face of error (robustezza all’errore).
  6. Use natural language (uso del linguaggio naturale).
  7. Exhibit consciousness, self-awareness (coscienza, auto-consapevolezza).
  8. Learn from environment (apprendimento dall’ambiente).
  9. Acquire capabilities through development (sviluppo).
  10. Operate autonomously (autonomia).
  11. Operate within social communities (comunità sociali).
  12. Exhibit self-replication (auto-replicazione, criterio dibattuto).
  13. Be realizable in (or compatible with) the brain (realizzabilità nel cervello).

Newell ammette che SOAR nel 1990 soddisfa solo alcuni criteri, e parzialmente. Nessuna architettura del 2026 li soddisfa tutti — e questo è il punto: i 13 criteri sono target di design, non claim di copertura attuale.

Per fissare le architetture cognitive nella pratica, tre esempi eterogenei: uno SOAR storico, uno ACT-R quantitativo, uno contemporaneo di analogia strutturale con agent harness moderni.

Il puzzle classico (Newell-Simon anni 60, ripreso in McCarthy-Hayes 1969 come benchmark del frame problem): scimmia in una stanza vuota, banane appese al soffitto fuori portata, scatola spostabile sul pavimento. La scimmia deve combinare oggetti per raggiungere le banane.

Un sistema SOAR puro, dotato di operatori base (move(agent, location), push(agent, object, location), climb(agent, object), grasp(agent, object)) ma senza alcuna conoscenza specifica del puzzle, parte:

  1. Goal iniziale: holding(agent, bananas).
  2. Nessun operatore matcha direttamente: impasse di tipo no-operator.
  3. Subgoaling: “come posso afferrare le banane?”. Sottogoal: at(agent, location(bananas)).
  4. move(agent, location(bananas)) è applicabile, ma location(bananas) è alta. Nuovo impasse.
  5. Ulteriore subgoaling: “come arrivo a una location alta?”. Sottogoal: under(agent, bananas) AND elevated.
  6. La conoscenza degli operatori suggerisce che climb(agent, X) produce elevated se X è supportabile.
  7. Sottogoal: portare un oggetto supportabile (la scatola) sotto le banane. Operatore: push(agent, box, under(bananas)).
  8. Catena risolta: push box -> climb box -> grasp bananas.
  9. Chunking automatico: SOAR sintetizza una nuova production rule che riassume la catena: “IF goal=holding(X) AND at(X, high-location) AND exists(supportable(B)) THEN push(B, under(X)) AND climb(B) AND grasp(X)”.

La prossima volta che il sistema affronta una variante (oggetto diverso, supporto diverso, location diversa), la nuova regola firerà direttamente, senza subgoaling. Il sistema ha imparato, ma non per gradient descent: per compilazione di procedure derivate dalla risoluzione di impasse.

Questo esempio mostra il cuore di SOAR: la combinazione di subgoaling universale (un solo meccanismo per problem solving e meta-ragionamento) e chunking (un solo meccanismo di apprendimento) può produrre, su micromondi ben definiti, comportamento adattivo che migliora con l’esperienza.

Sezione intitolata “Esempio 2: ACT-R predice tempi di reazione di visual search”

Un esperimento standard di ricerca visiva: lo schermo presenta una matrice di lettere (es. 4x4), il soggetto deve indicare se contiene una T o solo L. Si manipola il numero di distrattori. Misure: tempo di reazione (RT) e accuratezza.

I dati psicofisici classici (Treisman 1980, Wolfe 1989) mostrano che RT cresce linearmente con il numero di distrattori, con slope ~30-50 ms/distrattore per ricerca seriale (target che richiede integrazione di feature). Slope vicino a zero per pop-out (target che differisce per una singola feature elementare, es. colore unico).

Un modello ACT-R del task combina:

  • Buffer visivo: contiene la rappresentazione dell’oggetto attualmente attenzionato. Capacità = un solo oggetto.
  • Modulo visivo: alloca attenzione su una posizione alla volta. Costo temporale di shift attenzionale ~50 ms (parametro standard ACT-R, derivato empiricamente).
  • Modulo dichiarativo: contiene la rappresentazione del target (“una T”). Recupero del template costa pochi ms.
  • Modulo procedurale: regole “if buffer-visivo contiene oggetto e oggetto matcha target then rispondi-yes; else shift-attenzione-prossimo”.

Il modello, lanciato con una matrice di N distrattori, esegue in media N/2 shift attenzionali prima di trovare il target (assumendo ricerca random) o N shift se il target è assente. Il tempo totale predetto: ~50 ms * (N/2 + 1) + tempo di risposta motoria.

Confronto con i dati: lo slope predetto (~25 ms/distrattore con shift random, ~30-50 ms con search guidata) cade nel range osservato. La forma della curva (lineare crescente) corrisponde. Le predizioni di errore — falsi negativi quando l’attenzione “salta” il target — corrispondono ai pattern empirici. Lo scarto tipico fra predizioni del modello e medie dei soggetti: < 50 ms su task standard.

Ciò che rende l’esempio rappresentativo: il modello non è tarato sul task. Usa gli stessi parametri di shift attenzionale (50 ms), recupero da memoria dichiarativa (decine di ms in funzione di activation), e ciclo di production (50 ms per ciclo) che ACT-R usa per tutti gli altri task. Cambia cosa sta nei buffer e quali regole sono attive, non come l’architettura funziona. Questo è il senso operativo della “teoria unificata”: vincoli quantitativi che si propagano fra task.

Esempio 3: agent harness LLM letto attraverso CoALA — analogia strutturale

Sezione intitolata “Esempio 3: agent harness LLM letto attraverso CoALA — analogia strutturale”

Considera un agent moderno tipico del 2024-2026: un LLM che gira in un harness che gli fornisce un context window (con i messaggi della conversazione corrente), accesso a tool (file system, web search, esecuzione codice), una memoria persistente (vector store con documenti dell’utente, file CLAUDE.md con istruzioni di sistema), e un loop di esecuzione che alterna pensiero, scelta di azione, esecuzione, osservazione.

CoALA (Sumers, Yao, Narasimhan, Griffiths 2024, TMLR) propone di leggere questo sistema come un’architettura cognitiva:

  • Working memory: il context window del modello (testo attualmente nei token attivi).
  • Long-term semantic memory: il vector store di documenti dell’utente, accessibile via retrieval.
  • Long-term episodic memory: la chat history persistente, le memorie esplicite salvate, gli “episodi” passati di interazione.
  • Procedural memory: gli “skill files” (CLAUDE.md, prompt template, slash command), che codificano come il sistema affronta certi compiti.
  • Action space interno: read/write su memoria, retrieval, summarization.
  • Action space esterno: tool call (file edit, web fetch, command execution).
  • Decision loop: pattern come ReAct (Reason + Act, Yao et al. 2022) o Plan-and-Execute, in cui ad ogni passo il modello sceglie un’azione, osserva il risultato, aggiorna il proprio stato interno, sceglie l’azione successiva.

L’analogia strutturale è forte. La working memory di ACT-R somiglia al context window di un LLM (entrambi limitati in capacità, entrambi punto di passaggio per tutto il processing). La long-term semantic somiglia a un vector store (entrambi indicizzati per contenuto, entrambi accessibili via retrieval associativo). Il decision cycle di SOAR somiglia al ReAct loop (entrambi ciclano fra valutazione dello stato e selezione dell’azione).

Marcatura della classe — questo è il punto cruciale del capitolo, e va lasciato esplicito. La somiglianza è analogia strutturale: i componenti hanno funzione simile e occupano posizioni simili nel diagramma di blocchi. Non è filiazione documentata: gli agent harness moderni non discendono storicamente da SOAR o ACT-R; sono nati indipendentemente da ricerca su LLM e tool use, e hanno ricostruito ingegneristicamente componenti che le architetture cognitive avevano formalizzato psicologicamente trent’anni prima. Non è equivalenza: il “core” dell’agent è un LLM monolitico (rete neurale gigantesca con pesi frozen al deploy, processo di inferenza globale e non modulare); l’architettura modulare è costruita sopra il modello, non come modello. ACT-R e SOAR, invece, sono l’architettura modulare: non hanno un “core” monolitico sotto.

CoALA stesso è attento a questa distinzione. Gli autori parlano di “drawing on the rich history of cognitive science and symbolic AI” per organizzare il design space degli agent, non per rivendicarne la discendenza.

Se il capitolo si fermasse qui resterebbe un buon pezzo di storia, ma non ancora un buon pezzo di orientamento per chi progetta sistemi nel 2026. La domanda utile, per uno sviluppatore o un ricercatore applicato, non è “devo implementare ACT-R?”, quasi sempre no. La domanda utile è: quali distinzioni delle architetture cognitive valgono ancora come vincoli di design quando costruisco agent attorno a un LLM?

La risposta migliore non è binaria. Le architetture cognitive classiche non forniscono un blueprint pronto per la produzione. Forniscono però una grammatica di problemi ricorrenti. Quattro in particolare.

Applicazione 1: progettare la memoria come sistema, non come prompt lungo

Sezione intitolata “Applicazione 1: progettare la memoria come sistema, non come prompt lungo”

L’errore più comune degli agent LLM di prima generazione è trattare tutta la memoria come un unico contenitore testuale. Si accumulano messaggi, si appende un vector store, si aggiungono note persistenti, e tutto viene chiamato “memory”. Le architetture cognitive insegnano che questa compressione è sbagliata in partenza.

ACT-R, SOAR e il Common Model distinguono almeno quattro funzioni diverse. Working memory: ciò che deve essere disponibile adesso per decidere il prossimo passo. Episodic memory: la traccia di ciò che è successo prima, con ordine temporale e contesto. Semantic memory: fatti relativamente stabili sul mondo o sul dominio. Procedural memory: il sapere su come si fa qualcosa, non che cosa è vero.

Portata nel design di un coding agent, la distinzione è immediatamente utile. La working memory è il context window attivo: issue corrente, file aperti, diff, output degli ultimi comandi. La semantic memory è la documentazione del repository, le API reference, le note architetturali. La episodic memory è la storia delle prove fatte: test falliti, approcci già tentati, regressioni osservate. La procedural memory è il repertorio di runbook e skill: “come si aggiorna lo schema database in questo repo”, “come si eseguono i test end-to-end”, “come si prepara una migration sicura”.

Quando questi livelli collassano, l’agente peggiora in modi prevedibili. Se metti tutto nel context window, usi la working memory come fosse un hard disk: il costo cresce, la latenza sale, il rumore aumenta, il modello dimentica la gerarchia tra informazioni vive e informazioni archiviate. Se metti tutto in un vector store, trasformi la memoria episodica in retrieval semantico e perdi la struttura temporale: l’agente ritrova un frammento rilevante ma non capisce più in quale ordine siano avvenuti i tentativi. Se usi chat history come memoria procedurale, il “sapere come” resta annacquato in testo narrativo e non diventa mai riusabile davvero.

La lezione pratica è semplice: ogni volta che progetti un agent chiediti quale informazione sta servendo a quale funzione cognitiva. Non basta salvare. Bisogna tipizzare la memoria.

Applicazione 2: separare selezione dell’azione e generazione linguistica

Sezione intitolata “Applicazione 2: separare selezione dell’azione e generazione linguistica”

Le architetture cognitive classiche dedicano enorme attenzione a una domanda che nei sistemi LLM viene spesso lasciata implicita: come si sceglie la prossima azione fra quelle possibili? Nei production systems la domanda è esplicita: c’è una fase di matching, una di conflict resolution, una di firing. In ACT-R le utility delle production influenzano la selezione. In SOAR le impasse generano subgoal quando la selezione fallisce.

Negli agent LLM ingenui, la selezione dell’azione è assorbita dentro la generazione del prossimo token. Il modello “decide” se chiamare un tool, leggere un file, scrivere una patch, fare un riepilogo o fermarsi semplicemente producendo testo che invoca una certa azione. Funziona finché il task è piccolo. Appena il task si allunga, la fusione fra linguaggio e controllo diventa una fonte sistematica di errori: tool chiamati troppo presto, tool non chiamati quando servono, looping, over-search, stop mancati.

La lezione delle architetture cognitive qui non è “usa production rules simboliche”. È più modesta e più utile: rendi la selezione dell’azione una parte visibile dell’architettura. Definisci candidate action esplicite. Dai al sistema criteri di priorità o budget. Separa, quando serve, un planner da un executor. Introduci condizioni di stop che non dipendano solo dall’autodescrizione del modello. Traccia quante alternative sono state considerate, quante abbandonate, quante riesaminate.

Un web agent che deve prenotare un viaggio, per esempio, beneficia enormemente di questa separazione. La generazione linguistica serve a formulare il piano e a interpretare il contenuto delle pagine. La selezione dell’azione serve a decidere se cercare un volo alternativo, se chiedere conferma all’utente, se interrompersi davanti a una policy ambigua, se fare rollback dopo un form compilato male. Sono due problemi contigui, ma non identici.

Applicazione 3: trattare l’apprendimento come compilazione di esperienza

Sezione intitolata “Applicazione 3: trattare l’apprendimento come compilazione di esperienza”

Qui il capitolo tocca forse il punto più fecondo del ponte con il presente. SOAR prende una traiettoria riuscita e la compila in una nuova production rule. ACT-R aggiorna activation e utility in base alla frequenza d’uso e al successo. In entrambi i casi, l’esperienza non resta solo “ricordo di un caso”: diventa una trasformazione del repertorio operativo del sistema.

Gli agent LLM di produzione, con pesi frozen, non apprendono così a runtime. Ma possono imitare funzionalmente la stessa idea. Una sessione riuscita può diventare una skill file. Una sequenza di debug che ha funzionato tre volte può diventare un runbook riusabile. Una serie di errori ricorrenti può produrre una regola esterna: “prima di modificare l’auth layer, esegui sempre questi cinque check”. Una trace lunga può essere distillata in una procedura corta.

Questo è, di fatto, un equivalente ingegneristico del chunking: non impari cambiando i pesi del modello, impari cambiando lo strato procedurale attorno al modello. La distinzione è importante perché evita due illusioni opposte. La prima: credere che basti conservare tutte le trace. No; una trace grezza è esperienza non compilata, spesso troppo rumorosa per essere riusata bene. La seconda: credere che senza fine-tuning non ci sia apprendimento. C’è, ma avviene nello strato di orchestrazione, di memoria e di skills, non nel cuore neurale del modello.

Per questo i sistemi agent più maturi del 2026 tendono a introdurre livelli di astrazione crescente: log grezzi, episodi sintetizzati, skill stabili, policy di fallback. Senza questa compilazione, ogni episodio resta una storia interessante ma inutilizzabile.

Applicazione 4: valutare come facevano gli psicologi, non solo come fanno i benchmark

Sezione intitolata “Applicazione 4: valutare come facevano gli psicologi, non solo come fanno i benchmark”

Le architetture cognitive classiche avevano un vantaggio metodologico che vale la pena recuperare: non misuravano solo il successo finale, misuravano come il sistema arrivava al risultato. Tempi di reazione, pattern di errore, numero di passi, curva di apprendimento, recupero da interferenza, decadimento della memoria. Questo tipo di disciplina manca spesso nell’evaluation degli agent LLM.

Dire che un agent ha risolto il 62% dei task su un benchmark è utile, ma insufficiente. Due agent possono avere lo stesso task completion rate e architetture qualitativamente diversissime: uno arriva alla soluzione con pochi tool call ben scelti e recupera bene dagli errori; l’altro esplora in modo caotico, costa dieci volte di più, entra in loop e vince solo per ridondanza brutale.

La traduzione pratica della lezione ACT-R/SOAR è costruire harness di valutazione che registrino almeno: latenza per step, numero di ripianificazioni, tool misfire, richieste di chiarimento, tasso di riuso corretto della memoria, fallimenti recuperati, contesto accumulato prima del degrado, e differenza fra primo piano e piano finale. Queste non sono metriche “psicologiche” in senso stretto, ma riprendono la stessa idea: un’architettura si giudica anche dal profilo dinamico del suo comportamento, non solo dall’output conclusivo.

Se si prende sul serio questa lezione, l’agent engineering smette di sembrare puro prompt crafting e torna ad assomigliare a una disciplina architetturale. Ed è qui che Newell torna utile: non perché avesse già la soluzione, ma perché aveva capito che senza vincoli sul processo una teoria del comportamento resta troppo libera per essere interessante.

Applicazione 5: usare il Common Model come checklist di decomposizione

Sezione intitolata “Applicazione 5: usare il Common Model come checklist di decomposizione”

Il modo più concreto, oggi, di riusare le architetture cognitive senza farsi illusioni teoriche è trattare il Common Model of Cognition come una checklist di progettazione. Non come verità sulla mente, ma come griglia per capire se il tuo agent ha davvero tutti i pezzi che pretende di avere.

Prendi i sei componenti minimi del Common Model. Perception: da dove arrivano gli input, con quale normalizzazione, con quale perdita informativa. Working memory: qual è lo stato attivo davvero disponibile al prossimo passo. Declarative memory: dove finiscono i fatti stabili e come vengono recuperati. Procedural memory: dove vivono le istruzioni riusabili e come vengono aggiornate. Motor/action system: quali azioni il sistema può compiere sul mondo esterno. Control/attention: chi decide cosa guardare, cosa ignorare, quando fermarsi, quando ripianificare.

Molti agent apparentemente sofisticati, se passati in questa griglia, si rivelano monchi. Hanno un ottimo action system ma nessuna procedural memory esplicita. Hanno retrieval abbondante ma nessuna separazione fra episodic e semantic memory. Hanno un planner testuale ma nessun control layer che imponga budget e condizioni di stop. Il Common Model non ti dice ancora come risolvere questi vuoti, ma ti impedisce di non vederli.

Per un research agent, per esempio, la checklist produce immediatamente decisioni architetturali. La perception non è solo la query iniziale dell’utente, ma anche PDF, pagine web, tabelle, grafici. La working memory è il set di claim e fonti attive nella bozza corrente. La declarative memory è il corpus indicizzato. La procedural memory è l’insieme di playbook: “come si verifica una citazione”, “come si gestisce una fonte in conflitto”, “come si marca un’inferenza”. Il control layer decide quando una ricerca è sufficiente, quando serve una seconda fonte, quando una risposta deve fermarsi per incertezza.

Questa è forse la lezione più trasferibile del capitolo. Anche se il programma delle architetture cognitive non ha vinto come paradigma dominante dell’AI, ha prodotto una disciplina di scomposizione che resta migliore di molta ingegneria improvvisata del 2026. Per un progettista, spesso basta già questo.

In altri termini: il valore residuo delle architetture cognitive, oggi, non è promettere una nuova scorciatoia verso AGI. È impedire che problemi diversi vengano chiamati con lo stesso nome e che sistemi molto diversi vengano confrontati senza una grammatica comune. È già un risultato non banale.

Il programma delle architetture cognitive vive, allo stato 2026, in tre forme distinte e di scala molto diversa.

Prima forma: continuità accademica diretta. Le comunità di SOAR (oggi guidata da John Laird a Michigan) e ACT-R (Christian Lebiere e altri alla CMU, e gruppi sparsi nel mondo) sono ancora attive, producono workshop annuali, pubblicano modelli quantitativi di task psicologici, addestrano dottorandi. La scala è di centinaia di ricercatori, non di milioni di praticanti. La stagione d’oro — anni 80 e 90 quando i programmi DARPA finanziavano architetture cognitive come strada verso AI generale — è alle spalle, ma il filone non è morto.

Seconda forma: sintesi metodologica. Il Common Model of Cognition del 2017 è stato riconosciuto come riferimento utile in cognitive science e AI integrata. Workshop biennali sul Common Model continuano. La sua influenza sulla pratica industriale resta limitata.

Terza forma — quella di interesse per questa wiki: il vocabolario delle architetture cognitive è tornato in scena via CoALA e dintorni come framework descrittivo per gli agent harness moderni.

[DATATO 2026-04] Lo stato dell’agent engineering al momento di scrittura: la maggior parte dei sistemi di produzione (Claude Code, Cursor, Devin, agenti AutoGPT-style) ha componenti che CoALA classifica nei termini del Common Model — context window come working memory, vector store come declarative LTM, prompt skills come procedural LTM, tool call come motor action, internal loop come decision cycle. Ciò che manca rispetto alle architetture cognitive classiche: (a) plasticità procedurale a runtime — le architetture classiche apprendono nuove regole durante l’uso (chunking, utility update); gli LLM hanno pesi frozen, l’apprendimento è esterno e offline; (b) un livello sub-simbolico psicologicamente plausibile — ACT-R modella decadimento dell’attivazione e probabilità di errore al millisecondo; gli LLM hanno un proprio sub-symbolic layer (le attivazioni interne dei transformer), ma non è calibrato per fittare dati psicologici; (c) integrazione con modello del mondo esplicito — proposte come JEPA (Yann LeCun, 1960-, francese, Chief AI Scientist Meta dal 2013) puntano in questa direzione, ma allo stato 2026 sono ancora immature.

[DATATO 2026-04] Tentativi specifici di ricostruzione “cognitivamente ispirata” su substrato LLM: MemGPT (Charles Packer, Sarah Wooders, et al., 2023, arXiv:2310.08560) propone una gerarchia di memoria a tre livelli (main context, recall storage, archival storage) gestita dall’LLM stesso come fosse un sistema operativo, con paging fra livelli. Letta (evoluzione commerciale di MemGPT), Zep, e altri framework che il capitolo memory-architetture (in preparazione) dettaglia. La presenza di questi tentativi suggerisce che l’esigenza di componenti cognitivi (memoria persistente, recupero associativo, gestione esplicita del contesto) è reale e che il monolite LLM non è sufficiente per agent di lunga durata.

Una quarta forma, più debole ma crescente, è la riappropriazione implicita. Molti team industriali non citano Newell, Anderson o il Common Model, ma reinventano problemi che quel programma aveva già messo a fuoco: come evitare che la working memory venga saturata, come distinguere ricordo episodico da conoscenza stabile, come scegliere un’azione sotto incertezza, come trasformare esperienza passata in skill futura. Il lessico non è lo stesso; la topologia del problema spesso sì.

Questa è la domanda che un lettore pragmatico deve farsi, e a cui il capitolo deve rispondere esplicitamente. Se SOAR, ACT-R e affini avevano una teoria più ricca della mente rispetto ai modelli monolitici, perché non hanno dominato l’AI applicata? La risposta non è “perché erano sbagliate”. È una combinazione di quattro fattori storici e tecnici.

Primo fattore: costi di modellazione altissimi. Costruire un modello ACT-R serio richiede definire manualmente chunk, production, parametri, mapping del task ai buffer. Costruire un modello SOAR richiede codificare operatori, stati, impasse, conoscenza di dominio. Il costo iniziale è enorme e il riuso fra domini è meno automatico di quanto la retorica della “teoria unificata” suggerisse. Un LLM, al contrario, arriva pre-addestrato con una massa enorme di conoscenza distribuita e un repertorio linguistico immediatamente spendibile.

Secondo fattore: collo di bottiglia percettivo. Le architetture cognitive eccellono dove il problema è già stato simbolizzato: algebra, problem solving formale, visual search in laboratorio, simulazioni controllate. Hanno sempre faticato a fare da sole il lavoro sporco di estrarre rappresentazioni robuste da pixel, audio grezzo, video, scene naturali. La vittoria del deep learning dal 2012 in poi è anzitutto una vittoria percettiva: ImageNet, speech recognition, vision-language, video. Una teoria architetturale elegante che non vede né sente bene parte svantaggiata.

Terzo fattore: mismatch con l’economia dell’apprendimento statistico. Il paradigma LLM beneficia di scala: più dati, più compute, più parametri, più transfer non supervisionato. Le architetture cognitive classiche non hanno una legge di scala analoga. Migliorano aggiungendo conoscenza strutturata e raffinando modelli di task, non semplicemente accumulando petabyte di testo e GPU. In un’epoca in cui capitale, dataset e infrastruttura erano disponibili in quantità senza precedenti, il paradigma che monetizzava meglio la scala aveva un vantaggio strutturale.

Quarto fattore: criterio di successo diverso. ACT-R e SOAR sono state costruite per spiegare dati cognitivi e per essere compatibili con vincoli psicologici. L’industria, quasi sempre, ottimizza altro: accuratezza utile, costo, latenza, facilità di integrazione, resa in tempo breve. Un modello che predice tempi di reazione al millisecondo può perdere nettamente contro un modello che non spiega niente della mente ma scrive codice meglio, traduce meglio e scala meglio in cloud.

Si può dirlo in modo ancora più secco: le architetture cognitive cercavano spiegazione con vincoli, i foundation model hanno vinto su prestazione grezza e generalizzazione statistica. Non sono la stessa gara. In alcuni domini la seconda basta a vincere il mercato anche se lascia aperte domande fondamentali sulla struttura della cognizione.

Questo non rende irrilevante il programma di Newell. Lo ricolloca. Invece di essere il candidato principale a “costruire l’intelligenza”, diventa un repertorio di distinzioni utili per organizzare sistemi ibridi e per giudicare cosa ai foundation model manca ancora: apprendimento procedurale online, decomposizione trasparente, vincoli temporali cognitivamente plausibili, integrazione ordinata di memoria e controllo.

Il fatto che le architetture cognitive non abbiano vinto industrialmente non implica che siano un vicolo cieco. Implica piuttosto che il loro punto di leva, nel 2026, non è sostituire i foundation model ma strutturarli meglio o giudicarli meglio.

Il primo punto di leva è l’agent engineering ibrido. Quando un sistema basato su LLM ha bisogno di memoria persistente, strumenti espliciti, planner, verificatori, budget, rollback, molte delle distinzioni del Common Model diventano improvvisamente operative. Non perché l’LLM si trasformi in ACT-R, ma perché appena si esce dalla pura generazione testuale ricompaiono problemi classici di controllo, memoria e selezione dell’azione.

Il secondo punto di leva è l’evaluation cognitiva. Se vogliamo capire non solo se un modello funziona ma come funziona, ACT-R e SOAR ricordano una disciplina che il settore ha in parte perso: misurare profili temporali, strategie, errori sistematici, effetti di interferenza, curve di apprendimento. Questo non rimpiazza i benchmark moderni; li rende più informativi.

Il terzo punto di leva è la trasparenza architetturale. I sistemi puramente monolitici sono forti ma opachi. Le architetture cognitive, anche quando non performano meglio, hanno un vantaggio didattico ed epistemico: permettono di dire quale parte del sistema dovrebbe fare cosa. In contesti safety-critical o altamente auditati, questo vantaggio può tornare ad avere peso.

Quattro fragilità del programma delle architetture cognitive, da segnalare per onestà intellettuale.

La promessa di “unified theory” non è stata mantenuta. Quarant’anni dopo Newell, non c’è un’architettura cognitiva su cui la comunità converge. SOAR, ACT-R, CLARION, Sigma, OpenCog coesistono come scuole rivali; il Common Model 2017 registra il consenso post-hoc sui componenti minimi ma non risolve la divergenza sui meccanismi. Questa frammentazione è il tallone d’Achille del programma di Newell: l’argomento per le teorie unificate suonava convincente, ma in pratica nessuna unificazione ha vinto.

Sample inefficiency e mancata integrazione con percezione. ACT-R modella molto bene compiti ben definiti (algebra, problem solving, lettura controllata), fatica con compiti che richiedono apprendimento di rappresentazioni da percezione cruda (riconoscimento di volti, comprensione di scene naturali). SOAR e altre architetture hanno fatto progressi limitati nel collegare i livelli simbolici classici con percezione moderna basata su deep learning. Le architetture cognitive sono nate prima della rivoluzione del deep learning del 2012 e hanno integrato male le sue conquiste percettive.

LLM hanno preso il proscenio senza essere architetture cognitive. La sequenza GPT-2 (2019), GPT-3 (2020), ChatGPT (2022), GPT-4 (2023) ha mostrato che si può ottenere comportamento linguistico apparentemente intelligente, capacità di problem solving su benchmark eterogenei, e via via tool use ed esecuzione di task estesi, senza alcuna delle scelte architetturali del programma Newell-Anderson. I LLM non hanno moduli simbolici cooperanti, non hanno production rules, non hanno chunking, non hanno sub-symbolic layer calibrato psicologicamente; hanno una sola rete neurale gigantesca addestrata su predizione del token successivo. Ciò che le architetture cognitive consideravano necessario per intelligenza generale (componentialità, simbolismo, plasticità procedurale) si è rivelato non necessario almeno per un set sostanziale di comportamenti.

Questa non è una confutazione del programma: i criteri di Newell — coscienza, sviluppo, comunità sociali, realizzabilità nel cervello — restano in larga parte fuori portata anche per gli LLM. Ma è un significativo restringimento del territorio in cui il programma è competitivo.

Confondere ingegneria e psicologia. Il rischio più attuale, e quello che rende questo capitolo necessario: leggere CoALA e MemGPT come se “agent harness LLM” fosse “architettura cognitiva”, e quindi come se gli agent moderni stessero risolvendo i problemi di Newell e Anderson. Non è così. Le architetture cognitive classiche erano teorie psicologiche con vincoli quantitativi falsificabili (predicono RT al millisecondo, errori specifici, decadimento della memoria); gli agent harness sono artefatti ingegneristici per fare lavoro utile (predicono “task completion rate” su benchmark). Sono progetti diversi con criteri di successo diversi. La somiglianza strutturale è interessante e a volte feconda, ma non è identità.

  • cervello-basi: il substrato biologico che le architetture cognitive (almeno ACT-R) cercano di mappare via fMRI.
  • cervello-vs-rete-neurale: stesso pattern di analogia/filiazione/equivalenza che qui applichiamo al confronto fra architetture cognitive classiche e agent harness moderni.
  • dual-process-kahneman (in preparazione): collegato a CLARION e all’idea di Sistema 1 / Sistema 2 architettonicamente incorporata.
  • memoria-working, memoria-dichiarativa-procedurale, memoria-episodica-semantica (in preparazione): componenti che le architetture cognitive formalizzano e che CoALA reinterpreta in chiave LLM.
  • attenzione-psicologia (in preparazione): il componente “attention/control” del Common Model.
  • bounded-rationality-simon (in preparazione): la radice teorica di Newell-Simon che fonda l’idea stessa di architettura cognitiva.
  • agente-definizione, loop-percezione-azione, react, memoria-agentica (in preparazione): per il parallelo CoALA fra architetture cognitive e agent harness LLM.
  • neuro-simbolico (in preparazione): le linee ibride moderne che combinano LLM con motori simbolici.
  • convenzioni-notazione: per le classi di affermazioni (analogia, filiazione, equivalenza) usate in questo capitolo.
  • sistemi-esperti: la cugina applicativa dei production system, sviluppata negli stessi anni con scopi diversi (commerciali, non psicologici).
  • Newell, A. (1990). Unified Theories of Cognition. Harvard University Press. Il manifesto. Lettura non breve (550 pagine) ma chiara, scritta con cura per essere accessibile. Capitolo 1 e capitolo 8 (i 13 criteri) sono i punti di ingresso.
  • Anderson, J. R. (2007). How Can the Human Mind Occur in the Physical Universe? Oxford University Press. Esposizione divulgativa di ACT-R con il mapping a fMRI. Più accessibile di Anderson-Lebiere 1998, e con i risultati neurali più recenti.
  • Laird, J. E. (2012). The Soar Cognitive Architecture. MIT Press. Trattazione tecnica completa di SOAR 9, con tutte le aggiunte post-2008 (memoria episodica, semantica, RL, emozione).
  • Laird, J. E., Lebiere, C., Rosenbloom, P. S. (2017). “A Standard Model of the Mind”. AI Magazine 38(4): 13-26. Open access via AAAI. La sintesi consensuale, lettura breve e densa.
  • Sumers, T. R., Yao, S., Narasimhan, K., Griffiths, T. L. (2024). “Cognitive Architectures for Language Agents”. Transactions on Machine Learning Research. Il framework CoALA, il ponte fra programma Newell e agent engineering 2024-2026. Lettura raccomandata a chi costruisce agent.
  • Sun, R. (2016). Anatomy of the Mind. Oxford University Press. Per CLARION e per la lettura dual-process delle architetture.