Sistema 1 e Sistema 2: la doppia natura del pensiero

Una mazza e una palla costano $1.10. La mazza costa$ 1.00 più della palla. Quanto costa la palla? La risposta che si forma in mezzo secondo è “10¢”. È sbagliata. La risposta corretta è “5¢”. Fra le due risposte vivono settant’anni di psicologia cognitiva: dalla distinzione di William James fra associazione e vero ragionamento (1890), al selection task di Peter Wason (1966), alla controlled vs automatic processing di Walter Schneider e Richard Shiffrin (1977), al programma heuristics and biases di Amos Tversky e Daniel Kahneman (1974), alla prospect theory che vince il Nobel nel 2002, fino alla sintesi pubblica di Thinking, Fast and Slow (2011). Questo capitolo ricostruisce come la psicologia sperimentale del Novecento ha smontato l’idea ovvia di “pensare” e l’ha sostituita con un modello a due regimi — un modello descrittivo, non un’architettura cognitiva letterale, come la critica di David Melnikoff e John Bargh (2018) ricorda con forza.

Provi il problema della mazza e della palla. Probabilmente la prima cifra che le si è formata in testa è stata “10¢”. Se ha fatto le superiori sa che il sistema b + (b+1) = 1.10 dà b = 0.05: la palla costa cinque centesimi, la mazza un dollaro e cinque, totale un dollaro e dieci. Verifica: 1.00 + 0.05 = 1.05, e 1.05 + 0.05 = 1.10. Tornando alla risposta “10¢”: se la palla costasse 10¢, la mazza costerebbe $1.10 (10¢ +$ 1.00), e il totale sarebbe $1.20, non$ 1.10. Lo sapeva, ma la prima risposta è arrivata lo stesso. È arrivata, fra l’altro, accompagnata da un piccolo sentimento di sicurezza: una “rightness feeling” che non aveva alcuna giustificazione.

Questo problema, pubblicato da Shane Frederick (1965–, economista comportamentale alla Yale School of Management) in “Cognitive Reflection and Decision Making” (Journal of Economic Perspectives 19:25–42, 2005), è uno dei tre item del Cognitive Reflection Test (CRT). Il CRT misura — secondo l’interpretazione di Frederick e Kahneman — la propensione a sopprimere la risposta intuitiva e applicarne una deliberata. Punteggio medio agli studenti del MIT: 2.18 su 3. Punteggio medio in survey web del pubblico generale americano: ~1.2 su 3.

Il problema è semplice; richiede aritmetica di seconda elementare. Eppure metà dei laureati di Princeton sbaglia. Non per ignoranza. Per un fenomeno regolare che la letteratura novecentesca chiama dual process: nel pensiero coesistono almeno due regimi di elaborazione, uno rapido-automatico-intuitivo e uno lento-volontario-deliberato; il primo produce per default, il secondo interviene solo se mobilitato e se la mobilitazione riesce.

Perché questo capitolo

Tre ragioni: storica, concettuale, di igiene per chi lavora con sistemi AI.

La storica: la dual-process theory è uno dei programmi di ricerca più longevi e influenti della psicologia cognitiva. Comincia formalmente con il selection task di Wason (1966), si articola in “Dual processes in reasoning?” di Wason ed Evans (1975), riceve la sua versione metodologicamente rigorosa con Schneider e Shiffrin (1977), si intreccia con il programma heuristics and biases di Tversky e Kahneman (dal 1974 in poi), riceve il Nobel per l’Economia con la prospect theory (2002), e diventa cultura generale con Thinking, Fast and Slow (Kahneman 2011). È il caso di studio più nitido di una teoria che attraversa cinque decenni di esperimenti.

La concettuale: la distinzione System 1 / System 2 è il vocabolario con cui oggi si parla di razionalità, errore di giudizio, decision making, behavioral economics, nudge, bias. Senza questo vocabolario molte sezioni successive di questa wiki — euristiche, bounded rationality, metacognizione, ragionamento — restano sospese.

La terza riguarda l’AI moderna. Una analogia retorica popolare dice “i large language model sono sistemi di tipo S1, il chain-of-thought e i reasoning model sono S2”. L’analogia è didatticamente utile ma rischiosa: se presa letteralmente diventa una falsa filiazione e una falsa equivalenza. La sezione “Eredità oggi” e una sidebar dedicata distinguono cosa è analogia retorica utile, cosa è equivalenza pericolosa, cosa è proposta di ricerca non realizzata (la “System 2 deep learning” di Yoshua Bengio, 2019).

Contesto: nove date strutturanti

1890 — William James, Principles of Psychology. William James (1842–1910, filosofo-psicologo americano a Harvard, fratello dello scrittore Henry James) distingue associative thinking — la mente che riproduce associazioni passate, il pensiero “ordinario” — da true reasoning — la mente che scompone problemi nuovi e ricombina i pezzi. James osserva che il vero ragionamento è raro: la mente scivola sul binario associativo. Non è ancora dual-process tecnico; è la prima formulazione pulita dell’intuizione che qualcosa di “due-binari” stia accadendo.

1966 — Peter Wason, the selection task. Peter Cathcart Wason (1924–2003, psicologo britannico a UCL), nel capitolo “Reasoning” del volume New Horizons in Psychology (Penguin, 1966), pubblica il selection task, l’esperimento delle quattro carte. Il dato sperimentale (~10% di soluzioni corrette su laureati universitari) è la prima evidenza forte che il ragionamento condizionale astratto fallisce in modo sistematico. Vedremo il task in dettaglio nella sezione esempi.

1975 — Wason ed Evans, “Dual processes in reasoning?”. Wason e Jonathan St. B. T. Evans (1948–, psicologo cognitivo britannico a Plymouth) pubblicano in Cognition 3:141–154 il primo articolo che usa esplicitamente il termine “dual processes” per la psicologia del ragionamento. Distinguono un processo Type 1 — produce risposte intuitive da matching superficiale — da un processo Type 2 — produce giustificazioni razionali, talvolta corregge il Type 1, spesso lo razionalizza dopo il fatto.

1977 — Schneider e Shiffrin, controlled vs automatic. Walter Schneider (1949–, psicologo americano a University of Pittsburgh) e Richard Shiffrin (1942–, psicologo americano a Indiana University), in “Controlled and automatic human information processing” (Psychological Review 84:1–66), distinguono due modi di elaborare informazione con criteri sperimentali precisi: i processi controlled sono seriali, a capacità limitata, consapevoli, flessibili; i processi automatic sono paralleli, senza limite di capacità, inconsapevoli, rigidi. Mostrano sperimentalmente, in compiti di visual search, che pratica estensiva con consistent mapping rende un processo automatic — il search RT diventa flat rispetto al numero di distrattori. È la prima caratterizzazione operazionale rigorosa della distinzione che, vent’anni dopo, sarà ribattezzata S1/S2.

1974 — Tversky e Kahneman, “Judgment under Uncertainty”. Amos Tversky (1937–1996, psicologo cognitivo israelo-americano a Stanford) e Daniel Kahneman (1934–2024, psicologo cognitivo israelo-americano a Princeton, premio Nobel per l’Economia 2002), in Science 185:1124–1131, inaugurano il programma “heuristics and biases”. Documentano tre euristiche che governano il giudizio sotto incertezza: representativeness (giudichiamo P(A|B) in base a quanto A “rassomiglia” a B, ignorando le base rate), availability (giudichiamo frequenze in base alla facilità di accesso degli esempi in memoria), anchoring (numero presentato come ancora distorce la stima successiva). I bias sono errori sistematici, non rumore: rivelano la struttura del processo intuitivo.

1979 — Kahneman e Tversky, prospect theory. “Prospect Theory: An Analysis of Decision under Risk” (Econometrica 47:263–291) è il paper che cambia l’economia del comportamento. Mostra che la utility function è definita su changes da una reference point, è concava per i guadagni e convessa per le perdite (loss aversion: la perdita di X pesa circa 2.25 volte il guadagno di X), e che le probabilità sono distorte da una weighting function. Il paper è alla base del Nobel del 2002.

1996 — Sloman, “The empirical case for two systems of reasoning”. Steven Sloman (1962–, psicologo cognitivo a Brown University), in Psychological Bulletin 119:3–22, sintetizza l’evidenza empirica della doppia natura. Distingue un associative system — opera per somiglianza, contiguità, similarity-based — da un rule-based system — opera per regole simboliche, sistematiche, logiche. Argomento chiave: i due sistemi possono produrre output simultaneamente conflittuali sullo stesso input, e il soggetto sente il conflitto.

2000 — Stanovich e West, “Individual differences in reasoning”. Keith Stanovich (1950–, psicologo canadese a University of Toronto) e Richard West (1952–2018, James Madison University), in Behavioral and Brain Sciences 23:645–665, introducono la nomenclatura System 1 / System 2 come etichetta neutra, agnostica fra le diverse versioni della teoria. Mostrano che le differenze individuali nelle prestazioni di ragionamento si correlano con misure di intelligenza fluida e cognitive disposition, ma solo quando i soggetti hanno tempo e attenzione: sotto cognitive load le prestazioni convergono.

2011 — Kahneman, Thinking, Fast and Slow. Il libro pubblicato da Farrar, Straus and Giroux porta il vocabolario S1/S2 al pubblico generale. Diventa lettura standard in MBA, policy, design, comportamento del consumatore. Per molti la prima esposizione alla psicologia di Tversky-Kahneman è questo libro, non i paper degli anni Settanta.

timeline
    title Teoria dual-process, 1890-2018
    1890 : James, "Principles of Psychology"
    1966 : Wason, selection task
    1974 : Tversky-Kahneman, "Heuristics & biases"
    1975 : Wason-Evans, "Dual processes in reasoning?"
    1977 : Schneider-Shiffrin, controlled vs automatic
    1979 : Kahneman-Tversky, prospect theory
    1996 : Sloman, "Two systems of reasoning"
    2000 : Stanovich-West, naming System 1 / System 2
    2011 : Kahneman, "Thinking, Fast and Slow"
    2018 : Melnikoff-Bargh, "The Mythical Number Two" (critica)

Figura 1 — Timeline 1890-2018: James, Wason 1966, Wason-Evans 1975, Schneider-Shiffrin 1977, Tversky-Kahneman 1974, Kahneman-Tversky 1979, Sloman 1996, Stanovich-West 2000, Kahneman 2011, Melnikoff-Bargh 2018

L’intuizione: due angoli prima del formalismo

Prima di entrare nei dettagli proponiamo due angoli di lettura. Il primo è fenomenologico: come si sente la doppia natura del pensiero dall’interno. Il secondo è economico: la doppia natura come risposta razionale a un vincolo di risorse. Entrambi gli angoli inquadrano lo stesso fenomeno; nessuno dei due esaurisce.

Angolo 1: l’auto-osservazione fenomenologica

Provi, di seguito, due compiti.

Compito A: dica a voce alta il colore della piastrella del soffitto. Lo fa in mezzo secondo, senza esitare, senza sentirsi affaticato. La risposta è arrivata “da sola”.

Compito B: moltiplichi 17 per 24, mentalmente, senza appoggiarsi a carta o calcolatrice. Provi davvero, per quindici secondi.

L’esperienza dei due compiti è qualitativamente diversa, e in modo riconoscibile. Nel primo: nessuno sforzo, nessuna attesa, nessuna sensazione di “stare facendo qualcosa”. Nel secondo: sforzo, lentezza, dilatazione delle pupille (Kahneman lo ha misurato), sensazione di saturazione di una risorsa scarsa. Se qualcuno le avesse parlato durante il compito A non se ne sarebbe accorto; durante il compito B avrebbe perso il filo immediatamente.

Kahneman e Beatty (1966), in un lavoro classico, mostrano che la dilatazione pupillare durante compiti cognitivi è proporzionale alla difficoltà del compito. La pupilla è un proxy fisiologico dello “sforzo”: è regolata dal locus coeruleus, lo stesso nucleo che regola l’arousal generale (vedi anche attenzione-psicologia, che tratta l’alerting network di Posner-Petersen). Compiti come il bat-and-ball, se eseguiti correttamente, mostrano un picco di dilatazione pupillare al momento della soppressione della risposta intuitiva.

Questa è la prima esperienza ricorrente che la teoria dual-process descrive: c’è un regime di pensiero che non costa, e un regime di pensiero che costa. Il primo è disponibile in continuazione; il secondo è soggetto a fatica, distrazione, intossicazione, sonno, e altre forme di degradazione della risorsa scarsa.

Angolo 2: la doppia natura come risposta a bounded rationality

Il secondo angolo è economico-evolutivo. Una mente che dovesse calcolare, da capo, la risposta deliberata e ottimale a ogni stimolo non sopravviverebbe: ci impiegherebbe troppo. Una mente che si affidasse solo al riflesso intuitivo non sopravviverebbe altrettanto: sbaglierebbe in tutti i contesti nuovi che richiedono ragionamento simbolico.

La soluzione che la mente umana sembra avere implementato — descrittivamente, non prescrittivamente — è una divisione del lavoro: un sottosistema rapido che produce risposte di default usando pattern memorizzati, e un sottosistema lento che si attiva selettivamente quando il primo segnala incertezza, conflitto, o quando il contesto richiede una soluzione che il pattern matching non copre. Il sottosistema lento è anche il sottosistema che può monitorare e correggere il primo, ma il monitoring è lui stesso costoso, e quindi spesso non avviene.

Questa lettura economica ha radici che precedono il programma di Kahneman. Herbert Simon (1916–2001, economista e cognitivista americano alla Carnegie Mellon, premio Nobel per l’Economia 1978), in “A behavioral model of rational choice” (Quarterly Journal of Economics 69:99–118, 1955), introduce il concetto di bounded rationality: gli umani non massimizzano, satisfice — scelgono la prima opzione che supera una soglia di accettabilità — perché il calcolo dell’ottimo è infattibile sotto vincoli reali. Kahneman, nella sua Nobel lecture “Maps of Bounded Rationality” (American Economic Review 93:1449–1475, 2003), riconosce esplicitamente Simon come predecessore. La dual-process theory è una filiazione documentata di bounded rationality: stessa famiglia di idee, sviluppi successivi sui meccanismi specifici. (Il capitolo bounded-rationality-simon in preparazione tratterà Simon in dettaglio.)

Tenga in mente entrambi gli angoli mentre leggerà la meccanica. L’angolo fenomenologico la aiuterà a riconoscere la differenza dall’interno. L’angolo economico la aiuterà a non vedere la dual-process come una bizzarria evolutiva ma come una risposta di progetto a vincoli reali.

System 1 vs System 2 properties chart: x-axis speed (slow→fast), y-axis effort (low→high), example tasks plotted in quadrants — recognize face, 2+2, ride bicycle, drive familiar route in low-effort/fast (S1); 17×24, tax return, tight parking, logical argument check in high-effort/slow (S2)

La meccanica: come la teoria caratterizza i due sistemi

Apriamo i pezzi nell’ordine canonico: caratterizzazione tipica di S1 e S2 secondo Kahneman 2011, le tre euristiche del programma 1974, prospect theory in sintesi, il CRT come strumento di misura, le basi neurali.

Caratterizzazione tipica (Kahneman 2011, capitolo 1)

Kahneman, nel capitolo introduttivo di Thinking, Fast and Slow, presenta una tabella comparativa che è diventata canonica. Riportiamola per chiarezza, accompagnata dall’avvertenza metodologica che è la stessa di Kahneman: i due sistemi sono etichette utili per famiglie di processi, non agenti omuncolari nel cervello.

System 1: rapido, automatico, parallelo, basso sforzo, associativo, contestuale, emotivamente colorato, sempre attivo, difficile da sopprimere, opera per default. Esempi: riconoscere un volto familiare; orientarsi verso un suono improvviso; capire una frase semplice nella propria lingua madre; rispondere “4” alla domanda “2+2”; provare disgusto guardando un’immagine sgradevole; guidare su una strada nota in condizioni normali.

System 2: lento, deliberato, seriale, alto sforzo, basato su regole, decontestualizzabile, freddo, attivato selettivamente, facilmente disturbato, subordinato a risorsa esauribile. Esempi: parcheggiare in uno spazio stretto; calcolare 17 × 24 a mente; controllare se un argomento logico è valido (modus tollens); compilare la dichiarazione dei redditi; tenere conversazione in una lingua che si conosce mediocramente; pesare costi e benefici di una decisione finanziaria importante.

Kahneman insiste sul fatto che i due sistemi non sono regioni anatomiche separate. Sono modi di parlare di pattern di funzionamento. La caratterizzazione si appoggia su decenni di esperimenti, ma resta una descrizione, non un’ipotesi neuroanatomica forte. Molti dei tratti elencati (automaticità, parallelismo, inconsapevolezza, efficienza) sono dissociabili: la critica di Melnikoff e Bargh (2018) — che vedremo in “Dove si rompe” — argomenta che NON covariano in modo netto. Esistono processi automatici ma controllabili, processi consci ma efficienti.

Le tre euristiche del programma 1974

Tversky e Kahneman 1974 documentano tre euristiche di giudizio che governano il S1.

Representativeness. Si giudica P(A|B) in base a quanto A “rassomiglia” a B. Esempio celebre: si descrive un soggetto come “calmo, ordinato, ama i puzzle e la lettura, poco socievole” e si chiede se è più probabile che sia bibliotecario o agricoltore. Quasi tutti rispondono “bibliotecario”. Ignorano che, nella popolazione generale, ci sono ~20 volte più agricoltori che bibliotecari maschi. La descrizione rassomiglia allo stereotipo del bibliotecario; il S1 mappa rassomiglianza su probabilità senza fare il bayes. La conseguenza più nota della representativeness è la conjunction fallacy, di cui parleremo nella sezione esempi (Linda problem).

Availability. Si giudica la frequenza di un evento in base alla facilità con cui esempi vengono in mente. La causa di morte per incidente aereo viene sovrastimata perché gli esempi sono coperti dai media; la causa di morte per malattia gastrointestinale è sottostimata perché gli esempi sono privati. L’availability spiega come i media plasmano le percezioni di rischio: non perché informano, ma perché rendono disponibili certi esempi a discapito di altri.

Anchoring. Un numero presentato come ancora distorce la stima successiva, anche quando l’ancora è ovviamente irrilevante. L’esperimento canonico di Tversky e Kahneman 1974: una ruota della fortuna truccata si ferma su 65 o su 10. Si chiede se la percentuale di paesi africani membri delle Nazioni Unite è maggiore o minore del numero, poi si chiede di stimare la percentuale. Mediane: 45% per il gruppo “ruota su 65”, 25% per il gruppo “ruota su 10”. I soggetti sanno benissimo che la ruota è random; l’ancora influenza lo stesso. È uno dei bias più replicati e robusti del programma.

Prospect theory in sintesi

Kahneman e Tversky 1979 descrivono come gli umani decidono sotto rischio. Tre claim centrali, semplificati:

Reference-dependence: il valore di un esito è giudicato relativamente a un punto di riferimento (status quo, aspettativa, esito comparativo), non in assoluto. Vincere $100 quando ci si aspettava di vincere$ 200 è esperito come perdita.
Loss aversion: la funzione di valore è asimmetrica. La curva è concava per i guadagni (utility marginale decrescente di vincere $1,$ 2, $3...) e convessa per le perdite (disutility marginale decrescente di perdere$ 1, $2,$ 3…). Cruciale: la pendenza dalla parte delle perdite è circa 2.25 volte la pendenza dalla parte dei guadagni. Perdere $100 fa "male" 2.25 volte tanto quanto vincere$ 100 fa “piacere”.
Probability weighting: le probabilità non sono usate “nude”. Una funzione w(p) distorce: piccole probabilità (0.01, 0.05) sono sovrappesate, grandi probabilità (0.95, 0.99) sono sottopesate. Spiega l’attrazione delle lotterie (sovrappeso di p ~ 0.0000001 di vincere) e l’attrazione delle assicurazioni (sovrappeso di p ~ 0.001 di catastrofe).

Prospect theory è una teoria di S1, nel linguaggio di Kahneman 2011. Le decisioni sotto rischio nella vita reale sono prese — quasi sempre — da S1, e la prospect theory ne descrive le regolarità. S2 può intervenire per riformulare il problema, ma il S1 è il default.

Cognitive Reflection Test (Frederick 2005)

Frederick 2005 propone tre item come misura della disposizione individuale a sopprimere la risposta intuitiva e attivare deliberation:

Bat and ball: già visto. Risposta intuitiva $0.10, corretta$ 0.05.
Widgets: “Se 5 macchine impiegano 5 minuti per produrre 5 widget, quanto impiegano 100 macchine a produrre 100 widget?” Risposta intuitiva 100 minuti, corretta 5 minuti (ogni macchina produce 1 widget in 5 minuti, indipendentemente da quante macchine ci siano).
Lily pads: “In un lago una macchia di ninfee raddoppia di superficie ogni giorno. Servono 48 giorni per coprire tutto il lago. Quanti giorni servono per coprirne metà?” Risposta intuitiva 24, corretta 47 (se raddoppia ogni giorno, il giorno prima della copertura totale è metà).

Il punteggio CRT correla con: razionalità nelle decisioni di Allais paradox, riluttanza a comprare lotterie, consumo non-impulsivo, riluttanza a credere a notizie false (Pennycook-Rand 2019). NON correla con QI generale in modo lineare; è una misura piuttosto specifica di reflection disposition. Frederick stesso, nelle sezioni successive del paper, è prudente nell’interpretarlo come misura “diretta di S2”.

Basi neurali (sintesi operativa)

La letteratura di neuroscienze cognitive associa S1 e S2 a circuiti distinti, parzialmente sovrapposti.

Substrato di S1: striatum e basal ganglia per habit learning e response automatiche; amigdala per snap value judgments emotivi; corteccia ventromediale prefrontale (vmPFC) per giudizi di valore rapidi. Doll, Daw e Frank (Nathaniel Daw, neuroscienziato computazionale a Princeton; Michael Frank, computational neuroscientist a Brown), in “Model-based choices involve prospective neural activity” (Nature Neuroscience 18:767–772, 2015), mostrano che model-free reinforcement learning — la forma di RL che impara associazioni stato-azione senza simulare conseguenze — è implementato proprio in striatum e basal ganglia. È un’analogia computazionale fra S1 e model-free RL.

Substrato di S2: dorsolateral prefrontal cortex (dlPFC) per working memory e manipulazione simbolica; anterior cingulate cortex (ACC) per conflict monitoring ed error detection. Lo stesso substrato dell’executive control network già visto in attenzione-psicologia. Il dlPFC è anche il substrato di model-based RL nello stesso lavoro di Doll-Daw-Frank.

Default mode network (DMN): rete identificata da Marcus Raichle (1937–, neurologo e neuroscienziato a Washington University in St Louis) in “A default mode of brain function” (PNAS 98:676–682, 2001). Si attiva quando il soggetto non è impegnato in un compito esterno — mind-wandering, pensiero spontaneo, simulazione mentale di situazioni. Anti-correlata con la task-positive network. Kahneman in Thinking, Fast and Slow lega DMN al pensiero non finalizzato; non è strettamente “S1”, ma è la modalità di S1 in assenza di stimoli esterni rilevanti.

L’analogia “S1 ↔ model-free RL, S2 ↔ model-based RL” è oggi popolare in neuroscienze computazionali. Va trattata come analogia funzionale: i due dicotomie hanno strutture simili, non sono lo stesso oggetto rinominato.

flowchart TD
    A[Descrizione di Linda: 31 anni, single, filosofia, attivista] --> B{Come valutare?}
    B -- Intuitivo S1: representativeness --> C[Cassiera AND attivista femminista sembra più probabile]
    B -- Deliberativo S2: estensionale --> D[P(A and B) ≤ P(A)]
    C --> E[~85% dei soggetti]
    D --> F[~15% dei soggetti]

Figura 3 — Linda problem decision tree: root “Linda description” → branch 1 “intuitive (representativeness): bank teller AND feminist” → ~85% subjects; branch 2 “deliberative (extensional): P(A∧B) ≤ P(A)” → ~15% subjects; small bar chart inset showing percentages

Esempi: tre dimostrazioni eterogenee

Esempio 1: Linda problem (Tversky-Kahneman 1983)

In Psychological Review 90:293–315, Tversky e Kahneman pubblicano il problema più celebre del programma. Presentano ai soggetti questa descrizione:

“Linda ha 31 anni, è single, schietta e molto intelligente. Si è laureata in filosofia. Da studentessa era molto preoccupata per la discriminazione e per la giustizia sociale, e ha partecipato a manifestazioni contro il nucleare.”

Poi chiedono di ordinare per probabilità una lista di affermazioni su Linda. Le due affermazioni cruciali nella lista sono:

(a) Linda è cassiera in banca. (b) Linda è cassiera in banca ed è attiva in un movimento femminista.

La risposta corretta è inequivocabile: P(a) ≥ P(b). È un teorema di teoria della probabilità. P(A and B) ≤ P(A) per qualsiasi A e B. L’insieme dei mondi in cui Linda è cassiera-femminista è un sottoinsieme proprio dell’insieme dei mondi in cui Linda è cassiera. Non c’è discussione.

Eppure: nel campione di Tversky e Kahneman, l’85% dei soggetti — incluso un sottocampione di studenti laureati di statistica e probabilità — ordina (b) come più probabile di (a). Il fenomeno si chiama conjunction fallacy.

L’interpretazione dual-process: il S1 risponde alla domanda Quanto Linda assomiglia allo stereotipo “cassiera-femminista” rispetto allo stereotipo “cassiera”? La descrizione (filosofa, attivista) rassomiglia molto più al primo che al secondo. La representativeness produce un giudizio di “probabilità” fondato sulla rassomiglianza. Il S2, se attivato, dovrebbe accorgersi che la domanda non è di rassomiglianza ma di estensione insiemistica, e applicare il teorema. In pratica, S2 spesso non si attiva — anche per soggetti che, interrogati sul teorema astrattamente, lo conoscono benissimo.

Questa è la dimostrazione più nitida di conflitto simultaneo fra i due sistemi: i soggetti, una volta avvisati del teorema, dicono “lo so, eppure (b) sembra più probabile”. Il “sembra” non scompare. Il S1 produce l’impressione, il S2 — quando funziona — corregge il giudizio esplicito. Ma il S1 non si zittisce.

Le repliche di Linda problem sono robuste. Ruggeri e colleghi (2020), nel multi-lab replication study, confermano l’effetto attraverso 19 paesi su circa 4.000 soggetti.

Esempio 2: Wason selection task con manipolazione di contenuto

Il selection task originale (Wason 1966): quattro carte sul tavolo, ognuna con una lettera su un lato e un numero sull’altro. Le facce visibili sono E, K, 4, 7. Regola: “Se una carta ha una vocale su un lato, allora ha un numero pari sull’altro.” Quali carte deve girare per verificare se la regola è rispettata?

Soluzione corretta: E (per modus ponens: vocale, deve avere pari) e 7 (per modus tollens: dispari, non deve avere vocale). Le carte K e 4 sono irrilevanti: K non è una vocale e quindi la regola non si applica; 4 può avere consonante o vocale e la regola non vieta a 4 di stare con una consonante.

Risposta tipica dei soggetti (laureati universitari): E e 4. Solo ~10% risponde E e 7 la prima volta. La risposta E e 4 è dominata dal matching bias: si girano le carte menzionate nella regola (vocale, pari).

Ora la manipolazione cruciale, dovuta a Leda Cosmides (1957–, psicologa evoluzionista a UC Santa Barbara) in “The logic of social exchange” (Cognition 31:187–276, 1989). Stessa struttura logica, contenuto diverso:

“In un bar, la regola è: se una persona beve alcolici, allora deve avere almeno 21 anni. Le quattro persone sul tavolo: chi beve birra, chi beve coca-cola, chi ha 25 anni, chi ha 16 anni. Chi vuoi controllare?”

Risposta corretta: chi beve birra (per controllare l’età) e chi ha 16 anni (per controllare cosa beve). Tasso di soluzione corretta: ~75%. Sette volte e mezzo in più rispetto alla versione astratta.

L’interpretazione dual-process: il task astratto richiede S2 — applicazione esplicita di modus tollens, cioè di regole logiche formali. La maggior parte dei soggetti non attiva S2, e S1 produce matching bias. Il task contenuto sociale (“chi sta cercando di imbrogliare?”) attiva un modulo intuitivo specializzato (Cosmides: “cheater detection module”), che è S1 ma S1 specializzato per contratti sociali e che, su questo dominio specifico, produce la risposta logicamente corretta come sottoprodotto.

Wason selection task è la dimostrazione più chiara che il “ragionamento” non è un’unica facoltà: è eseguito in modi diversi su contenuti diversi, e il dominio sociale-deontico è privilegiato in modo robusto rispetto al dominio simbolico astratto.

Esempio 3: Asian disease framing (Tversky-Kahneman 1981)

In Science 211:453–458, Tversky e Kahneman mostrano l’effetto di framing in modo lapidario. Presentano due gruppi di soggetti con lo stesso problema, formulato in modo diverso.

Gruppo A (frame “guadagno”):

“Si prevede l’arrivo di una epidemia che ucciderà 600 persone. Due programmi alternativi: Programma A: 200 persone saranno salvate. Programma B: 1/3 di probabilità che 600 persone siano salvate, 2/3 di probabilità che nessuno sia salvato. Quale scegli?”

Risultato: 72% sceglie A.

Gruppo B (frame “perdita”):

“Si prevede l’arrivo di una epidemia che ucciderà 600 persone. Due programmi alternativi: Programma C: 400 persone moriranno. Programma D: 1/3 di probabilità che nessuno muoia, 2/3 di probabilità che 600 muoiano. Quale scegli?”

Risultato: 78% sceglie D.

I programmi sono matematicamente identici a coppie: A = C (200 salvate = 400 morte su 600); B = D (stessa lotteria). Ma la preferenza si inverte: nel frame guadagno i soggetti sono risk-averse (preferiscono il certo), nel frame perdita sono risk-seeking (preferiscono la lotteria). Coerente con la prospect theory: la curva è concava nei guadagni (avversione al rischio) e convessa nelle perdite (propensione al rischio).

Implicazione: la “preferenza” non è una proprietà del decisore. È una funzione del decisore e del frame. Cambiando solo le parole — non cambiando l’oggetto della scelta — si cambia la scelta. È una delle dimostrazioni più disarmanti del programma Kahneman-Tversky, e il fondamento empirico per il programma “nudge” di Richard Thaler e Cass Sunstein (Nudge, Yale University Press, 2008): se le scelte dipendono dal frame, chi disegna il frame (governi, aziende, designer di interfacce) ha un potere di policy non banale.

Esempio 4: anchoring numerico in contesto giudiziario

Un quarto esempio, dal lavoro di Birte Englich, Thomas Mussweiler e Fritz Strack (“Playing dice with criminal sentences”, Personality and Social Psychology Bulletin 32:188–200, 2006), mostra l’anchoring in un contesto in cui ci aspetteremmo professionisti immunizzati. Giudici tedeschi con esperienza media di 15 anni nel diritto penale ricevono il dossier di un caso di stupro. Prima di emettere una raccomandazione di pena, tirano due dadi. I dadi sono truccati: in una condizione la somma è bassa (3); nell’altra è alta (9). Ai giudici viene detto esplicitamente che i dadi sono random e irrilevanti.

Risultato: i giudici nella condizione “dado basso” raccomandano in media 5.3 mesi di reclusione; quelli nella condizione “dado alto” 7.8 mesi. Una differenza di 47% in pena, indotta da due dadi. I giudici, intervistati dopo, dichiarano in maggioranza che il dado non ha influenzato la loro decisione. È un caso paradigmatico in cui S1 (anchoring) opera sotto la consapevolezza: i soggetti sono convinti di stare ragionando in S2, e il S1 sta plasmando il giudizio senza che se ne accorgano.

Replicabilità: l’effetto è uno dei più studiati in psicologia legale; gli effect size variano (alcune repliche con magistrati esperti producono effetti più piccoli), ma il pattern qualitativo regge in pre-registered replication.

Quando si attiva S2: i trigger empirici della deliberazione

Una domanda metodologicamente cruciale, e su cui la teoria ha lavorato in dettaglio: in quali condizioni il sistema deliberato interviene? Se S2 fosse attivato in continuazione, avremmo una specie di razionalità ottimale; sappiamo che non è così. Se non lo fosse mai, falliremmo Linda problem ogni volta. La letteratura identifica almeno cinque trigger.

Trigger 1 — conflict detection. Quando S1 produce due output incompatibili sullo stesso input (la rappresentazione “Linda sembra femminista” e la rappresentazione “le congiunzioni sono meno probabili dei loro componenti”), il sistema rileva conflitto e mobilita S2. È il modello di De Neys 2017 (Dual Process 2.0): l’intuizione logica e l’intuizione rappresentativa entrano in competizione, e il conflitto stesso è il segnale che attiva controllo deliberato. Misurabile in dilatazione pupillare e in tempi di risposta.

Trigger 2 — istruzione esplicita. Dire ai soggetti “rifletti attentamente prima di rispondere” o “fornisci una giustificazione per la tua risposta” aumenta significativamente l’accuracy su task come bat-and-ball. Frederick 2005 nota che soggetti CRT-bassi non producono spontaneamente la riflessione; la producono se istruiti. Questo è il principio dietro le cognitive forcing strategies di Croskerry in medicina.

Trigger 3 — costo percepito dell’errore. Quando le conseguenze di sbagliare sono alte (decisione finanziaria importante, diagnosi clinica, scelta di carriera), S2 ha più probabilità di attivarsi. È economicamente sensato: l’attivazione di S2 ha un costo (tempo, fatica), e ha senso pagarlo solo quando il payoff lo giustifica. Inversamente: nelle decisioni di basso impatto S1 fa il default.

Trigger 4 — disposizione individuale (cognitive style). Stanovich-West 2000 mostrano che individui con alta need for cognition (Cacioppo-Petty 1982) o alto actively open-minded thinking (Stanovich-West 1997) attivano S2 più frequentemente, anche su task in cui altri soggetti non lo farebbero. Il CRT di Frederick 2005 misura questa disposizione. La disposizione correla solo debolmente col QI generale: si può essere intelligenti e poco riflessivi.

Trigger 5 — risorsa disponibile. Sotto cognitive load — dual task, time pressure, fatigue, sleep deprivation, alcohol — anche soggetti predisposti a S2 collassano sui pattern di S1. Stanovich-West 2000 lo dimostrano facendo eseguire il Linda problem a soggetti sotto carico di working memory: la performance scende verso quella della popolazione generale. È coerente con l’identificazione di working memory (capitolo memoria-working) come substrato di S2.

L’implicazione di policy è netta: design di sistemi (interfacce, procedure mediche, processi giudiziari) che vogliono favorire S2 devono lavorare sui trigger. Rallentare le decisioni; rendere visibili i conflitti; abbassare il carico cognitivo; offrire framing alternativi. Esattamente quello che il programma “nudge” e i protocolli di debiasing fanno.

Applicazioni pratiche del programma

Il programma dual-process e heuristics-and-biases ha generato applicazioni in molti ambiti. Le rapide.

Behavioral economics e nudge. Thaler (premio Nobel 2017) e Sunstein 2008 sistematizzano l’uso di “architettura della scelta” — default opt-in vs opt-out, ordine delle opzioni, framing — per indirizzare il comportamento. Esempi: opt-out per donazione di organi (paesi opt-out hanno tassi di consenso ~90%, paesi opt-in ~15%); default contributo pensionistico al massimo; posizione del cibo sano in mensa scolastica.

Medicina diagnostica. Pat Croskerry (medico ed epistemologo della diagnosi a Dalhousie University), in una serie di articoli dal 2003, applica il framework alle diagnosi mediche. Errori diagnostici sono in larga parte errori di S1: anchoring sul primo sospetto, availability su casi recenti, representativeness sullo stereotipo della malattia. Le cognitive forcing strategies sono protocolli che obbligano a generare e considerare ipotesi alternative — un modo strutturato di forzare l’attivazione di S2.

Diritto. Il programma debiasing della giuria, training sui bias per giudici. Cass Sunstein ha collaborato a programmi di formazione su anchoring nei procedimenti civili (la prima richiesta di danni come ancora). Cambiamenti procedurali — separare la fase di responsabilità dalla fase di danno — riducono l’effetto.

Educazione. Il programma “rationality quotient” di Stanovich, West e Maggie Toplak (psicologa a York University, Toronto) — The Rationality Quotient, MIT Press 2016 — propone una batteria di test per misurare razionalità in modo distinto dal QI. La tesi è che molti errori adulti di reasoning siano addressabili con training mirato, sostanzialmente come “S2 training”.

Design UX. La distinzione fra dark patterns — interfacce che sfruttano S1 per indurre azioni che il soggetto non sceglierebbe con S2 (default opt-in a newsletter, paywall poco visibili, urgency artificiale) — e enabling design — interfacce che rallentano deliberatamente per dare spazio a S2 (cooling-off period, conferme esplicite per acquisti, reminder di costi totali) — è oggi vocabolario standard del design comportamentale.

Eredità oggi: AI e la metafora dual-process

[DATATO 2026-04]

La sezione che segue inquadra il rapporto fra dual-process theory e sistemi AI moderni. È datata perché si riferisce allo stato di LLM, chain-of-thought e reasoning model alla primavera 2026. Le analogie qui descritte sono retoriche, non documentate come filiazione: nessuno dei sistemi tecnici menzionati è stato progettato come implementazione della teoria di Kahneman.

Bengio 2019 — “System 2 deep learning” come programma di ricerca

Yoshua Bengio (1964–, computer scientist canadese a Mila/Université de Montréal, premio Turing 2018), nel keynote “From System 1 Deep Learning to System 2 Deep Learning” alla NeurIPS 2019 (poi articolo, 2021), formula una tesi di ricerca: il deep learning del 2019 (CNN, reti convenzionali, transformer pre-CoT) è essenzialmente “S1” — pattern matching associativo, senza compositional generalization, senza causal reasoning, senza modularità. Per arrivare a sistemi più capaci serve un layer “S2” caratterizzato da: planning, sparse factor graphs, attention diretta da goal espliciti, causal world models.

Va sottolineato: Bengio usa Kahneman come metafora retorica per giustificare un programma di ricerca, non come progetto architetturale letterale. Non c’è — al 2026 — un’architettura “S1 + S2” implementata in produzione che derivi direttamente da quella proposta. È analogia di programma, non filiazione.

Chain-of-thought (Wei 2022)

Jason Wei e colleghi (Google Research), in “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (NeurIPS 2022), mostrano che fornire al modello esempi few-shot in cui la risposta è preceduta da un ragionamento step-by-step — “Let’s think step by step…” — migliora drasticamente l’accuracy su benchmark di reasoning matematico. Su GSM8K (Cobbe et al. 2021, 8.5K problemi di matematica delle elementari), PaLM-540B passa da 6.7% (zero-shot) a 57.6% (CoT 8-shot).

Una lettura popolare dice: “CoT è il System 2 dei LLM.” La lettura è didatticamente utile, tecnicamente fuorviante. CoT è un pattern di output: il modello continua a fare next-token prediction, ma l’output ora include una sequenza di passi intermedi che condizionano il token finale. Non c’è un secondo sistema che si attiva. Non c’è planning esplicito separato dalla generazione. È auto-regressione sulla traccia più lunga. La traccia più lunga produce un effetto funzionale simile a deliberation (più tempo per esplorare alternative, possibilità di correggere), ma il meccanismo è autoregressione standard.

flowchart TD
    A[Descrizione di Linda: 31 anni, single, filosofia, attivista] --> B{Come valutare?}
    B -- Intuitivo S1: representativeness --> C[Cassiera AND attivista femminista sembra più probabile]
    B -- Deliberativo S2: estensionale --> D[P(A and B) ≤ P(A)]
    C --> E[~85% dei soggetti]
    D --> F[~15% dei soggetti]

Figura 3 — Chain-of-thought effect on GSM8K: bar chart comparing PaLM-540B 0-shot 6.7% accuracy vs CoT 8-shot 57.6% accuracy; annotation “S2-like effect, autoregressive mechanism”

Reasoning models (o1, Claude thinking, DeepSeek-R1)

OpenAI o1 (settembre 2024), poi o3 (dicembre 2024). Claude thinking mode di Anthropic (2024). DeepSeek-R1 di DeepSeek-AI (gennaio 2025, paper open-weights con RL pure su reasoning traces). Caratteristiche comuni:

training su lunghe reasoning traces che includono autoriflessione, backtracking, considerazione di alternative;
inference con test-time compute scaling: più tempo di “thinking” alloca → migliore performance su task difficili;
comportamenti emergenti che sembrano S2-like: il modello dice “wait, let me reconsider that”, esplora rami alternativi, corregge errori intermedi.

Resta il punto: il meccanismo è autoregressivo. Più compute time = più token generati nel buffer di “thinking” prima della risposta. È deliberation simulata da una sequenza più lunga, non un sistema deliberativo separato. Il capitolo test-time-scaling (in preparazione) tratterà l’argomento in dettaglio.

Equivalenze pericolose

Per igiene concettuale, quattro errori da non commettere:

❌ “LLM = System 1 puro.” Falso come affermazione assoluta. Modelli moderni risolvono routinariamente problemi formali (algebra, manipolazione simbolica, deduzione formale) che in umani richiedono S2. La caratterizzazione “S1 puro” è, al massimo, una analogia parziale sul fatto che la generazione di un singolo token è automatica e non-deliberativa. Non è equivalenza ontologica.
❌ “Chain-of-thought = System 2.” Confonde pattern di output con architettura cognitiva. CoT è una traccia testuale; S2 è una famiglia di processi neurali. Funzionalmente simili in alcuni effetti; meccanicamente diversi.
❌ “Reasoning models = sistema 2.” Più test-time compute imita alcuni effetti di deliberation (revisione, autocritica, esplorazione). Il meccanismo è più computazione autoregressiva, non un secondo sistema strutturalmente distinto.
❌ “Sistema 1/2 → architettura AI a due moduli.” È stata proposta da Bengio come direzione di ricerca. Non è stata implementata in produzione come architettura “due moduli espliciti, uno fast e uno slow”. Le architetture moderne (transformer, MoE, hybrid models) non sono organizzate come dicotomia S1/S2.

L’uso pulito è: presentare l’analogia come analogia retorica, dichiarare che è didattica, e marcare i suoi limiti. Il capitolo ponte-s1-s2-llm (in preparazione) tratta il ponte in dettaglio e discute esattamente queste equivalenze.

Dove si rompe

Il modello dual-process è uno dei programmi di ricerca più produttivi del Novecento cognitivo. È anche, come ogni programma di successo, oggetto di critiche dirette. Le principali.

La critica di Melnikoff e Bargh (2018) — “The Mythical Number Two”

David Melnikoff (psicologo a Northeastern University) e John Bargh (1955–, psicologo sociale a Yale, una delle figure più note della social cognition), in Trends in Cognitive Sciences 22:280–293 (2018), pubblicano una critica fondamentale. Argomento centrale: i quattro tratti che secondo la teoria classica caratterizzerebbero S1 — intentionality (assenza di intenzione), efficiency (basso costo cognitivo), controllability (incapacità di sopprimere), awareness (assenza di consapevolezza) — non covariano in modo netto.

Esistono processi automatici (no intention) ma controllabili (si possono fermare). Esistono processi consci (aware) ma efficienti (basso costo). Esistono processi intentional ma non controllabili. Le quattro dimensioni sono largamente indipendenti, e raggrupparle in “S1” è una semplificazione retorica.

Conseguenza: la dicotomia S1/S2 è uno strumento descrittivo utile, non una distinzione naturale del sistema cognitivo. Funziona pedagogicamente perché aggrega regolarità reali; non funziona come ipotesi ontologica forte.

La risposta di Pennycook, De Neys, Evans (2018, lettera in TICS) argomenta che la critica confonde la versione “type 1 / type 2” come tipi cognitivi (Evans-Stanovich 2013) con versioni più ingenue. La discussione resta aperta nel 2026.

Lezione operativa: trattare la distinzione S1/S2 come modello descrittivo a due regimi, non come due moduli neuroanatomici separati. Quando si descrive un fenomeno cognitivo, è lecito dire “regime intuitivo” e “regime deliberato”; è meno lecito dire “il sistema 1 ha fatto X, il sistema 2 ha corretto Y” come se fossero due agenti.

La critica di Keren e Schul (2009) — non-falsificabilità

Gideon Keren (psicologo cognitivo a Tilburg University) e Yaacov Schul (psicologo a Hebrew University Jerusalem), in “Two Is Not Always Better Than One” (Perspectives on Psychological Science 4:533–550, 2009), argomentano che molte versioni della dual-process theory sono non-falsificabili. Ogni dato sperimentale può essere interpretato post-hoc come “S1 ha vinto” oppure “S2 ha vinto” oppure “S1 e S2 erano in conflitto”. Una teoria che spiega tutto rischia di non spiegare niente nel senso di Popper.

La risposta tipica è che le versioni recenti (Evans-Stanovich 2013, De Neys 2017) fanno previsioni più precise — sui tempi di risposta, sui pattern di conflitto, sulla risposta pupillare. Resta vero che la teoria nelle sue formulazioni divulgative (incluso buona parte di Kahneman 2011) è elastica.

La critica di Osman (2004) — un continuum, non due tipi

Magda Osman (psicologa a Queen Mary University of London), in “An evaluation of dual-process theories of reasoning” (Psychonomic Bulletin & Review 11:988–1010, 2004), propone un’alternativa: invece di due tipi discreti, un continuum graduato di automaticità, controllo, costo. Ogni processo cognitivo è caratterizzato da una posizione su questo continuum, non da un’etichetta binaria.

Operativamente le previsioni si avvicinano alla dual-process; concettualmente la differenza è seria. La risposta: la dicotomia è una buona approssimazione di prim’ordine, il continuum è la versione raffinata.

De Neys 2017 — Dual Process 2.0

Wim De Neys (CNRS Paris) ha pubblicato una serie di lavori che propongono una versione moderna: Dual Process Theory 2.0. Tesi: i soggetti sentono il conflitto sulla risposta intuitiva sbagliata anche quando danno la risposta sbagliata. Misurabile in tempi di risposta (più lunghi su problemi conflittuali), dilatazione pupillare (maggiore), grado di confidenza (minore).

Conclusione: S1 stesso ha intuizioni multiple in conflitto fra loro (intuizione “rappresentativa” e “intuizione logica”), e S2 non sostituisce S1 ma seleziona. Il modello sequential override (“S1 risponde, S2 corregge”) è sostituito da parallel competitive activation.

Questa è la versione più sofisticata, e nel 2026 è la più seguita nella psicologia del ragionamento accademica.

Replicabilità

Un capitolo a parte merita la replication crisis in psicologia, che dagli anni 2010 ha messo sotto esame molti effetti classici. Kai Ruggeri e colleghi (Columbia University), in “Replicating patterns of prospect theory for decision under risk” (Nature Human Behaviour 4:622–633, 2020), conducono un multi-lab pre-registered con 19 paesi e ~4.000 soggetti. Risultato: i pattern qualitativi della prospect theory (loss aversion, framing, certainty effect) replicano. Le magnitudini sono ridotte rispetto agli studi originali. Il Linda problem replica robusto. L’anchoring “ruota della fortuna” semi-replica. Alcuni effetti boutique (priming “professore” → meglio in trivia, embodied cognition specifiche) non sopravvivono a repliche pre-registered.

Lezione operativa: il nucleo del programma Kahneman-Tversky è solido; alcuni effetti laterali no. Per il capitolo: citare con confidenza i fenomeni robusti (Linda, framing, prospect theory generale, CRT); marcare con cautela i bias laterali.

Il problema della “razionalità” come parametro normativo

Una critica trasversale viene da chi mette in discussione il frame normativo stesso del programma heuristics-and-biases. La domanda: rispetto a quale standard la risposta intuitiva è “sbagliata”? Tversky e Kahneman assumono che lo standard sia la teoria della probabilità formale (per i giudizi probabilistici) e la teoria dell’utilità attesa (per le decisioni). Gerd Gigerenzer (1947–, psicologo tedesco al Max Planck Institute for Human Development di Berlino), in una serie di lavori dagli anni Novanta in poi, argomenta che molte euristiche sono adattive: producono buone decisioni in ambienti reali, dove le distribuzioni statistiche non sono note e dove i costi di calcolo sono reali. Etichettarle come “bias” rispetto a uno standard ideale che presuppone informazione completa è metodologicamente problematico. Il programma di “fast and frugal heuristics” di Gigerenzer (1999) produce esempi in cui euristiche semplici (recognition heuristic, take-the-best) battono modelli complessi.

La risposta classica del programma Kahneman-Tversky: nelle situazioni in cui lo standard normativo è ben definito (Linda problem: la teoria delle probabilità è inequivocabile), gli errori sono errori. La sintesi moderna riconosce entrambi i punti: euristiche sono adattive nel loro ambiente di calibrazione, ma producono errori sistematici fuori da quell’ambiente.

Il rischio di portare la critica troppo lontano

Una lettura ingenua della critica Melnikoff-Bargh dice “la dual-process theory è morta”. Falso. La dicotomia regge come modello descrittivo delle regolarità del giudizio umano, che è quello che la teoria deve fare. La critica colpisce la lettura letterale della dicotomia come due moduli nervosi separati, ma quella lettura non è mai stata il claim forte di Kahneman, Stanovich, Evans. È stata, talvolta, il claim forte della divulgazione.

L’uso pulito è: parlare di regimi (rapido/lento, intuitivo/deliberato) come pattern descrittivi; non parlare di sistemi come agenti separati con goal propri.

Note metodologiche sulla classificazione delle affermazioni in questo capitolo

Un’ultima nota di igiene, per restituire al lettore le scelte fatte. Le connessioni proposte nel capitolo sono di classi diverse e vanno tenute distinte:

Filiazione documentata: Simon 1955 → Kahneman 2003 (Kahneman cita Simon esplicitamente nella Nobel lecture); Schneider-Shiffrin 1977 → Stanovich-West 2000 (lineage di letteratura controlled vs automatic). Sono filiazioni vere, supportate da citazioni e continuità di programma.
Analogia funzionale: model-free RL ↔ S1, model-based RL ↔ S2 (Doll-Daw-Frank 2015). Stessa struttura, oggetti diversi. Non è equivalenza ontologica.
Analogia retorica utile ma rischiosa: LLM ↔ S1, chain-of-thought ↔ S2. È didatticamente comoda. Non è filiazione (CoT non è stato disegnato come implementazione di Kahneman). Non è equivalenza (i meccanismi sono diversi). Va sempre marcata.
Proposta di ricerca, non realizzazione: “System 2 deep learning” di Bengio 2019. Programma, non implementazione.

Tenere queste classi distinte è il servizio principale che questo capitolo intende rendere. La dual-process theory è uno degli strumenti più potenti del Novecento cognitivo. Il modo migliore di onorarla è usarla con precisione, non come slogan.

Collegamenti

memoria-working — il central executive nel modello di Baddeley è l’infrastruttura computazionale di S2: senza working memory non c’è seriality, decontestualization, manipolazione simbolica. La capacità della WM correla con prestazioni S2 in molti studi.
attenzione-psicologia — la rete di executive control descritta da Posner-Petersen (ACC + dlPFC) è lo stesso substrato neurale di S2. La distinzione “attention controllata vs automatica” di Schneider-Shiffrin 1977 è progenitrice diretta della distinzione S1/S2. Filiazione documentata.
percezione-priors — i priors top-down nella percezione bayesiana sono il substrato percettivo di S1: l’inferenza che gira automaticamente, sotto la consapevolezza, e che produce esperienza percettiva immediata. Top-down priors sono S1 percettivo.
bounded-rationality-simon (in preparazione) — Simon 1955 introduce bounded rationality come cornice teorica generale; Kahneman 2003 esplicitamente cita Simon come predecessore. Filiazione documentata.
euristiche-bias (in preparazione) — il capitolo dedicato alle heuristics-and-biases tratta in dettaglio representativeness, availability, anchoring, base-rate neglect, conjunction fallacy, hindsight, confirmation. Qui sono toccati come dimostrazioni del programma S1.
meta-cognizione (in preparazione) — la metacognizione (pensare sul pensare) è strettamente connessa a S2: monitoring del proprio processo, feeling-of-knowing, calibrazione della confidence. La “intuizione logica” di De Neys è di fatto metacognitive feeling.
ponte-s1-s2-llm (in preparazione) — il capitolo successivo dedicato al ponte concettuale fra dual-process e LLM. Tratta in dettaglio cache vs reasoning, CoT come pattern di output, test-time compute scaling. Riprende e amplia la sidebar [DATATO 2026-04] di questo capitolo.
cot-intro (in preparazione, Parte XII) — meccanica del chain-of-thought prompting, paper di Wei 2022, varianti (zero-shot CoT, self-consistency, tree-of-thoughts). Qui solo nominato.
test-time-scaling (in preparazione, Parte XII) — reasoning model (o1, o3, Claude thinking, DeepSeek-R1) e scaling del compute al test time. Qui solo nominato in “Eredità oggi”.
cervello-vs-rete-neurale (61) — la distinzione fra somiglianze reali e analogie ingannevoli applicata al sistema biologico. Lo stesso esercizio di igiene fatto in questo capitolo per la dicotomia S1/S2 e LLM.

Per andare oltre

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux. Letture obbligata se si parte da zero. Sintesi di quattro decenni di ricerca dell’autore. Trade book accessibile, ma rigoroso. Capitoli 1, 4, 9, 24, 26 sono il nucleo.
Stanovich, K. E., West, R. F., & Toplak, M. E. (2016). The Rationality Quotient. MIT Press. Per la versione “rigorosa accademica” che vuole misurare razionalità come tratto. Più tecnico di Kahneman 2011, meno divulgativo. Buono per capire la versione individual-differences della teoria.
Evans, J. St. B. T., & Stanovich, K. E. (2013). “Dual-Process Theories of Higher Cognition: Advancing the Debate”. Perspectives on Psychological Science 8:223–241. Il paper di sintesi della versione “tipi cognitivi”, risposta alle critiche degli anni precedenti. Lettura tecnica essenziale per chi vuole valutare la teoria oltre il livello divulgativo.
Melnikoff, D. E., & Bargh, J. A. (2018). “The Mythical Number Two”. Trends in Cognitive Sciences 22:280–293. Per la critica più forte. Insieme alla risposta di Pennycook-De Neys-Evans (2018, stessa rivista) dà il quadro del dibattito attuale.
Thaler, R. H., & Sunstein, C. R. (2008). Nudge. Yale University Press. Per la connessione con behavioral economics e policy. È la traduzione applicata del programma in interventi reali.
Bengio, Y. (2021). “From System 1 Deep Learning to System 2 Deep Learning: An Overview”. Per la lettura — discutibile — del programma in chiave AI. Va letto sapendo che è proposta di ricerca, non descrizione di un’architettura realizzata.
De Neys, W. (Ed.) (2018). Dual Process Theory 2.0. Routledge. Per la versione contemporanea raffinata: parallel competition fra intuizioni multiple, intuizione logica come fenomeno reale, abbandono del modello sequential override.
Gigerenzer, G., & Todd, P. M. (1999). Simple Heuristics That Make Us Smart. Oxford University Press. Per il punto di vista alternativo di “fast and frugal heuristics”. Letto in dialogo con Kahneman, dà una visione meno normativamente carica del programma euristico.
Tversky, A., & Kahneman, D. (1974). “Judgment under Uncertainty: Heuristics and Biases”. Science 185:1124–1131. Il paper originale, ancora leggibile in mezz’ora, che ha avviato il programma. Documento storico essenziale.

Una nota finale sull’uso del capitolo

Per chi prosegue la lettura della Parte III di questa wiki: il capitolo ponte-s1-s2-llm (in preparazione) è dedicato al confronto strutturale fra dual-process e LLM, con attenzione al confronto fra cache e reasoning, fra forward pass singolo e generazione estesa di traccia.

Le sezioni precedenti — memoria di lavoro, attenzione, percezione bayesiana — forniscono i mattoni cognitivi di S2. Le sezioni successive — bounded rationality, euristiche, metacognizione — sviluppano implicazioni e variazioni del modello presentato qui. Letto in isolamento, il capitolo dà una mappa essenziale del territorio. Letto come nodo del grafo della Parte III, dialoga con almeno otto vicini. Il capitolo bounded-rationality-simon (in preparazione) tratta in dettaglio Simon 1955 e la cornice di razionalità limitata che ha preceduto il programma Kahneman-Tversky. Il capitolo euristiche-bias (in preparazione) tratta in dettaglio le euristiche e i bias toccati qui solo come esempi. Il capitolo meta-cognizione (in preparazione) tratta del monitoring e del controllo del proprio processo cognitivo, fenomeno strettamente intrecciato con S2.

La distinzione System 1 / System 2, presa con disciplina, è uno degli strumenti più espressivi che la psicologia cognitiva abbia consegnato al vocabolario contemporaneo. Permette di parlare di regimi di elaborazione in modo che il pubblico non specialista capisce, mantenendo il riferimento a quattro decenni di esperimenti rigorosi. L’errore più comune è prendere la dicotomia letteralmente: due moduli, due agenti, due sistemi neurali separati. Non è quello che la teoria sostiene nelle sue versioni più sofisticate, e non è quello che i dati supportano.

Per il lettore che lavora con sistemi AI, il vocabolario S1/S2 può essere uno strumento di esposizione. Può anche essere una trappola, se le analogie (“LLM = S1”, “CoT = S2”, “reasoning model = sistema deliberativo”) vengono prese letteralmente. Il capitolo successivo ponte-s1-s2-llm tratta il ponte in dettaglio. Ne tenga distinti i registri: la psicologia cognitiva descrive il giudizio umano sotto vincoli reali; l’ingegneria dei sistemi LLM descrive operazioni autoregressive su token. La sovrapposizione di nomi non è sovrapposizione di oggetti.