Bounded rationality e test-time compute: il budget come razionalità

Un utente apre Claude nel marzo 2026 e chiede: “Esistono interi positivi a < b con a² + b² = 2026?”. Versione standard: due secondi, risposta sicura, sbagliata. Versione “extended thinking”: quaranta secondi di trace visibile in cui il modello prova decomposizioni, scarta, riconsidera, invoca il teorema di Fermat sulle somme di due quadrati, conclude correttamente. La differenza fra le due interazioni non sta nel modello — i pesi sono identici. Sta nel budget di token che la policy ha imparato a spendere prima di rispondere. È una distinzione che, formulata con precisione, è la più chiara istanziazione ingegneristica del principio di Herbert Simon: la razionalità non è una proprietà astratta delle scelte ottimali, ma un processo concreto vincolato dalle risorse di chi sceglie. Spendere più compute al test time produce risposte migliori — fino a un punto, per certi task, con costi che scalano. Questo capitolo prende sul serio quel “fino a un punto” e quella scala, e mostra come la tradizione che va da Simon agli anytime algorithms a MCTS al test-time compute scaling sui large language model sia una catena di filiazione documentata, non un’analogia retorica.

Perché un ponte qui

Il capitolo precedente, bounded-rationality-simon, ha stabilito tre cose. Primo, bounded rationality è una teoria descrittiva di come gli umani decidono sotto vincoli di calcolo, formalizzata da Simon fra 1947 e 1976 e rinnovata da Lieder-Griffiths nel 2020 come resource-rational analysis. Secondo, la stessa intuizione ha prodotto, nel ramo computer science, un programma di ricerca esplicito sugli algoritmi che ragionano sotto deadline — anytime algorithms (Boddy-Dean 1989), metareasoning (Russell-Wefald 1991), MCTS (Coulom 2006, Kocsis-Szepesvári 2006). Terzo, queste due tradizioni si incontrano nel pattern moderno del test-time compute (TTC) scaling per LLM: o1 di OpenAI, DeepSeek-R1, Claude extended thinking, AlphaProof.

Il capitolo che state leggendo è il ponte specifico: vuole rendere visibile la catena documentata che collega Simon al TTC scaling, e poi descrivere con precisione i pattern ingegneristici contemporanei. Il taglio è diverso da quello del capitolo ponte-s1-s2-llm, che mette in dialogo S1/S2 e meccanismi LLM. Lì la domanda è “come pensano gli LLM?”. Qui la domanda è “quanto pensano gli LLM, perché conviene farli pensare di più, e dove si rompe?”. La differenza non è retorica. È la differenza fra la tassonomia dei meccanismi e l’ingegneria del budget.

C’è una ragione precisa per dedicare un ponte separato a questo. La catena Simon → anytime → MCTS → TTC LLM è uno dei pochi casi nel libro in cui possiamo parlare di filiazione documentata senza precauzioni eccessive. Boddy-Dean 1989 cita Simon esplicitamente. Russell-Wefald 1991 cita Simon esplicitamente. Snell, Lee, Xu, Kumar 2024 — il framework empirico più citato per TTC scaling — cita esplicitamente sia il paradigma anytime sia la tradizione MCTS-style search come riferimento concettuale. L’occasione di mostrare una filiazione ben tracciabile è didatticamente preziosa, in un libro che insiste sulla differenza fra analogia, filiazione ed equivalenza.

La catena di filiazione: nove tappe in settant’anni

Lineage chart: from Simon's bounded rationality to LLM test-time compute scaling, with documented filiations (solid arrows) and functional analogies cited in primary sources (dashed arrows)

La catena, ricostruita per date e citazioni primarie:

1955-1976. Bounded rationality. Herbert Simon (1916-2001, Carnegie Mellon, Nobel Economia 1978, Turing Award 1975) propone in Quarterly Journal of Economics 69:99-118 (1955) il modello satisficing: un agente con livello di aspirazione cerca un’opzione “abbastanza buona” e si ferma. In From Substantive to Procedural Rationality (in Latsis ed., Cambridge UP, 1976) distingue procedural rationality (razionalità del processo, regole adeguate ai limiti dell’agente) da substantive rationality (razionalità dell’output, massimizzazione). Coperto in dettaglio in bounded-rationality-simon.

1989. Anytime algorithms. Mark Boddy (computer scientist, allora Brown University) e Thomas Dean (computer scientist a Brown, futuro Director della Brown CS) pubblicano “Solving Time-Dependent Planning Problems” a IJCAI 1989. Definiscono operativamente un anytime algorithm: produce una soluzione utile dopo un tempo minimo iniziale, la qualità migliora monotonicamente con il tempo concesso, è interruttibile in qualunque momento. Il paper apre con riferimento esplicito a Simon: la motivazione teorica del lavoro è la realizzazione computazionale di bounded rationality.

1991. Metareasoning. Stuart Russell (computer scientist a UC Berkeley, autore con Peter Norvig del manuale standard di AI) e Eric Wefald (suo studente) pubblicano “Principles of Metareasoning” in Artificial Intelligence 49:361-395. Il paper formalizza il problema di decidere quanto pensare come problema decisionale di secondo ordine: il valore atteso di un’unità di pensiero ulteriore deve essere bilanciato contro il suo costo. È il ponte teorico esplicito fra Simon e l’ingegneria del budget computazionale. Russell stesso, nel suo manuale del 1995 e successive edizioni, chiama la posizione “calculative rationality” — razionalità del processo, conforme ai vincoli effettivi dell’agente.

1996. Consolidamento del paradigma anytime. Shlomo Zilberstein (computer scientist a UMass Amherst), in “Using Anytime Algorithms in Intelligent Systems” (AI Magazine 17:73-83, 1996), formalizza la distinzione fra contract algorithms (budget noto a priori, non utilmente interrompibili prima del termine) e interruptible algorithms (in qualunque momento si interrompe e si ottiene la migliore soluzione finora). Russell-Zilberstein 1991 (IJCAI 1991) avevano già mostrato che un contract algorithm può essere reso interruptible con overhead costante via “doubling schedule”: eseguire copie del contract con budget 1, 2, 4, 8, 16… unità di tempo, mantenendo la migliore soluzione globale.

2006. Monte Carlo Tree Search moderno. Rémi Coulom (computer scientist francese, INRIA, anche autore del software CrazyStone per Go) pubblica “Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search” a Computers and Games 2006. È il primo MCTS moderno: invece di rollout casuali uniformi, Coulom propone selettività progressiva guidata dai valori stimati. Pochi mesi dopo, Levente Kocsis e Csaba Szepesvári (computer scientist ungheresi/canadesi) pubblicano “Bandit based Monte-Carlo Planning” a ECML 2006: introducono UCT (Upper Confidence bound applied to Trees), che applica la formula UCB1 della letteratura multi-armed bandit alla selezione di nodi nell’albero. UCT è anytime per costruzione: in qualunque momento si interrompe, restituisce la mossa più visitata al root.

2012. Survey canonica. Cameron Browne (computer scientist a QUT) e dieci coautori pubblicano “A Survey of Monte Carlo Tree Search Methods” su IEEE Transactions on Computational Intelligence and AI in Games 4:1-43. Quarantatré pagine. Diventa il riferimento standard.

2016-2020. Famiglia AlphaGo. David Silver e il team DeepMind pubblicano in successione: AlphaGo (Nature 529:484-489, 2016) batte Lee Sedol; AlphaGo Zero (Nature 550:354-359, 2017) impara da self-play puro senza dataset umani; AlphaZero (Science 362:1140-1144, 2018) generalizza a chess, shogi, Go. Julian Schrittwieser e colleghi pubblicano MuZero (Nature 588:604-609, 2020): MCTS in cui la dinamica del gioco non è data ma appresa, opera in spazio latente, funziona anche su Atari dove il modello del gioco non è disponibile in forma analitica.

2024. AlphaProof e la frontiera neuro-simbolica. Google DeepMind annuncia a luglio 2024 che AlphaProof, sistema che combina rete neurale e proof assistant Lean con MCTS-style search nello spazio delle prove formali, raggiunge una performance da medaglia d’argento alle International Mathematical Olympiad. Il sistema è filiazione esplicita di AlphaZero (stesso loop self-play, stessa policy/value architecture) applicato a prove matematiche.

2024-2025. Test-time compute scaling sui LLM. Charlie Snell (PhD student a UC Berkeley/Google DeepMind), Jaehoon Lee, Kelvin Xu, Aviral Kumar (tutti research scientist a Google DeepMind) pubblicano “Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters” (arXiv:2408.03314, agosto 2024). È il primo framework empirico organico per allocare TTC su LLM, e il paper cita esplicitamente la tradizione anytime e MCTS come riferimenti concettuali. A settembre 2024 OpenAI rilascia o1, primo modello di produzione addestrato via RL su lunghe reasoning trace, con curve compute-vs-accuracy esposte nel system card. A gennaio 2025 DeepSeek-AI rilascia DeepSeek-R1 con il paper “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning” (arXiv:2501.12948), open-weights, addestrato via RLVR (Reinforcement Learning from Verifiable Rewards): il reward viene da un verifier deterministico — math con ground-truth, codice con test che passano — non da un reward model addestrato. Anthropic introduce a febbraio 2025 una “extended thinking” mode con budget di token configurabile in Claude 3.7 Sonnet, consolidata in Claude 4 nel 2025-2026.

Le frecce. Boddy-Dean 1989 → Simon: solid (citazione esplicita). Russell-Wefald 1991 → Simon: solid (citazione esplicita). Boddy-Dean 1989 → Coulom 2006: dashed (analogia, lineage condivisa ma non citazione diretta sul paper Coulom). Coulom 2006 → AlphaGo 2016: solid (Silver cita Coulom e Kocsis-Szepesvári). AlphaGo → Snell 2024: dashed (cita la tradizione MCTS come ispirazione concettuale, non come algoritmo trasferito). Snell 2024 → o1 2024 / R1 2025: solid (la linea empirica del TTC scaling ne deriva direttamente).

Anytime algorithms: la grammatica del budget

Per capire perché TTC scaling è bounded rationality computazionalmente realizzata occorre fissare il vocabolario degli anytime algorithms. Quattro nozioni: profilo di prestazione, contract vs interruptible, metareasoning, valore marginale.

Profilo di prestazione

flowchart LR
    S["Selection (UCB1)"] --> E["Expansion (aggiungi nuovo nodo)"]
    E --> Sim["Simulation / Evaluation (rollout o value net)"]
    Sim --> B["Backpropagation (aggiorna Q, N)"]
    B --> S
    B -.->|budget esaurito| OUT["Output: most-visited child al root"]
    UCB["UCB1 = Q(c) + c · sqrt(ln N(p) / N(c))"] -.- S

Figura 2 — Quality vs compute budget profile: anytime monotonic concave curve vs contract step-function vs non-anytime late-only curve, with diminishing returns region highlighted

Un performance profile è una funzione Q(t) che mappa il budget di tempo (o di compute, o di iterazioni) t in qualità attesa dell’output Q. Per un anytime algorithm Q(t) è monotonicamente non decrescente, parte da un valore minimo Q(t_0) dopo un tempo iniziale di start-up, e satura asintoticamente verso un valore massimo Q_max.

Tre famiglie:

Anytime: Q(t) cresce monotonicamente, l’algoritmo è interruttibile in qualunque istante. Esempio canonico: anytime A* (Likhachev-Gordon-Thrun 2003), che restituisce sempre la migliore soluzione subottima trovata finora con bound di sub-ottimalità decrescenti.
Contract: il budget T è dichiarato all’inizio, l’algoritmo lo usa internamente, prima di T non c’è output utile. Tipicamente più efficienti di un anytime equivalente perché possono pianificare l’allocazione del budget.
Non-anytime: l’output esiste solo a completamento. Cercare di interrompere è inutile.

Il valore di un performance profile è duplice. Operativamente: permette di decidere quanto budget allocare. Teoricamente: rende misurabile la procedural rationality di Simon. Una procedura è razionale rispetto al suo profile se l’allocazione di budget è giustificata dai gain marginali attesi.

Contract vs interruptible: la trasformazione di Russell-Zilberstein

Un risultato tecnico utile, perché riemergerà nei pattern TTC. Russell-Zilberstein 1991 mostrano che dato un contract algorithm A_T con budget T, si può costruire un interruptible algorithm A* che, interrotto al tempo t, produce una soluzione di qualità almeno Q(t/4) del contract algorithm. La costruzione: eseguire A_1, A_2, A_4, A_8, ... in sequenza, mantenendo sempre la migliore soluzione globale. Lo overhead totale è costante (fattore 4) rispetto al contract migliore.

Pseudocodice:

function INTERRUPTIBLE_FROM_CONTRACT(contract_algo):
    best = None
    budget = 1
    while not interrupted:
        sol = contract_algo(budget)
        if Q(sol) > Q(best):
            best = sol
        budget = budget * 2
    return best

Il pattern riemerge: il best-of-N sampling sui LLM è strutturalmente la stessa idea. N rollout indipendenti, mantieni il migliore secondo un verifier o una policy di selezione. Ogni rollout è “contract” (genera fino a EOS o token limit). L’aggregato è “interruptible” (in qualunque momento si interrompe, si restituisce il miglior rollout terminato finora). La filiazione fra Russell-Zilberstein 1991 e best-of-N non è documentata da citazione diretta — è una rediscovery indipendente — ma il pattern formale è identico.

Metareasoning: decidere quanto pensare

Russell e Wefald (1991) formalizzano il problema. Sia V(t) il valore atteso del miglior output ottenibile con budget t. Sia c(t) il costo del thinking. La decisione razionale è continuare a pensare finché:

dV/dt > dc/dt

Cioè finché il guadagno marginale di un’unità di pensiero ulteriore supera il costo marginale. Quando le due derivate si incontrano, fermarsi.

In pratica V(t) non è osservabile ex-ante: si stima da statistiche storiche (su problemi simili, quanto è cresciuta la qualità con il budget?). La decisione di “quanto pensare” diventa essa stessa un problema di apprendimento. Russell e Wefald distinguono tre livelli:

Object-level reasoning: pensare al problema.
Meta-level reasoning: decidere come pensare al problema.
Meta-meta-level: decidere come decidere come pensare. Tipicamente collassato sul meta-level per evitare regress infinito.

Il concetto di metareasoning, quando applicato ai LLM 2024-2026, prende forma di adaptive compute o routing: classificatori di difficoltà che decidono se inviare la query a un modello base (forward pass standard) o a un reasoning model (TTC esteso). L’obiettivo è massimizzare un proxy di V(t) - c(t) su un workload eterogeneo.

Valore marginale e diminishing returns

Una proprietà empirica robusta dei profili di prestazione su problemi reali: concavità. Le prime unità di compute producono guadagni grandi; le ultime, guadagni piccoli. La curva si appiattisce. È la traduzione operativa del “diminishing returns” — un termine economico che, applicato a anytime algorithms, predice che oltre una certa soglia non vale la pena spendere altro budget.

La concavità non è universale. Esistono phase transition: regimi in cui un piccolo incremento di budget produce un salto di qualità (in SAT solving, ad esempio, sotto un certo budget l’algoritmo non chiude mai; sopra, chiude rapidamente). Le phase transition rendono il problema di budget allocation più sottile — e sono parte di quello che la curva di test-time compute degli LLM sembra mostrare in regimi specifici, vedi sezione TTC scaling.

MCTS: dall’anytime planning ad AlphaZero

flowchart LR
    S["Selection (UCB1)"] --> E["Expansion (aggiungi nuovo nodo)"]
    E --> Sim["Simulation / Evaluation (rollout o value net)"]
    Sim --> B["Backpropagation (aggiorna Q, N)"]
    B --> S
    B -.->|budget esaurito| OUT["Output: most-visited child al root"]
    UCB["UCB1 = Q(c) + c · sqrt(ln N(p) / N(c))"] -.- S

Figura 2 — MCTS UCT loop diagram: Selection (UCB1) → Expansion → Simulation/Evaluation → Backpropagation, cycle until budget exhausted, output most-visited child at root

Monte Carlo Tree Search è il caso più studiato di anytime planning sotto budget esplicito, e l’ingrediente strutturale che, opportunamente generalizzato, riappare nei pattern TTC.

Il loop e UCB1

MCTS organizza il search in quattro passi che si ripetono finché il budget non è esaurito:

Selection. Dal nodo radice, scegli ricorsivamente il figlio che massimizza la formula UCB1:
```
UCB1(c) = Q(c) + k * sqrt(ln(N(p)) / N(c))
```
Q(c) è la stima del valore del figlio c (media dei rollout passati). N(p) e N(c) sono i visit count del padre e del figlio. k è una costante di esplorazione (tipicamente sqrt(2)). Il primo termine spinge verso lo sfruttamento (visita figli con valore alto), il secondo verso l’esplorazione (visita figli poco esplorati).
Expansion. Quando si raggiunge un nodo che ha figli non ancora espansi, se ne aggiunge uno.
Simulation / Evaluation. Si valuta il nuovo nodo. Nelle versioni classiche (Coulom 2006, Kocsis-Szepesvári 2006), via rollout casuale fino a fine partita. In AlphaGo (Silver 2016), via value network neurale che stima il valore in O(1) chiamate.
Backpropagation. Si aggiornano le statistiche Q e N lungo il path dalla foglia al root.

Il loop è anytime per costruzione. In qualunque momento si interrompe, si restituisce il figlio del root con visit count più alto — la mossa che il search ha “scelto di esplorare di più” perché bilancia bene Q e N.

UCT — l’algoritmo che applica UCB1 alla selection — è interpretabile come bandit ricorsivo: ogni nodo è un multi-armed bandit, ogni figlio un braccio, e il regret cresce solo logaritmicamente nel numero di simulazioni (Kocsis-Szepesvári 2006 dimostrano un bound O(log n)). Per un libro che vuole evitare tecnicismi: il messaggio è che MCTS converge all’ottimo se il budget tende a infinito, ed è efficiente per budget finiti.

AlphaGo, AlphaGo Zero, AlphaZero, MuZero

AlphaGo (2016) è la prima istanza pubblica di MCTS+deep learning su un problema dove il search puro era inadeguato per dimensioni dello spazio (~10^170 posizioni Go). Le innovazioni:

Policy network: data una posizione, predice la distribuzione di mosse plausibili. Usata per espansione guidata: nel passo 2 di MCTS, si espandono solo i figli con probabilità a priori alta.
Value network: data una posizione, stima il valore (probabilità di vittoria). Usata al posto del rollout casuale nel passo 3, riduce la varianza e accelera la convergenza.
Budget: ~5 secondi per mossa, ~50.000 simulazioni. Anytime: se il tempo si esaurisce, si gioca la mossa più visitata.

AlphaGo Zero (2017) rimuove la dipendenza da dataset umani. La policy/value network è co-addestrata con il search MCTS in self-play: il target di policy è la visit distribution di MCTS al root (più informativa della mossa scelta finale), il target di value è l’esito della partita auto-giocata. Pattern emergente: MCTS migliora la policy (perché esplora con più budget di un singolo forward pass), il training fa sì che la policy assorba i guadagni di MCTS, il prossimo MCTS parte da una policy migliore. Loop di amplificazione. Filiazione documentata: vedi alphago-2016.

AlphaZero (2018) generalizza a chess, shogi, Go con lo stesso algoritmo. MuZero (2020) fa il salto più radicale: invece di ricevere il modello del gioco (regole, transizioni) come input, lo apprende. La rete impara una rappresentazione latente, una dinamica latente (next-state, reward), e il MCTS opera su questo modello latente. Conseguenza: MuZero funziona anche su Atari, dove le regole non sono date come specifica esplicita.

AlphaProof (luglio 2024) applica lo stesso schema alle prove matematiche. Lo “spazio delle posizioni” è lo spazio delle dimostrazioni parziali in Lean (proof assistant); le “mosse” sono lemmi candidati generati da una rete neurale (addestrata su milioni di prove auto-generate); la “vittoria” è una prova chiusa (verificata dal kernel di Lean). MCTS-style search guidato da neural priors. Sui sei problemi delle IMO 2024, il sistema risolve quattro al livello di medaglia d’argento. La cosa cruciale per il ponte: AlphaProof è MCTS+neural+verifier, e il verifier è formale (Lean), non probabilistico. È un caso in cui il budget di compute (centinaia di migliaia di tentativi per problema, ore di calcolo) sostituisce in parte la creatività umana — bounded rationality computazionale al massimo della scala disponibile.

Test-time compute scaling per LLM: i cinque pattern

flowchart LR
    S["Selection (UCB1)"] --> E["Expansion (aggiungi nuovo nodo)"]
    E --> Sim["Simulation / Evaluation (rollout o value net)"]
    Sim --> B["Backpropagation (aggiorna Q, N)"]
    B --> S
    B -.->|budget esaurito| OUT["Output: most-visited child al root"]
    UCB["UCB1 = Q(c) + c · sqrt(ln N(p) / N(c))"] -.- S

Figura 2 — Test-time compute scaling curves: accuracy vs tokens-of-thought, three difficulty regimes (easy/medium/hard) showing saturation at high values for easy, sweet spot for medium, slow growth requiring stronger base model for hard, schematic after Snell 2024

Il pattern moderno riprende strutture anytime e MCTS-style ma le applica a un substrato diverso: un large language model addestrato a generare token. Cinque pattern, ortogonali e componibili.

Pattern 1 — Sequential: longer chain-of-thought

Una traiettoria singola, più lunga. Il modello produce token di “thinking” prima della risposta finale. È il pattern dei reasoning model: o1 (OpenAI, settembre 2024), DeepSeek-R1 (gennaio 2025), Claude extended thinking (Anthropic, febbraio 2025), Gemini Thinking (Google, dicembre 2024).

Il modello, durante training RL, ha imparato a usare più token su task difficili. Non c’è un secondo modulo che si attiva: la stessa policy autoregressiva, condizionata a produrre prima un buffer di thinking, distribuisce il calcolo lungo più token. La risposta finale è condizionata da tutto quello che è stato generato prima — esattamente come in chain-of-thought prompting (Wei 2022), ma con un addestramento esplicito che incentiva trace lunghe e auto-correttive.

Curva caratteristica: accuracy cresce (logaritmicamente, su molti benchmark) con il numero di tokens-of-thought, fino a saturazione. Il system card di o1 esibisce questa curva su AIME (American Invitational Mathematics Examination): da ~13% a ~83% di accuracy passando da decine a decine di migliaia di tokens-of-thought, train-time compute fissato. È TTC scaling sequential nella sua forma più pura.

Pattern 2 — Parallel: best-of-N e self-consistency

N rollout indipendenti, scelti con vote o verifier. Costo: N × singolo rollout. Curva: accuracy cresce con N, satura.

Due varianti dominanti. Self-consistency (Xuezhi Wang e colleghi a Google Brain, “Self-Consistency Improves Chain of Thought Reasoning in Language Models”, ICLR 2023): N CoT indipendenti, majority vote sulle risposte finali. Su GSM8K (8.500 problemi math elementari, dataset di Karl Cobbe e colleghi a OpenAI 2021) migliora di 10-20 punti rispetto a singolo CoT. Il meccanismo è statistico: se ogni rollout ha probabilità p > 0.5 di trovare la risposta corretta e gli errori sono diversificati, il voto a maggioranza converge a p → 1 con N.

Best-of-N con verifier: si campiona N e si sceglie il sample con score più alto secondo un verifier. Cobbe et al. 2021 introducono il primo verifier addestrato su GSM8K (un classifier che predice “questo passo intermedio è corretto?”). Hunter Lightman e colleghi a OpenAI, in “Let’s Verify Step by Step” (arXiv:2305.20050, 2023), addestrano un PRM (Process Reward Model) che valuta singoli passi intermedi, costruiscono il dataset PRM800K (800.000 passi annotati) e mostrano che PRM batte ORM (Outcome Reward Model) nella selezione fra 100 sample: passa da 73% a 78% accuracy con il miglior sample.

Best-of-N è strutturalmente la trasformazione contract → interruptible di Russell-Zilberstein, applicata al token: ogni rollout è contract (genera fino a EOS), il loop esterno è interruptible (in qualunque momento si restituisce il miglior sample finora). La filiazione formale è la stessa, anche se non documentata da citazione diretta nei paper LLM.

Pattern 3 — Tree-structured: ToT, GoT, MCTS su token

Esplorazione branching con valutazione per nodo e backtrack. Shunyu Yao (Princeton) e colleghi, in “Tree of Thoughts” (NeurIPS 2023), usano l’LLM sia come generator (espande un nodo in N continuazioni) sia come evaluator (assegna valore a ciascun nodo). Sopra c’è BFS o DFS. Su Game of 24 (data una quaterna di numeri, raggiungere 24): GPT-4 con CoT lineare risolve il 4%, GPT-4 con ToT-BFS risolve il 74%.

Maciej Besta e colleghi (ETH Zurich) generalizzano a DAG con “Graph of Thoughts” (arXiv:2308.09687, 2023), permettendo merge di thoughts equivalenti. Andong Zhou e colleghi (Yale) propongono LATS — Language Agent Tree Search (arXiv:2310.04406, 2023) — che applica MCTS a traiettorie agentiche: ogni stato è un punto del trial dell’agente, le azioni sono tool call possibili, il valore viene da reward esterni e LLM-as-evaluator.

LATS è il punto in cui MCTS classico e TTC LLM si incontrano direttamente. Il loop di selection-expansion-simulation-backprop è identico a quello di AlphaGo. Cambiano il substrato (token invece di mosse Go) e il budget (tokens invece di simulazioni).

Genera output → critica → revisiona → ripeti. Noah Shinn e colleghi propongono Reflexion (NeurIPS 2023, arXiv:2303.11366): l’agente tenta un task, riceve feedback, produce una “reflection” testuale che viene aggiunta al context per il tentativo successivo. Su HumanEval (benchmark code generation di Mark Chen e colleghi a OpenAI 2021) GPT-4 con Reflexion passa da 80% a 91% in 5 trial.

Aman Madaan e colleghi (CMU) formalizzano un loop simile in “Self-Refine” (NeurIPS 2023): lo stesso modello genera, critica, revisiona. Caveat documentato da Jie Huang e colleghi (Google), “Large Language Models Cannot Self-Correct Reasoning Yet” (arXiv:2310.01798, 2023): in assenza di feedback esterno (verifier, ground-truth, tool) self-correction puro spesso peggiora le risposte.

Self-refine è anytime nello spirito di Boddy-Dean: la qualità migliora monotonicamente con le iterazioni — quando il feedback è utile. Quando il feedback non c’è, il pattern si rompe.

Pattern 5 — Verifier-guided search

La frontiera. Combina pattern 2/3 con un verifier che dirige il budget. PRM al posto di ORM. AlphaProof come caso estremo: verifier formale (Lean) invece di neural.

Yangzhen Wu e colleghi, in “An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models” (arXiv:2408.00724, agosto 2024), mostrano empiricamente che il choice ottimale fra i cinque pattern dipende dal budget totale e dal task. Per piccoli budget: greedy single CoT. Per medi: best-of-N con verifier. Per grandi: tree search con PRM. È un risultato pratico ma con implicazione teorica: non c’è un pattern dominante, c’è un pattern ottimale per regime.

Budget allocation: l’ingegneria della razionalità computazionale

Cinque pattern, un parametro globale: il budget totale per query. Allocarlo bene è il problema centrale. Tre sotto-problemi.

Compute-optimal scaling per task

Snell-Lee-Xu-Kumar 2024, già citati, costruiscono il framework empirico. Il setup: dato un modello base (es. PaLM 2-S, 24B parametri), un benchmark (MATH), e un budget di compute totale, qual è l’allocazione ottimale fra parametri (modello più grande) e TTC (modello base con più tokens-of-thought)?

Risultato chiave, da non semplificare: per task di difficoltà media, allocare TTC a un modello base può battere un modello 14× più grande con singolo forward pass. Per task molto difficili, il TTC non basta — serve un modello base più capace. Per task facili, TTC extra è spreco — il modello aveva già la risposta.

La formulazione resource-rational di Lieder-Griffiths (2020), trattata in bounded-rationality-simon, si traduce qui letteralmente: scegliere compute* che massimizza E[utility(compute) - cost(compute)]. Il framework era nato in cognitive science come modello descrittivo di come gli umani allocano cognizione. Diventa, nel 2024, prescrittivo per sistemi LLM. Classe di affermazione: filiazione concettuale documentata (Snell 2024 cita la tradizione di metareasoning), ma le specifiche meccaniche differiscono — Snell usa empirical fits, Lieder-Griffiths usa Bayesian optimal control sotto cost.

Adaptive compute e routing

Sui workload reali le query non sono uniformi. Su una distribuzione tipica (es. richieste di assistenza developer): la maggior parte è semplice (“aggiungi un import”, “spiega questa funzione”), una minoranza è complessa (“fixa questo bug subdolo”, “refactora questo modulo”). Allocare TTC esteso a tutte le query è spreco — molte non ne hanno bisogno; allocare TTC zero a tutte è errore — alcune ne hanno disperatamente bisogno.

L’approccio standard 2025-2026 è il routing: un classificatore di difficoltà inizia ogni query, decide se inviare a “fast” (forward pass standard) o “thinking” (reasoning model). Esempi pubblici: Anthropic introduce a metà 2025 una “auto” mode in Claude che decide internamente quanto thinking attivare; OpenAI router fra GPT-4o e o-series per piani enterprise; molti agent harness implementano logiche analoghe.

[DATATO 2026-04] Il routing è metareasoning di Russell-Wefald applicato in produzione. La filiazione concettuale è esplicita; la realizzazione è euristica (soglie apprese su workload, classificatori di difficoltà), non risoluzione formale del problema di constrained optimization. Resta filiazione, non equivalenza meccanica.

Easy/hard split

Una conseguenza pratica del lavoro di Snell e Wu: i workload misti beneficiano disproporzionatamente di routing. Se l’80% delle query è facile e il 20% difficile, e se TTC esteso aiuta solo sulle difficili, un router ottimale può ridurre il costo medio di 4-10× rispetto all’allocazione uniforme di TTC esteso. È un caso scuola di bounded rationality applicata: dosare il calcolo dove serve, non dove non serve.

Concretamente, un agent harness 2026 può cap su:

Tokens-of-thought per query (es. max 16K interni).
Tool call per task (es. max 50 tool call prima di escalation utente).
Wallclock time (es. max 5 minuti per task agentico).
Cost cap (es. max $1 per query in modalità auto).

Questi cap sono, funzionalmente, livelli di aspirazione esterni. Non si aggiustano con l’esperienza dell’agente sul singolo task — il che marca una differenza dall’aspiration level umano di Simon, che è dinamico. Si aggiustano (eventualmente) con telemetria su molti task: il sistema osserva dove i cap colpivano e dove il task non era completo, e li alza o abbassa di conseguenza.

Connessione formale con bounded rationality

La mappa fra termini Simon e termini TTC LLM, esplicitando le classi:

Aspiration level ↔ stopping criteria (early stop on confidence threshold). Analogia funzionale forte, non equivalenza: aspiration level umano si aggiusta sul singolo agente nel tempo, stopping criteria LLM è progettuale e fissato esternamente.
Satisficing ↔ first acceptable answer (in self-consistency: prima risposta che supera majority threshold; in best-of-N: primo sample che supera score verifier). Analogia funzionale forte.
Procedural rationality ↔ valutare il sistema dal processo, non solo dall’output (es. faithful CoT, reasoning trace come input alla valutazione). Filiazione concettuale: la nozione che il processo conta è ereditata; ma il problema empirico della faithfulness (Lanham 2023) la complica.
Resource-rational analysis (Lieder-Griffiths 2020) ↔ compute-optimal inference (Snell 2024, Wu 2024). Filiazione concettuale documentata: Snell cita la tradizione anytime e metareasoning come ispirazione.
Metareasoning (Russell-Wefald 1991) ↔ adaptive compute, routing. Filiazione concettuale: il framework è lo stesso, l’implementazione moderna è euristica.

Questa mappa è feconda perché traduce vocabolario fra discipline. È rischiosa se le analogie diventano equivalenze. Tre equivalenze esplicitamente da rifiutare:

[DATATO 2026-04] “o1 implementa bounded rationality umana”: NO. È bounded rationality computazionale, ingegnerizzata, non simulazione cognitive. I meccanismi sono diversi (autoregressione di token vs working memory + attention).

“Aspiration level umano = budget cap LLM”: NO in senso stretto. Aspiration level è dinamico, fissato dall’agente in interazione con l’ambiente. Budget cap è statico, fissato dal designer. Solo se il sistema implementa adattamento dinamico (alcuni router 2025-2026 lo fanno con learned policies) si può parlare di analogia stretta.

“Faithful CoT = procedural rationality”: NO. Procedural rationality è un criterio normativo per valutare la decisione dal processo. Faithful CoT è un problema empirico aperto: la trace osservabile non sempre riflette il calcolo che ha prodotto la risposta. Marcare l’una come l’altra confonde livelli (normativo vs descrittivo).

Esempi concreti

Quattro esempi eterogenei. Numerico, computazionale, agentico, frontiera.

Esempio 1 — La curva di Snell 2024 (numerico)

Setup: modello base PaLM 2-S, benchmark MATH (problemi matematici di livello high school competition, dataset di Dan Hendrycks e colleghi 2021). Asse X: total inference compute (FLOPs, scala log). Asse Y: accuracy %.

Tre regimi:

Task facili (problemi MATH livello 1-2): la curva parte già a ~85%, con TTC esteso sale a ~92%, poi satura. Guadagno marginale: 7 punti spalmati su due ordini di grandezza di compute. Routing ottimale: TTC zero, forward pass standard.
Task medi (livello 3-4): la curva parte a ~30%, con TTC esteso (best-of-N con PRM, N=64) sale a ~75%. Guadagno marginale: 45 punti, ottenuti spendendo ~30× il compute base. Routing ottimale: TTC esteso, è il sweet spot.
Task difficili (livello 5): la curva parte a ~5%, con TTC esteso massimo (N=256, search profondo) arriva a ~25%. Guadagno marginale: 20 punti, ottenuti spendendo ~100× il compute base. La curva non satura entro il budget testato; ma il guadagno marginale per ogni doubling di compute scende sotto 2 punti oltre compute = 16×base. Diminishing returns severo. Routing ottimale: serve un modello base più capace (compute-optimal training+inference suggerisce di aumentare i parametri, non solo il TTC).

Lettura: la curva accuracy-vs-compute è una performance profile in senso Boddy-Dean, applicata ai LLM. Concava, monotona crescente, satura. Per task in regime di phase transition (medio-difficile), l’allocazione ottimale di budget è non triviale, e dipende dal task specifico. È procedural rationality applicata: la procedura ottimale è quella che dosa il compute al regime, non quella che spende sempre il massimo.

Esempio 2 — AlphaZero su scacchi (computazionale)

Setup: AlphaZero in match-play su scacchi, dicembre 2017. Budget per mossa: 800 simulazioni MCTS. Hardware: 4 TPU v2 per inference.

Per ogni simulazione:

1. Selection: traversa albero da root finché trovi nodo non espanso, scegli figli via UCB1 (con priors da policy network).
2. Expansion: espandi il nodo. Una chiamata alla policy network.
3. Evaluation: stima il valore del nodo via value network. Una chiamata alla value network.
4. Backpropagation: aggiorna Q, N lungo il path.

Costo per simulazione: ~1 forward pass NN (in pratica policy e value sono shared trunk, una chiamata serve entrambe). 800 simulazioni: ~800 forward pass. Su 4 TPU v2: ~100 ms.

Confronto con Stockfish (motore alpha-beta classico, search puro) sotto stesso wall-clock: Stockfish esplora ~70M nodi al secondo, AlphaZero ~8K. Stockfish vince in nodi raw di tre ordini di grandezza. Ma AlphaZero, contro Stockfish 8 in match a 1 minuto/mossa, vince 28-72 (28 vinte da AlphaZero, 72 patte, zero perse, su 100 partite — risultati Silver et al. 2018).

Lettura: la qualità del search non è il numero di nodi, è il numero di nodi promettenti. La policy network concentra il budget UCT su rami che valgono la pena di esplorare, lasciando inesplorati rami che il search alpha-beta classico spreca tempo a confutare. È bounded rationality computazionalmente realizzata: con un budget piccolo, ma allocato bene (guidato da heuristics apprese), il sistema batte un budget grande allocato male.

Per il TTC LLM: stesso pattern. Tree of Thoughts non genera tutte le possibili continuazioni — genera N continuazioni promettenti secondo la policy. Best-of-N + PRM non valuta tutto — valuta N sample selezionati e poi sceglie. La struttura di “esplorazione selettiva guidata da heuristics apprese” è ereditata.

Esempio 3 — Claude Code con budget cap (agentico)

[DATATO 2026-04] Setup: un developer usa Claude Code per refactorare un modulo. Configura cap espliciti:

max 50 tool call (read/edit/run-tests) prima di escalation utente.

max 16K tokens-of-thought interni per turno.

max 5 minuti wall-clock totali per la sessione.

max $0.50 di costo totale.

L’agente lavora: legge file, propone diff, esegue tests, itera. Su task semplici (es. rename consistente) finisce in 5-10 tool call. Su task complessi (refactor con dipendenze cross-file) può consumare il budget. Quando un cap viene colpito, l’agente non si blocca silenziosamente: fa escalation, riassume lo stato, chiede conferma o input. È funzionalmente satisficing: “non ho terminato, ma il budget è esaurito, chiedo”.

Connessione bounded rationality: il livello di aspirazione qui non è dinamico nell’agente. È fissato dal designer (sviluppatore di Claude Code) e dall’utente (config). L’agente non lo aggiusta osservando se le sue mosse stanno funzionando. La differenza con Simon è precisa: aspiration level di Simon è proprietà dell’agente; budget cap di Claude Code è proprietà del harness. Funzionalmente analoghi, meccanicamente distinti. Classe: analogia produttiva.

Esempio 4 — AlphaProof IMO 2024 (frontiera)

Luglio 2024. Le International Mathematical Olympiad 2024 propongono sei problemi. Google DeepMind annuncia che AlphaProof, sistema neuro-simbolico, risolve quattro problemi al livello di una medaglia d’argento (28/42 punti, soglia silver: 29/42; combinato con AlphaGeometry 2 raggiunge silver pieno).

Pipeline (descritta nel blog DeepMind, non in paper formale al momento di scrittura):

Translation: una rete neurale traduce l’enunciato in linguaggio naturale in Lean (proof assistant formale).
Search: un sistema MCTS-style esplora lo spazio delle prove possibili. Per ogni stato (prova parziale), una policy network propone lemmi candidati; il search espande, valuta (via value network), backtrackà.
Verification: il kernel di Lean controlla ogni passo proposto. Una prova chiusa è verificata formalmente.
Self-improvement: AlphaProof è addestrato con AlphaZero-style self-play, generando milioni di problemi sintetici e prove auto-trovate.

Il budget per problema, secondo le stime pubbliche: ore di calcolo, centinaia di migliaia di tentativi di prova. Su un problema di geometria, AlphaGeometry 2 ha trovato la soluzione in ~30 secondi. Su un problema di combinatorica, AlphaProof ha lavorato per ore prima di trovare una prova valida.

Lettura: AlphaProof è il punto più estremo della catena Simon → anytime → MCTS → TTC. Ha eredità strutturale da AlphaZero (filiazione documentata). Ha eredità concettuale da bounded rationality (filiazione attraverso il ramo MCTS-anytime-Simon). E rappresenta una tesi forte: per problemi che ammettono verifier formale, il TTC scaling è virtualmente illimitato. Ogni ora di compute aggiunge tentativi. Ogni tentativo è verificato. Eventualmente, per problemi nel dominio del sistema, una prova viene trovata. È bounded rationality nel suo limite: il bound è il portafoglio.

Dove si rompe

Sei punti di tensione, da non occultare.

1. Diminishing returns severo su molti benchmark

La curva accuracy-vs-compute si appiattisce. Su benchmark math saturi (GSM8K, AIME), il guadagno marginale oltre ~10K-50K token-of-thought è tipicamente sotto l’1% per doubling di compute. Significa che la promessa “più compute = più accuracy” è asintotica. Per chi dimensiona sistemi: il TTC scaling non è un free lunch oltre certi regimi.

2. Faithful CoT (Lanham 2023) come limite del paradigma

Trattato in dettaglio in ponte-s1-s2-llm. In sintesi: la trace di pensiero non sempre riflette il calcolo che ha prodotto la risposta. Manomettere passi del CoT non sempre cambia la risposta finale in modo coerente. Implicazione per TTC: il fatto che il modello “spenda” più token non garantisce che li stia usando per ragionare. Potrebbe fare overthinking superficiale e poi committarsi a una risposta indipendente dalla trace. Per la connessione con procedural rationality: quest’ultima richiede che il processo sia causalmente connesso all’output. Faithful CoT è il problema empirico di verificare questa connessione, ed è aperto.

3. Cost esplosivo

[DATATO 2026-04] o1 può consumare 10-100× token rispetto a GPT-4o. o3 high-compute mode: stime di François Chollet sul blog ARC Prize riportano migliaia di dollari per task. Latency: 30s-5min in modalità thinking standard, ore in high-compute. Cambia la UX (l’utente non aspetta in modo conversazionale), cambia il modello di business (TTC è costo variabile esponenziale), cambia l’architettura del prodotto (batching asincrono, notifiche di completamento, fallback per latency cap).

4. Overthinking e hallucination razionalizzata

Su task semplici, attivare TTC esteso può degradare le performance. Il modello “trova problemi che non ci sono”, reinterpreta la query, costruisce argomenti elaborati che portano a risposte sbagliate. Casi documentati su CommonsenseQA dove o1 inizialmente mostrava regressioni rispetto a GPT-4o. La long CoT che giustifica una risposta sbagliata è particolarmente problematica perché suona convincente: il volume e la struttura del ragionamento ingannano sia l’utente sia, talvolta, le metriche di evaluazione.

5. Non tutti i task scalano

TTC scala bene su task con verifier deterministico o robusto: math (ground-truth checkable), codice (test che passano), problemi formali (Lean, Coq). TTC scala male o non scala su task soggettivi: creative writing, conversazione, valutazioni estetiche, decisioni etiche. Il vincolo è strutturale: se non c’è verifier, non c’è “answer” da trovare con più compute. La ricerca produce variazioni, non convergenza.

Una conseguenza pratica per il design di prodotto: il TTC è uno strumento, non una panacea. Saperlo non attivare per task non-verifiable è procedural rationality applicata alla decisione di design.

6. Equivalenze pericolose con bounded rationality umana

Già marcate nella sezione di mappatura. Riepilogo:

“Reasoning model = sistema 2 umano”: equivalenza falsa. È analogia funzionale.
“Aspiration level = budget cap”: equivalenza parziale (analogia funzionale, struttura formale simile, meccanica diversa).
“Faithful CoT = procedural rationality”: equivalenza confusa fra livelli (descrittivo vs normativo).

Il rischio di queste equivalenze non è solo accademico. Influenza il design dei sistemi: chi progetta TTC scaling pensando di replicare cognizione umana fa scelte diverse da chi progetta TTC scaling come ottimizzazione di un budget computazionale ben definito. La metafora cognitiva, presa alla lettera, può importare assunzioni sbagliate (es. “più thinking è sempre più razionale”, che è falso oltre i diminishing returns; “il modello è razionale se la trace è coerente”, che è falso se la trace non è faithful).

Frontier 2026: dove va il pattern

Tre direzioni emergenti, con grado di maturità variabile.

Compute-optimal training+inference

L’estensione di Chinchilla (Hoffmann et al. 2022, “Training Compute-Optimal Large Language Models”, arXiv:2203.15556) al regime di TTC. Chinchilla ha stabilito il trade-off ottimale fra parametri e dati di training. La domanda 2024-2026: come si modifica il trade-off quando si include il compute di inference allocato a TTC? Lavori preliminari (Snell 2024, Wu 2024) suggeriscono che modelli più piccoli con TTC esteso possono essere preferibili per certi profili di workload. La frontiera teorica è formulare un compute-optimal budget triadico — parameters × training_data × test_time_compute — e derivarne le scaling law.

Inference-time training / test-time training

Una direzione più speculativa: il modello aggiorna i pesi durante inference su task specifici. Yu Sun e colleghi hanno introdotto il framework “test-time training” già nel 2020 (“Test-Time Training with Self-Supervision for Generalization under Distribution Shifts”, ICML 2020) per visione. Estensioni 2024-2026 ai LLM (es. lavori di Albert Gu su Mamba con TTT) propongono di usare ogni interazione con l’utente come opportunità di mini-aggiornamento. Implicazioni per bounded rationality: l’agente non solo dosa quanto pensare, ma quanto imparare durante il pensare. È una versione computazionale dell’aspiration level dinamico di Simon — molto preliminare al 2026.

Agentic loop con budget gestito

[DATATO 2026-04] Una direzione operativa, già in produzione: agent harness che gestiscono budget di compute su orizzonti lunghi (decine di minuti, ore). Esempi pubblici: Devin di Cognition AI (2024), Claude Code in modalità agentica (2024-2026), Magic.dev, le release agentiche di Cursor e Windsurf nel 2025. La struttura comune:

Un planner di alto livello decompone il task in sotto-task.

Ogni sotto-task ha cap di tool call, tokens-of-thought, wallclock.

Un budget globale è ripartito fra i sotto-task con re-allocazione dinamica (se un sotto-task finisce in anticipo, il residuo va al successivo).

Quando il budget globale si esaurisce, escalation all’utente con sintesi dello stato.

Questa struttura è la realizzazione operativa più matura, al 2026, del programma di metareasoning di Russell-Wefald: l’agente non solo ragiona sul task, ma alloca attivamente il proprio budget fra sotto-task — meta-decisioni esplicite, telemetrate, ottimizzabili.

Compute as commodity

[DATATO 2026-04] Il pricing del thinking come servizio. Differenziale strutturale fra modelli “fast” (GPT-4o, Claude Sonnet senza thinking) e modelli “thinking” (o-series, R1, Claude extended). Il prezzo del compute di inference diventa una linea di business. Per chi disegna prodotti: il TTC non è solo una feature, è un asse di pricing. Per chi disegna mercati: la domanda di “intelligence on tap” è disaggregata fra fast/cheap e slow/expensive in modo strutturale, non solo come tier marketing.

Una conseguenza interessante: l’utente finale impara, nel tempo, a esercitare metareasoning. Decide se la sua query merita TTC esteso (paga di più, aspetta) o TTC zero (paga meno, rischia errore). Russell-Wefald 1991 applicato all’utente, mediato da pricing. È il caso più vicino, nel 2026, all’aspiration level dinamico di Simon: l’utente che impara cosa vale la pena far pensare a un sistema.

Collegamenti

bounded-rationality-simon. Il capitolo immediatamente precedente, fondamentale: stabilisce satisficing, procedural rationality, anytime come prima istanza, resource-rational. Questo capitolo è la sua estensione operativa al pattern moderno di TTC scaling.
ponte-s1-s2-llm. Mappa i meccanismi di “deliberation simulata” negli LLM. Differenza con questo capitolo: lì la domanda è “come pensano gli LLM?”, qui è “quanto pensano e perché conviene?”. Si rimandano a vicenda.
dual-process-kahneman. La cornice psicologica entro cui sia bounded rationality sia il discorso fast/slow vivono. Background per i due capitoli ponte.
alphago-2016. Trattamento storico-tecnico di AlphaGo. Questo capitolo riprende MCTS+NN come istanziazione computazionale di bounded rational planning con budget esplicito, e lo estende ad AlphaZero/MuZero/AlphaProof.
architetture-cognitive. SOAR, ACT-R: la tradizione di production systems che eredita bounded rationality. Il TTC LLM non è in quella tradizione architetturale, ma condivide il vincolo del budget come parametro di design.
monte-carlo-tree-search (in preparazione). Trattamento tecnico dedicato di MCTS, UCT, varianti. Questo capitolo dà l’inquadramento concettuale; quello tecnico starà nella Parte VI.
test-time-scaling (in preparazione). Trattamento dedicato di test-time scaling per LLM nella Parte XII (Reasoning e test-time compute). Lì entreranno i dettagli implementativi, le ablation, i benchmark; qui il taglio è ponte concettuale.
ragionamento-2024-2026 (in preparazione). La storia narrativa di o1, o3, R1 nella Parte I. Background storico per chi vuole le date e la sequenza dei rilasci.
reasoning-rl (in preparazione). RL su reasoning trace, RLVR, PRM training. Il “come si addestrano” i reasoning model che questo capitolo presuppone.
agent-budget (in preparazione). Il trattamento dedicato di budget control negli agent harness, parte XVII (Harness Engineering). Qui il riferimento è esemplificativo (Claude Code).

Per andare oltre

Boddy, M., & Dean, T. (1989). “Solving Time-Dependent Planning Problems”. IJCAI 1989 Proceedings. Il paper fondativo degli anytime algorithms. Cita Simon esplicitamente come matrice teorica. Lettura tecnica ma accessibile, dieci pagine.
Russell, S. J., & Wefald, E. (1991). “Principles of Metareasoning”. Artificial Intelligence 49:361-395. Il ponte teorico esplicito fra Simon e l’ingegneria del budget. Trattamento formale del problema “decidere quanto pensare”. Lettura raccomandata per chi vuole il riferimento canonico.
Browne, C., Powley, E., Whitehouse, D., Lucas, S. M., Cowling, P. I., Rohlfshagen, P., Tavener, S., Perez, D., Samothrakis, S., & Colton, S. (2012). “A Survey of Monte Carlo Tree Search Methods”. IEEE Transactions on Computational Intelligence and AI in Games 4(1):1-43. Survey canonica MCTS. Quarantatré pagine, una mappa completa di varianti UCT al 2012.
Snell, C., Lee, J., Xu, K., & Kumar, A. (2024). “Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”. arXiv:2408.03314. Il framework empirico più citato per TTC scaling. Cita esplicitamente la tradizione anytime e MCTS-style search. Lettura essenziale per chi vuole capire la frontiera empirica del 2024.
DeepSeek-AI (2025). “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”. arXiv:2501.12948. Il paper open-weights su R1, con descrizione della pipeline RLVR e degli “aha moments” emergenti. Lettura per chi vuole il dettaglio implementativo di un reasoning model addestrato senza supervised fine-tuning preliminare.
Lieder, F., & Griffiths, T. L. (2020). “Resource-rational analysis: Understanding human cognition as the optimal use of limited computational resources”. Behavioral and Brain Sciences 43:e1. La riformulazione contemporanea di bounded rationality, con commentario aperto da una trentina di studiosi. La cornice concettuale dentro cui leggere il TTC LLM come istanza di un programma di ricerca più ampio.