Parte VII — Teoria dei giochi e Reinforcement Learning

Dalla teoria classica dei giochi al reinforcement learning moderno. Prima Nash, minimax, dilemma del prigioniero, giochi cooperativi, mechanism design e bandit problems con UCB e Thompson sampling — il vocabolario per ragionare in modo formale su decisioni con incertezza e con avversari. Poi gli MDP come framework universale, l’equazione di Bellman, value iteration, Q-learning, policy gradient, actor-critic, PPO, giochi stocastici. Si chiude con un capitolo ponte sull’allineamento come problema principal-agent. Questa Parte è il prerequisito naturale per capire RLHF, i sistemi multi-agent e perché gli agenti che ottimizzano metriche tendono a fare cose impreviste.

Stato della Parte: 19 di 19 capitoli scritti.

Indice

Cos’è un gioco, in senso tecnico — giochi-definizione
Somma zero, somma generale — somma-zero-non-zero
RPS: payoff matrix per P1; P2 ha la trasposta cambiata di segno — equilibrio-nash
uso: dalla posizione iniziale, X muove — minimax
modello f e baseline distribution già disponibili — giochi-cooperativi
Il dilemma del prigioniero — dilemma-prigioniero
Evolutionary game theory: replicator dynamics ed ESS — evolutionary-games
Vickrey (second-price sealed bid) — meccanismi-aste
Multi-armed bandits — multi-armed-bandits
Update dopo aver pullato i e osservato r ∈ {0,1} — ucb-thompson
Gridworld 4x4 — markov-decision-process
equazione-bellman — equazione-bellman
value-iteration-policy-iteration — value-iteration-policy-iteration
q-learning — q-learning
policy-gradient — policy-gradient
actor-critic — actor-critic
Setup: tutti inizializzati da pi_SFT (modello supervised fine-tuned) — ppo-trpo
Giochi stocastici — giochi-stocastici
Alignment come problema principal-agent — ponte-gioco-principal-agent

← Torna all’indice generale