Parte VII — Teoria dei giochi e Reinforcement Learning
Dalla teoria classica dei giochi al reinforcement learning moderno. Prima Nash, minimax, dilemma del prigioniero, giochi cooperativi, mechanism design e bandit problems con UCB e Thompson sampling — il vocabolario per ragionare in modo formale su decisioni con incertezza e con avversari. Poi gli MDP come framework universale, l’equazione di Bellman, value iteration, Q-learning, policy gradient, actor-critic, PPO, giochi stocastici. Si chiude con un capitolo ponte sull’allineamento come problema principal-agent. Questa Parte è il prerequisito naturale per capire RLHF, i sistemi multi-agent e perché gli agenti che ottimizzano metriche tendono a fare cose impreviste.
Stato della Parte: 19 di 19 capitoli scritti.
- Cos’è un gioco, in senso tecnico —
giochi-definizione - Somma zero, somma generale —
somma-zero-non-zero - RPS: payoff matrix per P1; P2 ha la trasposta cambiata di segno —
equilibrio-nash - uso: dalla posizione iniziale, X muove —
minimax - modello f e baseline distribution già disponibili —
giochi-cooperativi - Il dilemma del prigioniero —
dilemma-prigioniero - Evolutionary game theory: replicator dynamics ed ESS —
evolutionary-games - Vickrey (second-price sealed bid) —
meccanismi-aste - Multi-armed bandits —
multi-armed-bandits - Update dopo aver pullato i e osservato r ∈ {0,1} —
ucb-thompson - Gridworld 4x4 —
markov-decision-process - equazione-bellman —
equazione-bellman - value-iteration-policy-iteration —
value-iteration-policy-iteration - q-learning —
q-learning - policy-gradient —
policy-gradient - actor-critic —
actor-critic - Setup: tutti inizializzati da pi_SFT (modello supervised fine-tuned) —
ppo-trpo - Giochi stocastici —
giochi-stocastici - Alignment come problema principal-agent —
ponte-gioco-principal-agent