Salta ai contenuti

Parte VII — Teoria dei giochi e Reinforcement Learning

Dalla teoria classica dei giochi al reinforcement learning moderno. Prima Nash, minimax, dilemma del prigioniero, giochi cooperativi, mechanism design e bandit problems con UCB e Thompson sampling — il vocabolario per ragionare in modo formale su decisioni con incertezza e con avversari. Poi gli MDP come framework universale, l’equazione di Bellman, value iteration, Q-learning, policy gradient, actor-critic, PPO, giochi stocastici. Si chiude con un capitolo ponte sull’allineamento come problema principal-agent. Questa Parte è il prerequisito naturale per capire RLHF, i sistemi multi-agent e perché gli agenti che ottimizzano metriche tendono a fare cose impreviste.

Stato della Parte: 19 di 19 capitoli scritti.

  1. Cos’è un gioco, in senso tecnicogiochi-definizione
  2. Somma zero, somma generalesomma-zero-non-zero
  3. RPS: payoff matrix per P1; P2 ha la trasposta cambiata di segnoequilibrio-nash
  4. uso: dalla posizione iniziale, X muoveminimax
  5. modello f e baseline distribution già disponibiligiochi-cooperativi
  6. Il dilemma del prigionierodilemma-prigioniero
  7. Evolutionary game theory: replicator dynamics ed ESSevolutionary-games
  8. Vickrey (second-price sealed bid)meccanismi-aste
  9. Multi-armed banditsmulti-armed-bandits
  10. Update dopo aver pullato i e osservato r ∈ {0,1}ucb-thompson
  11. Gridworld 4x4markov-decision-process
  12. equazione-bellmanequazione-bellman
  13. value-iteration-policy-iterationvalue-iteration-policy-iteration
  14. q-learningq-learning
  15. policy-gradientpolicy-gradient
  16. actor-criticactor-critic
  17. Setup: tutti inizializzati da pi_SFT (modello supervised fine-tuned)ppo-trpo
  18. Giochi stocasticigiochi-stocastici
  19. Alignment come problema principal-agentponte-gioco-principal-agent

← Torna all’indice generale