Salta ai contenuti

Intelligenza, il fattore g e il dibattito che non si chiude

Un secolo di tentativi di misurare “una cosa sola” che attraversa tutte le abilità mentali, e perché quella discussione torna utile a chi valuta sistemi artificiali.

C’è una domanda che torna ogni volta che si parla di intelligenza, umana o artificiale: esiste un’unica capacità sottostante che, quando aumenta, fa salire la performance su molte cose diverse, oppure le abilità sono tante, separate, e l’idea di “intelligenza generale” è un riflesso pigro del linguaggio? La domanda non è oziosa. La risposta che si dà cambia il modo in cui si progettano test scolastici, criteri di selezione, benchmark di AI e, in ultima istanza, la nozione stessa di “diventare più intelligente”.

Per chi lavora con sistemi che generano testo, ragionano, usano tool e affrontano task non visti in training, il dibattito sul g factor è doppiamente utile. Primo, perché molte intuizioni sui benchmark AI ricalcano, spesso senza saperlo, dispute che la psicometria umana ha già sviscerato dal 1904 in poi. Secondo, perché alcuni dei ricercatori più influenti nella valutazione di AI moderna — François Chollet su tutti — hanno importato esplicitamente il vocabolario spearmaniano (fluid vs crystallized intelligence) nei loro benchmark, ARC in primis.

Il capitolo non vuole risolvere la disputa: vuole metterla nelle mani del lettore con i nomi giusti, le date giuste, la matematica minima e una mappa onesta delle critiche.

Charles Spearman, psicologo inglese (1863-1945), pubblica nel 1904 sull’American Journal of Psychology l’articolo “General Intelligence, Objectively Determined and Measured”. È il documento fondativo. Spearman raccoglie i voti scolastici di un gruppo di bambini in materie diverse e nota che le correlazioni a coppie sono tutte positive. Mai negative. Mai nulle. Chiama “positive manifold” quel fenomeno e propone che dietro vi sia un fattore comune g (general intelligence) che contribuisce a ogni performance, sommato a un fattore specifico s del singolo test.

Da lì in poi il filo si snoda così:

  • Raymond Cattell, psicologo britannico-americano (1905-1998), allievo di Spearman, nel 1963 pubblica “Theory of fluid and crystallized intelligence: A critical experiment” sul Journal of Educational Psychology. Spezza il g in Gf (fluid, ragionamento su problemi nuovi) e Gc (crystallized, conoscenza accumulata).
  • John B. Carroll, psicologo americano (1916-2003), nel 1993 pubblica Human Cognitive Abilities: A Survey of Factor-Analytic Studies (Cambridge University Press), una meta-analisi su oltre 460 dataset. Stabilisce il “three-stratum theory”: g in cima, otto-dieci broad abilities al centro, decine di narrow abilities in basso.
  • La sintesi formale tra Cattell, Horn (suo collaboratore) e Carroll diventa il modello CHC (Cattell-Horn-Carroll), oggi standard nei test psicometrici clinici come Wechsler, Stanford-Binet, Woodcock-Johnson.
  • Arthur Jensen, psicologo americano (1923-2012), nel 1998 pubblica The g Factor: The Science of Mental Ability (Praeger). Argomenta che g ha basi neurali: tempo di reazione, ereditabilità, volume cerebrale, mismatch negativity.

Sull’altro lato del campo si sono mossi i critici principali:

  • Howard Gardner, psicologo a Harvard (n. 1943), nel 1983 pubblica Frames of Mind: The Theory of Multiple Intelligences (Basic Books), proponendo otto-nove intelligenze relativamente indipendenti.
  • Robert Sternberg, psicologo a Yale (n. 1949), nel 1985 pubblica Beyond IQ: A Triarchic Theory of Human Intelligence, distinguendo intelligenza analitica, creativa, pratica.
  • James Flynn, filosofo politico neozelandese (1934-2020), nel 1987 documenta il “Flynn effect”: aumento secolare di circa 3 punti IQ per decennio nel Novecento.
  • Han van der Maas, psicologo olandese, nel 2006 pubblica con altri “A dynamical model of general intelligence: the positive manifold of intelligence by mutualism” su Psychological Review, mostrando che il positive manifold può emergere senza un g latente reale.

Sul versante AI, due nomi:

  • Jose Hernández-Orallo, ricercatore spagnolo, nel 2017 pubblica The Measure of All Minds: Evaluating Natural and Artificial Intelligence (Cambridge University Press), proponendo una valutazione universale.
  • François Chollet, ricercatore francese a Google, creatore della libreria Keras, nel 2019 pubblica “On the Measure of Intelligence” (arXiv:1911.01547), introducendo l’ARC (Abstraction and Reasoning Corpus) come tentativo di misurare skill-acquisition efficiency.

Il grafo concettuale del capitolo è quindi: positive manifold (osservazione) -> g (costrutto) -> Gf/Gc (raffinamento) -> three-stratum/CHC (gerarchia) -> critiche multiple -> riapparizione del vocabolario in benchmark AI moderni.

Vale la pena fissare due definizioni operative che spesso si confondono nel discorso pubblico. Il g factor è un fattore latente, ricavato statisticamente da una matrice di correlazioni tra subtest cognitivi. È un costrutto, non una misura diretta. Lo IQ (Intelligence Quotient) è invece un punteggio standardizzato — tipicamente con media 100 e deviazione standard 15 — calibrato su una popolazione di riferimento. IQ totale e g empirico correlano fortemente (~0.85) ma non sono la stessa cosa. Si può discutere il g senza accettare la calibrazione di un IQ, e si può somministrare un IQ test senza prendere posizione sull’ontologia di g.

Una terza distinzione utile riguarda i livelli di analisi. Quando si parla di “intelligenza” si possono intendere almeno tre cose diverse: una capacità individuale (quanto è bravo Mario rispetto al gruppo), una struttura dimensionale del costrutto (quanti fattori servono per descrivere le differenze tra individui), un meccanismo causale (cosa succede nel cervello quando uno è più capace dell’altro). Spearman, Cattell, Carroll lavorano principalmente al livello dimensionale. Jensen prova a saltare al livello meccanicistico. Le critiche di Gardner e Sternberg attaccano sia il livello dimensionale sia, indirettamente, il livello individuale (chiedendo se “una sola cifra per persona” abbia senso).

Immagina di misurare in un gruppo di mille persone l’altezza, la lunghezza del braccio, la lunghezza della gamba, la circonferenza del torace. Le correlazioni saranno tutte fortemente positive: chi è alto tende ad avere braccia lunghe, gambe lunghe, torace ampio. C’è una variabile latente che spiega gran parte di quelle correlazioni — la chiamiamo “size” — anche se nessuno la misura direttamente. La size non è una “cosa” che esiste in un punto del corpo: è una proprietà che si manifesta in molte misurazioni e che catturiamo proiettando i dati su un asse.

Spearman propone esattamente questa figura per le abilità cognitive. Tieni il battery di test, calcola le correlazioni, trovi che sono tutte positive, estrai il primo asse principale. Quell’asse è g. Non è “intelligenza” in senso filosofico; è la proprietà comune che spiega perché chi è bravo in una cosa tende a essere bravo anche nelle altre. È un’analogia, non una equivalenza: usarla per “vedere” g, non per identificarlo con la size umana.

Immagina ora il caso opposto. Hai una batteria di test progettati per essere indipendenti — uno misura solo memoria, uno solo velocità motoria, uno solo riconoscimento di volti, uno solo tono musicale. Se le abilità mentali fossero davvero modulari e indipendenti, le correlazioni a coppie dovrebbero essere mediamente nulle, distribuite simmetricamente intorno allo zero. Invece, ostinatamente, sono tutte positive, anche tra test che condividono ben poco a livello di processi richiesti.

Questa asimmetria empirica è il dato di partenza. Spearman non costruisce g per teoria: lo postula per spiegare un fatto. La domanda non è “esiste g?” in senso assoluto, ma “qual è la spiegazione più parsimoniosa per il positive manifold?” Le risposte possibili sono molte (causa comune, mutualismo evolutivo, artefatto di campionamento dei test) e ognuna ha implicazioni diverse. Il g spearmaniano è la risposta “causa comune”. Le altre risposte vivono ancora.

Un terzo angolo, più tardo, è quello di Cattell. Immagina due persone della stessa età. Una è andata a scuola fino ai 18 anni, l’altra fino ai 25 con un dottorato. Sottoponi entrambe a due tipi di problemi: completare una matrice visiva di pattern astratti (Raven’s Progressive Matrices) e definire parole rare. Sul vocabolario il dottorato vince largamente — ha avuto più anni di esposizione a testi scritti. Sulla matrice visiva il dottorato vince poco o niente — il task non dipende dalla scolarizzazione. Cattell legge questo come due aspetti distinti del g: una capacità “fluid” che è grosso modo il calcolo cognitivo grezzo, indipendente dal contenuto, e una capacità “crystallized” che è il deposito accumulato di conoscenza nel tempo. L’analogia con hardware vs software è didatticamente utile ma va presa per quel che è: un’analogia, non un’equivalenza. Gf e Gc non sono pezzi anatomicamente separati, sono dimensioni di varianza nei dati di test.

Il g empirico nasce da una procedura ben definita di analisi fattoriale. Ecco i passaggi essenziali, con notazione minima.

Si parte da una matrice di dati X di forma (N, K): N soggetti, K test. Si standardizzano le colonne (sottrarre la media, dividere per la deviazione standard) in modo che ogni test abbia media zero e varianza uno. La matrice di correlazione è:

R = (1/N) * X^T * X

di forma (K, K), simmetrica, con diagonale tutta uno. Tutte le entrate fuori diagonale sono i coefficienti di correlazione tra coppie di test.

Si calcola la decomposizione spettrale di R:

R = V * Λ * V^T

dove Λ è la matrice diagonale degli autovalori λ_1 >= λ_2 >= … >= λ_K e V è la matrice degli autovettori (ortogonali).

Il primo autovettore v_1 è la direzione di massima varianza condivisa nei dati. La proiezione dei dati su quell’asse:

F1 = X * v_1 / sqrt(λ_1)

è il “g empirico” — un punteggio per ogni soggetto che indica quanto si trova in alto su quell’asse comune. I “g loadings” — saturazioni dei singoli test in g — sono:

loading_i = sqrt(λ_1) * v_1[i]

Equivalentemente, sono le correlazioni tra il test i-esimo e il fattore F1.

La proporzione di varianza spiegata dal primo fattore è:

var_g = λ_1 / sum_j(λ_j)

In batterie ben progettate, var_g sta tipicamente tra 40% e 60%. Non è tutto, ma è molto.

Sottigliezza: questa è Principal Component Analysis applicata alla matrice di correlazione. La “common factor analysis” classica, che Spearman aveva in mente, separa varianza comune da varianza unica modificando la diagonale di R con le “communalities” (stima della varianza condivisa). Per un primo fattore i risultati sono molto simili e PCA basta come introduzione concettuale. Nei lavori clinici si usano stimatori più raffinati (maximum likelihood factor analysis), ma la struttura del problema non cambia.

Il modello a un fattore di Spearman cattura il primo livello, ma lascia varianza residua organizzata in cluster. Se prendi i residui di R dopo aver tolto il contributo di g, scopri che alcuni test (verbali) restano correlati tra loro, altri (visuo-spaziali) restano correlati tra loro, eccetera. Carroll formalizza questa osservazione in tre strati. Si applica un’analisi fattoriale gerarchica, in cui:

  • al primo passaggio si estraggono fattori di “primo ordine” (broad abilities) da gruppi di subtest;
  • al secondo passaggio si applica analisi fattoriale alle correlazioni tra i fattori di primo ordine, e si trova un fattore di “secondo ordine” che li raccoglie tutti — quello è g.

Le otto-dieci broad abilities canoniche del modello CHC sono:

  • Gf — Fluid reasoning: ragionamento su problemi nuovi, induzione, ragionamento quantitativo non automatizzato.
  • Gc — Crystallized knowledge: vocabolario, conoscenza generale, abilità verbali consolidate.
  • Gv — Visual processing: rotazioni mentali, chiusura visiva, ricerca visiva.
  • Ga — Auditory processing: discriminazione fonetica, percezione del ritmo, segregazione di stream uditivi.
  • Gs — Processing speed: velocità in compiti elementari (cancellation, simboli).
  • Gsm — Short-term memory: span di cifre, memoria di lavoro a breve termine.
  • Glr — Long-term storage and retrieval: associazione, recupero veloce di informazione semantica.
  • Gq — Quantitative knowledge: aritmetica, matematica formale.
  • Grw — Reading and writing: abilità accademiche specifiche di letto-scrittura.
  • Gkn — Domain-specific knowledge: aggiunta nelle versioni più recenti, copre conoscenze di dominio (musica, scienza, ecc.).

Notare che alcune di queste sono parzialmente “skill domain-specific” (Grw, Gkn) e altre sono dimensioni più generali. La gerarchia non è ortogonale come si vorrebbe in un mondo pulito; CHC è un compromesso tra parsimonia teorica e fedeltà ai dati.

flowchart TD
    G[g]
    V[Verbale]
    N[Numerico]
    S[Spaziale]
    M[Memoria]
    G --> V1[Vocabolario]
    G --> V2[Comprensione]
    G --> N1[Aritmetica]
    G --> N2[Serie numeriche]
    G --> S1[Block Design]
    G --> S2[Rotazione]
    G --> M1[Digit Span]
    G --> M2[Letter-Number]
    V -.-> V1
    V -.-> V2
    N -.-> N1
    N -.-> N2
    S -.-> S1
    S -.-> S2
    M -.-> M1
    M -.-> M2

Figura 6 — modello bifattoriale con un fattore generale g e fattori di gruppo ortogonali (Verbale, Numerico, Spaziale, Memoria) che caricano sui subtest, alternativa alla gerarchia stretta di Carroll

Spearman, nel 1904, non aveva computer. Aveva carta, matite e una procedura meccanica per testare se le correlazioni osservate fossero compatibili con un modello a un fattore. Si chiama “tetrad differences criterion”. Dato un set di quattro test A, B, C, D, calcoli:

tetrad(A, B, C, D) = r(A,C) * r(B,D) - r(A,D) * r(B,C)

Se esiste un fattore comune g che spiega le correlazioni, allora tutte le tetrade dovrebbero essere statisticamente vicine a zero. Spearman applicò il criterio ai suoi dati e trovò tetrade piccole, compatibili con un singolo fattore. Era la prima evidenza statistica del g.

Oggi il tetrad criterion è obsoleto (sostituito da goodness-of-fit di modelli SEM, structural equation modeling), ma è interessante didatticamente: mostra che il problema di “verificare quanto un fattore basta” è tecnicamente trattabile anche senza decomposizione spettrale, purché si abbia pazienza con gli aritmetici a mano.

Jensen sostiene che g non è solo un artefatto statistico ma corrisponde a proprietà neurali misurabili. I suoi indicatori principali, con range di correlazione tipici riportati in meta-analisi, sono:

  • Choice reaction time: in compiti di scelta a 2 o 4 alternative, il tempo medio di reazione e la sua variabilità intra-soggetto correlano con g intorno a 0.3-0.4. Chi ha g più alto reagisce più velocemente e con minore varianza.
  • Inspection time: tempo necessario a discriminare due stimoli visivi presentati brevemente. Correla con g intorno a 0.3-0.5.
  • Mismatch negativity (MMN): una componente ERP misurata via EEG, che riflette la rilevazione automatica di stimoli devianti. Correla con g intorno a 0.3.
  • Volume cerebrale totale: correlazione modesta ma replicata, ~0.24-0.40 a seconda della metanalisi.
  • White matter integrity: misurata via diffusion tensor imaging, correla con g intorno a 0.3.
  • Ereditabilità: in adulti, twin studies stimano l’ereditabilità di g intorno al 50-80%. Cresce con l’età — paradosso noto come “Wilson effect”: più si invecchia, più il proprio profilo cognitivo somiglia a quello geneticamente predetto.

Nessuna di queste correlazioni è abbastanza alta da costituire una “spiegazione” di g. Sono piuttosto indizi convergenti che il costrutto cattura qualcosa di neurobiologicamente reale, anche se la natura esatta di quel “qualcosa” rimane aperta. Jensen propone “neural efficiency” come ipotesi: cervelli più efficienti energeticamente, con conduzione assonale più rapida e meno rumore sinaptico, producono punteggi più alti su test cognitivi. È un’ipotesi plausibile ma non ancora dimostrata in modo conclusivo.

Quattro subtest di una batteria producono questa matrice di correlazione (valori realistici per un Wechsler ridotto):

Vocabulary - Arithmetic: 0.55 Vocabulary - Block Design: 0.45 Vocabulary - Digit Span: 0.40 Arithmetic - Block Design: 0.50 Arithmetic - Digit Span: 0.45 Block Design - Digit Span: 0.35

Diagonale a 1.00. Tutte le correlazioni positive: positive manifold confermato.

Estraendo il primo autovettore della matrice e moltiplicando per la radice del primo autovalore si ottengono g loadings tipici:

  • Vocabulary: 0.72 (alto)
  • Arithmetic: 0.75 (alto)
  • Block Design: 0.65 (medio-alto)
  • Digit Span: 0.55 (medio)

Il primo fattore spiega circa il 50% della varianza totale. Quel 50% è la stima empirica di g per quella batteria.

import numpy as np
# Matrice di correlazione 4x4 (Vocabulary, Arithmetic, Block Design, Digit Span)
R = np.array([
[1.00, 0.55, 0.45, 0.40],
[0.55, 1.00, 0.50, 0.45],
[0.45, 0.50, 1.00, 0.35],
[0.40, 0.45, 0.35, 1.00],
])
# Decomposizione spettrale (R simmetrica -> eigh)
eigvals, eigvecs = np.linalg.eigh(R)
# Ordina in senso decrescente
order = np.argsort(eigvals)[::-1]
eigvals = eigvals[order]
eigvecs = eigvecs[:, order]
# g loadings: correlazione di ogni test col primo fattore
g_loadings = eigvecs[:, 0] * np.sqrt(eigvals[0])
# Varianza spiegata dal primo fattore
var_g = eigvals[0] / eigvals.sum()
print("g loadings:", np.round(g_loadings, 2))
print(f"varianza spiegata da g: {var_g:.1%}")

Output atteso: loadings tra 0.55 e 0.75, varianza intorno al 50%. È la stessa procedura usata da Spearman, modulo cento anni di potenza di calcolo.

Tra il 1947 e il 2002 i punteggi grezzi (non standardizzati) sui Raven’s Progressive Matrices in popolazioni occidentali sono saliti di circa 20 punti, equivalenti a circa 1.3 deviazioni standard. Letto rispetto alla calibrazione iniziale, un giovane medio del 2002 starebbe al 90esimo percentile della popolazione del 1947. Letto in chiave Cattell, è Gf che si è mossa più di Gc — un risultato controintuitivo se uno crede che Gf sia “biologica e fissa”. Le interpretazioni più accreditate richiamano la diffusione di pensiero astratto richiesto da scuola, lavoro, vita urbana. È un caso da manuale di interazione tra il costrutto e l’ambiente in cui viene misurato.

Un’azienda sceglie tra due candidati per un ruolo di senior engineer. Entrambi hanno completato la stessa batteria psicometrica. Il candidato A: vocabolario al 90esimo percentile, reasoning numerico al 40esimo, working memory all’85esimo, processing speed al 50esimo. Il candidato B: tutti i punteggi tra il 65esimo e il 75esimo.

Lettura ingenua: A ha un punteggio massimo più alto, quindi è più “intelligente”. Lettura informata da CHC: A mostra Gc forte ma Gf debole. B mostra g uniformemente alto. Per un ruolo che richiede transfer rapido a domini nuovi, debugging in codebase mai viste, problem solving su requirement vaghi, B è preferibile. Per un ruolo che richiede produzione documentale e comunicazione tecnica precisa, A può essere meglio. La decisione dipende dalla struttura del profilo, non dal massimo.

Un LLM moderno ottiene il 90% su MMLU (knowledge-heavy multiple choice) e il 25% su ARC-AGI (reasoning visivo su task mai visti). Letto in chiave spearmaniana, il modello ha Gc altissima — la conoscenza memorizzata e ricuperabile dalla distribuzione di training — e Gf modesta — la capacità di generare soluzioni a problemi nuovi con poca esperienza diretta. Aumentare Gc equivale a addestrare su più dati ben curati. Aumentare Gf richiede metodi qualitativamente diversi: test-time compute, search, RL su reasoning traces. Questa è la motivazione esplicita di Chollet per ARC. È una filiazione concettuale dichiarata: ARC nasce da una rilettura di Cattell, non da un’analogia vaga.

Le Raven’s Progressive Matrices, costruite dallo psicologo inglese John C. Raven nel 1936, sono diventate il test “gold standard” per misurare Gf. Il formato è semplice: viene mostrata una matrice 3x3 di figure geometriche con una cella vuota in basso a destra; il soggetto deve scegliere, tra otto opzioni, la figura che completa la matrice secondo le regole implicite. La regola può essere additiva (le figure si sommano lungo la riga), sottrattiva, di rotazione, di intersezione, o combinazioni delle precedenti. Non serve sapere nulla di matematica formale, di vocabolario, di cultura specifica.

Il loading di Raven in g è tipicamente 0.7-0.8 in batterie ampie. È uno dei singoli test con saturazione più alta. Per questo è la scelta ovvia quando si vuole un proxy economico per Gf. Non a caso, ARC di Chollet riprende esattamente la logica delle Progressive Matrices, generalizzata con regole più variegate e griglie a colori. Un task ARC è essenzialmente un Raven’s con vocabolario di trasformazioni più ampio e nessun glossario fornito: il sistema deve inferire da 2-3 demo qual è la regola e applicarla al test case.

La filiazione è esplicita: Chollet cita Spearman e Cattell nei primi paragrafi del paper. Non è un’analogia retorica. È una scelta progettuale dichiarata di importare lo strumento più puro di Gf nella valutazione di sistemi artificiali, sostituendo il soggetto umano con un modello.

Una batteria psicometrica somministra dieci subtest a un soggetto. Il g empirico — la proiezione del soggetto sull’asse principale — è 1.2 deviazioni standard sopra la media del gruppo di calibrazione. L’IQ totale, calcolato come media pesata dei subtest convertita in scala 100/15, è 118. Sono numeri vicini ma non identici. Il g empirico riflette la posizione su un asse latente; l’IQ riflette una somma di punteggi normalizzati. Per la maggior parte delle decisioni pratiche i due numeri sono intercambiabili. Per discussioni teoriche o per analisi fattoriali successive, la differenza conta. Confonderli è uno degli errori più ricorrenti nei testi divulgativi.

Durante la prima guerra mondiale, l’esercito statunitense incarica gli psicologi Robert Yerkes e Lewis Terman di costruire test di intelligenza per smistare reclute su ruoli militari. Nascono Army Alpha (per chi sa leggere) e Army Beta (per chi non sa leggere). Vengono somministrati a circa 1.7 milioni di reclute. È la prima applicazione su larga scala della psicometria. I dati raccolti, riletti decenni dopo, mostrano positive manifold robusto e struttura fattoriale compatibile con un g dominante. È un caso studio di come un costrutto teorico (Spearman 1904) si trasferisce a uno strumento pratico (Army Alpha 1917) e diventa parte dell’infrastruttura sociale (selezione, immigrazione, scolarizzazione differenziata) — con tutte le ricadute etiche del caso, alcune delle quali si sarebbero rivelate disastrose nei decenni successivi.

Conoscere g e CHC è utile in almeno cinque contesti concreti.

Selezione e formazione. Chi progetta test attitudinali per assunzioni o ammissioni non può ignorare il positive manifold. Una batteria che produce correlazioni nulle tra subtest è probabilmente mal progettata o mal somministrata. La validità predittiva di g per performance lavorativa è documentata intorno a 0.5 in meta-analisi standard (Schmidt e Hunter), con punte più alte (~0.6) in lavori cognitivamente complessi e più basse (~0.3) in lavori standardizzati. È un correlato importante, non l’unico.

Valutazione di sistemi artificiali. Il vocabolario Gf/Gc è oggi attivamente usato per leggere i benchmark AI. Un benchmark che premia il riconoscimento di pattern nel training set misura Gc. Un benchmark che richiede composizione di concetti su task mai visti misura Gf. Confondere i due porta a sopravvalutare i progressi: una salita su MMLU non implica una salita equivalente su ARC.

Design di curricula. Gf e Gc rispondono a interventi diversi. Allenare Gf è notoriamente difficile (i programmi di “brain training” mostrano transfer scarso). Allenare Gc è invece l’oggetto della scolarizzazione tradizionale. Sapere quale dei due si vuole far crescere cambia l’intervento.

Diagnosi clinica e neuropsicologica. Quando un paziente mostra un calo cognitivo dopo trauma o malattia, l’analisi del profilo CHC permette di distinguere un calo globale (g compromesso) da un calo selettivo (una broad ability colpita). Wechsler Adult Intelligence Scale e Woodcock-Johnson sono costruiti esattamente per produrre profili leggibili in chiave CHC.

Progettazione di assessment per agent coding. Chi costruisce eval per agenti software può prendere lezioni dalla psicometria umana. Il principio del positive manifold suggerisce di usare batterie eterogenee e cercare il fattore comune tra metriche diverse — non per riprodurre g sui modelli, ma per evitare di valutare un agente su una sola dimensione. Il principio di Cattell suggerisce di separare task di transfer da task di knowledge retrieval. Il principio di Carroll suggerisce di organizzare gerarchicamente le metriche, evitando di confondere narrow abilities (es. fluency in Python) con broad abilities (es. coding in generale).

Il g è il caso paradigmatico di costrutto contestato. Le critiche sono molte e va presa sul serio almeno una decina.

Il g empirico dipende dalla batteria. Se cambi i test inclusi, il primo fattore cambia. Una batteria con molti test verbali produrrà un g leggermente “verbale”; una con molti test visuo-spaziali un g leggermente “spaziale”. Quindi il g non è un’entità platonica unica: è una proprietà del modello applicato a un sample di test.

Il g non distingue strategie. Due soggetti con stesso g totale possono risolvere problemi in modi qualitativamente diversi (uno per insight, uno per analisi step-by-step). La psicometria classica appiattisce questa eterogeneità.

Validità predittiva alta ma non determinante. g predice performance scolastico/lavorativo a livello di r ~0.5. Personalità (Big Five, in particolare conscientiousness), motivazione, opportunità sociali, stato di salute contano almeno quanto. Il 75% della varianza nel successo di vita non è spiegato da g.

Il g non è addestrabile direttamente. Training intensivo su un task specifico fa salire quel task; gli effetti di transfer al g sono modesti e contestati. Quel poco di transfer documentato (es. interventi educativi su bambini molto piccoli) tende a svanire negli anni.

Il Flynn effect. I punteggi IQ sono saliti di circa 3 punti per decennio nel Novecento. Se g fosse un’invariante biologica strettamente ereditabile, non dovrebbe muoversi così velocemente. Flynn stesso interpretò l’effetto come riflesso di cambiamenti culturali (educazione formale prolungata, complessità ambientale) che addestrano specificamente Gf. L’effetto sembra essersi fermato o invertito in alcuni paesi negli anni 2010, complicando ulteriormente il quadro.

Il modello a mutualismo (van der Maas et al. 2006). Il positive manifold può emergere senza un g latente: basta che durante lo sviluppo le abilità si influenzino positivamente l’una con l’altra. Chi legge bene impara meglio matematica, chi calcola bene legge meglio testi tecnici, e via di seguito. Una rete di mutualismo positivo produce correlazioni positive cross-sectional indistinguibili da quelle prodotte da una causa comune. Sui dati cross-sectional le due ipotesi sono equivalenti; sui dati longitudinali si possono in teoria distinguere, ma è difficile.

La critica di Gardner. L’argomento è che la psicometria classica misura solo ciò che i test scolastici misurano, ignorando intelligenza musicale, corporea-cinestesica, interpersonale, intrapersonale, naturalistica. Critica della critica: quando si costruiscono test per le intelligenze gardneriane, le correlazioni tornano positive — il positive manifold riemerge. Gardner non ha mai pubblicato un’analisi fattoriale che mostri otto fattori indipendenti. La proposta è influente in pedagogia, marginale nella psicometria scientifica.

La critica di Sternberg. Distinguere intelligenza analitica, creativa, pratica è plausibile teoricamente ma le tre dimensioni, misurate empiricamente, restano correlate positivamente. La teoria triarchica sopravvive come framework euristico, non ha sostituito CHC.

Il bias culturale. I test classici sono biased verso istruzione di stampo occidentale. Test su popolazioni non scolarizzate producono g loadings diversi e talora la struttura fattoriale stessa cambia. Universalità del g è un’assunzione, non un dato robusto cross-culturalmente.

Confusione tra g e IQ. g è un fattore latente; IQ è un punteggio normalizzato (mean=100, sd=15) su una popolazione di riferimento. Si parla spesso dei due come se fossero la stessa cosa. Sono concetti distinti: si può discutere la stabilità di g senza accettare la calibrazione di un IQ.

Spearman vs Carroll su realismo. Per Spearman g era una proprietà reale del cervello; per Carroll è una proprietà del modello statistico applicato ai dati. La differenza non è cosmetica: ha implicazioni sul tipo di evidenza che conta come “prova” o “smentita” del g.

Effetti dello sviluppo. Nei bambini piccoli la struttura fattoriale è più indifferenziata; con l’eta i fattori si differenziano (differentiation hypothesis di Garrett). Il g del cervello in formazione non è il g del cervello adulto.

Trasferibilità ad AI. L’idea di “calcolare g” su un sistema artificiale è fragile. Le metriche AI (loss, accuracy, BLEU, pass@k, ELO) non si lasciano facilmente raggruppare in una matrice K x K simmetrica e ben condizionata. Inoltre i sistemi artificiali non sono “soggetti” indipendenti: due LLM derivati dallo stesso pretraining condividono varianza in modo radicalmente diverso da come due esseri umani la condividono. L’analogia con la psicometria umana è utile come ispirazione (vedi ARC), ma applicare letteralmente analisi fattoriale a una batteria di benchmark LLM produce risultati interpretabili solo con cautela.

Il rischio di reificazione. g, come molti costrutti psicologici (estroversione, autostima), tende a essere trattato come una “cosa” che le persone “hanno”. È un errore epistemico: g è una proprietà aggregata di un sistema di misurazioni, non un’entità localizzata.

Effetto base-rate sui benchmark AI. Misurare g su un sistema artificiale ha senso solo se il sistema affronta tutti i subtest della batteria nelle stesse condizioni di un essere umano. Nei benchmark moderni questo non accade: un LLM riceve i task come prompt testuali, mentre un essere umano li riceve in modalità misture (visiva, motoria, temporale). Anche assumendo che la matrice di correlazione tra punteggi LLM su benchmark diversi mostrasse positive manifold, l’interpretazione causale sarebbe radicalmente diversa: nei modelli quel manifold rifletterebbe principalmente sovrapposizione del training corpus, non una capacità unitaria sottostante.

Effetti del prompt e della modalità. Lo stesso modello, sullo stesso task, può produrre punteggi che variano del 15-20% solo cambiando il prompt. Nessun test umano ha questa fragilità. Il g empirico calcolato su benchmark LLM dipende quindi pesantemente dalle scelte di evaluation harness, in modo che la psicometria umana classica non aveva mai dovuto affrontare.

Validità divergente debole. Un buon costrutto deve correlare meno con costrutti diversi che con manifestazioni dello stesso costrutto (validità divergente). Per il g umano questo è discretamente verificato: g correla poco con personalità, motivazione, abilità motorie pure. Per un g artificiale ipotetico, la separazione tra “intelligenza” e “altro” non è ben definita: cosa sarebbe l’analogo di “personalità” in un LLM? Senza un asse di confronto, il costrutto resta sospeso.

Pensare a g come a un asse ha dei limiti, ma è la metafora che paga di più. Immagina uno spazio K-dimensionale dove ogni asse è una abilità cognitiva specifica. Le persone sono punti in quello spazio. Il positive manifold dice che i punti non sono distribuiti uniformemente: tendono a concentrarsi in una regione orientata. Il primo asse principale di quella distribuzione è g. Persone diverse non sono “più o meno intelligenti” come se fossero su una sola retta: sono punti in uno spazio multidimensionale, e quel che chiamiamo g è la direzione principale di variazione di quei punti.

Questa metafora ha tre vantaggi. Primo: rende ovvio che g non è “fissato” in un’area del cervello — è una proprietà della distribuzione delle persone, non una proprietà del singolo soggetto. Secondo: rende ovvio che il g calcolato dipende da quali abilità si misurano (cambia gli assi, cambia la direzione principale). Terzo: rende ovvio che persone con stesso g possono avere profili molto diversi, perché stanno su un iperpiano ortogonale a g e possono variare lungo gli altri assi.

La metafora si trasferisce con cautela ai sistemi artificiali. Per LLM gli “assi” sarebbero benchmark, e i punti i modelli. Anche qui il primo componente principale tende a essere positivo su tutti gli assi (modelli grandi performano meglio in media su tutto). Ma la natura dei punti è diversa: i modelli condividono pretraining, architettura, training data; le persone condividono evoluzione e istruzione di base. La direzione principale che emerge da modelli AI riflette tanto il fatto che alcuni team hanno più compute quanto una qualunque “intelligenza” sottostante. Tenere a mente questa differenza è essenziale per non importare conclusioni psicometriche umane in modo letterale ai sistemi artificiali.

  • intelligenze-multiple (in preparazione): la critica diretta di Gardner al g e perché sopravvive in pedagogia.
  • creativita-umana: creatività e g correlano moderatamente sopra una soglia, poi si scollegano. La distinzione contribuisce al dibattito.
  • meta-cognizione: dimensione che il g classico non cattura ma che è centrale per il monitoring del proprio ragionamento.
  • dual-process-kahneman: Sistema 1 e Sistema 2 hanno una corrispondenza grezza con automatismi vs Gf, utile didatticamente.
  • bounded-rationality-simon: la razionalità limitata di Simon spiega perché g alta non implica decisioni ottimali.
  • euristiche-bias: i bias di Tversky-Kahneman colpiscono indipendentemente dal g.
  • benchmark-llm (in preparazione, Parte XIX): MMLU, GPQA, HumanEval letti come misure prevalentemente Gc.
  • benchmark-agenti (in preparazione, Parte XIX): SWE-bench, ARC-AGI come tentativi di misurare Gf.
  • emergent-abilities (in preparazione, Parte XI): il dibattito su scaling vs cambio qualitativo richiama Gf vs Gc.
  • cervello-vs-rete-neurale: le basi biologiche del g secondo Jensen e i limiti dell’analogia col deep learning.
  • agi-definizioni: cosa diventa “AGI” se la si formula via Gf vs Gc.

Nel discorso pubblico circolano alcune letture del g che la ricerca seria considera errate o almeno semplificazioni pericolose. Vale la pena listarle perché tendono a riemergere quando si parla di valutazione di sistemi artificiali.

Errore 1: g = un singolo numero che riassume “quanto sei intelligente”. Un punteggio g totale comprime un profilo multidimensionale in una sola cifra, perdendo informazione. Anche assumendo che il g sia reale, ridurre una persona (o un sistema) a un singolo numero è una scelta di compressione, non una scoperta. La stessa critica si applica quando si cita un “average score” di un LLM su una suite di benchmark: dietro la media c’è un profilo che la media nasconde.

Errore 2: g è fisso. g si stabilizza intorno ai 18-20 anni e rimane abbastanza stabile in adulti, ma non è immutabile. Trauma cerebrale, depressione cronica, deprivazione di sonno, stress severo, malattie sistemiche tutti riducono i punteggi. Il g osservato è una proprietà del sistema cervello-ambiente in un momento, non una costante della persona. Per i sistemi artificiali la “costanza” è ancora più dubbia: un LLM cambia comportamento al cambiare di temperatura, prompt, harness.

Errore 3: g = potenziale. Un g alto non è una promessa di successo. Predice mediamente, su grandi numeri. A livello individuale entrano in gioco motivazione, opportunità, salute, rete sociale. Confondere predizione statistica e predizione individuale è un errore comune nei discorsi su test predittivi (umani o AI).

Errore 4: g implica gerarchia tra persone. Costruire ordinamenti totali sulle persone usando g è eticamente problematico e statisticamente fragile. Le distribuzioni si sovrappongono fortemente; le code della distribuzione hanno errori di misurazione amplificati; e la dipendenza di g dalla cultura e dall’educazione fa sì che il “ranking” rifletta tanto storia personale quanto biologia.

Errore 5: aumentare g aumenta intelligenza in modo trasferibile. Programmi di “brain training” basati su giochi di memoria di lavoro mostrano transfer scarso a Gf misurato su test diversi. La revisione meta-analitica di Melby-Lervåg e Hulme (2013) è chiara: il transfer è limitato al task allenato, con un piccolo guadagno generale che non sopravvive a controlli rigorosi. Per AI l’analogo è: ottimizzare un benchmark non implica miglioramento generale, e spesso peggiora la generalizzazione.

Errore 6: il modello a un fattore è la sola lettura. Esistono modelli bifactor (un fattore generale + diversi fattori di gruppo ortogonali a g), modelli a network (van der Maas), modelli gerarchici stretti (Carroll), modelli di mutualismo dinamico. Ognuno fitta i dati con tradeoff diversi. Trattare il g come “il modello” e non come “uno dei modelli” è un’iperestensione comune nel discorso semplificato.

In questo capitolo le classi di affermazioni vanno mantenute esplicite, perché il g factor è terreno minato per scivolamenti tra analogia, filiazione, equivalenza.

Analogia. Il g umano e gli “score globali” di un LLM sui benchmark sono analogie didattiche, non equivalenze. Quando si dice che un LLM “ha Gc alta e Gf bassa”, si sta usando vocabolario Cattelliano in modo metaforico. Utile per pensare, ingannevole se preso alla lettera.

Filiazione. ARC discende esplicitamente da Raven’s Progressive Matrices e dal concetto di Gf di Cattell. Chollet lo dichiara nel paper, citando le fonti primarie. È una filiazione documentata, non un’analogia.

Equivalenza. Non esiste equivalenza dimostrata tra “g umano” e una qualunque metrica calcolabile su un sistema artificiale. Chiunque sostenga “il modello X ha un g di Y” sta facendo un’estensione interpretativa, non una misurazione equivalente.

Teorema. Non ci sono teoremi formali che leghino positive manifold umano e correlazioni tra benchmark AI. È puramente analogia statistica.

Tenere queste etichette pronte all’uso evita di scivolare nel discorso pubblico verso pretese che il dato non sostiene.

Sviluppi nei primi anni 2000: g come predittore di outcome

Sezione intitolata “Sviluppi nei primi anni 2000: g come predittore di outcome”

Una linea di ricerca importante, sviluppatasi soprattutto negli anni 90 e 2000, ha cercato di quantificare la validità predittiva del g per outcome di vita. Risultati robustamente replicati:

  • Performance lavorativa: meta-analisi di Schmidt e Hunter (1998 e versioni successive) stimano la correlazione tra g e performance lavorativa intorno a 0.5, con punte di 0.6 in lavori complessi (medicina, ingegneria) e cali a 0.3 in lavori standardizzati. Importante: g rimane il singolo predittore più robusto, anche quando si controlla per istruzione e personalità.
  • Reddito: correlazione moderata, intorno a 0.3, ma con effetti non lineari nelle code.
  • Salute e longevità: studi prospettici (Cohort Studies scozzesi) mostrano che il g misurato a 11 anni predice la mortalità a 70 anni con r ~0.2-0.3, anche controllando per status socioeconomico. L’interpretazione: g cattura una capacità di prendere decisioni di salute (smettere di fumare, aderire a terapie, evitare incidenti) che si accumula nel corso della vita.
  • Esiti scolastici: correlazione 0.5-0.7 con voti scolastici, leggermente più bassa con voti universitari (probabilmente per restrizione di range — chi va all’università è già selezionato).

Questi risultati sono il pezzo più “applicabile” della tradizione spearmaniana. Per chi progetta sistemi predittivi (umani o AI-assistiti) la lezione metodologica è doppia: i predittori cognitivi composti (in stile g) tendono a essere più stabili dei predittori basati su singole metriche; e la validità predittiva si misura su outcome ecologicamente rilevanti, non su task strumentali.

In letteratura AI il termine “general intelligence” appare con almeno tre significati distinti. Vale la pena distinguerli per evitare confusione.

  • g spearmaniano: il fattore latente derivato da analisi fattoriale su batterie cognitive umane.
  • AGI (Artificial General Intelligence): termine che indica un sistema artificiale capace di affrontare un range ampio di task, almeno paragonabile a un essere umano. Nato negli anni 2000 nei circoli di ricerca alternativa, oggi ampiamente usato e poco definito.
  • Generality in benchmark: capacità di un sistema di funzionare su distribuzioni out-of-training, misurata da benchmark come ARC, GAIA, AgentBench.

Questi tre concetti si rincorrono nei discorsi pubblici. Il g spearmaniano è preciso ma riferito a umani. L’AGI è ambizioso ma vago. La generality di benchmark è operativa ma stretta. Confonderli è la radice di molte discussioni circolari sulla “intelligenza” di un LLM. Quando in questo libro si dice che un sistema è “più generale” di un altro, ci si riferisce alla terza accezione, salvo specifica diversa.

Un capitolo su un costrutto contestato come g rischia di lasciare il lettore in mezzo al guado. Provo a fissare quattro ancore.

Primo: il positive manifold è un dato empirico stabile. Comunque la si pensi su g, quel pattern di correlazioni positive tra test cognitivi eterogenei va spiegato. Le spiegazioni serie sono almeno quattro (causa comune, mutualismo, sampling, teorie miste) e nessuna è ovviamente vincente.

Secondo: g è un fattore latente derivato da un metodo statistico, non una “cosa” nel cervello. Spearman pensava che lo fosse, Carroll era più cauto, Jensen ha tentato di dimostrarlo via correlati biologici con risultati interessanti ma non conclusivi.

Terzo: la distinzione Gf/Gc resta il contributo più trasportabile della tradizione. Anche chi non accetta il g come entità trova utile separare “ragionamento su problemi nuovi” da “conoscenza accumulata”. Questa distinzione ha guidato Chollet nella progettazione di ARC e continuerà a essere usata nei prossimi anni di valutazione AI.

Quarto: importare g in AI è un esercizio interpretativo, non una misurazione. Le cautele necessarie sono tante e specifiche al dominio. Usare il vocabolario psicometrico per parlare di modelli aiuta il pensiero; pretendere di “calcolare il g di un LLM” come si fa con un soggetto umano è un overreach.

  • Positive manifold: il fatto empirico che tutte le correlazioni tra test cognitivi sono positive.
  • g (general factor): fattore latente comune che spiega gran parte del positive manifold.
  • g loading: correlazione di un test col fattore g; misura quanto il test “satura” g.
  • Gf (fluid intelligence): ragionamento su problemi nuovi, indipendente da conoscenza specifica.
  • Gc (crystallized intelligence): conoscenza accumulata, vocabolario, fatti.
  • CHC (Cattell-Horn-Carroll): modello gerarchico standard nei test psicometrici, con g in cima.
  • Three-stratum theory: la gerarchia di Carroll: g, broad abilities, narrow abilities.
  • IQ: Intelligence Quotient, punteggio standardizzato (mean=100, sd=15).
  • Flynn effect: aumento secolare dei punteggi IQ documentato nel Novecento.
  • ARC: Abstraction and Reasoning Corpus, benchmark di Chollet ispirato a Gf.
  • Tetrad differences: criterio originale di Spearman per testare il modello a un fattore.
  • Mutualism model (van der Maas): modello dinamico che spiega il positive manifold senza un g latente.
  • Spearman, C. (1904). “General Intelligence, Objectively Determined and Measured”. American Journal of Psychology, 15(2), 201-292. L’articolo fondativo. Letto oggi è sorprendentemente leggibile.
  • Carroll, J. B. (1993). Human Cognitive Abilities: A Survey of Factor-Analytic Studies. Cambridge University Press. Riferimento canonico per CHC; trecento pagine di analisi metodica.
  • Chollet, F. (2019). “On the Measure of Intelligence”. arXiv:1911.01547. La rilettura moderna di Cattell applicata ad AI; introduce ARC.
  • Deary, I. J., Penke, L., & Johnson, W. (2010). “The neuroscience of human intelligence differences”. Nature Reviews Neuroscience, 11(3), 201-211. Stato dell’arte sui correlati neurali del g.
  • Hernández-Orallo, J. (2017). The Measure of All Minds: Evaluating Natural and Artificial Intelligence. Cambridge University Press. La sintesi più ambiziosa tra psicometria umana e valutazione AI.
  • van der Maas, H. L. J. et al. (2006). “A dynamical model of general intelligence: the positive manifold of intelligence by mutualism”. Psychological Review, 113(4), 842-861. La critica costruttiva più seria al g spearmaniano negli ultimi vent’anni.
  • Jensen, A. R. (1998). The g Factor: The Science of Mental Ability. Praeger. Il riferimento canonico della tradizione “g realista”. Da leggere con consapevolezza dei limiti dell’autore su altre questioni.
  • Flynn, J. R. (1987). “Massive IQ gains in 14 nations”. Psychological Bulletin, 101(2), 171-191. Il paper che ha mostrato che i punteggi IQ non sono fissi nei decenni.
  • Schmidt, F. L., & Hunter, J. E. (1998). “The validity and utility of selection methods in personnel psychology”. Psychological Bulletin, 124(2), 262-274. La meta-analisi di riferimento sulla validità predittiva del g per performance lavorativa.
  • Gardner, H. (1983). Frames of Mind: The Theory of Multiple Intelligences. Basic Books. La critica più influente al g, pur con i suoi limiti empirici.
flowchart TD
    G[g — Stratum III]
    G --> Gf[Gf — fluida]
    G --> Gc[Gc — cristallizzata]
    G --> Gv[Gv — visuo-spaziale]
    G --> Ga[Ga — uditiva]
    G --> Gs[Gs — velocità]
    G --> Gsm[Gsm — memoria a breve]
    G --> Glr[Glr — recupero a lungo]
    G --> Gq[Gq — quantitativa]
    Gf --> Gf1[ragionamento induttivo]
    Gf --> Gf2[ragionamento deduttivo]
    Gc --> Gc1[lessico]
    Gc --> Gc2[conoscenza generale]
    Gv --> Gv1[rotazione mentale]
    Gv --> Gv2[visualizzazione]

Figura 2 — correlation matrix of cognitive subtests with positive manifold highlighted

flowchart TD
    G[g — Stratum III]
    G --> Gf[Gf — fluida]
    G --> Gc[Gc — cristallizzata]
    G --> Gv[Gv — visuo-spaziale]
    G --> Ga[Ga — uditiva]
    G --> Gs[Gs — velocità]
    G --> Gsm[Gsm — memoria a breve]
    G --> Glr[Glr — recupero a lungo]
    G --> Gq[Gq — quantitativa]
    Gf --> Gf1[ragionamento induttivo]
    Gf --> Gf2[ragionamento deduttivo]
    Gc --> Gc1[lessico]
    Gc --> Gc2[conoscenza generale]
    Gv --> Gv1[rotazione mentale]
    Gv --> Gv2[visualizzazione]

Figura 2 — three-stratum hierarchy: g on top, broad abilities in middle, narrow abilities at bottom

scatter plot of fluid vs crystallized intelligence across age, with peak of Gf around 25 and steady growth of Gc

flowchart TD
    G[g — Stratum III]
    G --> Gf[Gf — fluida]
    G --> Gc[Gc — cristallizzata]
    G --> Gv[Gv — visuo-spaziale]
    G --> Ga[Ga — uditiva]
    G --> Gs[Gs — velocità]
    G --> Gsm[Gsm — memoria a breve]
    G --> Glr[Glr — recupero a lungo]
    G --> Gq[Gq — quantitativa]
    Gf --> Gf1[ragionamento induttivo]
    Gf --> Gf2[ragionamento deduttivo]
    Gc --> Gc1[lessico]
    Gc --> Gc2[conoscenza generale]
    Gv --> Gv1[rotazione mentale]
    Gv --> Gv2[visualizzazione]

Figura 2 — timeline of g factor debate from Spearman 1904 to Chollet 2019

scatter plot of MMLU scores vs ARC-AGI scores across LLM models, with regression line and outliers labeled

flowchart TD
    G[g]
    V[Verbale]
    N[Numerico]
    S[Spaziale]
    M[Memoria]
    G --> V1[Vocabolario]
    G --> V2[Comprensione]
    G --> N1[Aritmetica]
    G --> N2[Serie numeriche]
    G --> S1[Block Design]
    G --> S2[Rotazione]
    G --> M1[Digit Span]
    G --> M2[Letter-Number]
    V -.-> V1
    V -.-> V2
    N -.-> N1
    N -.-> N2
    S -.-> S1
    S -.-> S2
    M -.-> M1
    M -.-> M2

Figura 6 — bifactor model diagram: one general g factor plus orthogonal group factors (verbal, numerical, spatial)

flowchart TD
    G[g]
    V[Verbale]
    N[Numerico]
    S[Spaziale]
    M[Memoria]
    G --> V1[Vocabolario]
    G --> V2[Comprensione]
    G --> N1[Aritmetica]
    G --> N2[Serie numeriche]
    G --> S1[Block Design]
    G --> S2[Rotazione]
    G --> M1[Digit Span]
    G --> M2[Letter-Number]
    V -.-> V1
    V -.-> V2
    N -.-> N1
    N -.-> N2
    S -.-> S1
    S -.-> S2
    M -.-> M1
    M -.-> M2

Figura 6 — example Raven Progressive Matrix item with empty cell and eight answer options