L'AI può essere un agente morale?

Stoccarda, ottobre 2016. Un manager di Mercedes-Benz dichiara a una rivista di settore che le auto a guida autonoma del marchio, in caso di trolley problem, proteggeranno prima gli occupanti. La dichiarazione fa il giro del mondo in quarantotto ore. Per la prima volta una grande azienda pubblicamente attribuisce a una macchina una scelta morale, e per la prima volta il pubblico generale si trova davanti la domanda che la filosofia accademica si era posta dodici anni prima, in un paper di Luciano Floridi e Jeff Sanders apparso sul Minds and Machines del 2004: un sistema artificiale può essere agente morale, e in che senso?

Perché questo capitolo

La filosofia morale degli ultimi due millenni ha sviluppato il concetto di agente morale per esseri umani adulti competenti. Aristotele lo ancora alla scelta deliberata (proairesis), Kant alla legge che ci si da’, Mill alla capacità di calcolare le conseguenze, Aristotele e i suoi eredi virtuisti alle disposizioni del carattere. In ogni caso, il modello è implicito: un essere razionale, cosciente, libero, capace di intenzioni e di emozioni morali, che agisce nel mondo e ne risponde. La domanda se un sistema artificiale possa esserlo non si pone fino agli anni Novanta, e diventa centrale solo dopo il 2004.

Il problema non è accademico. Sistemi AI già’ prendono o influenzano decisioni con impatto morale concreto: algoritmi di sentencing nei tribunali statunitensi (COMPAS, denunciato da ProPublica nel 2016), sistemi di credit scoring, sistemi diagnostici medici, sistemi di moderazione di contenuti su scala miliardaria, veicoli autonomi che hanno già’ causato vittime (Elaine Herzberg, investita da un veicolo Uber a Tempe in Arizona il 18 marzo 2018). Quando il sistema sbaglia, qualcuno deve rispondere. Dire “l’AI è solo uno strumento” non chiude il discorso: chi sia lo strumento e chi lo usi non è ovvio quando il sistema apprende e si adatta, e quando il danno emerge da una catena di decisioni che né progettista né utente possono ricostruire.

Questo capitolo ricostruisce le tre risposte di base che la letteratura ha articolato fra il 2004 e il 2010: il NO conservativo (l’AI resta strumento, la responsabilità è degli umani), il SI massimalista (sistemi sufficientemente sofisticati sono agenti pieni), il SI graduato (l’AI è agente morale in qualche senso meno esigente di quello umano). La terza risposta, oggi maggioritaria, ha tre articolazioni canoniche: i tre criteri di Floridi e Sanders (interactivity, autonomy, adaptability), i quattro livelli di Moor (ethical-impact, implicit, explicit, full), gli approcci top-down/bottom-up/hybrid di Wallach e Allen. Capire queste tre articolazioni è capire il vocabolario con cui si parla di agency morale di AI quando si vuole farlo seriamente.

Una premessa lessicale che evita meta delle confusioni. In filosofia morale si distingue da decenni fra agente morale (chi compie azioni moralmente valutabili e ne risponde) e paziente morale (chi può essere oggetto di azioni moralmente valutabili e merita considerazione). Tutti gli umani adulti competenti sono entrambe le cose. Un neonato è paziente morale ma non agente. Una pietra non è né agente né paziente. Questo capitolo tratta solo il primo asse. Il secondo, l’AI come oggetto di considerazione morale, è demandato a ai-paziente-morale. I due problemi si intrecciano ma non coincidono: si può riconoscere a un sistema agency morale in qualche senso senza riconoscergli patiency, e viceversa.

Il capitolo presuppone la lettura di funzionalismo (la cornice filosofica che rende AMA pensabile), intenzionalita (il presupposto contestato per agency in senso pieno), e stanza-cinese-searle (l’argomento classico contro la comprensione vera in AI, riformulato qui in chiave morale). Le tradizioni etiche normative (consequenzialismo, deontologia, virtu) vengono citate ma non trattate: trattazione completa demandata ai capitoli etica-consequenzialista-ai, etica-deontologica-ai, etica-virtu-ai.

Contesto

La letteratura sull’agency morale dell’AI ha un punto di nascita identificabile: l’agosto 2004, quando Minds and Machines pubblica “On the Morality of Artificial Agents” di Luciano Floridi (filosofo italiano, 1964-, allora a Oxford, oggi alla Yale University) e Jeff W. Sanders (computer scientist, allora al Programming Research Group di Oxford). Il paper introduce il termine artificial moral agent (AMA), propone tre criteri funzionali per riconoscerlo, e formula la tesi della “mindless morality”: agency morale non richiede mente, basta una struttura funzionale appropriata.

Due anni dopo, nel luglio-agosto 2006, IEEE Intelligent Systems pubblica “The Nature, Importance, and Difficulty of Machine Ethics” di James H. Moor (filosofo americano, 1942-, Dartmouth College, già’ autore nel 1985 di “What Is Computer Ethics?”, un altro paper inaugurale). Moor propone i quattro livelli che diventeranno standard: ethical-impact agents, implicit ethical agents, explicit ethical agents, full ethical agents.

Nel 2009 Oxford University Press pubblica Moral Machines: Teaching Robots Right from Wrong di Wendell Wallach (Yale Interdisciplinary Center for Bioethics) e Colin Allen (filosofo e cognitive scientist, Indiana University, poi University of Pittsburgh). È la prima monografia sistematica del campo. Distingue tre approcci all’implementazione di AMA: top-down (regole codificate), bottom-up (apprendimento), hybrid.

Parallelamente, nel 2004, su Ethics and Information Technology, esce “The responsibility gap: Ascribing responsibility for the actions of learning automata” di Andreas Matthias (filosofo tedesco). Il paper formalizza un problema che resta centrale: quando un sistema autonomo che apprende causa un danno, né il programmer né l’utente possono ragionevolmente essere ritenuti responsabili. Si apre un gap fra azione e responsabilità imputabile. Il gap è la principale ragione pratica per prendere sul serio il concetto di AMA.

Il quadro storico è importante perché aiuta a non sovrapporre il dibattito sulla machine ethics di vent’anni fa con quello sui large language models di oggi. La machine ethics nasce pensando a robot, sistemi esperti medici, software di trading, agenti software autonomi nel senso del primo Web 2.0. Gli LLM, gli agentic systems, il framework Constitutional AI sono entrati nella discussione molto più tardi, e la solidita del framework Floridi-Moor-Wallach-Allen rispetto a quei sistemi va testata, non assunta.

Va anche ricordato un antecedente importante: la tradizione di “computer ethics” inaugurata da Norbert Wiener già’ negli anni Cinquanta (The Human Use of Human Beings, Houghton Mifflin, 1950, e God and Golem, Inc., MIT Press, 1964) e poi sistematizzata da James Moor in “What Is Computer Ethics?” (Metaphilosophy 16, 1985). La machine ethics nasce come specializzazione di questo programma più generale, focalizzata su sistemi che agiscono in modo sufficientemente autonomo da porre problemi specifici di agency. La continuita disciplinare è importante: chi si occupa di machine ethics tende a venire dalla tradizione di computer ethics.

Va segnalato un’asimmetria geografica e disciplinare. La machine ethics anglofona del primo decennio nasce in dialogo con la computer science, l’AI, la roboetica. La filosofia morale continentale (kantiana, fenomenologica) si è affacciata sul tema più tardi e in modo più critico, spesso da posizioni di scetticismo radicale (gli umani sono insostituibili in materia morale per ragioni di dignità, di esperienza vissuta, di carne). La proporzione fra le due voci nella letteratura accademica resta sbilanciata a favore della prima.

Va anche segnalato che la disciplina nasce in un periodo (2004-2010) in cui i sistemi AI più sofisticati erano i sistemi esperti, gli agenti software autonomi nel senso del primo Web 2.0, i robot di servizio. Gli autori fondatori avevano in mente sistemi più prevedibili degli LLM contemporanei, e la transizione verso sistemi statistici di larga scala ha cambiato le condizioni del problema senza che il vocabolario teorico si aggiornasse di pari passo. Molti dei concetti chiave (interactivity, autonomy, adaptability, top-down vs bottom-up, livelli 2 e 3 di Moor) restano applicabili, ma con un indice di stress superiore a quello previsto dagli autori originari. Questo spiega in parte perché la letteratura più recente torni regolarmente a problematizzare le definizioni di base.

L’intuizione

Due angoli, complementari ma con accenti diversi.

Angolo 1 — Concettuale: cosa richiede agency morale

Considera cosa la tradizione filosofica ha richiesto per attribuire a un’entita responsabilità morale. Per Aristotele in Etica Nicomachea libro III, capp. 1-5, l’agente morale agisce volontariamente, sa cosa sta facendo, sceglie deliberatamente fra alternative. Da qui escludono i bambini, gli ubriachi, i coercizzati, gli ignoranti incolpevoli. Per Kant nella Fondazione della metafisica dei costumi (1785), l’agente morale agisce autonomamente, da una legge che si da’ egli stesso, indipendente dalle inclinazioni sensibili. Per Hume nel Trattato sulla natura umana (1739-40), la valutazione morale dipende dai sentimenti morali (simpatia, indignazione, biasimo), e quindi richiede una psicologia capace di tali sentimenti.

Le tradizioni differiscono sul dettaglio. Convergono però su quattro requisiti minimi che si trovano in quasi tutte le formulazioni:

Capacità di intenzione: l’agente fa qualcosa intenzionalmente, non per puro effetto causale.
Comprensione delle conseguenze: sa, almeno in linea di massima, cosa la sua azione produrra’.
Libertà: avrebbe potuto fare altrimenti (almeno in qualche senso compatibilista).
Sensibilità morale: è suscettibile di stati che fungono da motivazione e da feedback morale (rimorso, soddisfazione, indignazione, vergogna).

Una pietra che cade su un piede e provoca dolore non è agente morale: non c’e intenzione, non c’e comprensione, non c’e libertà, non c’e sensibilità. Un bambino di tre anni che strappa le ali a una mosca non è (ancora) agente morale pieno: c’e qualche intenzione ma non c’e comprensione delle conseguenze ne sensibilità morale matura. Un adulto sano che picchia uno sconosciuto è agente morale: ha tutte e quattro le caratteristiche.

L’AI, in particolare gli LLM e gli agentic systems contemporanei, ha qualcuna di queste caratteristiche? La risposta dipende da come si interpretano i requisiti. Capacità di intenzione: se intenzione richiede intenzionalita intrinseca nel senso di Searle (vedi intenzionalita), AI non ce l’ha. Se basta intenzionalita derivata o intenzionalita funzionale, ce l’ha in qualche senso. Comprensione: stesso dilemma. Libertà: questione antica e irrisolta anche per gli umani. Sensibilità morale: AI non ha emozioni in senso fenomenico; ha però comportamenti che mimano la sensibilità morale (refusal patterns, espressioni di rincrescimento).

L’angolo concettuale rivela che la domanda “AI è agente morale?” non ha risposta diretta. Dipende da quale modello di agency morale si assume. Le posizioni teoriche sulla mente (vedi funzionalismo, computazionalismo, intenzionalita) determinano in larga misura la risposta.

Angolo 2 — Pragmatico: ci serve un linguaggio per gestire la responsabilità

C’e poi un angolo del tutto diverso, che muove dalla pratica anziche dalla teoria. Sistemi AI prendono decisioni con impatto morale, e la società deve articolare un linguaggio per parlare di responsabilità in casi nuovi. Tre scenari, ciascuno reale.

Primo scenario. Un veicolo a guida autonoma investe un pedone. Chi è responsabile? Il programmer (non poteva prevedere quella scena specifica)? Il conducente (non aveva il controllo dello sterzo)? Il proprietario? Il produttore (catena di subfornitori)? Il pedone (ha attraversato fuori strisce)? L’algoritmo? Nel caso reale di Tempe Arizona del 2018, la safety driver Rafaela Vasquez è stata condannata per omicidio colposo nel 2023; Uber non è stata perseguita penalmente. Ma il caso ha lasciato una sensazione di malessere giuridico: il sistema causale che ha prodotto il danno includeva più attori, e nessuno corrisponde appieno alla figura tradizionale del responsabile.

Secondo scenario. Un algoritmo di sentencing usato in più Stati USA (COMPAS, di Northpointe) viene documentato da ProPublica nel maggio 2016 come razzialmente biased: predice recidiva più spesso per imputati neri che per imputati bianchi a parita di altri fattori, e meno spesso per imputati bianchi. I giudici si appoggiano allo strumento. Chi è responsabile della discriminazione algoritmica? L’algoritmo (no agency)? Northpointe (non ha scelto i singoli output)? I giudici (lo usano come strumento)? Lo Stato (lo ha approvato)?

Terzo scenario. Un chatbot rilasciato in produzione (Tay, Microsoft, marzo 2016) viene reso razzista in 24 ore tramite input avversari. Microsoft ritira il bot e si scusa. La responsabilità ricade chiaramente sull’azienda. Ma la velocità con cui il sistema è “diventato” razzista, e l’impossibilita di prevedere i pattern specifici, illustrano un problema strutturale: il bottom-up learning amplifica la difficoltà di assegnare responsabilità anticipatamente.

L’angolo pragmatico non risponde a “AI è agente morale?” in senso teorico. Mostra però che servono concetti articolati per parlare di responsabilità in questi casi, e che le categorie del diritto e dell’etica tradizionali (intenzione, negligenza, dolo, controllo causale) sono sotto pressione. Riconoscere all’AI qualche grado di agency morale, anche solo funzionale, è un modo per costruire questi concetti. È la mossa di Floridi-Sanders 2004.

I due angoli convergono nel mostrare che la domanda del capitolo non è “si o no”, ma “in quale senso e con quali conseguenze”. Il trattamento successivo nella sezione “La meccanica” sviluppa entrambe le linee, con preferenza per articolazioni graduate (non binarie) della nozione di agency morale.

Una nota di metodo. Il dibattito sull’agency morale di AI riproduce in chiave nuova un dibattito molto più antico: a chi attribuiamo agency morale, e su quali basi? La storia della filosofia morale ha visto progressive estensioni della categoria (donne, schiavi, persone di razze diverse, bambini in eta crescente, persone con disabilita, animali). Ogni estensione è stata resistita e poi accettata sulla base di argomenti funzionali (capacità di soffrire, di scegliere, di rispondere a ragioni). L’estensione a sistemi artificiali, se avverra, seguira probabilmente una traiettoria simile. La storia non garantisce nulla sull’esito finale, ma marca la struttura del dibattito.

La meccanica

Sette sotto-sezioni: definizioni, le tre risposte di base, Floridi-Sanders 2004 in dettaglio, Moor 2006 in dettaglio, Wallach-Allen 2009 in dettaglio, argomenti pro AMA, argomenti contro AMA.

Definizioni

Sei termini chiave, ciascuno introdotto con cura, perché la confusione lessicale è la principale fonte di dispute spurie nel campo.

Le definizioni che seguono sono allineate con la letteratura standard (Floridi-Sanders 2004, Moor 2006, Wallach-Allen 2009, Coeckelbergh 2020). Differenze di vocabolario fra autori sono frequenti; quando rilevanti, sono segnalate.

Agente morale (moral agent): entita capace di compiere azioni moralmente valutabili e di esserne responsabile. Tipicamente: capacità di intenzione, comprensione delle conseguenze, libertà di scelta, sensibilità morale. Tradizionalmente solo umani adulti competenti. La nozione attraversa la storia della filosofia morale: per Aristotele è chi ha proairesis, scelta deliberata; per Kant chi è soggetto della legge morale; per Mill chi può calcolare conseguenze; per la tradizione virtuista chi ha disposizioni stabili del carattere. Le tradizioni differiscono, convergono sul nucleo.

Paziente morale (moral patient): entita verso cui si possono avere doveri morali, che merita considerazione morale. Esempi tradizionali: tutti gli umani (anche bambini, anche soggetti incapaci), animali (dibattuto, soprattutto dopo Peter Singer, Animal Liberation, HarperCollins, 1975), oggetti (no, in via standard). La distinzione paziente/agente non è simmetrica: ci sono pazienti che non sono agenti (bambini, animali), ma è difficile pensare ad agenti che non siano pazienti (un’ipotetica entita morale che non possa subire alcunche).

Moral responsibility: l’essere giustamente oggetto di blame, lode, punizione, ricompensa per le proprie azioni. Richiede tipicamente i quattro requisiti elencati sopra (intenzione, comprensione, libertà, sensibilità). Chi non li soddisfa (bambino, demente, coercizzato) ne è esentato in tutto o in parte. Il diritto penale articola gradi di responsibility: dolo, colpa con previsione, colpa, mero accident, ciascuno con conseguenze giuridiche diverse. La filosofia morale ha categorie analoghe.

Moral accountability: l’essere chiamato a rendere conto delle proprie azioni in termini morali. Floridi-Sanders 2004 distinguono tecnicamente accountability da responsibility: la prima è più debole, non richiede tutti i requisiti psicologici della seconda. Un sistema può essere accountable (le sue azioni si ascrivono a lui in termini morali, e si può agire su di lui in conseguenza) senza essere responsible nel senso pieno (suscettibile di blame con tutti i pesi morali che il termine porta con sé nella tradizione).

Artificial Moral Agent (AMA): termine introdotto da Floridi-Sanders 2004. Sistema artificiale che soddisfa criteri funzionali per essere agente morale, almeno nel senso accountable. La sigla AMA è standard nella letteratura. Una variante terminologica è autonomous moral agent, usata da alcuni autori (Allen, Smit, Wallach, “Artificial Morality: Top-down, Bottom-up, and Hybrid Approaches”, Ethics and Information Technology 7, 2005). Le due sigle si sovrappongono in pratica.

Responsibility gap: situazione in cui un sistema autonomo causa un danno e nessun attore umano può essere giustamente ritenuto responsabile, né il programmer (non poteva prevedere quel comportamento), né l’utente (non lo controllava). Concetto introdotto da Matthias 2004 in modo formale, ma intuizioni simili circolavano già’ negli anni Novanta nel dibattito su sistemi esperti medici. Il gap apre problemi concreti: legali, assicurativi, normativi.

Le tre risposte di base

Risposta 1: NO. L’AI non può essere agente morale

Posizione conservativa. AI è uno strumento sofisticato, come un martello o una pistola. La responsabilità ricade interamente sui designer, deployer, utenti umani. La pistola che spara non è agente morale: lo è chi la impugna, chi l’ha venduta, chi l’ha legalizzata. Stessa cosa per AI.

Sostenitori. Joanna Bryson (computer scientist, Universita di Bath, oggi Hertie School), in “Robots Should Be Slaves” (in Yorick Wilks ed., Close Engagements with Artificial Companions, John Benjamins, 2010), argomenta esplicitamente che dobbiamo progettare i robot in modo che restino strumenti, non agenti. Riconoscere loro agency morale ci scarica della nostra responsabilità di progettarli bene. Bryson è una voce influente sul lato anti-AMA della comunità.

Argomenti a supporto. AI manca intenzionalita intrinseca (Searle, vedi stanza-cinese-searle): senza vera comprensione, non può esserci agency morale autentica. AI manca libero arbitrio: un sistema deterministico (o stocastico ma non libero) non sceglie. AI manca emozioni morali: provare colpa, vergogna, empatia è parte costitutiva dell’agency morale (sentimentalismo humeano, neuroetica contemporanea); un sistema senza queste funzioni non può essere agente.

Critiche. La posizione collassa quando il sistema ha grado di autonomia tale che né designer né utente possono predire o controllare il comportamento. Qui nasce il responsibility gap di Matthias 2004. Inoltre, paragonare AI a un martello sottovaluta l’asimmetria: un martello non apprende, non ha policy interne, non si adatta. La metafora dello strumento puro sta sotto pressione già’ dal 2004.

Risposta 2: SI. L’AI può essere agente morale in senso pieno

Posizione massimalista. AI sufficientemente sofisticata è agente morale come un umano adulto, in linea di principio. Tipicamente legata a posizioni funzionaliste forti (vedi funzionalismo): se agency morale è un ruolo causale realizzabile in più sostrati, qualunque sistema che svolga quel ruolo lo è.

È la posizione meno difesa esplicitamente nella letteratura accademica. Pochi autori dicono che gli LLM attuali siano agenti morali pieni. Compare più spesso come limite di posizioni funzionaliste, o come scenario speculativo per AGI futura. Voci vicine: alcuni passaggi di David Chalmers su AI consciousness, le speculazioni di Eric Schwitzgebel (UC Riverside) sulla morally relevant AI.

Risposta 3: SI, in senso debole o graduato

Posizione mediana, oggi maggioritaria nella comunità machine ethics. AI può essere agente morale in qualche senso meno esigente di quello umano. Le formulazioni differiscono, ma convergono sull’idea che agency morale non sia un predicato binario (la si ha o non la si ha) ma un cluster graduato di proprietà che vari sistemi possono soddisfare in vari gradi.

Tre articolazioni canoniche: Floridi-Sanders 2004, Moor 2006, Wallach-Allen 2009. Le esamino una per una.

Three positions on AI moral agency: three vertical columns with header labels “NO: AI is a tool”, “YES, weak: AI is moral agent in some graduated sense”, “YES, full: AI is moral agent like humans”. Each column has supporters listed and a one-line summary. Column 1: “Bryson 2010, conservative position, classical critique. Summary: AI lacks intentionality, free will, emotions; responsibility belongs to humans”. Column 2: “Floridi-Sanders 2004, Moor 2006, Wallach-Allen 2009, Coeckelbergh 2020. Summary: AI satisfies functional criteria for accountability, even without consciousness; mindless morality”. Column 3: “Strong functionalist limit, speculative AGI scenarios. Summary: sufficiently sophisticated AI satisfies all requirements for full moral agency, in principle”. Subtitle reads “the three families of responses in the literature 2004-2024”. Clean editorial style, English labels

Floridi-Sanders 2004 in dettaglio

Il paper “On the Morality of Artificial Agents” è considerato il manifesto inaugurale della disciplina nota come machine ethics o artificial morality. Pubblicato su Minds and Machines (volume 14, numero 3, agosto 2004, pagine 349-379), si presenta come tentativo di scollegare la categoria di agente morale da quella di persona umana, mantenendo ciò che è essenziale (l’azione moralmente valutabile) e mettendo in parentesi ciò che è antropocentrico (la mente fenomenica). Tre tesi centrali.

Prima tesi: i tre criteri funzionali per agency

Un sistema è un artificial agent se soddisfa, sopra una soglia minima, tre proprietà:

Interactivity: il sistema interagisce con il proprio ambiente, riceve input, produce output, modifica e viene modificato.
Autonomy: il sistema è capace di cambiare stato interno in modo indipendente dalla diretta interazione esterna; ha stati propri, non è solo trasformatore di input.
Adaptability: il sistema modifica le proprie regole di transizione in funzione dell’esperienza; in altre parole, impara.

Se in più le sue azioni hanno conseguenze valutabili come morally good or bad, il sistema è un artificial moral agent (AMA).

I tre criteri sono volutamente liberali. Molti sistemi software contemporanei li soddisfano. Un programma di trading algoritmico li soddisfa tutti e tre. Un LLM che fa fine-tuning online li soddisfa tutti e tre. Un thermostat semplice (puro feedback) li soddisfa solo in parte (manca adaptability). Un cane robotico Sony AIBO degli anni 2000 li soddisfava in modo limitato.

La liberalita dei criteri è insieme la forza e la debolezza della proposta. Forza: rende AMA una categoria operativa, non riservata a futuri scenari di AGI. Debolezza: la categoria si gonfia rapidamente, e la distinzione fra AMA e mero artificial agent si appoggia interamente sulla contestualita della valutazione “morally good or bad”, che dipende da chi giudica e con quali criteri.

Seconda tesi: mindless morality

Agency morale non richiede mente, non richiede intenzionalita intrinseca nel senso di Searle, non richiede coscienza fenomenica. Richiede solo i tre criteri funzionali sopra. Floridi rivendica esplicitamente la tesi come deliberatamente non antropocentrica: la morale può essere distribuita in molti tipi di entita, non solo in quelle dotate di vita interna.

La mossa è di tipo funzionalista. Rispecchia, mutatis mutandis, la mossa che Putnam aveva fatto negli anni Sessanta per gli stati mentali (vedi funzionalismo): ciò che conta non è il sostrato, è il ruolo causale. Se uno stato mentale può essere realizzato in silicio o in neuroni, anche agency morale può esserlo. La differenza è che Floridi-Sanders applicano il funzionalismo non a un singolo stato mentale ma a una proprietà normativa (essere agente morale).

L’analogia con il funzionalismo è una analogia, non una filiazione (Floridi non sostiene di derivare la sua proposta da Putnam in modo lineare) e non una equivalenza (la proposta di Floridi va oltre Putnam, applicandosi a categorie morali e non solo mentali). La marcatura della classe di affermazione è importante per evitare scivolamenti: non stiamo dicendo che “Floridi è funzionalista nello stesso senso di Putnam”, stiamo dicendo che la sua mossa logica è isomorfa a quella di Putnam.

Terza tesi: distinzione fra accountability e responsibility

Floridi-Sanders distinguono tecnicamente:

Moral accountability: l’agente può essere chiamato a rendere conto delle proprie azioni in termini morali; le sue azioni hanno valore morale e si possono ricondurre a lui.
Moral responsibility: l’agente può essere giustamente oggetto di blame morale, lode, punizione, ricompensa nel senso pieno richiesto per umani.

Tutti gli AMA sono accountable. Solo gli agenti dotati di stati intenzionali pieni (umani) sono responsibile nel senso pieno. La distinzione risolve un paradosso apparente: un sistema può “fare cose moralmente rilevanti senza avere mente” se gli si riconosce accountability senza estendere automaticamente la responsibility.

Non si “punisce” un AMA come si punisce un umano (non avrebbe senso); si interviene sui suoi parametri, lo si riprogramma, lo si sospende, lo si dismette. L’analogo morale di “punire” è il diritto del modificare-disinstallare il sistema problematico. La risposta sembra paradossale solo se si confonde la nozione tradizionale di “punire” (sofferenza inflitta come retribuzione, deterrenza, riabilitazione) con il concetto più generale di “rispondere a un’azione moralmente rilevante intervenendo sull’agente”. Floridi sostiene che il secondo concetto è più fondamentale del primo, e che il primo è una sua specifica forma applicabile a esseri capaci di sentire.

La distinzione è tecnica ma filosoficamente densa. Permette a Floridi di estendere agency morale ben oltre la specie umana senza dover dire che gli AMA sono “persone” nel senso tradizionale. Permette inoltre di gestire pragmaticamente il responsibility gap di Matthias: anche quando nessun umano è propriamente responsibile, l’AMA è accountable, e si può agire su di lui.

Moor 2006 in dettaglio

James H. Moor in “The Nature, Importance, and Difficulty of Machine Ethics” propone un framework gradualista che ha avuto enorme successo per la sua chiarezza. Quattro livelli di agency etica AI, in ordine crescente.

Livello 1: Ethical-impact agents

Qualunque sistema le cui azioni hanno conseguenze etiche. L’esempio di Moor è un orologio da polso: tenere l’ora ha conseguenze etiche (far arrivare il dottore in tempo per salvare un paziente, per esempio). La categoria è amplissima e quasi banale: praticamente qualunque artefatto in uso può avere ethical impact.

L’apertura della categoria 1 ha una funzione metodologica: serve a Moor per stabilire che l’eticita non è una proprietà riservata a sistemi sofisticati. Anche un termostato ha ethical impact (far funzionare il riscaldamento giusto può salvare o uccidere). La domanda interessante è a quale livello salire.

Livello 2: Implicit ethical agents

Sistemi progettati per evitare effetti non etici. Esempio di Moor: l’autopilot di un aereo, progettato per evitare collisioni. Esempio: un ATM progettato per non addebitare due volte lo stesso prelievo. L’eticita è codificata implicitamente nel design, non è frutto di ragionamento esplicito da parte del sistema. La categoria copre la stragrande maggioranza dei sistemi safety-critical contemporanei.

Buona parte dell’ingegneria del software safety-critical (avionica, automotive, dispositivi medici) opera al livello 2 da decenni. Le standardizzazioni (DO-178C in avionica, ISO 26262 in automotive, IEC 62304 in medical software) sono in pratica codifiche del livello 2: come progettare sistemi in modo che gli effetti non etici siano implicitamente evitati. La novità di Moor non sta nell’inventare il livello 2 (esisteva da prima), sta nel collocarlo in un framework che si estende oltre.

Livello 3: Explicit ethical agents

Sistemi che ragionano su questioni etiche esplicitamente, applicando regole o principi etici a situazioni nuove. Esempio possibile: un advisor medico che applica principi di triage in modo ragionato. Pochissimi sistemi di questa categoria esistono nel 2006; alcuni esperimenti accademici (MedEthEx di Michael Anderson e Susan Leigh Anderson, “MedEthEx: A Prototype Medical Ethics Advisor”, AAAI 2006). Negli anni 2020 alcune varianti di constitutional/principle-based LLM si avvicinano a questo livello, anche se la natura del loro “ragionamento” etico resta dibattuta.

Il livello 3 è il più interessante filosoficamente. È qui che si gioca la differenza fra “AI che fa cose moralmente buone perché così è stata costruita” e “AI che fa cose moralmente buone perché lo sceglie ragionando”. La differenza non è facile da operazionalizzare. Cosa significa che un LLM “ragiona” su un problema etico? Pattern matching su esempi visti durante il training? Applicazione di regole esplicite scritte in una constitution? Generazione di chain-of-thought con contenuto deliberativo? Le tre cose differiscono, e nessuna corrisponde appieno al ragionamento etico umano.

Livello 4: Full ethical agents

Agenti morali nel senso umano pieno: con coscienza, intenzionalita intrinseca, libero arbitrio, emozioni morali. Solo gli umani adulti competenti, in via standard. Per AI, livello aperto e per molti irraggiungibile in linea di principio.

Moor lascia esplicitamente aperta la questione se qualche AI possa raggiungere il livello 4. La sua posizione personale è di moderato scetticismo: i livelli 1-3 sono dove si gioca la machine ethics utile, il 4 è un orizzonte filosofico più che un programma di ricerca. La posizione resta la più condivisa nella comunità.

La forza del framework di Moor: scioglie la disputa “AI è o non è agente morale” mostrando che la domanda è mal posta. AI può essere agente morale in qualcuno dei sensi 1-3 senza essere agente morale in senso 4. La maggior parte del dibattito utile sta nei livelli 2 e 3. Il livello 4 è un orizzonte: chi lo prende sul serio (Schwitzgebel, Chalmers) lo discute come scenario speculativo; chi lo esclude in linea di principio (Searle) lo usa come argomento di incompletezza dei livelli precedenti.

Moor’s four levels of ethical AI: pyramid with four horizontal layers from bottom to top. Bottom layer “Level 1: Ethical-impact agents” with example “wristwatch, any system whose actions have ethical consequences”. Second layer “Level 2: Implicit ethical agents” with example “aircraft autopilot, ATM, system designed to avoid unethical effects”. Third layer “Level 3: Explicit ethical agents” with example “medical advisor reasoning about ethics, principle-based LLM”. Top layer “Level 4: Full ethical agents” with example “competent adult human, hypothetical AGI with consciousness”. Right side labels: width of layers indicates number of existing systems at each level (bottom widest, top narrowest, with top dashed to indicate hypothetical). Subtitle reads “Moor 2006: machine ethics works at levels 2 and 3; level 4 is open”. Clean editorial style, English labels

Wallach-Allen 2009 in dettaglio

Wendell Wallach e Colin Allen pubblicano Moral Machines: Teaching Robots Right from Wrong (Oxford University Press, 2009): la prima monografia sistematica del campo. Due contributi.

Tre approcci all’implementazione di AMA.

Top-down. Si codificano regole etiche esplicite. Si sceglie una teoria normativa (utilitarismo, deontologia kantiana, etica della virtu) e si traduce in regole computazionali eseguibili. Esempio classico (anche se solo letterario): le tre leggi della robotica di Isaac Asimov, formulate nel racconto “Runaround” (Astounding Science Fiction, marzo 1942). Esempio reale: sistemi esperti medici degli anni Ottanta, che codificavano linee guida di triage in regole if-then. Problemi noti: le teorie etiche sono incomplete e in conflitto fra loro (utilitarismo e deontologia danno spesso risposte diverse); regole esplicite faticano in casi nuovi e sotto vaghezza linguistica; il frame problem dell’AI classica si ripresenta in chiave morale (come riconoscere quali regole sono rilevanti in una situazione nuova?).

Bottom-up. Il sistema impara comportamenti eticamente accettabili da esempi, tramite machine learning supervisionato o reinforcement learning con reward function eticamente strutturata. Problemi noti: il sistema impara cosa fanno i soggetti del training set, che possono essere eticamente discutibili (i bias razziali documentati in COMPAS sono di questa famiglia); manca trasparenza sul perché il sistema decida in un dato modo; manca robustezza fuori distribuzione (out-of-distribution); reward hacking (il sistema ottimizza la funzione di reward senza catturarne lo spirito).

Hybrid. Combinare top-down e bottom-up. Regole esplicite su questioni cruciali (linee invalicabili: non aiutare a costruire armi biologiche, non discriminare per razza), apprendimento su sfumature. La maggior parte dei sistemi AI safety contemporanei (Constitutional AI di Anthropic, RLAIF, RLHF con guideline, vedi rlaif-constitutional per i dettagli tecnici) sono ibridi in questo senso. L’approccio hybrid non risolve i problemi degli altri due, li miscela; ma in pratica risulta meno fragile dei puri top-down e meno opaco dei puri bottom-up.

Quattro capacità che secondo Wallach-Allen un sistema deve avere per essere AMA in senso operativo:

Sensibilità a situazioni eticamente rilevanti (riconoscere quando una decisione ha implicazioni morali).
Conoscenza delle norme applicabili (sapere cosa dicono le regole etiche del dominio).
Capacità di ragionamento etico (applicare regole, gestire conflitti, decidere in casi nuovi).
Capacità di tradurre la decisione in azione effettiva (la deliberazione morale deve agire sul mondo).

Tutte e quattro le capacità sono problematiche per i sistemi attuali, in modi diversi.

Sensibilità: i sistemi spesso falliscono a riconoscere quando una situazione è moralmente carica. Un LLM può non capire che una richiesta apparentemente innocua (“dimmi come smaltire questi farmaci”) è un setup per produrre un danno (occultare un avvelenamento). I jailbreak sfruttano sistematicamente questo deficit di sensibilità.

Conoscenza delle norme: i sistemi le hanno solo nella misura in cui sono state codificate (top-down) o presenti nei dati di training (bottom-up). Le norme variano per cultura, per giurisdizione, per professione. Un sistema che opera globalmente può trovarsi a dover applicare norme contraddittorie. La selezione delle norme da incorporare è essa stessa una scelta morale.

Ragionamento etico: il “ragionamento” degli LLM su questioni etiche è di natura discussa. Pattern matching superficiale su esempi visti durante il training? Generazione di chain-of-thought con contenuto deliberativo genuino? La distinzione è empiricamente difficile da fare, e i benchmark di etica per LLM (ETHICS di Hendrycks et al., 2021; MoralBench, 2024) misurano l’output, non il processo.

Azione: per gli LLM puri il problema non si pone (parlano, non agiscono direttamente). Per gli agentic systems si pone in pieno: modificano file, mandano email, interagiscono con sistemi esterni, fanno commit, eseguono codice. Qui la teoria di Wallach-Allen incontra la pratica dell’agent coding: la quarta capacità non è più un’ipotesi accademica, è una realtà operativa.

Wallach-Allen approaches to building AMA: three vertical panels. Panel 1 “Top-down” with sub-text “explicit rules from ethical theory; example: Asimov three laws, classical expert systems; problems: theory conflicts, brittleness in new cases”. Panel 2 “Bottom-up” with sub-text “learning from examples; example: ML on labelled cases, RL with ethical reward; problems: bias amplification, opacity, OOD failures”. Panel 3 “Hybrid” with sub-text “explicit rules on critical lines plus learning on nuances; example: Constitutional AI, RLAIF, RLHF with guidelines; problems: still inherits limits of both, but currently the most pragmatic path”. Below panels a horizontal arrow labelled “increasing pragmatic adoption 2009-2024” pointing right. Subtitle reads “Wallach-Allen 2009: three strategies, hybrid is currently dominant”. Clean editorial style, English labels

Argomenti pro AMA

Tre argomenti principali. Ciascuno ha forza propria; insieme costituiscono il caso che l’AMA in senso debole/graduato sia oggi la posizione meglio sostenuta.

Argomento funzionalista. Se gli stati mentali sono ruoli causali realizzabili in molti sostrati (Putnam 1967, vedi funzionalismo), allora anche agency morale è un ruolo. Sistemi che svolgono quel ruolo sono moral agents. Floridi-Sanders 2004 sono espliciti nel rivendicare ascendenza funzionalista. La forza dell’argomento dipende interamente dalla solidita del funzionalismo: se cade quello, cade questo. La trattazione delle critiche al funzionalismo (multiple realizability problem, qualia, Block China-Brain, autocritica di Putnam) sta nel capitolo dedicato. Per il presente capitolo basta osservare che la maggioranza della comunità filosofica accetta una qualche versione di funzionalismo, e che l’argomento ha quindi base sufficientemente solida.

Argomento pragmatico. Sistemi AI prendono decisioni con impatto morale concreto. Per gestire la responsabilità, il diritto e la società hanno bisogno di concetti articolati. Riconoscere all’AI qualche grado di agency morale (anche solo funzionale) apre concetti utili: si può ricondurre l’azione al sistema, si può intervenire sul sistema, si può pensare a regimi di accountability senza ridurre tutto a “errore umano del programmatore”. L’argomento non sostiene una tesi metafisica; sostiene una tesi pragmatico-normativa. Marca anche un’analogia, non un’equivalenza, con la storia delle corporazioni: il diritto ha sviluppato la nozione di personalita giuridica corporate per gestire situazioni in cui la responsibility individuale era inadeguata. Estendere o adattare nozioni simili a sistemi AI non è impensabile, anche se controverso.

Argomento del responsibility gap. Andreas Matthias 2004 formalizza il punto: quando un sistema con learning autonomo causa un danno, né programmer né utente possono ragionevolmente essere ritenuti responsabili. Il programmer non poteva prevedere quel comportamento specifico (il sistema ha appreso modificando i suoi parametri); l’utente non lo controllava. Ma il danno c’è. Il gap si apre fra azione dannosa e responsabilità imputabile. Riconoscere all’AI qualche grado di agency morale è uno dei modi (non l’unico) di chiudere o ridurre il gap. Altri modi: responsabilità oggettiva del produttore (modello product liability), fondi di compensazione obbligatori (modello no-fault insurance), divieto preventivo per certe categorie di rischio (modello EU AI Act). Tutti hanno costi e benefici diversi, e i sistemi reali useranno probabilmente combinazioni.

Una quarta posizione pro AMA, meno sviluppata in letteratura ma significativa, è l’argomento dell’analogia con il riconoscimento progressivo di patiency morale agli animali non umani. Singer 1975 e Tom Regan (The Case for Animal Rights, University of California Press, 1983) hanno articolato la richiesta di estendere il cerchio della considerazione morale a esseri non umani sulla base di proprietà funzionali (sentience, capacità di sofferenza). L’estensione dell’agency a entita non umane potrebbe seguire una traiettoria analoga, basata su proprietà funzionali (capacità di azione strutturata in un ambiente, capacità di comprendere conseguenze, capacità di apprendere). L’analogia è suggestiva ma va presa per quello che è: una analogia, non una filiazione storica.

Responsibility gap (Matthias 2004): horizontal flow diagram. Left: “Programmer” box with sub-text “designs the system but cannot predict its specific behavior post-learning”. Center-left: “AI system with learning” box with sub-text “modifies its own parameters from experience”. Center-right: “Action causing harm” box with example “biased sentencing, autonomous vehicle collision, medical misdiagnosis”. Right: “Damaged party” box. Below the flow, three arrows labelled “responsibility?” point upward to a question mark, with three candidate attribution targets crossed out: “Programmer (could not foresee)”, “User (no control)”, “AI itself (no traditional agency)”. Subtitle reads “the gap: action without an attributable responsible party in the traditional sense”. Clean editorial style, English labels

Argomenti contro AMA

Quattro argomenti principali. Anch’essi distinti per natura: due metafisici (intenzionalita, libero arbitrio), uno psicologico (emozioni morali), uno politico-pragmatico (AI come strumento).

Argomento dell’intenzionalita intrinseca (Searle)

AI ha solo intenzionalita derivata: i suoi simboli “significano” qualcosa solo perché noi li interpretiamo (vedi intenzionalita e stanza-cinese-searle). Senza intenzionalita intrinseca, no comprensione delle conseguenze morali, no agency morale autentica. Searle rifiuta esplicitamente di attribuire agency morale a sistemi formali.

La risposta funzionalista (Floridi: agency morale non richiede intenzionalita intrinseca, basta agency funzionale) è contestabile. Chi rifiuta il funzionalismo (Searle, Block in alcuni contesti, autori della tradizione fenomenologica) rifiuta anche AMA in senso forte. Il dibattito sull’intenzionalita determina in larga misura il dibattito sull’AMA: chi prende sul serio la distinzione intrinseca/derivata di Searle non può essere fino in fondo sostenitore di AMA pieno.

Argomento del libero arbitrio

La responsabilità morale presuppone scelta libera. Un sistema deterministico (o stocastico ma non libero) non sceglie. La critica è classica e robusta. Si scontra con il fatto che anche per gli umani il libero arbitrio è contestato (compatibilismo vs incompatibilismo, dibattito millenario).

Trattazione completa del problema demandata a free-will-ai. Risposta funzionalista: se la libertà moralmente rilevante è la capacità di rispondere a ragioni (John Martin Fischer e Mark Ravizza, Responsibility and Control: A Theory of Moral Responsibility, Cambridge University Press, 1998), un sistema sufficientemente sofisticato può soddisfarla in qualche grado. Un LLM che modifica il proprio output in risposta a ragionamento esplicito (“non posso aiutarti perché questo violerebbe X”) esibisce una forma di responsiveness alle ragioni, anche se di natura diversa da quella umana.

Argomento delle emozioni morali

Provare colpa, vergogna, empatia, indignazione è parte costitutiva dell’agency morale. La tradizione humeana (David Hume, A Treatise of Human Nature, 1739-40) sostiene che la valutazione morale ha base sentimentale, non puramente razionale. La neuroetica contemporanea (Antonio Damasio, Descartes’ Error, Putnam, 1994) ha confermato sperimentalmente il punto: pazienti con lesioni alla corteccia prefrontale ventromediale, che riducono le emozioni, mostrano deficit di giudizio morale anche con cognizione razionale intatta.

AI non ha emozioni in senso fenomenico. Quindi non può essere agente morale pieno. Risposta possibile: agency morale richiede funzioni di emozione morale (modulazione del comportamento sulla base di feedback morale), non emozioni in senso fenomenico. Sistemi con refusal patterns, expressed regret, valori interni che modulano l’output svolgono qualcuna di queste funzioni. Ma la risposta è fragile: non è chiaro se le funzioni senza il vissuto siano sufficienti, e la tradizione che fa derivare la moralità dal pathos non si lascia liquidare facilmente.

Argomento “AI come strumento moralmente inerte”. Posizione conservativa standard (Bryson 2010). Pistole, martelli, computer non sono agenti. AI = strumento sofisticato. La risposta del fronte AMA: AI non è come un martello perché apprende, ha policy interne, si adatta. La metafora dello strumento puro sta sotto pressione. Ma la posizione di Bryson ha forza politica: argomenta che riconoscere agency all’AI è funzionale a deresponsabilizzare i suoi produttori, e che la mossa giusta è progettare AI in modo che resti chiaramente strumento, mantenendo il human-in-the-loop come requisito normativo. La proposta di Bryson è deontica, non solo metafisica: non dice solo “AI non è agente”, dice “non dobbiamo costruire AI come agente”.

Una dinamica osservabile: i quattro argomenti contro convergono nel trattare AMA come categoria troppo permissiva, ma divergono sul fronte da difendere. L’argomento dell’intenzionalita difende una concezione metafisica della mente; quello del libero arbitrio una concezione classica della responsabilità; quello delle emozioni una concezione costitutiva della morale; quello dello strumento una posizione politica sulla distribuzione della responsibility nel mondo reale. Un sostenitore di AMA può rispondere a uno degli argomenti senza rispondere agli altri; un avversario può trovare convincente un solo argomento e respingere AMA per quel motivo. La struttura del dibattito non è a una sola dimensione.

Pro and contra AMA arguments: two-column layout. Left column “Pro AMA” with three rows. Row 1 “Functionalist argument: agency is a causal role, multiply realizable, AI satisfies it (Floridi-Sanders 2004)”. Row 2 “Pragmatic argument: society needs articulated concepts to assign responsibility for AI decisions”. Row 3 “Responsibility gap argument: when neither programmer nor user can be held responsible, AMA fills the gap (Matthias 2004)”. Right column “Contra AMA” with four rows. Row 1 “Intrinsic intentionality argument: AI has only derived intentionality, no real understanding (Searle)”. Row 2 “Free will argument: moral responsibility requires free choice; deterministic or stochastic systems do not choose”. Row 3 “Moral emotions argument: guilt, shame, empathy are constitutive of moral agency (Hume, Damasio)”. Row 4 “Tool argument: AI is a sophisticated tool, like a hammer or a gun (Bryson 2010)”. Subtitle reads “the main families of arguments in the 2004-2024 literature”. Clean editorial style, English labels

Esempi

Tre esempi concreti, eterogenei come prescritto: uno scenario filosofico applicato all’ingegneria, un caso giudiziario reale, un esperimento di laboratorio industriale. Ciascuno illustra una sfaccettatura diversa del problema dell’agency morale di AI.

Esempio 1: veicoli autonomi e trolley problem

Il trolley problem è un caso classico della filosofia morale (Philippa Foot 1967, Judith Jarvis Thomson 1976): un carrello impazzito sta per uccidere cinque persone su un binario; puoi deviarlo su un binario laterale dove ne uccidera una. Devi farlo? La maggior parte delle persone risponde si. Variante: un uomo grasso su un ponte; spingerlo giu fermerebbe il carrello e salverebbe le cinque. Devi farlo? La maggior parte delle persone risponde no. Le risposte differiscono pur essendo le conseguenze numericamente identiche. Il trolley problem mostra che le nostre intuizioni morali non sono puramente consequenzialiste: contano anche intenzioni, modi dell’azione, distinzione fra causare e permettere.

Applicato ai veicoli autonomi, il problema diventa: come deve programmare il produttore l’auto in caso di scelta inevitabile? Salvare gli occupanti (responsabilità verso il cliente)? Salvare il maggior numero di vite (utilitarismo classico)? Non discriminare per eta o numero (deontologia kantiana)? La dichiarazione di Christoph von Hugo, manager Mercedes-Benz, in un’intervista a Car and Driver dell’ottobre 2016 (“Mercedes will protect occupants first”) ha attivato una controversia mediatica internazionale. L’azienda ha poi parzialmente ritrattato.

Il MIT Moral Machine experiment (Awad et al., “The Moral Machine experiment”, Nature 563, 2018, pp. 59-64) ha raccolto preferenze morali di milioni di utenti in 233 paesi. Risultato: enormi variazioni culturali su chi salvare (preferenze per giovani vs anziani molto diverse fra Occidente e Asia, per esempio). Questo solleva un problema politico: chi decide la programmazione morale di un veicolo destinato a circolare in più paesi? Il produttore (privato)? Il regolatore (statale)? L’utente (può configurare)? La domanda è aperta.

In termini del nostro framework: il veicolo autonomo è almeno implicit ethical agent (Moor livello 2: è progettato per evitare collisioni). Se la sua programmazione include logica esplicita di trolley-style decisions, si avvicina al livello 3. Resta lontano dal livello 4 nel senso pieno. Sul piano dell’agency, il veicolo soddisfa i tre criteri di Floridi-Sanders: interagisce con l’ambiente, ha stati interni, apprende. È quindi candidato AMA in senso debole: accountable senza essere responsible nel senso umano.

Esempio 2: l’algoritmo COMPAS e il caso ProPublica 2016

COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) è un software sviluppato da Northpointe (oggi Equivant), usato in più Stati USA per predire recidiva di imputati. Il giudice può usare lo score COMPAS come elemento per decidere su cauzione, sentencing, parole.

ProPublica nel maggio 2016 (Julia Angwin, Jeff Larson, Surya Mattu, Lauren Kirchner, “Machine Bias: There’s Software Used Across the Country to Predict Future Criminals. And It’s Biased Against Blacks”) pubblica un’inchiesta-bomba. Analizza oltre 7000 casi nella Broward County (Florida). Risultato principale: COMPAS overpredicts recidiva per imputati neri (false positive rate più alto), underpredicts per imputati bianchi (false negative rate più alto). Le predizioni differiscono sistematicamente per razza, anche controllando per fattori legali rilevanti.

Northpointe risponde contestando la metodologia statistica (la loro definizione di fairness, predictive parity, è diversa da quella usata da ProPublica, equality of false positive rates; un risultato matematico di Chouldechova 2017 mostra che le due definizioni sono incompatibili in presenza di base rates differenti). Il dibattito tecnico è ancora aperto. Quello filosofico-normativo lo è di più.

Chi è responsabile della discriminazione algoritmica? L’algoritmo (no agency in senso forte)? Northpointe (non ha scelto i singoli output, ha però scelto la metrica di fairness)? I giudici (si appoggiano allo strumento, ma hanno discretion)? Lo Stato (ha approvato l’uso)? Il caso è diventato paradigmatico per il dibattito su agency e responsabilità algoritmica. Mostra come il responsibility gap di Matthias non sia un’astrazione filosofica: è una difficoltà concreta in contesti ad alta posta in gioco.

In termini del framework: COMPAS è implicit ethical agent nel senso di Moor (è progettato per scopo socialmente sensibile, con vincoli espliciti di fairness). Non è explicit ethical agent (non ragiona su questioni etiche, ma esegue una funzione predittiva). La risposta di Floridi-Sanders direbbe: COMPAS è moralmente accountable (le sue azioni si ascrivono a lui in termini morali) anche se non moralmente responsible (non ha senso punirlo nel senso pieno). La risposta pratica: si modifica o si dismette.

Una nota a margine. La sentenza State v. Loomis (Wisconsin Supreme Court, luglio 2016) ha confermato la legittimita dell’uso di COMPAS nel sentencing, pur riconoscendo limiti che richiedono cautela del giudice (avvertenza sul carattere proprietario e non auditabile dell’algoritmo, sul rischio di bias razziali, sulla validazione limitata). La Suprema Corte degli Stati Uniti ha rifiutato di esaminare il caso. Il risultato: gli Stati continuano a usare COMPAS o sistemi simili, con avvertenze formali ma senza limiti sostanziali. La distribuzione della responsibility resta fluida nella pratica giudiziaria americana.

Esempio 3: Constitutional AI come tentativo concreto di explicit ethical agent

Constitutional AI, introdotta da Anthropic nel paper “Constitutional AI: Harmlessness from AI Feedback” (arXiv:2212.08073, dicembre 2022), è un metodo di training in cui il modello è addestrato a critique e revise i propri output sulla base di una “constitution” esplicita: una lista di principi (per esempio: “scegli la risposta che è meno dannosa, illegale, ingannevole, scortese”). Il modello applica iterativamente la critique-revise, generando un dataset di output corretti, sui quali viene poi finetunato (RLAIF, reinforcement learning from AI feedback). La trattazione tecnica è demandata a rlaif-constitutional.

In termini del nostro framework, Constitutional AI è un tentativo di costruire qualcosa che si avvicini al livello 3 di Moor (explicit ethical agent): il modello applica principi etici espliciti al suo proprio comportamento, con un ragionamento (di natura discussa, non chiaramente analogo a quello umano) sul perché un certo output sia preferibile a un altro. Non è livello 4: non c’e coscienza, non c’e libero arbitrio nel senso pieno, non c’e vissuto morale.

Constitutional AI non risolve il problema dell’etica AI. È uno strumento parziale, che codifica un insieme limitato di principi scelti da un’organizzazione privata (Anthropic). Non risolve i conflitti normativi profondi (cosa significa “meno dannoso” per chi?), non garantisce robustezza (jailbreak, sufficiently adversarial input), non sostituisce la responsibility umana (dei produttori, degli utenti, dei regolatori). È significativo come tentativo concreto di muovere il sistema verso il livello 3 di Moor, niente di più.

Va segnalata una differenza fra Constitutional AI e altre forme di alignment basate su feedback umano (RLHF). Nel RLHF gli umani scelgono fra output, e il modello impara una funzione di reward implicita. Nel Constitutional AI, il modello stesso applica i principi della constitution per generare il dataset di feedback. La componente “morale esplicita” è nel modello, non solo negli umani che lo guidano. Questo aumenta in qualche grado l’autonomia morale del sistema, e quindi la sua approssimazione a un explicit ethical agent in senso di Moor. Ma resta una approssimazione: il modello esegue critique-revise senza i requisiti psicologici tradizionali dell’agency morale piena (intenzionalita intrinseca, vissuto morale, libero arbitrio).

Un quarto esempio possibile, che marca un’altra dimensione del problema, sono i lethal autonomous weapons systems (LAWS). Sistemi militari che selezionano e ingaggiano bersagli senza decisione umana finale al momento dell’azione. Il dibattito UN nel quadro della Convention on Certain Conventional Weapons va avanti dal 2014. La coalition “Stop Killer Robots” (2013) propone un trattato di divieto. Robert Sparrow in “Killer Robots” (Journal of Applied Philosophy 24:1, 2007, pp. 62-77) ha articolato l’argomento: se un LAWS uccide ingiustamente, nessuno può essere giustamente ritenuto responsabile (programmer non controlla, comandante non decide al momento, AI non è agente in senso pieno). Quindi LAWS sono moralmente impossibili da deployare, perché violano un requisito di base del jus in bello: che ogni uccisione abbia un responsabile identificabile. L’argomento di Sparrow è uno degli usi più forti del responsibility gap come argomento normativo: non solo descrittivo (“il gap c’è”), ma prescrittivo (“se si apre il gap, certe categorie di sistemi sono inammissibili”).

Eredità oggi

Sezione separata, in linea con la disciplina del registro storico/filosofico: il presente non vive nei paragrafi storici principali ma ha una sezione dedicata, chiaramente delimitata.

[DATATO 2026-04] Il framework Floridi-Moor-Wallach-Allen, pensato negli anni 2000 per sistemi molto più semplici di quelli attuali, regge bene il salto agli LLM e agli agentic systems del 2024-2026.

Gli LLM contemporanei sono almeno implicit ethical agents nel senso di Moor: sono esplicitamente progettati con safeguard, refusal patterns, alignment training. Tutti i grandi laboratori (OpenAI, Anthropic, Google DeepMind, Meta, Mistral) investono significative risorse in alignment, red teaming, model cards, system cards. Alcuni modelli, in via di Constitutional AI o RLHF con principles, si avvicinano al livello 3 (explicit ethical agency in qualche senso operativo).

Gli agentic systems (Claude Code, Cursor, agentic frameworks tipo LangChain o LangGraph) eseguono azioni nel mondo: modificano file, mandano email, interagiscono con sistemi esterni, eseguono codice. Aprono il problema concreto del responsibility gap aggravato: catene di azioni autonome con risultati non predicibili, in cui l’utente può perdere il controllo locale del singolo passo. Il problema “blast radius” trattato in agent-compromesso ha radici qui: occorre limitare il danno che un sistema autonomo può causare prima che ne discutiamo la responsabilità.

L’EU AI Act (Regolamento UE 2024/1689 del 13 giugno 2024) si schiera ufficialmente per la posizione “AI come strumento sotto controllo umano”. La responsibility ricade primarily sui providers (chi sviluppa) e deployers (chi mette in uso). Il sistema AI in sé non ha personalita giuridica. Posizione conservativa, ma articolata: definisce categorie di rischio (inaccettabile, alto, limitato, minimo) con obblighi diversi. Trattato in eu-ai-act.

Il Mady Delvaux Report del Parlamento UE del 2017 (Risoluzione su “Civil Law Rules on Robotics”) aveva proposto una “electronic personhood” per robot autonomi sufficientemente avanzati. La proposta è stata duramente criticata in una lettera aperta di 156 esperti dell’aprile 2018, che la consideravano un tentativo (non necessariamente intenzionale) di scaricare responsibility dai produttori, e ampiamente scartata. La posizione di Joanna Bryson (vedi sopra) ha trovato qui forte sostegno. Non c’e oggi una proposta seria di personalita giuridica per AI in alcuna legislazione importante.

L’IEEE Ethically Aligned Design (1st ed. 2019) e successive edizioni propone principi di design etico, mantenendo prospettiva tools-and-design. Soft-law dell’industria, di influenza non trascurabile sulle pratiche di engineering ma senza forza normativa diretta. Documenti analoghi includono il NIST AI Risk Management Framework (2023) e lo standard ISO 42001 (2023) per AI management systems: tutti adottano una prospettiva conservatrice sull’agency morale di AI, trattandola come entita regolabile, non come soggetto.

Gli sforzi di alignment dei principali laboratori (OpenAI Superalignment Team, Anthropic Alignment Science, DeepMind AGI Safety) sono parte del mosaico. Tecnicamente sono efforts di engineering; filosoficamente, sono tentativi di rendere AI implicitly o explicitly ethical agent in senso di Moor. La traduzione fra il vocabolario filosofico e quello dell’alignment engineering non è sempre chiara, e parte del lavoro contemporaneo (per esempio, le pubblicazioni del Machine Intelligence Research Institute e del Future of Humanity Institute) si occupa proprio di questa traduzione.

L’AI Welfare Research (Robert Long, Jeff Sebo et al., “Taking AI Welfare Seriously”, 2024) è tema correlato ma distinto: la’ si discute patiency, non agency. Trattato in ai-paziente-morale. La distinzione si mantiene importante.

Una novità del periodo 2023-2026 sono gli agentic harness (Claude Code, Cursor, framework agentic generici tipo LangGraph, AutoGen, CrewAI). Il sistema non si limita a rispondere a una richiesta, esegue una catena di azioni con feedback loop su ambienti reali (filesystem, repository git, API esterne). Per il problema dell’agency morale, gli agentic harness sono il caso limite del framework Floridi-Sanders: soddisfano interactivity, autonomy, adaptability in misura piena, e le loro azioni hanno conseguenze morali concrete (modificano file, mandano email, eseguono codice, fanno commit). La discussione filosofica fatica a stare al passo della pratica ingegneristica.

La lezione del periodo 2004-2026: il framework di agency morale per AI è ancora aperto come questione filosofica, ma le pratiche emergono. Si codificano regole, si fanno red team, si scrivono model card, si distribuiscono responsabilità su catene contrattuali, si aprono regimi di compliance (EU AI Act, NIST AI Risk Management Framework, ISO 42001). Il responsibility gap di Matthias non si chiude del tutto, ma si gestisce con un mosaico di strumenti: assicurazione, vincoli di compliance ex ante, audit ex post, kill switch, sospensione, rollback. La risposta operativa non aspetta che la filosofia abbia chiuso le proprie dispute.

Va segnalata una asimmetria significativa fra il discorso accademico e il discorso normativo. La letteratura accademica (Floridi, Moor, Wallach-Allen, Coeckelbergh) è aperta al riconoscimento di agency morale graduata per AI. La letteratura normativa (EU AI Act, IEEE Ethically Aligned Design, NIST RMF) è tendenzialmente conservatrice: tratta AI come oggetto regolato, non come soggetto morale. La differenza ha conseguenze pratiche: chi vuole basarsi sulla normativa ha un vocabolario; chi vuole basarsi sull’accademia ne ha un altro. Il dialogo fra i due livelli è attivo ma non concluso.

Dove si rompe

Cinque limiti e cinque miti tipici da scalzare. La sezione è ampia perché il tema lo richiede: la maggior parte delle dispute pubbliche sull’agency morale di AI gira intorno a questi punti, di solito senza esplicitarli.

Limiti

Limite 1: la definizione tradizionale di agency richiede caratteristiche che AI non ha. Intenzionalita intrinseca, libero arbitrio, emozioni morali, vissuto fenomenico. La risposta funzionalista (Floridi: agency morale non richiede tutto questo, basta agency funzionale) è contestabile. Chi rifiuta il funzionalismo rifiuta anche AMA in senso forte. La disputa metafisica resta aperta, e la risposta operativa di “salvare agency morale per AI” dipende dal tenere ferma la mossa funzionalista.

Limite 2: il responsibility gap è reale. Quando un sistema con learning autonomo causa un danno, né programmer né utente possono ragionevolmente essere ritenuti responsabili. Riconoscere all’AI agency funzionale aiuta ma non chiude il gap completamente: l’AI accountable non è punibile nel senso pieno, e l’azione del modificare-disinstallare non è sempre un equivalente morale soddisfacente per la vittima. Soluzioni alternative (responsabilità oggettiva del produttore, fondi di compensazione obbligatori, divieto preventivo per certe categorie di rischio) hanno ciascuna costi e benefici. Nessuna chiude completamente il gap.

Limite 3: i criteri di Floridi-Sanders sono molto liberali. Interactivity, autonomy, adaptability sono soddisfatti da molti sistemi software contemporanei. Se tutti questi sono AMA, la categoria perde forza discriminatoria. La risposta di Floridi: i criteri vanno applicati sopra una soglia, e la soglia è contestuale. Ma la soglia stessa è difficile da definire in modo non arbitrario.

Limite 4: le quattro capacità di Wallach-Allen sono problematiche per i sistemi attuali. Sensibilità morale, conoscenza delle norme, ragionamento etico, capacità di agire. Gli LLM falliscono regolarmente almeno la prima e la terza. Constitutional AI migliora ma non risolve.

Limite 5: la distinzione accountability/responsibility di Floridi è tecnicamente densa ma normativamente debole. Si può dire che un sistema è “accountable” senza dire quasi nulla sul come renderlo accountable in pratica. Le procedure pratiche (audit, log, override, kill switch, sospensione, modifica) sono in via di sviluppo e mancano di standard internazionali.

Limite 6: il framework non risolve i casi di responsabilità collettiva. Quando più sistemi AI interagiscono (per esempio, agenti autonomi che fanno trading l’uno contro l’altro), il danno emerge dall’interazione e non è attribuibile a un singolo sistema. La letteratura ha appena iniziato a trattare il problema (multi-agent ethics): Floridi-Sanders 2004 era pensato per agenti singoli.

Limite 7: il discorso di “agency morale per AI” rischia di mascherare scelte politiche. Chi decide quali principi vanno nella constitution di un LLM? Chi decide quali bias sono accettabili in un algoritmo di sentencing? Le scelte sono cariche di valore politico, non solo morale. Trattare il problema come puramente tecnico-filosofico può essere un modo (intenzionale o no) di evitare la trasparenza politica delle scelte.

Miti

Mito 1: “AI è moralmente neutra come uno strumento”. Falso. Le decisioni di design (quali dataset, quali metriche, quali safeguard, quali default) sono cariche di valore morale. La neutralita degli strumenti è spesso un mito ideologico: lo aveva mostrato già’ Langdon Winner in “Do Artifacts Have Politics?” (Daedalus 109, 1980). Vale ancora di più per AI, che ha policy interne e capacità di apprendimento.

Mito 2: “Constitutional AI risolve il problema dell’etica AI”. Falso. Constitutional AI è uno strumento parziale che codifica un insieme limitato di principi scelti da un’organizzazione privata. Non risolve i conflitti normativi profondi, non garantisce robustezza, non sostituisce la responsibility umana. È un tentativo significativo di muovere verso explicit ethical agency, niente di più.

Mito 3: “L’AI deve essere persona giuridica”. Posizione controversa e oggi minoritaria. La proposta del 2017 al Parlamento UE per “electronic personhood” è stata duramente criticata. Bryson 2010 e altri argomentano che dovremmo deliberatamente progettare AI in modo da NON renderle agenti morali pieni, per non confondere il quadro della responsibility.

Mito 4: “Il responsibility gap è un falso problema”. Posizione di alcuni autori (Daniel Tigard, “There Is No Techno-Responsibility Gap”, Philosophy & Technology 34, 2021): basta applicare bene le categorie esistenti di responsabilità. Posizione minoritaria ma argomentata. La maggioranza della letteratura ritiene che il gap sia reale e richieda nuovi strumenti concettuali.

Mito 4-bis: “L’EU AI Act ha risolto la questione”. Falso. L’EU AI Act fornisce un framework regolatorio che assegna responsibility a providers e deployers, ma non risolve la questione filosofica dell’agency morale di AI; la elude pragmaticamente prendendo posizione conservativa. La filosofia continua il proprio dibattito al di la’ della normativa, e ci sono buone ragioni per pensare che la normativa dovra’ aggiornarsi quando i sistemi cambieranno.

Mito 5: “Solo umani possono essere agenti morali”. Posizione classica ma sotto pressione. Anche per gli umani la responsabilità è graduata (bambini, dementi, soggetti coercizzati). La nozione monolitica di agency morale non sopravvive bene all’analisi. Ciò che resta è un cluster di proprietà che si possono possedere in vari gradi. AI può possederne alcune. Ulteriormente: il diritto riconosce già’ personalita giuridica a entita non umane (corporazioni, certi enti pubblici, in alcune giurisdizioni anche fiumi e ecosistemi). L’estensione a sistemi AI non sarebbe senza precedenti, anche se controversa.

Una considerazione finale di metodo: tutti gli argomenti pro e contro AMA dipendono da scelte concettuali a monte (cosa intendiamo per agency, per responsibility, per intenzionalita) che non sono neutrali. Il dibattito sull’agency morale di AI è un dibattito sulla natura della morale, che usa l’AI come pietra di paragone. Chi vuole evitare la disputa filosofica chiamandola “puramente terminologica” sta in realtà’ presupponendo una posizione (di solito quella conservativa) senza argomentarla. La via più onesta è esplicitare le proprie scelte concettuali e accettare che il dibattito non si chiude in modo facile.

Collegamenti

intenzionalita: l’intenzionalita intrinseca è il presupposto contestato per AMA in senso pieno. Searle la nega all’AI; Floridi sostiene che agency morale non la richiede. La disputa filosofica sull’intenzionalita determina in larga misura le posizioni sull’agency morale.
funzionalismo: la posizione filosofica che rende AMA pensabile. Floridi-Sanders rivendicano esplicitamente ascendenza funzionalista. Senza funzionalismo, la mossa di estendere agency morale a sistemi artificiali perde gran parte della sua forza.
stanza-cinese-searle: l’argomento classico contro la comprensione vera in AI, qui riformulato in chiave morale. Senza vera comprensione, no agency morale autentica.
computazionalismo: la tesi computazionale, che insieme al funzionalismo rende pensabile AI come ricoprente ruoli mentali e morali.
ai-paziente-morale (slug futuro Parte II): il capitolo speculare. AI come oggetto di considerazione morale, non come agente. I due problemi si intrecciano ma non coincidono.
etica-consequenzialista-ai (slug futuro Parte II): consequenzialismo applicato a sistemi AI, top-down approach in chiave utilitarista.
etica-deontologica-ai (slug futuro Parte II): deontologia kantiana applicata a sistemi AI, top-down approach in chiave di doveri.
etica-virtu-ai (slug futuro Parte II): etica della virtu applicata a AI, formazione del carattere e disposizioni.
free-will-ai (slug futuro Parte II): il problema correlato del libero arbitrio, presupposto contestato per agency morale piena.
antropomorfismo-rischi (slug futuro Parte II): il rischio di attribuire più agency di quanta ce ne sia realmente. Lato simmetrico del problema: attribuirne troppa può essere errore tanto quanto attribuirne troppo poca.
superallineamento-concetto (slug futuro Parte II): per AI più capaci di noi, il problema di moral agency si trasforma. Se l’AI è moralmente superiore o inferiore a noi, come si articola la responsibility?
agent-compromesso (slug futuro Parte XX): blast radius e contenimento, il responsibility gap nella pratica della security. Limitare il danno è parte della gestione di agency.
governance-compliance (slug futuro Parte XXI): chi risponde, in quale forum, con quali strumenti normativi. La governance è il luogo dove la teoria dell’agency si incontra con la pratica regolatoria.
eu-ai-act (slug futuro Parte XXI): la risposta normativa europea. Posizione “AI come strumento”, responsibility primarily a providers e deployers.
rlaif-constitutional (slug futuro Parte XI): Constitutional AI come tentativo concreto di muovere verso explicit ethical agency.

Per andare oltre

Floridi L., Sanders J.W. (2004), “On the Morality of Artificial Agents”, Minds and Machines 14:3, pp. 349-379. Il paper inaugurale. Da leggere come prima cosa: stabilisce vocabolario, criteri, distinzione accountability/responsibility, tesi della mindless morality.
Moor J.H. (2006), “The Nature, Importance, and Difficulty of Machine Ethics”, IEEE Intelligent Systems 21:4, pp. 18-21. Articolo breve, denso, con i quattro livelli che sono diventati standard. Ottimo punto di entrata.
Wallach W., Allen C. (2009), Moral Machines: Teaching Robots Right from Wrong, Oxford University Press. La prima monografia sistematica. Tre approcci (top-down, bottom-up, hybrid) e quattro capacità. Ancora oggi referenziato.
Matthias A. (2004), “The responsibility gap: Ascribing responsibility for the actions of learning automata”, Ethics and Information Technology 6:3, pp. 175-183. Per capire la principale ragione pratica per prendere sul serio AMA.
Coeckelbergh M. (2020), AI Ethics, MIT Press. Manuale recente, accessibile, copre agency e responsibility con vista contemporanea. Posizione di responsabilità distribuita.
Bryson J.J. (2010), “Robots Should Be Slaves”, in Y. Wilks (ed.), Close Engagements with Artificial Companions, John Benjamins, pp. 63-74. Per la posizione opposta a Floridi, articolata e politica.
Sparrow R. (2007), “Killer Robots”, Journal of Applied Philosophy 24:1, pp. 62-77. Argomento influente contro lethal autonomous weapons fondato sul responsibility gap.
Anderson M., Anderson S.L. (eds., 2011), Machine Ethics, Cambridge University Press. Antologia di riferimento del primo decennio della disciplina, copre tutti gli autori principali con i loro contributi originali.
Awad E. et al. (2018), “The Moral Machine experiment”, Nature 563, pp. 59-64. Empirico cross-culturale sulle preferenze morali per veicoli autonomi: utile come materiale di esempio e come problematizzazione delle assunzioni di “etica universale” nei sistemi AI.