Abbiamo già parlato in un precedente articolo del blocco di ChatGPT in Italia e del perché, nonostante diverse reazioni fuori luogo, il provvedimento con cui il Garante per la Privacy aveva vietato a OpenAI di continuare a trattare dati di cittadini italiani tramite i servizi di ChatGPT mi sembrasse nella sostanza non solo legalmente giustificato ma anche utile a evidenziare dei punti molto critici validi per qualsiasi servizio basato sui LLM (Large Language Model).
Nelle settimane che sono seguite al provvedimento, e al conseguente blocco che OpenAI ha applicato agli utenti italiani, è diventato più chiaro che le questioni chiave che il Garante ha sollevato sono rilevanti, e non solo per l’Italia. Il comitato europeo per la protezione dei dati (EDPB) ha deciso, alla luce dell’iniziativa del nostro Garante, di costituire una task force per studiare e coordinare le possibili azioni da intraprendere a proposito di ChatGPT (v. il relativo comunicato stampa), mentre i colloqui diretti tra il Garante e OpenAI hanno condotto a un nuovo provvedimento del Garante che sostanzialmente indica le azioni (nove, tra immediate e a medio termine) che OpenAI deve compiere perché il divieto possa essere ritirato. Dato che ChatGPT mi interessa solo come esempio dei complessi problemi che accompagnano i sistemi di AI basati sul deep learning, non esaminerò punto per punto questa delibera (lo fa come al solito bene ad esempio Matteo Flora in un suo video), ma mi concentrerò sui due obblighi più critici, a mio avviso, e più gravidi di conseguenze. Teniamo presente che se questi obblighi valgono per ChaGPT dovranno valere per tutti. Prima di entrare nel merito, però, è opportuno ricordare un paio di cose su cosa sia effettivamente ChatGPT.
ChatGPT è un servizio basato su un Large Language Model, ossia una rete neurale con un enorme numero di parametri, “addestrata” dandole in pasto una quantità ancora più enorme di testi (ChatGPT comprende, e può utilizzare nei testi che produce, decine di lingue). La maggior parte di questi testi proviene dalle pagine Internet raccolte e organizzate da Common Crawl, un’organizzazione no-profit che mette a disposizione sotto forma di Open Data contenuti raccolti automaticamente e a tappeto su Internet. Insomma, è importante capire che nessuno sa davvero quali informazioni siano state fornite a ChatGPT in fase di addestramento e quanto siano affidabili, né, per come funzionano le reti neurali, è possibile individuare un singolo, preciso punto del sistema dove risiedano tutte le informazioni relative a Cristoforo Colombo, più o meno come sarebbe impossibile localizzare le stesse informazioni con precisione in un cervello umano. D’altronde, la funzione di ChatGPT non è fornire informazioni, ma produrre testi linguisticamente ben formati e coerenti: l’esattezza del loro contenuto non è l’obiettivo di un sistema di generazione linguistica. Torniamo ora ai due obblighi che vorremmo commentare.
Il primo impone, per usare le parole del provvedimento, di «mettere a disposizione, sul proprio sito Internet, almeno agli interessati, anche diversi dagli utenti del servizio, che si collegano dall’Italia, uno strumento attraverso il quale chiedere e ottenere la correzione di eventuali dati personali che li riguardano trattati in maniera inesatta nella generazione dei contenuti o, qualora ciò risulti impossibile allo stato della tecnica, la cancellazione dei propri dati personali». Qui c’è da aggiungere un’interpretazione.
Il senso di questa disposizione è consentire di applicare uno dei diritti previsti dal GDPR, ossia quello ad assicurarsi che non vengano diffuse informazioni false, o diciamo inesatte, su una persona. Se ChatGPT affermasse, poniamo, che Filippo Ottonieri (o chi per lui) sia nato a Bergamo nel 1994 non sarebbe vero, e io dovrei poter chiedere che quel dato venga sostituito con quello esatto, o cancellato. Ma sostituito o cancellato dove?
Come abbiamo visto, quello di ChatGPT non è un tradizionale database, e semplicemente non è possibile localizzare, e quindi modificare o cancellare, le informazioni che il sistema possiede su Filippo Ottonieri o su Donald Trump. Quando il provvedimento parla di correggere o cancellare i dati personali di chi ne fa richiesta, un’interpretazione plausibile (ma pur sempre un’interpretazione) è che questo obbligo possa nella pratica essere soddisfatto filtrando a valle le risposte prodotte da ChatGPT, come avviene già per evitare che esse contengano contenuti discriminatori o altrimenti inaccettabili. Insomma, se il signor Pinco Pallino richiedesse che i propri dati personali conosciuti da ChatGPT vengano corretti o cancellati, OpenAI potrebbe (in modo non proprio semplicissimo, temo) fare in modo che ogni riferimento al signor Pinco Pallino venga cancellato dalle risposte prodotte da ChatGPT prima che queste vengano trasmesse agli utenti.
L’altro obbligo che merita attenzione, è quello di «mettere a disposizione, sul proprio sito Internet, almeno agli interessati, anche diversi dagli utenti del servizio, che si collegano dall’Italia, uno strumento attraverso il quale possano esercitare il diritto di opposizione rispetto ai trattamenti dei propri dati personali, ottenuti da terzi, svolti dalla società ai fini dell’addestramento degli algoritmi e dell’erogazione del servizio». E qui, come si dice, casca l’asino.
Infatti, come abbiamo visto, i dati ottenuti da terzi sono già stati digeriti da ChatGPT, e opporsi al loro trattamento ai fini dell’addestramento degli algoritmi equivale a pretendere che ChatGPT “disimpari” tutte le informazioni, che nessuno peraltro sa quali siano, relative al signor Pinco Pallino. La differenza rispetto all’obbligo precedente è considerevole, perché qui si precede che un interessato si opponga direttamente a che i propri dati vengano usati per l’addestramento di ChatGPT, quindi non solo che ChatGPT nelle sue risposte non li menzioni, ma, in linea di principio, che sia come se non li avesse mai “letti”. E questo, al meglio delle mie conoscenze, è (oggi) tecnicamente impossibile.
Insomma, per ottemperare a questa richiesta del Garante OpenAI dovrebbe realizzare, nell’ambito dei sistemi di AI basati su reti neurali, qualcosa di simile a quello che nel bel film Se mi lasci ti cancello si ipotizzava diventasse possibile fare operando sulla mente umana: individuare e cancellare selettivamente ogni traccia di una persona. Per la manipolazione del cervello si tratta di un’impresa fantascientifica, ma anche la complessità di un sistema come ChatGPT, e il modo in cui “apprendere” un fatto ne modifica le connessioni, sono tali da rendere praticamente impossibile fargli “disimparare” qualcosa, figuriamoci qualcosa che non si sa cosa sia, visto che nessuno è in grado di dire quali e quante informazioni su una specifica persona abbia acquisito ChatGPT.
Quello che in sostanza è fattibile, come dicevamo sopra, è una sorta di censura a posteriori, che impedisca a ChatGPT di utilizzare nelle sue risposte le informazioni personali di chi ha richiesto di impedirne il trattamento, ed è chiaro che questa “censura” potrebbe essere più o meno efficace ma credo mai efficace al 100%, così come non è efficace al 100% la moderazione dei contenuti “inaccettabili” di cui ho già parlato. Dovremo vedere se applicare un simile filtro a posteriori possa essere giudicato sufficiente dal nostro Garante, visto che la lettera delle sue disposizioni farebbe pensare di no. L’alternativa potrebbe essere il blocco permanente di ChatGPT per gli utenti italiani, che paradossalmente non risolverebbe nulla, visto che ora come ora un utente, poniamo, statunitense può comunque chiedere e ottenere informazioni personali su cittadini italiani. Imporre un filtro a posteriori mi sembra al momento una soluzione contemporaneamente inadeguata e necessaria.
Insomma, più che il radicale scenario da Se mi lasci ti cancello, in cui si possa estirpare in blocco ogni informazione e ricordo relativi a una persona, potremmo trovarci nella più umana e familiare situazione descritta dalla popolare canzone napoletana Reginella, in cui la protagonista non dimentica un vecchio amore, ma applica una censura interna a diversi livelli che nel testo compaiono in un’escalation (pensare all’ex amato, trovarsi sulle labbra il suo nome, parlarne con qualcuno) di barriere che, tutte, in qualche occasione possono fallire e far emergere distrattamente alla coscienza il contenuto indicibile.
Non c’è quindi modo di rendere ChatGPT, e soprattutto i sistemi che gli faranno seguito, compatibile con la protezione non solo della Privacy ma della proprietà dei dati che ciascuno di noi possiede? A mio avviso, questo sarà possibile solo se si affronterà il problema alla radice, ossia regolamentando non la fase di erogazione del servizio, quando ormai i dati in questione sono già stati trattati e fanno irreversibilmente parte del sistema di Intelligenza Artificiale, ma quella di addestramento, imponendo che essa possa avvenire solo utilizzando insiemi di dati certificati, approvati e depurati da informazioni personali. Questa ipotesi, che delineavo anche nel mio articolo precedente, è certamente di ardua concretizzazione ma almeno è possibile e risolverebbe molti dei problemi per i quali le autorità e altri soggetti stanno invocando oggi “soluzioni” invece tecnicamente impossibili o rimedi peggiori del male.