ChatGPT e il Cattivo Garante

Lo sa tutto il mondo: il nostro Garante per la Privacy ha chiuso ChatGPT in Italia! Le reazioni della maggioranza dei tecnofili (e non) del nostro paese hanno seguito, più o meno, la falsariga di articoli come quello di Federico Rampini sul Corriere («La decisione del Garante della privacy di vietare il «robot scrivente e dialogante» ha fatto scalpore nel mondo. L’Italia è l’unica nazione democratica ad aver preso una misura così drastica […] Il deficit di conoscenze può spingere ad agire con strumenti vecchi. Il blocco italiano di ChatGpt lascia perplessi perché ricorda il vecchio proverbio: per l’uomo che possiede solo un martello, tutti i problemi sono chiodi. L’Italia ha un martello che è la burocrazia, buono per tutte le evenienze.») o di iniziative come la petizione di «un gruppo di accademici e imprenditori digitali italiani» riportata su Repubblica («Lo stop imposto lo scorso venerdì dal Garante “ha creato un grave danno a tantissimi cittadini, professionisti e a molte imprese italiane a diversi livelli di sviluppo, dalle startup alle aziende più mature che si trovano, in ogni settore, sulla frontiera dell’innovazione tecnologica, con la capacità di offrire una nuova generazione di prodotti e servizi nella nuova economia basata sull’intelligenza artificiale”, si legge nella lettera che accompagna la petizione»). Insomma, l’Italia si segnalerebbe ancora una volta per la sua tecnofobia, la sua arretratezza culturale, la sua burocrazia e la sua giurisprudenza irrimediabilmente inadatte al mondo di oggi. Ma è proprio così?

Che non sia proprio così lo hanno già sottolineato diversi commentatori, e quindi eviterò un’analisi approfondita del provvedimento del Garante (un video utile per capirlo meglio è questo, in cui Matteo Flora intervista Guido Scorza, che fa parte della “squadra” del Garante della Privacy). Tuttavia, un paio di considerazioni vanno fatte subito:
1) Il Garante non ha bloccato ChatGPT. Semmai è OpenAI, la società che “produce” ChatGPT, ad aver deciso di bloccare gli utenti italiani, perché non poteva o non voleva applicare le limitazioni al trattamento dei dati che il Garante le aveva imposto con la sua delibera.
2) Il Garante ha sollevato delle questioni reali, fondate non su un’opinione ma sulla legge (il GDPR) che regola il trattamento dei dati personali in tutta l’Unione Europea. E infatti i Garanti di diversi altri paesi dell’UE stanno considerando se prendere misure analoghe, e OpenAI ha aperto un dialogo col Garante impegnandosi «a rafforzare la trasparenza nell’uso dei dati personali degli interessati» (affermazione che in sé non significa granché, come vedremo).

Cerchiamo quindi di comprendere cosa ci sia davvero in ballo in questa vicenda, cercando di evitare stereotipi e posizioni “di principio” a favore o contro le nuove tecnologie di AI di cui, ricordiamolo, ChatGPT è solo un esempio, destinato a essere ben presto superato da altre applicazioni ancora più avanzate, tra cui la sua stessa edizione di nuova generazione. ChatGPT è uno di quei sistemi di Intelligenza Artificiale sviluppati utilizzando tecniche di deep learning che prevedono un “addestramento” che consiste nel sottoporre al sistema enormi quantità di esempi reali (di testi, nel caso di ChatGPT che utilizza un Large Language Model; in altri casi anche di immagini, eccetera). Noi su Hic Rhodus da tempo dedichiamo molta attenzione a questo tipo di sistemi, e recentemente ho pubblicato addirittura un trittico di articoli sul problema della trasparenza e la spiegabilità degli algoritmi usati (Vogliamo davvero un’Intelligenza Artificiale “spiegabile”?; AI “spiegabile”: la legge oggi, domani, dopodomani; AI “spiegabile”: e se la soluzione stesse in noi stessi?). Anche nel caso che riguarda questo articolo, il problema a cui ci troviamo di fronte è costituito dal contrasto tra le protezioni che la legge (europea) riconosce ai cittadini e le modalità con cui operano le tecnologie di deep learning.

La realtà è che all’interno dell’enorme (per un essere umano pressoché inconcepibile) volume di informazioni con cui vengono addestrati i sistemi di AI che apprendono da soli c’è di tutto: opere letterarie, articoli di quotidiani e riviste, e, molto più indifferenziatamente, dati raccolti da Internet. In tutto questo materiale possono esserci, anzi sicuramente ci sono, informazioni personali relative a moltissime persone, che non hanno mai autorizzato OpenAI né le altre aziende che sviluppano sistemi analoghi a usarle per “istruire” ChatGPT & C. In aggiunta, nessuno sa davvero, probabilmente neanche i loro progettisti, come i sistemi AI potranno usare quelle informazioni. Se io chiedo a ChatGPT notizie su Pinco Pallino, potrei ricevere una risposta “vera”, ma anche parzialmente o totalmente inesatta, perché ChatGPT è un sistema linguistico, non un’enciclopedia, e quindi è addestrato per fornire risposte plausibili, non necessariamente esatte. Tutto ciò è, giudicando superficialmente, in serio contrasto con la legge europea attuale (il GDPR), per non parlare del costituendo AI Act, di cui abbiamo già parlato negli articoli citati sopra. Quindi è davvero fuori luogo, secondo me, organizzare petizioni per chiedere all’Autorità che deve garantire l’applicazione del GDPR di non intervenire in presenza di una più che probabile violazione del GDPR. Semmai, al contrario, occorre prendere questo intervento come un’occasione per riconoscere il problema più ampio che riguarda appunto il modo in cui questi sistemi estremamente potenti trattano le informazioni sulle singole persone, o, meglio ancora, capire che è indispensabile affrontare la vera radice di questo e altri problemi associati ai sistemi AI.

E qual è questa “vera radice”? I dati. Bisogna prendere atto del fatto che a determinare il comportamento dei sistemi di AI non sono i famosi algoritmi, ma l’insieme di dati (dataset) usati per istruirli. Quando un’azienda come OpenAI lancia un servizio come ChatGPT, questa fase decisiva è già stata completata, e quindi in un certo senso il provvedimento del nostro Garante è già tardivo, perché i dati “di addestramento” sono già stati raccolti e utilizzati, e per quanto ne so è ora praticamente impossibile “depurare” il sistema dai dati relativi a Pinco Pallino, o Filippo Ottonieri se è per questo. Anche i molto paventati rischi relativi a possibili distorsioni (bias) nelle scelte dei sistemi che hanno lo scopo di assistere (o sostituire) gli esseri umani nel prendere decisioni critiche dipendono quasi esclusivamente dai dataset usati per l’addestramento, che potrebbero incorporare ad esempio pregiudizi “storici” dei decisori umani.

A mio avviso, c’è un solo modo per ridurre il caos che inevitabilmente si produrrà se continuiamo a sviluppare sistemi di AI che vengono addestrati privatamente e senza adeguata trasparenza e poi usati per erogare servizi anche cruciali. È necessario secondo me che per ogni dominio di applicazione vengano creati dei dataset open source certificati da autorità pubbliche, ad esempio a livello europeo, e che possano essere sviluppati e utilizzati solo sistemi che siano stati addestrati usando quei dataset. Questo secondo me è l’unico modo per garantire contemporaneamente che dati personali e sensibili non vengano raccolti e usati in modo incontrollato, e che i sistemi di AI non incorporino come valide, e utilizzino nelle loro elaborazioni, informazioni inattendibili o distorte. Si tratta di una linea di condotta estremamente difficile da imporre, ma è a mio avviso l’unica che abbia una possibilità di essere efficace.

Taggato con: