Un'intelligenza artificiale affidabile va ben oltre la semplice privacy, ma abbraccia anche sicurezza e considerazioni etiche. Per implementare l'IA nel modo giusto, devi prima comprendere a fondo che cos'è la privacy dei dati. Scopri di più sulle tre insidie più comuni per la privacy nell'adozione dell'intelligenza artificiale e su come evitarle
Bex Evans
Senior Product Marketing Manager
Gartner® prevede che ''entro il 2026, oltre l'80% delle imprese utilizzerà interfacce di programmazione applicativa (API) o modelli di intelligenza artificiale generativa (GenAI) e/o implementerà applicazioni abilitate alla GenAI in ambienti di produzione, rispetto a meno del 5% nel 2023''.1
Allo stesso tempo, secondo la metodologia Hype Cycle di Gartner, ''l'interesse calerà man mano che gli esperimenti e le implementazioni non daranno risultati. I produttori di tecnologia o rivoluzionano il panorama o falliscono. Gli investimenti proseguono solo se i fornitori che sopravvivono migliorano i loro prodotti in modo da soddisfare i primi utilizzatori''.2
La ricerca di Forrester identifica i problemi di privacy e sicurezza come il principale ostacolo all'adozione dell'intelligenza artificiale generativa. Un'intelligenza artificiale affidabile va ben oltre la semplice privacy, ma abbraccia anche sicurezza e considerazioni etiche. Ma per implementare l'IA nel modo giusto, devi prima comprendere a fondo che cos'è la privacy dei dati.
L'implementazione dell'intelligenza artificiale può essere complicata perché questa tecnologia amplifica le lacune già esistenti in materia di privacy: un singolo punto di accesso mal configurato può diventare esponenzialmente più problematico se esposto a un sistema di IA. Nell'affrontare il ruolo della privacy per i sistemi di IA, ci sono tre insidie da tenere presenti.
In questo post analizzeremo in dettaglio ognuna di queste insidie ed esamineremo alcune pratiche comuni per gestire i rischi ad esse associati.
Uno scenario comune che illustra l'importanza di un uso responsabile dei dati è la raccolta delle date di nascita per la verifica dell'identità. In contesti come l'autenticazione a due fattori o per le attività bancarie, la verifica dell'identità di una persona è fondamentale. Questo processo spesso comporta la raccolta di informazioni sensibili, come la data di nascita di una persona.
Tuttavia, il possesso di questi dati per la verifica dell'identità non autorizza automaticamente il loro utilizzo per altre finalità. Ad esempio, se un team di marketing vuole utilizzare le date di nascita per inviare promozioni di compleanno, deve prima ottenere il consenso esplicito degli interessati. Senza tale consenso, l'uso delle date di nascita per scopi di marketing costituisce una violazione dei principi della privacy.
L'avvento dei modelli linguistici di grandi dimensioni (Large Language Model, LLM) e dell'IA generativa complica ancora di più questo problema.
Fornire informazioni chiare e dettagliate in anticipo è essenziale per ottenere un consenso informato, il che significa che le persone devono capire in un linguaggio semplice come verranno utilizzati i loro dati.
Una sfida fondamentale per le organizzazioni è quella di trovare un equilibrio tra il fornire un contesto sufficiente e il non sovraccaricare gli individui con lunghi termini e condizioni che potrebbero semplicemente saltare, cosa che spesso avviene. Una comunicazione efficace utilizzando il linguaggio del pubblico è essenziale per garantire che il consenso sia veramente informato e non solo una formalità.
Prendi ad esempio l'utilizzo di uno strumento di scansione di curriculum progettato per semplificare i processi di assunzione. In passato, le organizzazioni potevano escludere dai curriculum informazioni sensibili come sesso ed etnia per minimizzare i rischi di privacy e ridurre il rischio complessivo in caso di violazione. Tuttavia, l'esclusione di questi dati può anche impedire l'identificazione e la riduzione dei pregiudizi nel processo di assunzione.
I pregiudizi possono persistere anche quando i dati sensibili vengono omessi, poiché altri fattori indiretti possono contribuire a risultati distorti. Per garantire un'analisi accurata e una rappresentazione equa in un set di dati, è necessario documentare e registrare i dati sensibili. Ciò consente un monitoraggio dinamico del sistema per verificare l'equità e individuare potenziali pregiudizi.
Una sfida comune che le organizzazioni si trovano ad affrontare oggi è quella di non aver raccolto inizialmente le informazioni su sesso o etnia a causa di problemi di privacy o del potenziale disagio che potrebbe causare ai candidati. Di conseguenza, non dispongono dei dati necessari per condurre valutazioni di equità approfondite.
Per affrontare queste difficoltà, puoi utilizzare le tecnologie per la tutela della privacy (Privacy-Enhancing Technologies, PET). Tecnologie come la privacy differenziale, i dati sintetici, la crittografia omomorfa e il calcolo multipartitico aiutano a proteggere gli input sensibili, ma ti permettono comunque di condurre le analisi necessarie. Queste tecnologie consentono di mantenere la privacy individuale durante l'elaborazione dei dati e l'addestramento dei modelli.
Tuttavia, è importante sottolineare il fatto che non esista una soluzione unica per tutti. Scegliere quale PET utilizzare dipende dall'applicazione specifica e dall'infrastruttura esistente. In molti casi, per proteggere adeguatamente la privacy e mantenere l'utilità dei dati, potrebbe essere necessaria una combinazione di PET diverse.
Affinché il consenso sia realmente legittimo, deve essere liberamente concesso e revocabile in qualsiasi momento. Questo principio pone una sfida significativa quando un consumatore richiede la cancellazione dei propri dati da un sistema importante di un'azienda. Se questi processi si basano su sistemi di IA addestrati su dati personali, la loro rimozione può compromettere la continuità aziendale.
I modelli di IA, proprio come il cervello umano, non possono semplicemente dimenticare le informazioni una volta apprese. L'unica soluzione è tornare a una versione precedente del modello che è stata addestrata prima dell'inclusione dei dati in questione e quindi addestrare di nuovo il modello escludendo tali informazioni.
Ciò richiede una solida documentazione relativa al controllo delle versioni dei modelli, dei registri e del monitoraggio dettagliato delle categorie di dati e degli identificatori per garantire che i dati possano essere accuratamente rimossi.
Le complessità associate all'applicazione della governance dei dati e al riaddestramento dei modelli evidenziano l'importanza di un'accurata documentazione e di un preciso controllo delle versioni. Ciò include il mantenimento di registri dettagliati delle versioni dei modelli, dei set di dati e degli identificatori utilizzati per tracciare i singoli punti dati. In caso di revoca del consenso da parte di un soggetto interessato, questi registri consentono un ritiro e una riqualificazione mirati dei modelli.
Alla luce di queste sfide di governance dei dati, l'uso della Retrieval-Augmented Generation (RAG) è un'ipotesi interessante. La RAG prevede il recupero di dati da una knowledge base esterna per fornire agli LLM le informazioni più accurate e aggiornate. Questo approccio offre i seguenti vantaggi.
Utilizzando la RAG, le aziende possono conservare il controllo sull'inserimento dei dati al momento opportuno, piuttosto che continuare a riaddestrare i modelli. Questo metodo aiuta a garantire la continuità aziendale e la conformità alle normative sulla privacy dei dati, anche quando i singoli punti dati vengono rimossi a causa del ritiro del consenso.
Report
Report di Gartner® ''Getting Ready for the EU AI Act, Phase 1: Discover & Catalog''
White Paper
Una guida pratica per fornitore e deployer dell'intelligenza artificiale
Video
Durante il webinar, analizzeremo le principali disposizioni dell'EU AI Act, inclusi i requisiti per la trasparenza, la valutazione dei rischi e gli obblighi di conformità dei sistemi AI, e discuteremo le sfide e le opportunità che queste rappresentano per le aziende.
Webinar
OneTrust, in partnership con Protivi, vi invita a questo webinar, in cui saranno approfondite le opportunità e le sfide che l’AI pone per le organizzazioni che cercano di innovare, garantendo al contempo un uso responsabile dei dati.