Intelligenza artificiale, come impedire il web scraping dei dati: le linee guida

Tecnologia
©Getty

Il Garante della privacy in Italia ha raccolto alcuni consigli per mitigare i rischi della "pesca a strascico" di dati in rete per il training dei grandi modelli di IA

ascolta articolo

Il 30 maggio scorso il Garante italiano della protezione dei dati personali ha pubblicato una nota informativa sull’uso del web scraping, ovvero "la pesca a strascico" dei dati in rete, usata per il training di sistemi di intelligenza artificiale generativa.

In particolare, il Garante fornisce alcuni consigli e linee guida per chi possiede dei siti internet. L'obiettivo è dare gli strumenti ai siti per tutelare gli utenti dalle attività di estrazione di questi dati, in particolar modo quando si tratta di dati personali.

Ovviamente queste indicazioni rimangono tali: rimane sempre in capo ai proprietari dei siti, i titolari del trattamento dei dati degli utenti, ogni valutazione concreta sul da farsi, caso per caso.

Cos'è il web scraping

Il web scraping, o la raccolta sistematica di dati da Internet, è un fenomeno che ci pone di fronte a sfide legali e etiche significative. Si tratta di una pratica che coinvolge spesso la raccolta di grandi quantità di dati da siti web, spaziando da informazioni pubbliche a dettagli personali protetti. Parliamo di indirizzi e-mail, preferenze personali, e persino comportamenti di navigazione.

Il problema nasce quando il web scraping- espressione che ricorda la pesca a strascico, quindi idiscriminata, di dati- implica l’acquisizione non consensuale di tali informazioni. In questo caso, infatti, entrano in gioco le implicazioni sulla privacy degli utenti.

Il GDPR impone requisiti stringenti sulla raccolta, il trattamento e la condivisione dei dati personali in rete che la pratica del web scraping spesso aggira.

Per esempio, il consenso dell’utente, un pilastro del GDPR, spesso non viene acquisito in maniera adeguata durante attività di scraping non regolamentate.

A questo si aggiunge il fatto che la raccolta massiva di dati può portare a una violazione del principio di minimizzazione stabilito dal GDPR, che prevede che solo i dati necessari per uno specifico scopo debbano essere trattati.

vedi anche

Elezioni, iniziative istituzioni Ue contro il rischio disinformazione

Le linee guida del Garante della privacy

Il Garante si è concentrato sulla responsabilità di chi gestisce un sito nel proteggere i dati personali dei propri utenti e nel fare in modo che l'estrazione di questi dati non sia alla portata di tutti. 

In particolare l'Autorità ha diffuso quattro linee guida. In primo luogo una delle soluzioni individuate è la creazione di aree protette che prevede di impostare aree del sito web accessibili solo previa registrazione con login e password, limitando così l’accesso indiscriminato a dati sensibili. Un'altra indicazione è quella di rafforzare i termini di servizio con le clausole anti-scraping, quelle clausole che vietano esplicitamente il web scraping, fornendo una base legale per contrastare tali pratiche. Si tratta, in questo caso, di uno strumento di natura contrattuale che opererebbe solo come deterrente rispetto al fenomeno.

leggi anche

Fascicolo Sanitario, entro giugno si può rifiutare l'invio dei dati

Le soluzioni tecniche: monitoraggio traffico e tecnologie anti-Bot

Alle soluzioni già citate, il Garante italiano aggiunge il potenziamento di due strumenti tecnici. Il primo prevede il potezialmento dell'attività di monitoraggio del traffico web in cerca di anomalie che suggeriscano tentativi di scraping.

Oppure, i siti potrebbero affidarsi alle tecnologie anti-Bot, utilizzando strumenti per distinguere gli utenti umani dai bot. Come il famoso Catpcha, ad esempio, che chiede di dimostrare di non essere un robot selezionando alcune particolari di un'immagine o leggendo delle lettere stilizzate. In questo modo verrebbe resa più difficile la raccolta dati automatizzata.

vedi anche

Cos'è il trattamento dei dati personali e come funziona

Tecnologia: I più letti