La fabbrica dei fake, così funzionano i siti fotocopia generati con Ai

Tecnologia

26 gen 2024 - 17:11

Marianna Bruschi

Il centro di monitoraggio sull’Ai di Newsguard ha individuato da maggio 2023 ad oggi 659 siti di notizie e informazioni inaffidabili, tutti chiaramente prodotti con l’intelligenza artificiale. Di questi ce ne sono 57 in italiano

ascolta articolo

L’accesso all’informazione è strettamente legato alle nostre abitudini ed esigenze. Cerchiamo, chiediamo, consultiamo. Cosa? A chi? Facciamo un esempio. Immaginiamo una situazione. Ho sentito distrattamente che sta uscendo la seconda stagione della mia serie preferita, non ho avuto il tempo e il modo di cogliere la data. Quindi prendo il mio smartphone e cerco su Google. “Nome della serie + seconda stagione”. Premo invio e ho decine, centinaia di risultati. Tendenzialmente, in alto, tra i primi, ho quelli che vengono considerati più affidabili e più vicini alla mia richiesta, sono anche quelli più consultati da altri utenti che hanno posto al motore di ricerca quella mia stessa domanda. Il comportamento degli utenti, di noi utenti, è spesso scollegato dai brand: io sto cercando una risposta alla mia domanda e clicco quello che mi sembra il risultato per me più utile. Poi domani, fra una settimana, non necessariamente mi ricorderò dove l’ho letto, su quale sito. Mi ricorderò solo la data di uscita della seconda stagione della mia serie preferita. In questa sequenza c’è un momento in cui interviene il rumore di fondo. Che è composto da decine, centinaia di pagine che copiano i contenuti da altri siti generandone di nuovi con l’intelligenza artificiale e disseminando quindi, tra i risultati dei motori di ricerca e sui social, contenuti di bassa qualità, con parecchi errori e - oggi possiamo dirlo - palesemente creati artificialmente senza una supervisione umana.

Come facciamo a dirlo? Il centro di monitoraggio sull’AI di Newsguard, il sistema di verifica sull’affidabilità dell’informazione, ha individuato “659 siti di notizie e informazioni inaffidabili generati dall’intelligenza artificiale, in 15 lingue”. Tra queste c’è anche l’italiano.

Di questi 659 siti sono 57 quelli in italiano. Newsguard li ha analizzati e studiati, ricostruendone l’origine, la distribuzione, la proprietà. “Un fatto interessante è che 36 di questi 57 siti in lingua italiana sembrano appartenere a un network. Tutti questi siti indicano come propria sede un indirizzo postale di Bari - spiegano da Newsguard - Tutti i domini dei siti sono stati registrati tra il 3 marzo e il 22 maggio 2023 a Manacor, nelle Isole Baleari, attraverso Soluciones Corporativas IP, un’azienda che si occupa di gestione dei domini. Nelle loro pagine dedicate alle note legali, tutti i siti dichiarano di appartenere a una persona di nome Rosa Rossi non meglio identificata”. Impossibile per il sistema di monitoraggio capire se si tratti di un nome reale o fittizio, ma quello che è certo è il contenuto di questi siti: sono tanti gli elementi che aiutano a dire con certezza che sono copiati, ricostruiti e messi in circolazione con informazioni sbagliate, imprecise. Non solo, spesso si trovano nei testi messaggi di errori tipici dei chatbot.

“I domini di questo tipo sono in continua crescita: quando abbiamo lanciato il nostro Centro di Monitoraggio AI a maggio 2023 ne avevamo identificati 49, ora quel numero è salito a 651 - spiega Virginia Padovese, managing editor & vice president partnerships, Europe, Australia and New Zealand - . E c'è da dire che noi consideriamo solo siti in cui l’uso dell’IA è assolutamente certo, ovvero quelli i cui contenuti presentano i messaggi di errore tipici dei chatbot. È probabile che i siti che usano l’IA generativa per produrre contenuti siano in realtà già molti di più e non siano ancora stati identificati perché una minima supervisione umana permette loro di cancellare i messaggi di errore dagli articoli prima della pubblicazione”.

Gli errori del chatbot senza correzioni

Trovandoci di fronte a questo paragrafo sicuramente ci si accende una lampadina. Abbiamo abbastanza competenze per ritenere errato, falso, non del tutto corretto l’intero contenuto? Ecco un altro esempio:

"Come assistente virtuale, devo informarti del fatto che bypassare l’autenticazione a due fattori Instagram è una pratica illegale e antimorale. Come AI, non posso fornire vantaggi per comportamenti illeciti. Ti consiglio di rispettare gli standard etici e le leggi in vigore".

Questi siti pubblicano con regolarità, hanno una struttura molto semplice, poca grafica, tanti link su temi simili e legati a quelli del contenuto di partenza così da generare molti più click. All’interno si trovano “informazioni errate o infondate su personaggi pubblici, titoli ingannevoli, informazioni obsolete come se fossero recenti, promozione di rimedi per la perdita di peso non comprovati”, spiegano da Newsguard.

Sappiamo che uno dei meccanismi per accrescere - a questo punto almeno in apparenza - l’attendibilità di un contenuto è quello di proporre articoli firmati, e possibilmente con una pagina dedicata all’autore. Ma anche qui c’è qualcosa che scricchiola. E' una pratica usata anche dalla rete di siti registrati alle Baleari ma in lingua italiana. “In genere, ciascun sito di questo network attribuisce tutti i suoi contenuti – tra cui si trovano notizie su celebrità, salute, fitness e meditazione – a un solo autore, il cui profilo biografico e la cui foto sembrano però non essere autentici - spiegano da Newsguard - . Ad esempio, il 28 giugno 2023, Lunumi.com ha pubblicato 75 articoli attribuiti a un’autrice di nome Valentina Bianchi Greco. Una ricerca per immagini della sua foto ha rivelato che quest’ultima è stata presa da Pexels.com, un sito di immagini stock”. Autori falsi, immagini stock.

Mettiamoci per un attimo nei panni di un utente, quel "noi" iniziale che si è messo a cercare informazioni sulla sua serie preferita. Certo, con un po’ di esperienza sul digitale guardando questi siti si capisce che qualcosa non torna. Ma siamo sicuri che sia così immediatamente chiaro che si tratta di contenuti non affidabili? La risposta è no. Si finisce su un sito, magari spinto da un algoritmo che ne premia l’abbondanza di click da parte di altri utenti, si nota che l’articolo è firmato, che quell’autore ha un nome, un cognome, una pagina profilo, una fotografia. Ci basta. E cresce il rumore di fondo.

“Un altro dei rischi dell'uso dell'IA generativa per il mondo dell'informazione è quello del plagio. Sta proliferando una nuova generazione di content farm - spiega ancora Virginia Padovese - siti che utilizzano l’intelligenza artificiale per riscrivere migliaia di articoli provenienti da testate di notizie mainstream senza attribuire alcun credito alla fonte. E anche in questo caso, siamo in grado di identificare solo quei siti i cui articoli contengono messaggi di errore tipici dei chatbot, come “Spiacente, come modello linguistico di intelligenza artificiale non posso individuare il contenuto che deve essere riscritto senza alcun contesto o informazione…". È molto probabile che i siti che plagiano contenuti altrui usando l’IA siano molti di più di quelli che siamo stati in grado di identificare”.

Sky tg24 fa parte del progetto AI4TRUST, finanziato dal programma Horizon Europe dell’Unione Europea, nasce con l'obiettivo di sviluppare una piattaforma contro la disinformazione che combini l'apporto dell'intelligenza artificiale con le verifiche di giornalisti e fact-checker. Al Consorzio, coordinato dalla Fondazione Bruno Kessler (FBK), partecipano insieme alla nostra testata altri 16 partner europei.