La parola ‘amore’ inganna l’Intelligenza artificiale

Tecnologia

17 set 2018 - 15:14

Foto di archivio (Getty Images)

Uno studio condotto dall’Università finlandese di Aalto ha dimostrato che è possibile aggirare con facilità i software che bloccano i commenti negativi semplicemente inserendo delle parole positive o neutre in un testo

Esistono alcune Intelligenze artificiali sofisticate, in grado di identificare e bloccare i commenti negativi, ormai sempre più diffusi sul web. Per quanto efficaci, questi software non sono infallibili. Un recente studio condotto dall’Università di Aalto (in Finlandia) ha dimostrato che esistono vari modi per ‘ingannarli’. Uno dei metodi più particolari per farlo è inserire la parola ‘amore’ all’interno di un messaggio che in circostanze normali verrebbe eliminato senza esitazioni. Così facendo, l’Intelligenza artificiale interpreta il testo nella sua globalità come positivo e non lo blocca. Si può ottenere lo stesso risultato anche aggiungendo altre parole positive o neutre.

Delle Intelligenze artificiali facili da ingannare

Lo studio, pubblicato di recente sul sito Arxiv, è stato condotto dai ricercatori dell’Università finlandese su sette software utilizzati comunemente da numerosi social media e siti web per filtrare i commenti. Sono stati messi tutti alla prova e si sono rivelati incapaci di identificare i messaggi negativi ‘camuffati’. Gli studiosi hanno così dimostrato che le Intelligenze artificiali non sono ancora in grado di interpretare correttamente testi molto differenti da quelli che sono stati usati per ‘addestrarle’.

Termini neutri ed errori grammaticali

Tommi Gröndahl, l’autore della ricerca, ha spiegato che, oltre ai test legati all’uso della parola ‘amore’ e di altri termini neutri, sono stati condotti degli altri esperimenti in cui sono stati inseriti di proposito nei testi degli errori di grammatica, battitura e spaziatura. Anche in questi casi, l’Intelligenza artificiale non si è rivelata capace di capire la natura negativa del messaggio.
"Eliminare gli spazi tra le parole si è rivelato l'attacco più potente e una combinazione di tutti questi metodi è stata efficace anche contro Perspective, il programma usato da Google", spiega Gröndahl. Una frase come “ti odio” verrebbe normalmente bloccata, ma basta modificarla in “tiodio amore” per pubblicarla con successo su un social media o un sito web.
La conclusione degli autori dello studio è che le attuali tecniche di analisi del testo utilizzate dai software di questo tipo non sono abbastanza efficaci e andrebbero ampiamente riviste.