YouTube e i video estremi: il metodo dell'inchiesta di Sky TG24

Cronaca

Nicola Bruno e Daniele Semeraro

Per analizzare migliaia di video raccomandati in italiano, abbiamo utilizzato un software messo a disposizione dal progetto AlgoTransparency. I risultati sono stati poi confermati con ricerche manuali. Come funziona l’algoritmo di YouTube e perché è così importante

L’inchiesta sui video più raccomandati di YouTube in italiano è stata condotta tra Settembre e Ottobre 2018 con il supporto di YouTube Explore, programma di monitoraggio dei video più condivisi su YouTube messo a disposizione dal progetto collettivo AlgoTransparency. Tutte le ricerche sono state replicate anche manualmente con le stesse parole chiave, in modo da avere una doppia conferma sulle tendenze individuate dal programma. Sia le ricerche di AlgoTransparency che quelle manuali sono state svolte come utenti anonimi, con la cronologia disattivata per non influenzare i risultati con tracce personalizzate.

Cos’è YouTube Explore

Il software YouTube Explore permette di lanciare una ricerca di YouTube a partire da una stringa di testo (ad esempio, “Ponte Morandi Ipotesi”), di seguire i video più raccomandati per diverse volte e poi di scaricare un dataset con l’elenco dettagliato. Prima di lanciare una ricerca è possibile impostare una serie di parametri, come ad esempio il numero di risultati da prendere in considerazione e quanti video raccomandati seguire. E’ poi possibile far ripetere più volte una stessa ricerca, in modo da avere risultati più consistenti.
Il sito pubblica un archivio di ricerche pre-impostate sui leader politici globali, i bambini, argomenti scientifici, elezioni in diversi paesi (incluse quelle italiane del 2018).

Come abbiamo utilizzato YouTube Explore

Per la nostra inchiesta abbiamo chiesto YouTube Explore di effettuare una ricerca con diverse chiavi di ricerca, tra cui: “Ponte Morandi ipotesi”, “I vaccini fanno male”, “Sconfiggere il cancro”. Ogni ricerca ha preso in considerazione i primi 4 video proposti da YouTube; per ciascuno di questi risultati il programma ha seguito i primi 4 video raccomandati. Il tutto è stato ripetuto per quattro volte. Abbiamo quindi limitato l’ambito linguistico e di georeferenziazione all’Italia.
Per ciascuna ricerca il programma ha restituito circa 250 risultati, ordinandoli dal più al meno raccomandato. Abbiamo poi elaborato questi dati, per calcolare quante volte ciascuno video risultasse più consigliato rispetto alla media.

La ricerca manuale

Parallelamente alle analisi di YouTube Explore, abbiamo anche condotto una serie di ricerche manuali. In questo caso abbiamo utilizzato un browser con navigazione privata (per non influenzare i risultati della cronologia), senza mai autenticarci (per evitare di avere risultati personalizzati). Le ricerche sono state svolte da diverse località e con più dispositivi (computer fisso, portatile, tablet, smartphone). Le uniche impostazioni selezionate sono state quelle sulla lingua (italiano) e sulla località (Italia).

YouTube tra AI e machine learning

Come per gli altri algoritmi di Google, anche quello di YouTube è per lo più segreto: non si conoscono quali sono i parametri precisi che determinano l’ordine dei risultati e dei video raccomandati. Negli ultimi anni, hanno iniziato ad emergere alcuni dettagli, sia grazie alle rivelazioni di ex-dipendenti (come Guillaume Chaslot: guarda l'intervista), che da parte di attuali responsabili di YouTube.

Uno degli articoli più dettagliati è stato pubblicato ad Agosto 2017 da The Verge e riporta diverse dichiarazioni di ingegneri di YouTube, tra cui Jim McFadden, responsabile tecnico per i video raccomandati. McFadden spiega che fino a pochi anni fa YouTube non riusciva a trattenere per molto tempo gli utenti all’interno del proprio sito. Poi nel 2015 hanno iniziato a sperimentare alcuni cambiamenti, dando priorità al tempo speso su ciascun video (invece che al numero di visualizzazioni ricevute). Ma la vera svolta è avvenuta quando ha iniziato a utilizzare alcune delle tecnologie sviluppate da Google Brain, la divisione di Big G specializzata in intelligenza artificiale. Gli algoritmi di Brain hanno permesso di raffinare sempre di più la funzionalità dei video raccomandati, ad esempio, proponendo video più brevi se si è connessi da smartphone e più lunghi se si è sull’app per la Tv. Nel corso del 2016 - riporta The Verge - sono state implementate 190 modifiche sull’algoritmo di YouTube e 300 erano previste per il 2017. Le tecnologie di deep learning hanno permesso agli algoritmi di apprendere molto più velocemente dalla cronologia di ciascun utente: prima erano necessari diversi giorni prima di riuscire a incorporare il comportamento di un utente nelle raccomandazioni future, “ora invece - raccontano gli ingegneri di YouTube - bastano pochi minuti o ore”.
I risultati dell’integrazione di Google Brain sono stati notevoli, secondo quanto riportato da The Verge: “Più del 70% del tempo speso a guardare video sul sito è generato dalle raccomandazioni algoritmiche. Ogni giorno, YouTube raccomanda 200 milioni di diversi video agli utenti, in 76 lingue. Il tempo aggregato speso sull’home page di YouTube è cresciuto 20 volte rispetto a 3 anni fa”. Questi dati si riferiscono al 2017, nel frattempo potrebbero essere ovviamente cresciuti.

I pregiudizi degli algoritmi

Per quanto vengano sempre presentati come neutri e obiettivi, in realtà gli algoritmi incorporano sempre il punto di vista e i valori di chi li ha sviluppati. Diverse ricerche indipendenti hanno sottolineato le potenziali conseguenze negative di questi “pregiudizi”. Dalle discriminazioni razziali a quelle di genere, passando per la promozione della violenza, ormai esiste una vasta letteratura sul tema. Gli algoritmi sono stati messi sotto accusa anche per la diffusione di notizie false sui social network come Facebook e Twitter, oltre che per spingere gli utenti a radicalizzarsi sempre di più, soprattutto in paesi con forti tensioni etniche (come la Birmania, lo Sri Lanka o le Filippine). “Automating Inequality” è il titolo di un saggio della studiosa Virginia Eubanks che documenta come l’utilizzo di strumenti di intelligenza artificiale stia creando profonde diseguaglianze sociali negli Stati Uniti.
Il recente piano d’azione dell’Unione Europea sull’intelligenza artificiale affronta questo tema chiedendo maggiori informazioni ai colossi del web sui criteri che stanno dietro ai loro algoritmi. Stessa richiesta è arrivata anche dal report finale del Gruppo degli High Level Expert sulle Fake News, in cui si chiede di “migliorare la trasparenza” su come vengono distribuite e amplificate le notizie online. Evidentemente queste richieste devono ancora essere incorporate all’interno degli algoritmi di Google, Facebook e gli altri social media.


Cronaca: i più letti