Google, l'intelligenza artificiale legge il labiale guardando la tv

Google punta sull'intelligenza artificiale (Getty Images)
1' di lettura

DeepMind e l'università di Oxford hanno sviluppato un software capace di riconoscere frasi e discorsi complessi. Il test è stato effettuato su 5mila ore di trasmissioni tv

L'intelligenza artificiale impara dalla televisione. DeepMind, la società di Google che si occupa di Artificial Intelligence e machine learning, sta collaborando con l'Università di Oxford per mettere a punto un software capace di leggere il labiale. Per lavorare sui grandi numeri e insegnare alle macchine il linguaggio umano, i ricercatori hanno piazzato il software davanti a uno schermo, facendogli osservare 5mila ore di trasmissioni televisive.

 

L'AI fa già meglio dell'uomo – La lettura del labiale non è un obiettivo nuovo. In passato altri software si erano già dimostrati capaci di intendere singole parole o piccoli brani. La stessa università di Oxford, in uno studio precedente, era riuscita a sviluppare LipNet, un sistema che sfiorava la perfezione (con un'accuratezza del 90%) ma solo su frasi semplici pronunciate da alcuni volontari.

L'esperimento di DeepMind segna dunque un salto di qualità: l'intelligenza artificiale, infatti, è stata in grado di riconoscere e trascrivere discorsi più ampi e in un linguaggio naturale. L'accuratezza è stata del 46,8%, molto superiore rispetto a quella garantita da un umano esperto di lettura labiale (che si ferma al 12,4%).
Per fare un confronto con i test effettuati in passato: LipNet è stata in grado di riconoscere 51 parole. La collaborazione con Google ha moltiplicato i risultati, individuando 110mila frasi e 17500 parole.

 

La possibili applicazioni – “L'obiettivo di questo lavoro – affermano i ricercatori – è riconoscere frasi ed espressioni, indipendentemente dal fatto che ci sia o meno l'audio. Rispetto ai lavori precedenti, la lettura labiale è stata testata con video spontanei”, cioè non studiati in laboratorio ma provenienti dal mondo esterno. Lo studio indica anche alcune possibili applicazioni di una tecnologia come questa: sarà possibile, ad esempio, trascrivere con facilità film muti, sottotitoli per non udenti, interi eventi e conferenze (anche quando le voci si accavallano). In futuro potremo poi dettare istruzioni o messaggi al nostro smartphone anche in un ambiente rumoroso o quando non sarà possibile parlare. Gli assistenti digitali come Siri, Cortana o Google Assistant recepiranno un comando solo dal movimento della nostra bocca.  

Leggi tutto