Google lancia Translatotron: traduce discorsi con la voce di chi parla

Tecnologia

Il nuovo sistema di Mountain View permette la traduzione di input vocali, senza sfruttare testi e mantenendo invariata la voce del parlante nella lingua di destinazione 

Google sta dimostrando ormai da diverso tempo di guardare con grande interesse all’ambito della traduzione. L’ultima innovazione presentata dal colosso di Mountain View si chiama Translatotron, e si basa su una tecnologia in grado di tradurre delle frasi pronunciate da una persona direttamente in un’altra lingua, senza il bisogno di trasformare gli input vocali in testo. Sorprendentemente, inoltre, il modello di traduzione proposto da Google permetterebbe di mantenere invariata la voce del soggetto parlante anche nella lingua di arrivo, facendo così segnare un ulteriore miglioramento rispetto alla funzione da interprete di Google Assistant presentata a inizio anno durante il Ces 2019.

Translatotron, traduzioni senza step intermedi

Come spiegato da Google sul proprio blog ufficiale, “Translatotron è il primo modello end-to-end in grado di tradurre direttamente un discorso da una lingua all’altra”. Si tratta attualmente di un “nuovo sistema sperimentale” pensato per superare i limiti che caratterizzano i metodi attuali, che ‘scompongono’ la traduzione di frasi pronunciate in tre diverse fasi. Il riconoscimento automatico del discorso rende infatti possibile la trasposizione dal parlato a un testo, che poi viene tradotto in un’altra lingua nel secondo step prima che il sistema permetta di trasformare il tutto nuovamente in un discorso. In alternativa, Google propone ora un unico modello sequenziale che traduce i discorsi direttamente senza necessità di passaggi intermedi.

Meno errori e voce originale conservata

Google spiega di aver iniziato a lavorare in questa direzione dal 2016, grazie a studi che dimostravano la possibilità di un simile sistema. Dopo aver dimostrato la maggiore efficienza del nuovo modello sequenziale rispetto a quelli precedenti, il colosso è arrivato a sviluppare Translatotron, che elabora gli input vocali sotto forma di spettrogrammi, per poi generarne altri nella lingua di destinazione. Nella nota ufficiale, Google offre vari esempi di traduzioni realizzate dall’innovativo sistema e confrontate a quelle tradizionali, spiegando che Translatron offre “una maggiore velocità di inferenza, evitando naturalmente errori tra il riconoscimento e la traduzione, rendendo più facile conservare la voce originale di chi parla dopo la traduzione e gestendo in maniera migliore le parole che non vanno tradotte, come ad esempio i nomi”. 

Tecnologia: I più letti