Esplora tutte le offerte Sky

Cosa vedere:

Come vederlo:

Online con Sky:

Cronaca Economia Mondo Politica Spettacolo Diretta TG24 Lifestyle Sport Salute e benessere Motori Tecnologia Scienze Ambiente News dalle citta Oroscopo Estrazioni Lotto e Superenalotto Meteo Podcast Video Voice Sky TG24 Insider La nostra app Sky Sport XFactor MasterChef Pechino Express Archivio Mappa del sito Chi siamo Notifiche

Cronaca Economia Mondo Politica Spettacolo Diretta TG24

Tutti i temi

Tutti i giorni

Il mondo di SKY TG24

Potrebbero interessarti

Altro

Seguici

Speech-to-Text, ecco tutti i servizi e le app migliori per trasformare voce in testo

NOW

11 giu 2020 - 15:20

Damiano Crognali

Speech-to-Text, quando la voce si trasforma in testo

NEWS

Speech-to-Text, quando la voce si trasforma in testo

03:00 min

La tecnologia rende sempre più fluido il confine tra la parola detta a voce e quella scritta. Ecco tutte le applicazioni migliori per sfruttare al meglio questa utile tecnologia

Speech-to-Text, dalla parola al testo. Grazie all'intelligenza artificiale è possibile creare il contenuto in una delle due forme scritta o audio e simultaneamente averlo anche nell'altra. Ciò che di fatto cambia è solo la modalità di fruizione del contenuto, che ovviamente è diversa nella forma scritta e quella ascoltata.

Quali sono le app più usate per la trascrizione da audio a testo?

Ecco l'elenco delle migliori provate da noi:

Happy Scribe: funziona sia sul sito che con l'app su smartphone, ha una versione per i giornalisti e i cronisti, lavora anche con l'italiano
Scribie: alternativa per la trascrizione dei testi, offre accanto ad un economico pacchetto per l'italiano, anche la possibilità di avere la trascrizione fatta manualmente da un operatore
Otter.ai: servizio gratuito fino ad un certo numero di minuti, poi si paga una quota. Viene usato nelle conferenze stampa e negli eventi per le trascrizioni automatiche
Sonix.ai: funziona molto bene ma ci sono meno minuti a disposizione rispetto alle precedenti applicazioni
Google Translate: il popolare servizio di Google non ha bisogno di presentazioni

Tutte le persone che utilizzano queste app sono accomunate da un desiderio: risparmiare tempo. Inoltre amano la tecnologia. I servizi di riproduzione vocale aiutano a risparmiare il tempo di trascrivere o leggere un contenuto. Ed è un settore in rapida crescita.

Quali sono le fruizioni più comuni e più usate?

La prima è stata quella di permettere l'accesso ai contenuti video. Grazie al riconoscimento vocale già dal 2009 YouTube aveva lanciato la funzione di trascrizione automatica, perché aggiungendo le didascalie ai video si dava maggiore accessibilità ai contenuti su un pubblico che non ascolta con attenzione e in genere fa fatica a seguire una conversazione, sopratutto in una lingua diversa dalla propria. Pubblicare i sottotitoli ai video comporta uno sforzo spesso troppo grande per un videomaker ma la tecnologia Speech-to-Text ha permesso la visione delle didascalie in automatico. E poi c'è un altro utilizzo molto utile: la trascrizione automatica di confersazioni o conference call in strumenti come Zoom, Google Meet, Microsoft Team o Skype.

Dalla scuola ai grandi eventi

Che sia una intervista o semplicemente una chiacchiera con un'altra persona la possibilità di avere le didascalie scritte delle conversazione in automatico sulle app di videochiamata è stata una grande conquista che ha avuto una esplosione durante il periodo di lockdown a causa del Coronavirus. Prima, ad esempio, gli studenti prendevano appunti durante le lezioni con i registratori vocali, adesso sostituiscono la sbobinatura a mano con le app che trasformano l'audio in un documento di testo. Addirittura si potrebbe scrivere un libro solo raccontandolo a voce. E poi ci sono i grandi eventi come il Web Summit a Lisbona o il prossimo Collision che si terrà da casa: gli speech di tutti i relatori vengono automaticamente trascritti e tradotti in altre lingue in tempo reale.

Un alleato dell'accessibilità

In questo momento la tecnologia Speech-to-Text funziona meglio con l'Inglese e in un ambiente non rumoroso, quando a parlare è una sola persona alla volta. E questa tecnologia ha molti interessi anche nel versante dell'accessibilità. Ad esempio, l'Organizzazione Mondiale della Sanità stima che entro il 2055 ci saranno 900 milioni di persone con perdita dell'udito. Grazie alla funzione Live Transcribe le persone sorde o con problemi di udito hanno una maggiore indipendenza nelle loro interazioni quotidiane grazie al riconoscimento vocale.

Lo Speech-to-Text e i podcast

È sul versante podcast che la tecnologia Speech-to-Text e la sua controparte Text-to-Speech danno i maggiori benefici per i creators. La trasformazione di un articolo o di un post in un podcast, che può essere ascoltato durante un viaggio in macchina, treno o aereo, è un altro modo di impiego di queste app, racconta Francesco Baschieri, il founder del popolare servizio per la creazione di podcast Spreaker.

Oggi possiamo registrare un contenuto in formato audio e poi di modificarlo, cancellando delle parte o cambiando l'ordini delle frasi e intervenendo sulla trascrizione, come quando usiamo un normale editor di testo.

Le principali applicazioni nell'ambito Podcast

Le app che permettono di editare un testo intervenendo sulla parola scritta sono:

Soundtrap: la piattaforma di registrazione audio di Spotify ha annunciato da qualche mese la sua funzione di trascrizione "Soundtrap for Storytellers" anche in italiano, consentendo agli utenti di creare podcast con questa piattaforma di registrazione audio, che permette la trascrizione intelligente degli audio, cioè trasforma il file audio in un documento di testo, utile per ottimizzare il posizionamento del podcast sui motori di ricerca. Ma attraverso la trascrizione scritta, permette anche di fare l'editing dell'audio, intervenendo sul testo e modificando simultaneamente anche l'audio
Descript: grazie all'intelligenza artificiale sviluppata da questa app si può modificare la registrazione vocale o editare un podcast semplicemente modificando il testo trascritto dell'audio, insomma si può editare l'audio come si farebbe con qualsiasi editor di testo.

Il problema di tutta questa vicenda, ma che non riguarda la tecnologia, è che la parola è fatta per essere letta e la voce è per essere ascoltata. Dunque a volte quando si ascolta un audiolibro si fa fatica a seguire la voce di una parola se non viene adattata, magari da un buon interprete o narratore, e proprio per questo i podcast funzionano meglio, perché partono dall'essere già pensati per essere narrati.

pubblicità

pubblicità

Tecnologia: Ultime notizie

AlphaEarth, la Terra vista da un satellite virtuale: il super progetto

Mappe 3D, immagini radar e simulazioni climatiche in tempo reale: ecco come l’IA ridisegna il...

Nintendo, +18% dei guadagni grazie al lancio di Switch 2

Venduti più di sei milioni di console nelle sette settimane successive al lancio di giugno, ha...

World Wide Web Day, storia ed evoluzione di internet

Si celebra il primo agosto la giornata dedicata alla commemorazione della nascita del “www” e al...

epa06417905 (FILE) - A guest inspects the new MacBook Pro computer with the new USB-C ports in a demo room, following the announcement of new products at the Apple Headquarters in Cupertino, California, USA, 27 October 2016 (reissued 05 January 2018). According to reports, Apple has admitted its iPhone and Mac products are affected by two considerable security flaws in the hardware chips. Several technology companies are rushing to fix two considerable flaws in popular computer chips manufactured by Intel, AMD and ARM. The flaws could help attackers to gain access to sensitive information such as banking information and passwords. It is not known if the boards and chips pictured contain the security vulnerability. EPA/TONY AVELAR

Nintendo Switch 2: Monster Hunter Stories 3 e tante nuove uscite

Nintendo Switch 2 protagonista con i nuovi annunci: l’atteso Monster Hunter Stories 3: Twisted...

Truffe con i deepfake, a che cosa fare attenzione e come difendersi

Le capacità generative dell’intelligenza artificiale stanno rendendo sempre più semplice per i...

Tecnologia: I più letti