Speech-to-Text, ecco tutti i servizi e le app migliori per trasformare voce in testo

Now

Damiano Crognali

La tecnologia rende sempre più fluido il confine tra la parola detta a voce e quella scritta. Ecco tutte le applicazioni migliori per sfruttare al meglio questa utile tecnologia

Speech-to-Text, dalla parola al testo. Grazie all'intelligenza artificiale è possibile creare il contenuto in una delle due forme scritta o audio e simultaneamente averlo anche nell'altra. Ciò che di fatto cambia è solo la modalità di fruizione del contenuto, che ovviamente è diversa nella forma scritta e quella ascoltata.

Quali sono le app più usate per la trascrizione da audio a testo?

Ecco l'elenco delle migliori provate da noi:

  • Happy Scribe: funziona sia sul sito che con l'app su smartphone, ha una versione per i giornalisti e i cronisti, lavora anche con l'italiano
  • Scribie: alternativa per la trascrizione dei testi, offre accanto ad un economico pacchetto per l'italiano, anche la possibilità di avere la trascrizione fatta manualmente da un operatore
  • Otter.ai: servizio gratuito fino ad un certo numero di minuti, poi si paga una quota. Viene usato nelle conferenze stampa e negli eventi per le trascrizioni automatiche
  • Sonix.ai: funziona molto bene ma ci sono meno minuti a disposizione rispetto alle precedenti applicazioni
  • Google Translate: il popolare servizio di Google non ha bisogno di presentazioni

Tutte le persone che utilizzano queste app sono accomunate da un desiderio: risparmiare tempo. Inoltre amano la tecnologia. I servizi di riproduzione vocale aiutano a risparmiare il tempo di trascrivere o leggere un contenuto. Ed è un settore in rapida crescita.

Quali sono le fruizioni più comuni e più usate?

La prima è stata quella di permettere l'accesso ai contenuti video. Grazie al riconoscimento vocale già dal 2009 YouTube aveva lanciato la funzione di trascrizione automatica, perché aggiungendo le didascalie ai video si dava maggiore accessibilità ai contenuti su un pubblico che non ascolta con attenzione e in genere fa fatica a seguire una conversazione, sopratutto in una lingua diversa dalla propria. Pubblicare i sottotitoli ai video comporta uno sforzo spesso troppo grande per un videomaker ma la tecnologia Speech-to-Text ha permesso la visione delle didascalie in automatico. E poi c'è un altro utilizzo molto utile: la trascrizione automatica di confersazioni o conference call in strumenti come Zoom, Google Meet, Microsoft Team o Skype

Dalla scuola ai grandi eventi

Che sia una intervista o semplicemente una chiacchiera con un'altra persona la possibilità di avere le didascalie scritte delle conversazione in automatico sulle app di videochiamata è stata una grande conquista che ha avuto una esplosione durante il periodo di lockdown a causa del Coronavirus. Prima, ad esempio, gli studenti prendevano appunti durante le lezioni con i registratori vocali, adesso sostituiscono la sbobinatura a mano con le app che trasformano l'audio in un documento di testo. Addirittura si potrebbe scrivere un libro solo raccontandolo a voce. E poi ci sono i grandi eventi come il Web Summit a Lisbona o il prossimo Collision che si terrà da casa: gli speech di tutti i relatori vengono automaticamente trascritti e tradotti in altre lingue in tempo reale.

Un alleato dell'accessibilità

In questo momento la tecnologia Speech-to-Text funziona meglio con l'Inglese e in un ambiente non rumoroso, quando a parlare è una sola persona alla volta. E questa tecnologia ha molti interessi anche nel versante dell'accessibilità. Ad esempio, l'Organizzazione Mondiale della Sanità stima che entro il 2055 ci saranno 900 milioni di persone con perdita dell'udito. Grazie alla funzione Live Transcribe le persone sorde o con problemi di udito hanno una maggiore indipendenza nelle loro interazioni quotidiane grazie al riconoscimento vocale.

Lo Speech-to-Text e i podcast

È sul versante podcast che la tecnologia Speech-to-Text e la sua controparte Text-to-Speech danno i maggiori benefici per i creators. La trasformazione di un articolo o di un post in un podcast, che può essere ascoltato durante un viaggio in macchina, treno o aereo, è un altro modo di impiego di queste app, racconta Francesco Baschieri, il founder del popolare servizio per la creazione di podcast Spreaker.

Oggi possiamo registrare un contenuto in formato audio e poi di modificarlo, cancellando delle parte o cambiando l'ordini delle frasi e intervenendo sulla trascrizione, come quando usiamo un normale editor di testo.

Le principali applicazioni nell'ambito Podcast

Le app che permettono di editare un testo intervenendo sulla parola scritta sono:

  • Soundtrap: la piattaforma di registrazione audio di Spotify ha annunciato da qualche mese la sua funzione di trascrizione "Soundtrap for Storytellers" anche in italiano, consentendo agli utenti di creare podcast con questa piattaforma di registrazione audio, che permette la trascrizione intelligente degli audio, cioè trasforma il file audio in un documento di testo, utile per ottimizzare il posizionamento del podcast sui motori di ricerca. Ma attraverso la trascrizione scritta, permette anche di fare l'editing dell'audio, intervenendo sul testo e modificando simultaneamente anche l'audio
  • Descript: grazie all'intelligenza artificiale sviluppata da questa app si può modificare la registrazione vocale o editare un podcast semplicemente modificando il testo trascritto dell'audio, insomma si può editare l'audio come si farebbe con qualsiasi editor di testo.

Il problema di tutta questa vicenda, ma che non riguarda la tecnologia, è che la parola è fatta per essere letta e la voce è per essere ascoltata. Dunque a volte quando si ascolta un audiolibro si fa fatica a seguire la voce di una parola se non viene adattata, magari da un buon interprete o narratore, e proprio per questo i podcast funzionano meglio, perché partono dall'essere già pensati per essere narrati.

Tecnologia: I più letti