Secondo l'azienda, fondata nel 2015 e guidata da Sam Altman, 'Sora' è in grado di creare "scene complesse con dettagli che riguardano i componenti principali della scena e del suo sfondo". OpenAi ha spiegato di non aver ancora reso disponibile il programma al pubblico perché lo sta ancora analizzando per capire i pericoli e i rischi
Un nuovo modello di intelligenza artificiale generativa text-to-video in grado di “creare scene realistiche e fantasiose da istruzioni testuali” della durata massima di un minuto "mantenendo la qualità visiva e rispondendo alla richiesta dell'utente". Il nuovo strumento, sviluppato da OpenAI (la più importante società al mondo a occuparsi di intelligenza artificiale), ha anche "una profonda comprensione del linguaggio", cosa che gli consente di interpretare accuratamente le istruzioni e generare "personaggi avvincenti che esprimono emozioni vibranti". Il nome scelto, Sora, in giapponese significa “cielo” e l’azienda ha detto di averlo scelto per evocare l’idea di “un infinito potenziale di creatività”. OpenAi ha spiegato di non aver ancora reso disponibile il programma al pubblico perché lo sta analizzando per capire i pericoli e i rischi.
L'esempio
Immaginate di dare queste indicazioni testuali: “La bellissima Tokyo sotto la neve è trafficata. La ripresa si muove in una via frenetica della città e segue alcune persone mentre si godono la neve e fanno acquisti nei negozi vicini. I fiori di ciliegio sono trasportati dal vento insieme ai fiocchi di neve”. Con Sora il computer vi restituirà questo video.
Mondo virtuale e mondo fisico
Stando a quanto affermato in un post sul blog dalla startup fondata da Sam Altman, Sora è in grado di creare "scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati del soggetto e dello sfondo". Ma non solo. L’azienda sottolinea anche che il modello è in grado di comprendere non solo ciò che l'utente ha richiesto nel prompt ma anche come gli oggetti e le persone “esistono nel mondo fisico". ll modello ha è anche in grado di realizzare più riprese all'interno di un singolo video generato, come se venissero utilizzate più telecamere, "che persistano accuratamente i personaggi e lo stile visivo. Sora, infine, è anche in grado di generare un video basato su un'immagine fissa, "animando i contenuti dell'immagine con precisione e attenzione ai piccoli dettagli", oppure riempire i fotogrammi mancanti in un video esistente o estenderlo per farlo durare di più.