In pochi clic abbiamo trasformato una foto in una scena apocalittica con audio nativo: è la promessa dei nuovi generatori video AI. Ma quanto sono davvero utili per chi fa cinema o news?
L'intelligenza artificiale è entrata con decisione nel mondo dei filmmaker e dei content creator online, promettendo di rivoluzionare dalle fondamenta il modo in cui concepiamo e realizziamo i contenuti video. Oggi, grazie a software sempre più sofisticati, è possibile generare scene complesse, animare immagini statiche e dare vita a mondi fantastici senza muoversi dalla propria scrivania, lavorando unicamente davanti a un computer. Per capire a che punto siamo di questa rivoluzione e quali sono le potenzialità concrete di questi strumenti, abbiamo messo alla prova quattro delle piattaforme più innovative e utilizzate del momento: Veo di Google, la pionieristica RunwayML, la nuova e potente Kling AI che arriva dalla Cina e l'aggregatore di modelli AI Higgsfield.
Veo: l'immaginazione di Google prende vita
La nostra esplorazione parte da Veo, la soluzione sviluppata da Google, che si integra nel suo ecosistema di strumenti basati sull'intelligenza artificiale. Il processo è intuitivo: si inizia da un'immagine, che possiamo creare noi stessi con tool di AI grafica come Nano Banana, altro software Google che serve proprio a creare immagini da zero, e si chiede al software di animarla. Per il nostro test, abbiamo fornito una nostra foto, chiedendo a Veo di calarla in una metropoli futuristica e, successivamente, di far aprire al nostro alter-ego una porta su un mondo post-apocalittico. Il risultato è stato di grande impatto: l'atmosfera creata dal software è efficace, suggestiva e cinematografica. Il risultato è visivamente convincente, ma nei passaggi tra le inquadrature la somiglianza del personaggio decade: il volto cambia leggermente, cosa che complica l’uso in produzioni con attori riconoscibili.
RunwayML: il pioniere del video AI diventa regista
Passiamo a RunwayML, una delle prime startup americane fondata da 3 immigrati, ad aver scommesso sul settore del video-AI e che oggi rappresenta un punto di riferimento per i creativi. Anche qui, il funzionamento è diretto: si carica un'immagine, si inserisce un prompt testuale che descrive l'azione desiderata e si attende la magia. Il punto di forza di Runway è la semplicità e la naturalezza dei comandi e delle istruzioni (i prompt), che lo distingue dai concorrenti, nel generare video dal realismo sorprendente. Ma non è solo un generatore. La piattaforma include funzionalità di montaggio avanzate che permettono di intervenire su clip già girate, modificandole con una semplicità disarmante. È possibile, ad esempio, cambiare la prospettiva di una ripresa o applicare uno stile visivo completamente diverso, semplicemente impartendo comandi testuali, trasformando di fatto il filmmaker in un regista che dialoga con la sua intelligenza artificiale. Noi lo abbiamo testato prendendo una clip girata con un drone e chiedendo di cambiare il meteo e poi la prospettiva con cui la scena viene mostrata. È intuitivo con risultati cinematografici.
Kling AI: dalla Cina la nuova frontiera del realismo
La novità del momento arriva dalla Cina e si chiama Kling AI. Questa piattaforma, che ha da poco lanciato il suo ultimo modello di intelligenza artificiale, Kling 2.5, si distingue per l'altissima qualità e il fotorealismo dei video che è in grado di creare partendo da zero, basandosi unicamente su una descrizione testuale. Il risultato è un livello di dettaglio e fedeltà elevato, grazie a un impegno significativo da parte della società che sta dietro questa piattaforma, la quale conta oltre 20.000 sviluppatori, oltre a clienti nella pubblicità e il cinema. Abbiamo parlato con Zeng Yushen, responsabile delle operazioni di Kling AI, che ci ha detto: "La nostra tecnologia sul modello di intelligenza artificiale è sempre stata il cuore di Kling AI. Nel giugno dello scorso anno abbiamo lanciato la versione 1.0, probabilmente il primo modello di generazione video DIT davvero utilizzabile. E da lì non ci siamo fermati. Dal lancio dello scorso giugno, siamo passati attraverso oltre 30 iterazioni e raggiunto sei traguardi. Oggi sono davvero felice di condividere con voi che lanceremo molto presto Kling 2.5. I creator ora possono realizzare scene più cinematografiche, con emozioni e espressioni più raffinate". Ha integrato al suo interno DeepSeek, l'alternativa cinese a ChatGPT. Durante la nostra prova, fatta non sull'ultimo modello AI rilasciato, abbiamo chiesto a Kling di generare scene complesse, con più soggetti in movimento e interazioni con l'ambiente, e i risultati sono stati convincenti. Abbiamo creato un personaggio partendo da una nostra foto, che da zero provando a descriverlo. Efficace, ma il limite che abbiamo riscontrato è nell'interfaccia: al momento con comandi meno immediati rispetto ad altri software, richiedendo un po' più di pratica per essere padroneggiati. Ma i linguaggi precedenti, meno realistici hanno comandi di linguaggio più intuitivi.
Higgsfield: la regia degli avatar nel palmo di una mano
Chiudiamo la nostra rassegna con Higgsfield, una piattaforma che si propone come un hub, riunendo e ottimizzando diverse delle funzionalità viste finora. Il suo motore si basa sugli ultimi modelli di intelligenza artificiale sviluppati da giganti del settore nei video come Google o la cinese Alibaba o la società proprietaria di TikTok, e questo la dice lunga sul suo orientamento verso la creazione di contenuti veloci e virali.
La sua funzione più interessante è quella che potremmo definire di "regia", poiché permette un controllo avanzato sull'avatar finale. Si può definire con precisione la traiettoria di un movimento, l'espressione del volto o la dinamica di un'azione, offrendo al creativo un controllo quasi totale sulla scena. La funzione che abbiamo apprezzato di più è quella proprietaria che chiama Souls, la creazione di un personaggio fedele all'originale, che sia reale o disegnato, che poi possiamo animare a video. Il controllo di regia è tuttavia da migliorare.
La tecnologia c’è, ma servono più artisti per migliorarne l'uso
Veo crea intere scene con audio nativo, ma fatica a mantenere la somiglianza del personaggio. Runway è il più pratico per modifiche come meteo e prospettiva. Kling mostra grande fedeltà grafica; Higgsfield permette di combinare diversi modelli.
Questi sono solo alcuni esempi nel boom dell'AI video, la tecnologia c'è, ed è sempre più accessibile ma ogni generazione ha un costo, in denaro e in minuti di attesa, e dalla nostra prova emerge che qui ci sarà bisogno non solo di ingegneri, serviranno più artisti, scrittori e creativi, per allenare queste Innovazioni e guidarle verso un linguaggio che le renda davvero utili, dei compagni di lavoro per chi crea.