Kling AI 3.0 trasforma un’immagine in una scena da film

NOW
Damiano Crognali

Damiano Crognali

La cinese Kuaishou rilascia il nuovo modello video-generativo con regia multi-shot

Un’immagine, poche righe di testo e l’intelligenza artificiale genera una scena con dialogo, movimenti di camera e audio. La piattaforma cinese Kling AI ha rilasciato il nuovo modello ideo-generativo di terza generazione. Il sistema, sviluppato dalla cinese Kuaishou Technology, introduce la generazione multi-shot: più inquadrature e transizioni all’interno di una singola clip, con gestione automatizzata di angolazioni, campo-controcampo e montaggio alternato. Avevamo testato il modello precedente (qui il nostro precedente test). Ma il salto di qualità riguarda la capacità di orchestrare sequenze narrative complesse in modo automatico.

Cosa fa il modello 3.0: audio, lingue e coerenza visiva

Kling 3.0 genera clip con audio integrato, al momento in cinque lingue: inglese, cinese, giapponese, coreano e spagnolo - l’italiano è atteso). Ma gestisce anche varianti di accento (americano, britannico, indiano), per una resa vocale più naturale.

Tra le funzioni, la generazione di scene di dialogo multi-personaggio, in cui ognuno può parlare in una lingua diversa. Il modello 3.0 preserva il testo presente nelle immagini di partenza, come insegne, loghi, scritte su abbigliamento, e offre la coerenza visiva del personaggio, per replicare i tratti del volto e del corpo e la voce di un personaggio caricato dall’utente. Video 3.0 Omni permette inoltre di caricare un proprio video per estrarne volto e voce, replicabili poi in nuove scene. L’accesso dall’Italia è possibile tramite la piattaforma globale e le app sugli store, ma il modello 3.0 è riservato per ora agli abbonati, e solo via web.

Kling AI
L'interfaccia di Kling AI 3

I numeri di Kling AI: fatturato, utenti e mercato di riferimento

Dietro Kling AI c’è Kuaishou Technology, società cinese dei video brevi quotata a Hong Kong. Secondo i dati diffusi dall’azienda, a dicembre 2025 la piattaforma ha superato i 20 milioni di dollari di fatturato mensile, con un ARR (ricavi annuali ricorrenti) stimato a 240 milioni di dollari, raggiunti in meno di due anni dal lancio. La base utenti dichiarata è di 60 milioni di creator, con oltre 600 milioni di video generati e una quota stimata del 30% nel mercato dei video generativi, in competizione diretta con Veo di Google e Sora di OpenAI, ma con costi di utilizzo per gli utenti più accessibili. A questi numeri si aggiungono oltre 30.000 clienti aziendali, con un’adozione in forte crescita nel cinema e nella pubblicità, dove Kling viene già utilizzato per la creazione di storyboard e concept. Il segmento dei generatori video AI vale 716 milioni di dollari nel 2025, secondo le stime di settore. L’area Asia è quella con la crescita più rapida, stimata al 23,8% annuo.

L’architettura tecnica e il nodo dell’usabilità

Alla base del modello 3.0 c’è il framework MVL (Multi-modal Visual Language), un’architettura unificata che gestisce comprensione, generazione ed editing in un unico flusso. Con questa versione, Kling non si limita più a generare singole clip, ma punta a produrre sequenze con più inquadrature, transizioni e audio sincronizzato, a partire da un comando testuale o da un’immagine di riferimento. È un salto che avvicina questi strumenti al lavoro di una troupe, non sono più solo filtri o animazioni. Dalla nostra precedente prova avevamo riscontrato un’interfaccia meno immediata rispetto a concorrenti occidentali, e Kling sembra aver investito anche sulla semplificazione dell’interfaccia, un aspetto che potrebbe favorire un’adozione più ampia.

Tecnologia: I più letti