Dopo il sintetizzatore vocale VALL-E, Microsoft ha creato un nuovo modello di Intelligenza Artificiale in grado di animare il volto di una persona a partire da una foto.
VASA-1 anima i volti con audio e video
Microsoft continua a investire nella ricerca dell’Intelligenza Artificiale annunciando di aver messo a punto VASA-1, un nuovo modello di intelligenza artificiale in grado di animare un volto di un individuo basandosi semplicemente su una immagine e un file audio.
Presentiamo VASA, un framework per la generazione di volti parlanti realistici di personaggi virtuali con capacità visive affettive (VAS) accattivanti, dati da una singola immagine statica e da una clip audio del parlato. Il nostro primo modello, VASA-1, è in grado non solo di produrre movimenti labiali squisitamente sincronizzati con l’audio, ma anche di catturare un ampio spettro di sfumature facciali e movimenti naturali della testa che contribuiscono alla percezione di autenticità e vivacità. Le innovazioni principali comprendono un modello olistico di dinamica facciale e di generazione dei movimenti della testa che opera in uno spazio latente del volto e lo sviluppo di uno spazio latente del volto espressivo e districato utilizzando i video. Attraverso esperimenti approfonditi, tra cui la valutazione di una serie di nuove metriche, dimostriamo che il nostro metodo supera in modo significativo e completo i metodi precedenti su varie dimensioni. Il nostro metodo non solo offre un’elevata qualità video con dinamiche realistiche del viso e della testa, ma supporta anche la generazione online di video 512×512 fino a 40 FPS con una latenza iniziale trascurabile. Questo metodo apre la strada a un coinvolgimento in tempo reale con avatar realistici che emulano i comportamenti umani nelle conversazioni.
Il risultato è così realistico che il modello VASA è riuscito ad animare il volto della Monna Lisa dando letteralmente vita al celebre capolavoro di Leonardo in una inedita versione rap abbastanza inquietante.
Potete vedere in una serie di esempi che si basano su foto di persone delle quali l’AI ne anima perfettamente il volto a questo indirizzo. Cosa ne pensate di questo nuovo modello di AI? Ditecelo nei commenti.
Articolo di Windows Blog Italia