Partager:

JAKARTA – Google DeepMind a introduit un nouvel outil d’IA pour générer des bande originale de vidéos. L’outil utilise non seulement le texte comme un point de courant pour générer de l’audio, mais prête également attention au contenu de la vidéo.

Selon DeepMind, en combinant les deux éléments, les utilisateurs peuvent utiliser cet outil pour créer des scènes avec « une heure de drame, un effet sonore réaliste ou un dialogue qui correspond au caractère et au ton de la vidéo ». On peut trouver quelques exemples sur le site Web de DeepMind, qui montre un résultat audio assez satisfaisant.

Par exemple, pour les vidéos de voitures qui roulent dans des citées cyberpunts, Google utilise le phénomène « voitures glissantes, voitures pavées, musique électronique des anges » pour produire du son. Le son des pneus qui glissent est synchronisé avec le mouvement de la voiture. Par autre exemple, créer un paysage sonore sous-marin à l’aide d’un phénomène « démembré sous l’eau, de la vie maritime, de l’océan ».

Bien que l’utilisateur puisse inclure de texte préliminaire, DeepMind dit qu’il est facultatif. Les utilisateurs n’ont pas non plus besoin de jumeler l’audio généré avec la bonne scène en détail. Selon DeepMind, cet outil peut générer un « nombre illimité » de bande originale pour la vidéo, permettant aux utilisateurs de créer des flux audio illimités.

Cela pourrait le faire se distinguer par rapport à d’autres outils d’IA, tels que le générateur d’effets sonores d’ElevenLabs qui utilise le texte immédiat pour produire l’audio. L’outil peut également facilement combiner l’audio avec des vidéos générées par l’IA à partir d’outils tels que Veo et Sora de DeepMind (le dernier combinera l’audio à l’avenir).

DeepMind a déclaré qu’ils ont formé ses outils d’IA à l’aide de vidéos, d’audio et d’annotations contenant une « description détaillée du son et de la transcription du dialogue prononcés ». Cela permet aux générateurs vidéo-audio d’affronter les événements audio avec les scènes visuelles.

L’outil a encore des limites. Par exemple, DeepMind cherche à améliorer sa capacité à synchroniser les mouvements de lèvres avec le dialogue, comme le montre les vidéos familiales claymation. DeepMind a également noté que ces systèmes vidéo-audio dépendent de la qualité de la vidéo, de sorte que les vidéos sombres ou deformées « peuvent causer une réelle détérioration de la qualité de l’audio ».

L’outil DeepMind n’est pas encore disponible au public car il doit encore subir une « évaluation de sécurité et des tests stricts ». Lorsqu’il sera disponible, sa sortie audio inclura le marquage d’eau synthid de Google pour signifier qu’il est produit par l’IA.


The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)