Google a lancé un nouvel outil d’IA pour créer des bande originale de vidéos

JAKARTA – Google DeepMind a introduit un nouvel outil d’IA pour générer des bande originale de vidéos. L’outil utilise non seulement le texte comme un point de courant pour générer de l’audio, mais prête également attention au contenu de la vidéo.

Selon DeepMind, en combinant les deux éléments, les utilisateurs peuvent utiliser cet outil pour créer des scènes avec « une heure de drame, un effet sonore réaliste ou un dialogue qui correspond au caractère et au ton de la vidéo ». On peut trouver quelques exemples sur le site Web de DeepMind, qui montre un résultat audio assez satisfaisant.

Par exemple, pour les vidéos de voitures qui roulent dans des citées cyberpunts, Google utilise le phénomène « voitures glissantes, voitures pavées, musique électronique des anges » pour produire du son. Le son des pneus qui glissent est synchronisé avec le mouvement de la voiture. Par autre exemple, créer un paysage sonore sous-marin à l’aide d’un phénomène « démembré sous l’eau, de la vie maritime, de l’océan ».

Bien que l’utilisateur puisse inclure de texte préliminaire, DeepMind dit qu’il est facultatif. Les utilisateurs n’ont pas non plus besoin de jumeler l’audio généré avec la bonne scène en détail. Selon DeepMind, cet outil peut générer un « nombre illimité » de bande originale pour la vidéo, permettant aux utilisateurs de créer des flux audio illimités.

Cela pourrait le faire se distinguer par rapport à d’autres outils d’IA, tels que le générateur d’effets sonores d’ElevenLabs qui utilise le texte immédiat pour produire l’audio. L’outil peut également facilement combiner l’audio avec des vidéos générées par l’IA à partir d’outils tels que Veo et Sora de DeepMind (le dernier combinera l’audio à l’avenir).

DeepMind a déclaré qu’ils ont formé ses outils d’IA à l’aide de vidéos, d’audio et d’annotations contenant une « description détaillée du son et de la transcription du dialogue prononcés ». Cela permet aux générateurs vidéo-audio d’affronter les événements audio avec les scènes visuelles.

L’outil a encore des limites. Par exemple, DeepMind cherche à améliorer sa capacité à synchroniser les mouvements de lèvres avec le dialogue, comme le montre les vidéos familiales claymation. DeepMind a également noté que ces systèmes vidéo-audio dépendent de la qualité de la vidéo, de sorte que les vidéos sombres ou deformées « peuvent causer une réelle détérioration de la qualité de l’audio ».

L’outil DeepMind n’est pas encore disponible au public car il doit encore subir une « évaluation de sécurité et des tests stricts ». Lorsqu’il sera disponible, sa sortie audio inclura le marquage d’eau synthid de Google pour signifier qu’il est produit par l’IA.

The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)

Tag: google artificial intelligence soundtrack

Tags les plus populaires

#Prabowo Subianto #Nouvel An #accident d’avion #Hasto Kristiyanto #nataru #squid game 2

Google a lancé un nouvel outil d’IA pour créer des bande originale de vidéos

Tags les plus populaires

Populaire

Nouvelles connexes

33 678 passagers de longue distance à la gare de Jakarta Daop 1 la nuit du Nouvel An

ar makbyar parmi les films d'Ambyar Mak Byar, une histoire d'amour d'une classe sociale différente dans la famille javanaise

rètes, en tant que bénéficiaire de Bansos, a été créé par L'Association des affaires étrangères et économiques.

rénagement dans la Nouvelle Région d’Autonomie, la police du Sud-Ouest de Papouasie a besoin de 7 049 personnes supplémentaires

d’encourager la transformation numérique pour l’Indonésie Gold 2045

Rashford revient dans l’équipe Manchester United contre Newcastle