JAKARTA - Google DeepMind تقدم أداة الذكاء الاصطناعي جديدة لإنتاج الموسيقى التصويرية للفيديو. لا تستخدم هذه الأداة النص كمروج لإنتاج الصوت فحسب ، بل تولي اهتماما أيضا لمحتوى الفيديو.
وفقا ل DeepMind ، من خلال الجمع بين العنصرين ، يمكن للمستخدمين استخدام هذه الأداة لإنشاء مشاهد باستخدام "نقاط الدراما أو المؤثرات الصوتية الواقعية أو الحوارات التي تتطابق مع الشخصيات ونقاط الفيديو." يمكن رؤية بعض الأمثلة على موقع DeepMind على الويب ، والذي يظهر نتيجة صوتية مرضية تماما.
على سبيل المثال ، بالنسبة لمقاطع فيديو السيارات التي تسير عبر مدينة الإنترنت ، تستخدم Google الترويج ل "سيارة قاذفة ، ومحرك سيارة مدلك ، والموسيقى الإلكترونية للملك" لإنتاج الصوت. يتزامن صوت الإطارات القاذفة مع حركات السيارة. أمثلة أخرى هي إنشاء مشهد صوتي تحت الماء باستخدام الترويج ل "الدفن الناري تحت الماء ، والحياة البحرية ، والمحيطات".
على الرغم من أنه يمكن للمستخدمين تضمين نص prompt ، إلا أن DeepMind يقول إنه اختياري. لا يحتاج المستخدمون أيضا إلى مطابقة الصوت الذي تم إنشاؤه مع المشهد الدقيق بالتفصيل. وفقا ل DeepMind ، يمكن للأداة إنتاج "عدد لا يحدود" من الموسيقى التصويرية لمقاطع الفيديو ، مما يسمح للمستخدمين بإنشاء تدفقات صوتية غير محدودة.
هذا يمكن أن يبرز من أدوات الذكاء الاصطناعي الأخرى ، مثل مولد المؤثرات الصوتية من ElevenLabs الذي يستخدم نصا معززا لإنتاج الصوت. يمكن للأداة أيضا تسهيل إقران الصوت بمقاطع الفيديو التي يتم إنشاؤها بواسطة الذكاء الاصطناعي من أدوات مثل Veo و Sora من DeepMind (الأخير سيمثل الجمع بين الصوت في المستقبل).
يقول DeepMind إنهم يدربون أدوات الذكاء الاصطناعي الخاصة بهم باستخدام مقاطع الفيديو والصوت والتذكار التي تحتوي على "وصف مفصل للأصوات ونصوص الحوار المقابلة". وهذا يسمح لمولدي الفيديو إلى الصوت بمطابقة الأحداث الصوتية مع المشاهد البصرية.
لا تزال هذه الأداة تعاني من بعض القيود. على سبيل المثال ، تحاول DeepMind تحسين قدرتها على مزامنة حركات الشفاه مع الحوار ، كما هو موضح في فيديو عائلة التوضيح. وأشار DeepMind أيضا إلى أن نظام الفيديو إلى الصوت هذا يعتمد على جودة الفيديو ، بحيث يمكن أن يؤدي مقاطع الفيديو الغامضة أو المشوهة إلى "انخفاض حقيقي في جودة الصوت".
لا تتوفر أداة DeepMind هذه بشكل عام بعد لأنه لا يزال يتعين عليها الخضوع "للاختبارات الأمنية والاختبارات الصارمة". عندما يكون متاحا ، سيتضمن مخرجه الصوتي علامة مياه SynthID من Google للإشارة إلى أنه يتم إنشاؤه بواسطة الذكاء الاصطناعي.
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)