إنشاء Meta SeamlessM4T V2 مع الحد الأدنى من قراءة التعبير والكمية

جاكرتا - في أغسطس الماضي ، قدمت Metamemper SeamlessM4T ، وهي أداة ترجمة تعتمد على الذكاء الاصطناعي (الذكاء الاصطناعي). قبل ثلاثة أشهر فقط من إطلاقها ، أعلنت Meta عن أحدث طراز لها.

قامت Meta بتحديث SeamlessM4T ووصفتها بأنها الجيل الثاني (V2). تحتوي الخدمة على أداة ترجمة أوسع لأن Meta تجمع بين قدراتين جديدتين فيها.

أول قدرة أضافتها Meta هي SeamlessExpressive. يمكن أن تتضمن الأداة تعبيرات المتحدثين مثل الصراخ والحزن والمتعة من خلال الاستراحة وسرعة الكلام والأسلوب الصوتي والنغمات العاطفية.

تم إنشاء الأداة مع مزيج من أعراض التعبيير ونماذج أساسية من SeamlessM4T V2. يقول Meta إنهم استبدلوا أجهزة معالجة الصوت لدعم قدرات قراءة التعبيير.

"إن استبدال مركبة HiFi-GAN في SeamlessM4T v2 بمولدات وحدة إلى نطق تعبيري مخصصة للتحدث المصدر يسمح بنقل النغمة والتعبير العاطفي والأسلوب الصوتي دون عوائق" ، قال Meta في بيانه.

القدرة التالية التي أضافتها Meta هي Seamless Streaming ، وهي مقدمة أوتوماتيكية للكلام لترجمة الكلام إلى النص أو الكلام إلى الكلام. تأتي الأداة مع دقة عالية وزمن زمن الوصول إلى ثانيتين.

هذه الكلمات أمر لا مفر منه لأن هيكل الجمل لكل لغة مختلف. يجب على الذكاء الاصطناعي في SeamlessM4T تعلم الإدخال الصوتي الخطأ لتحديد ما إذا كانت الكلمات والجمل التي يتم الاستماع إليها بحاجة إلى ترجمة أم لا.

"يتم ذلك من خلال سياسة القراءة أو الكتابة التي تمت دراستها ، والتي تحدد بناء على مدخلات صوتية جزئية ، ما إذا كان يجب عليك الكتابة وتوليد الإنتاج ، أو تستمر في انتظار مدخلات أخرى" ، أوضح ميتا.

حاليا ، دعمت SeamlessM4T V2 ما يقرب من 100 لغة لترجمة الكلمات إلى النص و 36 لغة للترجمة من الكلمات إلى الكلمات. تم تدريب خدمة الترجمة هذه مع 4.5 مليون ساعة من البيانات بحيث يكون هناك احتمال لزيادة اللغة.

يمكن أن تكون هذه الإمكانات الجديدة في سلسلة الاتصالات السلسة ، وهي خدمات الاتصالات عبر اللغات ، منافسة للمترجمين الذين طورتهم Google و Samsung. ومع ذلك ، ليس من المعروف بعد متى يمكن للجمهور الوصول إلى SeamlessM4T V2.