OpenAI يعلن عن Sora، نموذج الذكاء الاصطناعي التحولي الخاص به لتحويل النص إلى فيديو

أعلنت OpenAI عن أحدث نماذج الانتشار الخاص بها، Sora، والذي يستفيد من قوة إنشاء النص إلى الفيديو. يُعد نموذج الذكاء الاصطناعي الأحدث من صانع ChatGPT قادرًا على إنشاء مقاطع فيديو بدقة ونسب عرض إلى ارتفاع مختلفة، ويمكنه أيضًا تعديل مقاطع الفيديو الموجودة، مما يسمح بتغيير سريع للمشهد والإضاءة وأسلوب التصوير، وكل ذلك من خلال مطالبة نصية. كما يمكن لـ Sora إنشاء مقاطع فيديو استنادًا إلى صورة ثابتة أو حتى تمديد مقاطع فيديو موجودة عن طريق ملء الإطارات المفقودة.

تشير OpenAI إلى أن Sora قادر حاليًا على إنشاء ما يصل إلى دقيقة واحدة من محتوى فيديو Full HD، وتبدو الأمثلة التي رأيناها واعدة. يمكنك الاطلاع على صفحة هبوط Sora لمزيد من عينات الفيديو المُولدة.

يمكن لـ Sora إنشاء مشاهد معقدة تحتوي على شخصيات متعددة، وأنواع محددة من الحركة، وتفاصيل دقيقة للموضوع والخلفية. لا يفهم النموذج فقط ما طلبه المستخدم في المطالبة، بل يفهم أيضًا كيف توجد هذه الأشياء في العالم المادي.

تعمل من خلال استخدام بنية محول مشابهة لـ ChatGPT حيث يتم تقديم مقاطع الفيديو والصور كبيانات أصغر تسمى الرقع. تبدأ مقاطع الفيديو التي تم إنشاؤها بواسطة Sora كضوضاء ثابتة، حيث يقوم النموذج بإزالة الضوضاء تدريجياً لتكوين المنتج النهائي.

شاركت OpenAI أنها تستفيد من بروتوكولات الأمان الحالية المستخدمة في DALL·E 3. يتم حاليًا اختبار Sora بواسطة "متمرّسين بالاختبار الأحمر" - خبراء سيجرون اختبارات ويقيمون النموذج لمخاطر محتملة قبل إطلاقه الرسمي.

ستعقد OpenAI أيضًا محادثات مع صانعي السياسات والفنانين والمدرسين لرؤية المخاوف المحتملة وحالات الاستخدام لـ Sora. لم يتم حتى الآن تحديد موعد إطلاق رسمي.

المصدر