ما هو OpenAI Sora وهل سيغير مفهوم الفيديو للأبد؟

النقاط الرئيسية

  • يقوم OpenAI Sora بإنشاء مقاطع فيديو واقعية للغاية من المطالبات النصية، مما يُظهر تقدمًا كبيرًا في تكنولوجيا الذكاء الاصطناعي.
  • تعد قدرة Sora على محاكاة الفيزياء في مقاطع الفيديو بدقة ميزة بارزة، ولكنها لا تزال تعاني من بعض المشكلات المتعلقة بالتفاعلات وتوليد الكائنات.
  • إن توفر Sora للجمهور غير مؤكد، حيث يتم اختباره حاليًا من حيث السلامة والجودة قبل تحديد تاريخ الإصدار الثابت.



تتجه سرعة تطوير الذكاء الاصطناعي نحو نقطة تتجاوز الفهم البشري، ونظام Sora لتحويل النص إلى فيديو من شركة OpenAI هو أحدث تقنية ذكاء اصطناعي تصدم العالم وتجعله يدرك أن الأمور تحدث أسرع مما يتوقعه أي شخص.


ما هو OpenAI Sora؟

مثل أدوات الذكاء الاصطناعي التوليدية الأخرى مثل DALL-E وMidJourney، يأخذ Sora رسائل نصية منك ويحولها إلى وسيط بصري. ومع ذلك، على عكس مولدات الصور بالذكاء الاصطناعي المذكورة أعلاه، يقوم Sora بإنشاء مقطع فيديو كامل بالحركة وزوايا الكاميرا المختلفة والاتجاه وكل شيء آخر تتوقعه من مقطع فيديو تم إنتاجه تقليديًا.

صورة تم إنشاؤها بواسطة الذكاء الاصطناعي لشاب في العشرينات من عمره يجلس على قطعة من السحابة في السماء وهو يقرأ كتابًا.

بالنظر إلى الأمثلة على موقع سوراغالبًا ما تكون النتائج غير قابلة للتمييز عن الفيديو الحقيقي الذي تم إنتاجه بشكل احترافي. كل شيء من لقطات الطائرات بدون طيار عالية الجودة إلى إنتاجات الأفلام بملايين الدولارات. مكتملة بالممثلين الذين تم إنشاؤهم بواسطة الذكاء الاصطناعي والمؤثرات الخاصة والأعمال.

صورة تم إنشاؤها بواسطة الذكاء الاصطناعي لمنظر من طائرة بدون طيار للأمواج وهي تتحطم على المنحدرات الوعرة على طول شاطئ جاراي بوينت في بيج سور.


بالطبع، ليست سورا هي التكنولوجيا الأولى التي تقوم بهذا. حتى الآن، كان الزعيم الأكثر وضوحًا في هذا المجال هو المدرجMLالواقع أن هذه البرامج تقدم خدماتها للجمهور مقابل رسوم. ولكن حتى في أفضل الظروف، فإن مقاطع الفيديو التي ينشرها موقع Runway تشبه إلى حد كبير الأجيال الأولى من الصور الثابتة التي ينشرها موقع MidJourney. فلا يوجد استقرار في الصورة، ولا تتضح لنا الفيزياء، وفي الوقت الذي أكتب فيه هذه الكلمات، يبلغ أطول مقطع فيديو 16 ثانية.

في المقابل، فإن أفضل مخرجات برنامج Sora هي مستقرة تمامًا، مع فيزياء تبدو صحيحة (على الأقل بالنسبة لأدمغتنا)، ويمكن أن تصل مدة المقاطع إلى دقيقة واحدة. المقاطع خالية تمامًا من الصوت، ولكن هناك بالفعل أنظمة ذكاء اصطناعي أخرى يمكنها توليد الموسيقى والمؤثرات الصوتية والكلام. لذا ليس لدي شك في أنه يمكن دمج هذه الأدوات في سير عمل Sora، أو في أسوأ الأحوال العمل الصوتي التقليدي وتقنية فولي.


لا يمكن المبالغة في مدى القفزة الهائلة التي تمثلها لعبة Sora مقارنة بمقاطع الفيديو المروعة للذكاء الاصطناعي التي صدرت قبل عام واحد فقط من عرض Sora التجريبي. مثل الذكاء الاصطناعي ويل سميث يأكل السباغيتيأعتقد أن هذه صدمة أكبر للنظام مقارنة بالصدمة التي أحدثتها مولدات الصور بالذكاء الاصطناعي عندما تحولت من مجرد نكتة إلى إثارة الرعب الوجودي لدى الفنانين التشكيليين.

من المرجح أن يؤثر سورا على صناعة الفيديو بأكملها، بدءًا من صناع لقطات الفيديو الفردية وحتى مستوى مشاريع ديزني ومارفل ذات الميزانية الضخمة. لن يتأثر أي شيء بهذا. أعتقد أن هذا صحيح بشكل خاص لأن سورا ليس مضطرًا إلى إنشاء أشياء كاملة، بل يمكنه العمل على مواد موجودة، مثل تحريك صورة ثابتة قدمتها. قد تكون هذه هي البداية الحقيقية لصناعة الأفلام الاصطناعية.


كيف يعمل سورا؟

سنحاول أن نتعمق قليلاً في تفاصيل Sora قدر الإمكان، ولكن من غير الممكن الخوض في تفاصيل كثيرة. أولاً، لأن OpenAI ليست منفتحة بشأن التفاصيل الداخلية لتقنيتها. إنها ملكية خاصة، وبالتالي فإن الصلصة السرية التي تميز Sora عن المنافسة غير معروفة لنا في تفاصيلها الدقيقة. ثانيًا، أنا لست عالم كمبيوتر، وربما أنت لست عالم كمبيوتر، وبالتالي لا يمكننا فهم كيفية عمل هذه التقنية إلا من منظور عام واسع.

الخبر السار هو أن هناك شرحًا ممتازًا لـ Sora (مدفوع الأجر) بواسطة مايك يونج على Medium، بناءً على تقرير فني من OpenAI لقد تم تقسيمه حتى نستطيع نحن البشر العاديين أن نفهمه. ورغم أن الوثيقتين تستحقان القراءة، إلا أننا نستطيع أن نستخرج منهما أهم الحقائق.

تم بناء Sora على الدروس التي تعلمتها شركات مثل OpenAI عند إنشاء تقنيات مثل ChatGPT أو DALL-E. يبتكر Sora كيفية تدريبه على مقاطع الفيديو النموذجية من خلال تقسيم هذه المقاطع إلى “رقع” تشبه “الرموز” المستخدمة في نموذج تدريب ChatGPT. نظرًا لأن هذه الرموز متساوية الحجم، فإن أشياء مثل طول المقطع ونسبة العرض إلى الارتفاع وحجم الدقة لا تهم Sora.


يستخدم Sora نفس نهج المحول الواسع الذي يعمل على تشغيل GPT إلى جانب طريقة الانتشار التي تستخدمها مولدات الصور بالذكاء الاصطناعي. أثناء التدريب، ينظر إلى رموز التصحيح المشوشة جزئيًا من مقطع فيديو ويحاول التنبؤ بمظهر الرمز النظيف الخالي من الضوضاء. من خلال مقارنة ذلك بالحقيقة الأساسية، يتعلم النموذج “لغة” الفيديو. وهذا هو السبب في أن الأمثلة من موقع Sora تبدو أصلية للغاية.

وبعيدًا عن هذه القدرة الرائعة، يتمتع Sora أيضًا بتعليقات توضيحية عالية التفاصيل متضمنة لإطارات الفيديو التي تم تدريبه عليها، وهو أحد الأسباب الرئيسية وراء قدرته على تعديل مقاطع الفيديو التي ينشئها استنادًا إلى المطالبات النصية.

يبدو أن قدرة سورا على محاكاة الفيزياء بدقة في مقاطع الفيديو هي ميزة ناشئة، والتي تنشأ ببساطة من تدريبه على ملايين مقاطع الفيديو التي تحتوي على حركة تستند إلى الفيزياء في العالم الحقيقي. يتمتع سورا بثبات ممتاز للأشياء، حتى عندما تخرج الأشياء من الإطار أو يتم حجبها بواسطة شيء آخر في الإطار، فإنها تظل موجودة وتعود دون أن يزعجها أحد.


ومع ذلك، لا تزال هناك مشكلات في بعض الأحيان عندما تتفاعل الأشياء في الفيديو، مع السببية، ومع توليد الأشياء التلقائي. أيضًا، ومن المضحك إلى حد ما، يبدو أن Sora يخلط بين اليسار واليمين من وقت لآخر. ومع ذلك، فإن ما تم عرضه حتى الآن ليس قابلاً للاستخدام بالفعل فحسب، بل إنه أحدث ما توصلت إليه التكنولوجيا على الإطلاق.

متى ستحصل على سورا؟

نحن جميعًا متحمسون للغاية لتجربة Sora، ويمكنك الرهان على أنني سأستخدمها وأكتب بالتفصيل مدى جودة هذه التكنولوجيا عندما لا يتم عرض مخرجات مختارة لنا يدويًا، ولكن متى يمكن أن يحدث هذا؟

حتى وقت كتابة هذه السطور، ليس من الواضح على وجه التحديد المدة التي قد تستغرقها عملية طرح تطبيق Sora للجمهور العام، أو كم سيكلف ذلك. وقد صرحت شركة OpenAI بأن التكنولوجيا في أيدي “الفريق الأحمر”، وهو مجموعة من الأشخاص الذين تتمثل مهمتهم في محاولة جعل تطبيق Sora يقوم بكل الأشياء السيئة التي لا ينبغي له القيام بها، ثم المساعدة في وضع حواجز أمام حدوث هذا النوع من الأشياء عندما يستخدمه العملاء الفعليون. ويشمل هذا إمكانية إنشاء معلومات مضللة، وإنتاج مواد مهينة أو مسيئة، والعديد من الانتهاكات الأخرى التي قد يتخيلها المرء.


كما أنه، في وقت كتابة هذه السطور، في أيدي مبدعين مختارين، وهو ما أظن أنه لأغراض الاختبار، والحصول على بعض المراجعات والتأييدات من جهات خارجية بينما نتجه نحو الإصدار النهائي.

خلاصة القول هي أننا لا نعرف في الواقع متى سيكون متاحًا، بنفس الطريقة التي يمكنك بها ببساطة الدفع مقابل استخدام DALL-E 3، وفي الواقع حتى OpenAI ليس لديها تاريخ محدد حتى الآن. هذا ببساطة لأنه إذا كان في أيدي مختبري السلامة، فقد يكتشفون مشكلات تستغرق وقتًا أطول لإصلاحها من المتوقع، مما قد يؤدي إلى تأخير الإصدار العام.

إن حقيقة أن شركة OpenAI تشعر بأنها مستعدة لعرض Sora وحتى تلقي بعض المطالبات العامة المنظمة من خلال X (Twitter سابقًا) تعني ببساطة أن الشركة تعتقد أن جودة المنتج النهائي جاهزة إلى حد كبير، ولكن حتى تتوفر صورة أفضل للرأي العام وقضايا السلامة التي تم طرحها، وقضايا السلامة التي تم اكتشافها أيضًا، لا يمكن لأحد أن يقول على وجه اليقين. أعتقد أننا نتحدث عن أشهر وليس سنوات، لكن لا تتوقع ذلك في الأسبوع المقبل.


أضف تعليق