نموذج Imagen 2 الجديد من Google يمكنه إنشاء مقاطع فيديو

لم يمر وقت طويل منذ أن عرضت OpenAI برنامج Sora، الذي أثار إعجاب الكثير من الناس وأرعبهم بقدرته على إنشاء مقاطع فيديو واقعية (إلى حد ما) من المطالبات النصية. لقد تم صقل إنشاء الصور بالذكاء الاصطناعي كثيرًا على مدار الأشهر الماضية، لذا كما قد تتوقع، فإن الخطوة الطبيعية التالية هي الفيديو. كما تطرح Google أيضًا طرقها الخاصة لإنشاء الفيديو، مع نماذج الذكاء الاصطناعي الجديدة تحت مظلة Imagen 2 التي تعد بأشياء كبيرة أيضًا.




قدمت شركة Google مجموعة من النماذج ضمن منصة Vertex AI. تعرضت شركة Google لانتقادات شديدة بسبب نموذج توليد الصور الخاص بها داخل Gemini والذي كان أشبه بحطام. وتم حذفه، وفي حين أن Gemini لا يتضمن Imagen 2 (على الأقل ليس على الفور)، إلا أنه يأتي مع سلسلة من التحسينات التي تجعله أفضل بشكل عام لتوليد الصور أو حتى مقاطع الفيديو.

تتضمن التحسينات التي تم إدخالها على Imagen 2 ميزات التلوين الداخلي والتلوين الخارجي، مما يسمح بالتلاعب بالصورة مثل إزالة العناصر غير المرغوب فيها أو إضافة مكونات جديدة. ومع ذلك، فإن التحديث الأكثر أهمية هو تقديم “صور نصية حية”، مما يتيح إنشاء مقاطع فيديو قصيرة من مدخلات النص.


ومع ذلك، يجب أن تضع في اعتبارك أن هذا ليس Sora. فمقارنة بأدوات إنشاء الفيديو الحالية، قد تكون قدرات Imagen 2 أقل من حيث الدقة وخيارات التخصيص. سيتعين علينا أن نرى مدى نجاحها في الاستخدام الحقيقي. إنها أيضًا مسألة فنية بعض الشيء، ولكنها تولد “صورًا حية”، وهي مقاطع قصيرة مدتها 4 ثوانٍ. ومع ذلك، فهي لا تزال بداية، ويمكن أن تكون بمثابة أساس لنموذج فعلي لتحويل النص إلى فيديو في الأشهر أو السنوات القادمة.

ولمعالجة المخاوف بشأن التزييف العميق، تدمج جوجل تقنية SynthID لتطبيق علامات مائية مشفرة على الصور الحية، بهدف ضمان الأصالة والسلامة. وعلى الرغم من تأكيد جوجل على تدابير السلامة، تظل هناك تساؤلات حول فعالية نهجها وشفافيتها فيما يتعلق بمصادر بيانات التدريب. ومن بين الأسباب التي قد تثير حفيظة البعض غياب آلية إلغاء الاشتراك للمبدعين الذين قد يتم تضمين أعمالهم في بيانات التدريب. بالإضافة إلى ذلك، لا تغطي سياسة تعويض الذكاء الاصطناعي التوليدي من جوجل الصور الحية التي يتم تحويلها إلى نص، مما يجعل العملاء عرضة لمطالبات حقوق الطبع والنشر المحتملة.


سيتعين علينا الانتظار لنرى ما إذا كانت Google ستجعل هذا متاحًا للعامة بأي شكل من الأشكال. قد نسمع المزيد بمجرد انطلاق مؤتمر Google I/O.

مصدر: تك كرانش

أضف تعليق