تثير Microsoft تقنية الذكاء الاصطناعي للصور الرمزية النابضة بالحياة ولكنها لا تعطي تاريخ إصدار

كشف باحثون في شركة مايكروسوفت عن أداة اصطناعية جديدة يمكنها إنشاء صور رمزية بشرية واقعية للغاية، لكنهم لم يقدموا جدولًا زمنيًا لإتاحتها للجمهور، مشيرين إلى مخاوف بشأن تسهيل المحتوى المزيف العميق.

 

يمكن لنموذج الذكاء الاصطناعي المعروف باسم VASA-1، والذي يعني "المهارات العاطفية البصرية"، إنشاء فيديو رسوم متحركة لشخص يتحدث، مع حركات الشفاه المتزامنة، باستخدام صورة واحدة فقط ومقطع صوتي للكلام.

 

يخشى الباحثون في مجال المعلومات المضللة من إساءة استخدام التطبيقات التي تعمل بالذكاء الاصطناعي لإنشاء صور ومقاطع فيديو ومقاطع صوتية "مزيفة للغاية" في عام انتخابي محوري.

 

وكتب مؤلفو تقرير VASA-1، الذي صدر هذا الأسبوع عن شركة Microsoft Research Asia: "نحن نعارض أي سلوك لإنشاء محتويات مضللة أو ضارة لأشخاص حقيقيين".

 

وقالوا: "نحن ملتزمون بتطوير الذكاء الاصطناعي بشكل مسؤول، بهدف تعزيز رفاهية الإنسان".

 

"ليس لدينا أي خطط لإصدار عرض توضيحي عبر الإنترنت أو واجهة برمجة تطبيقات أو منتج أو تفاصيل تنفيذ إضافية أو أي عروض ذات صلة حتى نتأكد من استخدام التكنولوجيا بشكل مسؤول ووفقًا للوائح المناسبة."

 

وقال باحثون من مايكروسوفت إن التكنولوجيا يمكنها التقاط مجموعة واسعة من الفروق الدقيقة في الوجه وحركات الرأس الطبيعية.

 

وقال الباحثون في المنشور: "إنه يمهد الطريق لتفاعلات في الوقت الفعلي مع صور رمزية نابضة بالحياة تحاكي سلوكيات المحادثة البشرية".

 

يمكن لـ VASA العمل مع الصور الفنية والأغاني والكلام غير الإنجليزي، وفقًا لمايكروسوفت.

 

وروج الباحثون للفوائد المحتملة للتكنولوجيا مثل توفير معلمين افتراضيين للطلاب أو الدعم العلاجي للأشخاص المحتاجين.

 

وقالوا: "ليس المقصود إنشاء محتوى يستخدم للتضليل أو الخداع".

 

لا تزال مقاطع فيديو VASA تحتوي على "قطع أثرية" تكشف أنها تم إنشاؤها بواسطة الذكاء الاصطناعي، وفقًا للمنشور.

 

وقال بن ويردمولر، رئيس قسم التكنولوجيا في ProPublica، إنه "سيكون متحمسًا لسماع شخص يستخدمها لتمثيله في اجتماع Zoom لأول مرة".

 

"مثلًا، كيف سار الأمر؟ هل لاحظ أحد؟" قال على مواضيع الشبكة الاجتماعية.

 

كشفت شركة OpenAI، صانعة ChatGPT، في شهر مارس عن أداة لاستنساخ الصوت تسمى "Voice Engine" والتي يمكنها بشكل أساسي تكرار خطاب شخص ما بناءً على عينة صوتية مدتها 15 ثانية.

 

لكنها قالت إنها "تتخذ نهجا حذرا ومستنيرا تجاه إصدار أوسع بسبب احتمال إساءة استخدام الصوت الاصطناعي".

 

وفي وقت سابق من هذا العام، اعترف مستشار يعمل لصالح مرشح رئاسي ديمقراطي مرشح منذ فترة طويلة، بأنه كان وراء انتحال شخصية جو بايدن، الذي تم إرساله إلى الناخبين في نيو هامبشاير، قائلًا إنه كان يحاول تسليط الضوء على مخاطر الذكاء الاصطناعي.

 

تضمنت المكالمة ما بدا وكأنه صوت بايدن يحث الناس على عدم الإدلاء بأصواتهم في الانتخابات التمهيدية في الولاية في يناير، مما أثار قلق الخبراء الذين يخشون من طوفان من المعلومات المضللة العميقة المدعومة بالذكاء الاصطناعي في سباق البيت الأبيض لعام 2024.

استمتعت بهذا المقال؟ ابق على اطلاع من خلال الانضمام إلى النشرة الإخبارية لدينا!

تعليقات

يجب أن تكون مسجلا للدخول لتكتب تعليق.