ما هو الذكاء الاصطناعي المتعدد الوسائط؟

النقاط الرئيسية

  • يستخدم الذكاء الاصطناعي المتعدد الوسائط مصادر إدخال متعددة (نصوص وصور وصوت وأجهزة استشعار) لتحقيق نتائج أفضل وتطبيقات أكثر تقدمًا.
  • تتمتع الذكاء الاصطناعي المتعدد الوسائط بخبرة أكبر ويمكنها ربط مدخلات مختلفة لتوفير نتائج محسنة.
  • تتضمن أمثلة نماذج الذكاء الاصطناعي المتعدد الوسائط Google Gemini، وGPT-4V من OpenAI، وRunway Gen-2، وMeta ImageBind.



لقد أثارت نماذج الذكاء الاصطناعي المبكرة الإعجاب بناءً على قدرتها على تفسير مطالبات النص، ولكن الذكاء الاصطناعي المتعدد الوسائط قادر على أكثر من ذلك بكثير. ومع توسع النماذج الحالية لقبول المزيد من طرق الإدخال، فإن أدوات الذكاء الاصطناعي سوف تصبح أكثر تقدمًا.


ماذا يعني “متعدد الوسائط”؟

تشير كلمة “متعدد الوسائط” حرفيًا إلى استخدام أوضاع متعددة، وفي سياق الذكاء الاصطناعي، يعني ذلك استخدام مصادر إدخال مختلفة للتدريب والحصول على نتائج أكثر استنارة. كانت برامج المحادثة التي اجتاحت العالم في عام 2023 قادرة فقط على وضع إدخال واحد، وهو النص.

يذكر ChatGPT 3.5 أنه يمكنه التفاعل فقط مع المطالبات النصية، وليس الفيديو أو الصور.


الذكاء الاصطناعي المتعدد الوسائط قادر على قبول طريقتين أو أكثر للإدخال. وينطبق هذا عند تدريب النموذج وعند التفاعل مع النموذج. على سبيل المثال، يمكنك تدريب نموذج لربط صور معينة بأصوات معينة باستخدام مجموعات بيانات الصور والصوت. وفي الوقت نفسه، يمكنك أن تطلب من النموذج الجمع بين وصف نصي وملف صوتي من أجل إنشاء صورة تمثل كليهما.

تتضمن أوضاع الإدخال المحتملة النصوص والصور والصوت أو المعلومات من أجهزة الاستشعار مثل درجة الحرارة والضغط والعمق وما إلى ذلك. يمكن إعطاء الأولوية لهذه الأوضاع داخل النموذج، مع ترجيح النتائج بناءً على النتيجة المقصودة.

تُعد النماذج متعددة الوسائط تطورًا للنماذج أحادية الوسائط التي شهدت انتشارًا كبيرًا خلال عام 2023. لا تستطيع النماذج أحادية الوسائط سوى تلقي مطالبة من إدخال واحد (مثل النص). يمكن للنموذج متعدد الوسائط الجمع بين مدخلات متعددة مثل الوصف والصورة وملف الصوت لتوفير نتائج أكثر تقدمًا.


كيف يكون الذكاء الاصطناعي المتعدد الوسائط أفضل من الذكاء الاصطناعي العادي؟

الذكاء الاصطناعي المتعدد الوسائط هو التطور المنطقي لنماذج الذكاء الاصطناعي الحالية التي تسمح بنماذج “أكثر دراية”. تطبيقات هذه النماذج أوسع بكثير، سواء من حيث الاستخدام من قبل المستهلك، أو التعلم الآلي، أو التنفيذ الخاص بالصناعة.

لنفترض أنك تريد إنشاء صورة جديدة بناءً على صورة التقطتها. يمكنك إرسال الصورة إلى الذكاء الاصطناعي ووصف التغييرات التي تريد رؤيتها. يمكنك أيضًا تدريب نموذج على ربط الأصوات بنوع معين من الصور أو رسم ارتباطات مثل درجة الحرارة. ستحقق هذه الأنواع من النماذج نتائج “أفضل” حتى إذا كنت تتفاعل معها عبر النص فقط.

وتشمل الأمثلة الأخرى ترجمة مقاطع الفيديو باستخدام الصوت والفيديو لمزامنة النص مع ما يحدث على الشاشة أو جمع المعلومات بشكل أفضل باستخدام المخططات والرسوم البيانية التوضيحية لتعزيز النتائج. بالطبع، يجب عليك دائمًا الحفاظ على مستوى صحي من الشك عند التحدث مع روبوت الدردشة.


إن الذكاء الاصطناعي المتعدد الوسائط يشق طريقه تدريجيا إلى التكنولوجيا اليومية. ويمكن تحسين المساعدين المحمولين بشكل كبير باستخدام نماذج متعددة الوسائط حيث سيحتوي المساعد على المزيد من نقاط البيانات وسياق إضافي لتقديم افتراضات أفضل. يحتوي هاتفك الذكي بالفعل على كاميرات وميكروفونات وأجهزة استشعار للضوء والعمق وجيروسكوب ومقياس تسارع وخدمات تحديد الموقع الجغرافي واتصال بالإنترنت. كل هذا يمكن أن يكون مفيدًا لمساعد في السياق الصحيح.

إن العواقب المترتبة على الصناعة هائلة. تخيل تدريب نموذج لأداء نوع ما من مهام الصيانة باستخدام عدة مدخلات حتى يتمكن من إصدار أحكام أفضل. هل يسخن أحد المكونات؟ هل يبدو المكون مهترئًا؟ هل يصدر صوتًا أعلى مما ينبغي؟ يمكن دمج هذا مع معلومات أساسية مثل عمر المكون ومتوسط ​​عمره الافتراضي، ثم يمكن ترجيح المدخلات للوصول إلى استنتاجات معقولة.


بعض الأمثلة على الذكاء الاصطناعي المتعدد الوسائط

جوجل جيميني ربما يكون هذا أحد أشهر الأمثلة على الذكاء الاصطناعي المتعدد الوسائط. لم يخلو النموذج من الجدل، حيث فيديو يوضح النموذج الذي تم إصداره في أواخر عام 2023، تم وصفها بأنها “مزيفة” من قبل المنتقدين. اعترف أن الفيديو تم تحريره، وأن النتائج كانت مبنية على صور ثابتة ولم تحدث في الوقت الحقيقي، وأن الإرشادات كانت مقدمة من خلال نص بدلاً من التحدث بصوت عالٍ.

عرض فيديو توضيحي لـ Google Gemini
جوجل

يمكن للمطورين البدء في استخدام Gemini اليوم ببساطة من خلال التقدم بطلب للحصول على مفتاح API في Google AI Studio. تم ​​إطلاق الخدمة في فئة “مجانًا للجميع” بحد أقصى يصل إلى 60 استعلامًا في الدقيقة. ستحتاج إلى فهم قوي لـ Python لإعداد الخدمة (هنا البرنامج التعليمي جيد للبدء).


ومع ذلك، لا يزال Gemini نموذجًا واعدًا للذكاء الاصطناعي متعدد الوسائط تم تدريبه على الصوت والصور ومقاطع الفيديو والرموز والنصوص بلغات مختلفة. وهو يتنافس مع OpenAI جي بي تي-4، والذي يمكنه قبول مطالبات النص والصور. يُعرف أيضًا باسم GPT-4V (حيث يرمز الحرف V إلى الرؤية)، ويتوفر الطراز لمستخدمي ChatGPT Plus عبر موقع OpenAIتطبيقات الهاتف المحمول وواجهة برمجة التطبيقات.

يمكنك استخدام GPT-4V مجانًا عبر دردشة بينج لتحميل الصور أو التقاط الصور من كاميرا جهازك أو كاميرا الويب. ما عليك سوى النقر على أيقونة الصورة في مربع “اسألني عن أي شيء…” لإرفاق صورة باستفسارك.

نجح Bing Chat في التعرف على ماريو من لقطة شاشة تم تحميلها.


وتشمل النماذج المتعددة الوسائط الأخرى مدرج الجيل الثاني، وهو نموذج ينتج مقاطع فيديو استنادًا إلى مطالبات نصية وصور ومقاطع فيديو موجودة. في الوقت الحاضر، تبدو النتائج جداً تم إنشاؤه بواسطة الذكاء الاصطناعي، ولكن كدليل على المفهوم، لا يزال أداة مثيرة للاهتمام للعب بها.

ميتا إيماج بيند هناك نموذج متعدد الوسائط آخر يقبل النصوص والصور والصوت بالإضافة إلى خرائط الحرارة ومعلومات العمق والقصور الذاتي. يجدر بك التحقق من أمثلة يمكنك زيارة موقع ImageBind لرؤية بعض النتائج الأكثر إثارة للاهتمام (مثل كيفية دمج صوت سكب الماء وصورة التفاح في صورة لغسل التفاح في الحوض).


إن تبني نماذج الذكاء الاصطناعي المتعددة الوسائط يعد خبراً سيئاً لأي شخص سئم بالفعل من سماع كل ما يتعلق بهذه التكنولوجيا، ومن المؤكد أن هذا من شأنه أن يبقي شركات مثل OpenAI في الأخبار لفترة أطول قليلاً. لكن القصة الحقيقية هي كيف ستعمل شركات مثل Apple وGoogle وSamsung وغيرها من اللاعبين الكبار على جلب هذه التكنولوجيا إلى المنازل وإلى أيدي المستهلكين.


في نهاية المطاف، ليس عليك أن تعلم أنك تتفاعل مع مصطلح آخر من مصطلحات الذكاء الاصطناعي لكي تجني الفوائد. وبعيداً عن الإلكترونيات الاستهلاكية، فإن الإمكانات في مجالات مثل البحث الطبي، وتطوير الأدوية، والوقاية من الأمراض، والهندسة، وما إلى ذلك قد يكون لها التأثير الأعظم على الإطلاق.

أضف تعليق