تركزت أدوات الذكاء الاصطناعي التوليدية الأخرى مثل Bing Chat وChatGPT في الغالب على فهم محتوى النص وتقديم الإجابات. ومع ذلك، فهي مفيدة بشكل لا يصدق أيضًا لفهم الصور، وهذا ما تطرحه Microsoft الآن في Bing Chat AI.
في منشور مدونة حديث، أعلنت شركة Microsoft عن ميزة جديدة لـ Bing Chat، تسمى Visual Search. باستخدام Visual Search، يمكنك تحميل صورة أو تحديد صورة موجودة على الويب، وسيحاول Bing فهمها واستخدام هذا السياق في الاستجابات. يُظهر مقطع الفيديو التوضيحي لشركة Microsoft (المضمن أدناه) شخصًا يقوم بتحميل نموذج مرسوم يدويًا لنموذج ويب، ويطلب من Bing إنشاء كود HTML وCSS لجعله عمليًا.
وأوضحت مايكروسوفت في تدوينة على مدونتها: “سواء كنت مسافرًا إلى مدينة جديدة لقضاء إجازة وتسأل عن الهندسة المعمارية لمبنى معين أو في المنزل تحاول التوصل إلى أفكار للغداء بناءً على محتويات الثلاجة، قم بتحميل الصورة إلى Bing Chat واستخدمها لتسخير معرفة الويب للحصول على إجابات لك”.
إن البرامج التي يمكنها اكتشاف محتوى الصور ليست جديدة. فقد تمكنت Google Lens من التعرف على الأشخاص والحيوانات والنباتات والمعالم والأشياء الأخرى في الصور منذ عام 2017، ويعود تاريخ سلفها الأكثر محدودية Google Goggles إلى عام 2010. تستخدم Microsoft ميزات اكتشاف الصور في GPT-4، وهو نفس نموذج اللغة المستخدم في الإصدار المتميز من ChatGPT. ومع ذلك، لا تتوفر مدخلات الصور في ChatGPT حتى الآن، لذا فهذه هي المرة الأولى التي نرى فيها هذه الميزة متاحة على نطاق واسع.
لقد جربت البحث المرئي باستخدام بعض الصور، وكانت النتائج مبهرة. إن مطالبة Bing بوصف الصور تمنحك إجابات أكثر تفصيلاً مما قد تحصل عليه من Google Lens. على سبيل المثال، عند تحميل صورة لكلبي، استجابت بـ “هذه صورة لكلب أسود وبني اللون يجلس على سجادة بنية رقيقة. يرتدي الكلب طوقًا أحمر مع علامة فضية. ينظر الكلب إلى الكاميرا بأذنيه المرفوعتين. تتكون الخلفية من أريكة بيضاء مع وسائد زرقاء وبيضاء. تم التقاط الصورة من زاوية عالية”. كما فسرت بشكل صحيح أن الصورة تم تحميلها على أنها جانبية.
يمكنك تجربة الميزة من خلال فتح دردشة بينج في Microsoft Edge (ما زالت Microsoft تحظره في المتصفحات الأخرى) والنقر فوق أيقونة مخطط الكاميرا في حقل النص.
مصدر: مايكروسوفت