نموذج الذكاء الاصطناعي الجديد من Mistral يمكنه فهم الصور والتشغيل محليًا

أطلقت شركة Mistral AI، الشركة التي تقف وراء نماذج اللغات مفتوحة المصدر Mistral وMathstral وCodestral، أول نموذج ذكاء اصطناعي متعدد الوسائط. يمكن لجهاز Pixtral 12B الجديد معالجة الروابط والصور، إلى جانب النص.

أعلنت صوفيا يانج، رئيسة علاقات المطورين في Mistral AI، عن النموذج الجديد لأول مرة على تويتر. وقد تم بالفعل تحديث مستودع GitHub وقاعدة بيانات Mistral AI على Hugging Face بالنموذج الجديد Pixtral.

يستمد Pixtral 12B إلهامه من Nemo 12B (نموذج لغة مجاني آخر من Mistral)، لكنه يبني عليه مع إضافة قدرات معالجة الصور. يشير “12B” في الاسم إلى 12 مليار معلمة لهذا النموذج. للمقارنة، يحتوي ChatGPT 4 على أكثر من تريليون معلمة، لذا فإن Pixtral نموذج صغير نسبيًا. وبينما Pixtral متعدد الوسائط من الناحية الفنية، فهو ليس على قدم المساواة مع ChatGPT أو Claude من Anthropic، اللذين يفهمان أيضًا المطالبات الصوتية والمستندات.

يمكنك الدردشة حول الصور باستخدام Pixtral والحصول على إجابات مفيدة مثل التعليقات التوضيحية أو تحديد ما تحتويه الصورة. يمكنك تزويده بملفات صور فردية أو متعددة أو عناوين URL للصور مع مطالبات مثل “ما هذا النبات؟” أو “إنشاء تعليق توضيحي لهذه الصورة”.

الآن، يمكنك تنزيل نموذج Pixtral مجانًا عبر رابط مغناطيسي للتورنت. إنه ملف بحجم 24 جيجابايت يمكنك تشغيله محليًا على الأجهزة المدعومة. توفره Mistral AI بموجب ترخيص Apache 2.0، مما يعني أنه مجاني للأغراض الشخصية والتجارية. ويمكن للمطورين تعديله بأي طريقة. لم تكشف Mistral عن تفاصيل مجموعة بيانات التدريب لهذا النموذج.

تخطط Mistral AI لتقديم Pixtral 12B كواجهة برمجة تطبيقات رسمية في حزمة “Le Platforme”، كما ستظهر أيضًا في برنامج الدردشة الآلي “Le Chat” قريبًا، ومن المفترض أن تكون نسخة تجريبية مجانية مع زر لتحميل الصور. تفرض Mistral رسومًا للوصول إلى واجهات برمجة التطبيقات، لذا فمن المحتمل أن تحتاج إلى اشتراك للحصول على مفاتيح واجهة برمجة تطبيقات Pixtral.

مصدر: تغريد

مرتبط

أضف تعليق إلغاء الرد