تتطور تقنية إنشاء الصور بالذكاء الاصطناعي بسرعة كبيرة لدرجة أنه في غضون أسابيع أو أشهر فقط يمكن أن تكون الجودة والميزات الممكنة مختلفة تمامًا. يحقق DALL-E 3 قفزة في التكنولوجيا، ولكن كيف يقارن بـ MidJourney؟
ما هو المميز في DALL-E 3؟
لقد قمنا بتغطية تطور وقدرات MidJourney بالتفصيل من قبل، وحتى الآن كان مولد الصور المفضل للحصول على أفضل إخراج فني مناسب للاستخدام الفعلي. ومع ذلك، فإن الاقتراب مما تريده بالفعل في الصورة المولدة في MidJourney قد يكون أمرًا صعبًا للغاية. إذا كنت تريد التحكم الدقيق، فسيتعين عليك اللجوء إلى استخدام Stable Diffusion وواحد من تعديلاته العديدة، مثل كنترول نتومع ذلك، يعد استخدام Stable Diffusion أكثر صعوبة بشكل كبير، كما أن كل من MidJourney وDALL-E 3 متفوقان من حيث سهولة الاستخدام.
يعد DALL-E بالالتزام بشكل أكثر دقة بصياغة مطالبتك. بعبارة أخرى، إذا طلبت وضعيات شخصية معينة أو تفاصيل في المشهد أو ترتيبات للأشياء في المشهد، فمن الناحية النظرية، يجب أن يمنحك DALL-E 3 ما طلبته. سنقارن بين DALL-E 3 وMidJourney باستخدام عدة مطالبات. سيتم إعطاء نفس المطالبة لكل مولد ذكاء اصطناعي.
الموجه 1: الذوق الفني
أولاً، أريد فقط الحصول على إحساس عام بما سيفعله كل مولد فنيًا، لذا سنبدأ بموجه عام إلى حد ما:
Generate an image of an epic fantasy scene with elves and dragons in a 90s fantasy art style
إليكم صورة منتصف الرحلة التي اعتقدت أنها الأفضل.
وهنا صورة DALL-E 3 التي اعتقدت أنها الأفضل.
من المثير للاهتمام هنا ملاحظة أن ChatGPT (الواجهة الأمامية لـ DALL-E 3 في هذه الحالة) لا يمرر مطالبتي الدقيقة إلى مولد الصورة. جزء من نقطة البيع الرئيسية لـ DALL-E 3 هو أنه يستخدم ChatGPT (أي GPT-4) لأخذ فكرتك والقيام بجزء “هندسة المطالبة” من العمل نيابة عنك. لذلك سينشئ مطالبات أكثر تفصيلاً لمحاولة الحصول على نتائج أفضل. إليك المطالبة التي أنشأها ChatGPT بناءً على طلبي:
Oil painting reminiscent of 90s fantasy artwork, showcasing a group of elves, both male and female, standing on a cliff's edge. In the background, colossal dragons soar, their wings casting shadows over a lush forest below. The scene is filled with vibrant colors and dramatic lighting.
يمثل هذا تحديًا فريدًا عند محاولة مقارنة مولدي الصور، لأن GPT يزيد من جودة المطالبة. لذا، لكي أكون منصفًا، قمت بإدخال المطالبة التي تم إنشاؤها بواسطة GPT في MidJourney وهذه هي النتيجة.
الآن لدينا شيء أكثر قابلية للمقارنة. ومع ذلك، أيهما يفوز؟ في هذه الحالة، أرى أن صورة DALL-E 3 أقرب إلى ما طلبته، بينما تتميز صورة MidJourney بأسلوب أكثر تميزًا وذوقًا فنيًا أكثر. في رأيي، يتفوق طراز V5 الحالي من MidJourney في الذوق الفني العام، ولكن بالطبع هذا أمر شخصي للغاية.
بالنسبة لبقية المقارنات، سأستخدم فقط المطالبات التي تم إنشاؤها بواسطة GPT لكلا مولدي الصور لإلغاء مهارتي (أو افتقاري إليها) عندما يتعلق الأمر بمطالبات التصنيع. بعبارة أخرى، سأطلب من ChatGPT الصورة أولاً، ثم أنسخ وألصق أفضل مطالبة صورة يتم إنشاؤها في MidJourney.
الموجه 2: عناصر النص
ربما لاحظت أن برنامج MidJourney يميل إلى إنشاء هراء كلما كان هناك نص في صورة تم إنشاؤها. وذلك لأنه يقوم بإنشاء أشياء تبدو وكأنها أحرف، ولكنها ليست أحرفًا في الواقع. لذا فإن القمصان التي تحتوي على نص أو لافتات المتاجر لن تحتوي على أي نص معقول. يعد برنامج DALL-E 3 بإنشاء أي نص تريده ووضعه بشكل صحيح في الإطار، لذا دعنا نختبر ذلك. إليك الموجه الذي توصل إليه برنامج ChatGPT:
Drawing reminiscent of newspaper comic strips, featuring a computer geek deeply engrossed in his coding work. His T-shirt stands out with the bold statement 'How-To Geek Is Awesome'. The scene is set in a cozy corner with tech posters and sticky notes on the wall.
وهنا نتيجة DALL-E 3.
وهنا نتيجة MidJourney.
في حين أن مخرجات MidJourmey مرضية للغاية للعين، إلا أنها ليست على الإطلاق ما طلبناه، لذا فإن DALL-E 3 يتفوق عليها هنا. ومع ذلك، لا يزال هناك الكثير من النصوص غير المنطقية في الصورة. في اختباري، يعمل DALL-E بشكل رائع عندما تحدد النص بالكامل في الصورة، أو لا يوجد نص آخر غير ما طلبته، ولكن إذا كانت الصورة تحتوي على نص غير محدد، فهذا هراء تمامًا كما هو الحال مع MidJourney،
المطالبة 3: إعداد المشهد
الاختبار الأخير الذي أريد إجراؤه هو إعداد مشهد، حيث أحدد موضع جميع العناصر الرئيسية.
Illustration of a cyberpunk cityscape reminiscent of Blade Runner aesthetics. A cyborg woman with glowing eyes and cybernetic limbs stands on the left, holding a shiny apple. Opposite her, on the right, a robot vendor with a worn-out exterior smokes a cigar, surrounded by an array of exotic fruits. The street is bustling with activity, with drones flying overhead and neon signs illuminating the scene.
وهنا نتيجة DALL-E 3.
وهنا جميع المحاولات الأربع التي قامت بها MidJourney.
مرة أخرى، يتفوق MidJourney في الذوق الفني لكنه يفشل تمامًا في القيام بما طلبته منه في الطلب.
على الرغم من أنه يمكنك إعادة نفس الصورة في DALL-E 3 بأنماط مختلفة، فلن تتمكن MidJourney من إعادة إنتاج العناصر والمواضع المحددة التي تطلبها باستمرار. إليك نفس الصورة، لكنني طلبت أسلوبًا أكثر سريالية وشبه حلم من DALL-E 3.
DALL-E 3 ليس مثاليًا
قبل أن تقرر التخلي عن MidJourney واستبداله بـ DALL-E 3، هناك بعض القيود الرئيسية التي واجهتها عند اختبار DALL-E 3 والتي يجب أن تعرفها:
- سيرفض ChatGPT إنشاء صور لشخصيات محمية بحقوق الطبع والنشر، بينما سيسعد MidJourney بإنتاج فن المعجبين للشخصيات الموجودة.
- لن يسمح لك ChatGPT أيضًا بطلب أسلوب الفن الخاص بأي فنان حي، بينما لا يزال بإمكانك القيام بذلك باستخدام MidJourney.
- لن تنتج المنصتان أعمالاً فنية تتجاوز حدوداً معينة عندما يتعلق الأمر بالمحتوى الخاص بالبالغين الذي يتسم بالعنف أو الجنس. ومع ذلك، فإن MidJourney لديه عملية استئناف بسيطة للنتائج الإيجابية الخاطئة، في حين أن ChatGPT قد يتطلب بعض الإقناع لأنه أكثر تعقيدًا في ظاهره.
كان وقتي مع الأداة محدودًا، وكان كل من DALL-E 3 وMidJourney يحصلان باستمرار على تعديلات وميزات جديدة، ولكن هذه كانت القيود الأكثر وضوحًا التي قد يهتم بها معظم الأشخاص.
الحكم
من الصعب جدًا تحديد الفائز المطلق هنا، ولكن في ظل الوضع الحالي، فإن MidJourney هي الأداة المناسبة للاستخدام إذا كنت تريد التعبير والذوق الفني في ما تنشئه. وعلى النقيض من ذلك، فإن DALL-E 3 هي الأداة الأفضل بكثير إذا كنت تريد إنشاء أعمال فنية متسقة وفقًا لمتطلباتك الدقيقة للرسوم التوضيحية أو حالات الاستخدام المهني الأخرى.