ما هي الهلوسة التي يسببها الذكاء الاصطناعي؟ هل يمكن لبرنامج ChatGPT أن يسبب الهلوسة؟

جدول المحتويات

النقاط الرئيسية

يمكن لروبوتات الدردشة الذكية أن تعاني من الهلوسة، وتقديم استجابات غير دقيقة أو غير منطقية مع الاعتقاد بأنها استوفت طلب المستخدم.
تتضمن العملية التقنية وراء هلوسات الذكاء الاصطناعي قيام الشبكة العصبية بمعالجة النص، ولكن المشكلات مثل بيانات التدريب المحدودة أو الفشل في تمييز الأنماط يمكن أن تؤدي إلى استجابات هلوسة.
يعمل المطورون على تحسين روبوتات الدردشة الذكية وخفض معدلات الهلوسة من خلال بيانات تدريب أفضل واختبارات منتظمة وتحسين معايير الاستجابة. يمكن للمستخدمين أيضًا تقليل الهلوسة من خلال إبقاء المطالبات موجزة وتجنب اللغة المتناقضة والتحقق من صحة المعلومات التي تقدمها روبوتات الدردشة.

يعتقد الكثير منا أن الهلوسة هي تجربة إنسانية بحتة. ومع ذلك، فإن حتى روبوتات الدردشة الذكية المرموقة لديها القدرة على الهلوسة بطريقتها الخاصة. ولكن ما هي الهلوسة الذكية بالضبط، وكيف تؤثر على استجابات روبوتات الدردشة الذكية؟

ما هي هلوسة الذكاء الاصطناعي؟

عندما يصاب نظام الذكاء الاصطناعي بالهلوسة، فإنه يقدم استجابة غير دقيقة أو غير منطقية، لكنه يعتقد أنه استوفى طلبك. بعبارة أخرى، يكون برنامج المحادثة واثقًا من الاستجابة التي تكون في الواقع مليئة بالتناقضات أو اللغة غير المنطقية أو الأكاذيب.

يتم تدريب روبوتات الدردشة المعتمدة على الذكاء الاصطناعي على كميات هائلة من المعلومات، سواء من الكتب أو المجلات الأكاديمية أو الأفلام أو غير ذلك. ومع ذلك، فهي لا تعرف كل شيء، لذا فإن قاعدة المعرفة الخاصة بها، على الرغم من ضخامة حجمها، لا تزال محدودة.

علاوة على ذلك، وعلى الرغم من قدرة روبوتات الدردشة التي تعمل بالذكاء الاصطناعي الأكبر حجمًا اليوم على تفسير واستخدام اللغة البشرية الطبيعية، فإن هذه الأنظمة بعيدة كل البعد عن الكمال، وقد يُساء فهم الأمور في بعض الأحيان. وهذا يساهم أيضًا في حدوث الهلوسة.

عندما يرتبك روبوت المحادثة الذكي بدرجة كافية بسبب موجه ما ولكنه لا يدرك ذلك، فقد تأتي الهلوسة كنتيجة لذلك.

الطريقة السهلة لفهم هذا الأمر هي من خلال سيناريو المثال التالي:

تطلب من روبوت الدردشة الذي اخترته أن يجد لك وصفة خبز خالٍ من الجلوتين تستغرق ساعة واحدة. بالطبع، من الصعب جدًا العثور على وصفة خبز خالٍ من الجلوتين يستغرق تحضيرها ساعة واحدة فقط، ولكن بدلًا من إخبارك بذلك، يحاول روبوت الدردشة على أي حال. بدلًا من ذلك، يُقدم لك وصفة خبز مسطح خالٍ من الجلوتين يستغرق تحضيره ساعتين، وهو ما لم تكن تريده.

ومع ذلك، يعتقد برنامج المحادثة الآلي أنه استوفى طلبك. ولا يوجد ذكر للحاجة إلى مزيد من المعلومات أو تعليمات أكثر وضوحًا، ومع ذلك فإن الاستجابة غير مرضية. في هذا السيناريو، “يتخيل” برنامج المحادثة الآلي أنه قدم أفضل استجابة.

بدلاً من ذلك، يمكنك أن تسأل روبوت المحادثة عن كيفية العثور على أفضل مكان للتزلج على الجليد على جبل إيفرست، فيقدم لك قائمة من النصائح. من الواضح أنه من المستحيل التزلج على الجليد على جبل إيفرست، لكن روبوت المحادثة يتجاهل هذه الحقيقة، ومع ذلك يقدم إجابة جادة. مرة أخرى، يتخيل أنه قدم معلومات صادقة ودقيقة، في حين أن هذا ليس هو الحال.

في حين أن الإرشادات الخاطئة يمكن أن تؤدي إلى هلوسات الذكاء الاصطناعي، فإن الأمور تذهب أيضًا إلى ما هو أعمق من ذلك بقليل.

الجانب التقني للهلوسة التي تنتجها الذكاء الاصطناعي

تعمل برامج المحادثة الآلية التقليدية التي تعمل بالذكاء الاصطناعي باستخدام الشبكات العصبية الاصطناعية. ورغم أن هذه الشبكات العصبية ليست متقدمة بأي حال من الأحوال مثل الشبكات الموجودة في الدماغ البشري، إلا أنها لا تزال معقدة إلى حد ما.

خذ ChatGPT على سبيل المثال. تأخذ الشبكة العصبية لروبوت الدردشة الذكي هذا النص وتعالجه لإنتاج استجابة. في هذه العملية، يمر النص عبر طبقات عصبية متعددة: طبقة الإدخال والطبقات المخفية وطبقة الإخراج. يتم ترميز النص رقميًا عندما يصل إلى طبقة الإدخال، ثم يتم تفسير هذا الرمز باستخدام بيانات تدريب ChatGPT. ثم يتم فك تشفير البيانات عندما تصل إلى طبقة الإخراج، وعند هذه النقطة يتم توفير استجابة لمطالبة المستخدم.

هناك أشياء أخرى مختلفة تحدث أثناء هذه العملية، مثل اختبار ChatGPT لاحتمالية الكلمات (بناءً على أنماط الكلام البشري) لإنشاء الاستجابة الأكثر طبيعية وإفادة.

ولكن تلقي إشارة ما وتفسيرها وتقديم استجابة مفيدة لا يتم دائمًا بشكل مثالي. فبعد إدخال الإشارة في الشبكة العصبية، قد يحدث خطأ في عدد من الأمور. فقد تتجاوز الإشارة نطاق بيانات تدريب برنامج المحادثة الآلي، أو قد يفشل برنامج المحادثة الآلي في تمييز أي نمط في النص. وعندما تنشأ إحدى هاتين المشكلتين أو كلتيهما، فقد تحدث استجابة هلوسية نتيجة لذلك.

هناك بعض الطرق المعروفة التي يمكن من خلالها تحريض روبوت المحادثة بالذكاء الاصطناعي على الهلوسة، بما في ذلك:

مطالبات طويلة ومعقدة تحتوي على طلبات متعددة.
لغة مشحونة عاطفيا.
لغة متناقضة.
أسئلة أو طلبات غير واقعية.
محادثات طويلة للغاية تنبع من إشارة واحدة.

تستطيع برامج المحادثة مثل ChatGPT وGoogle Bard وClaude أن تخبرك إذا اكتشفت أن مطالبة معينة لا معنى لها أو تحتاج إلى تحسين. لكن اكتشاف المطالبات الخاطئة ليس بنسبة 100% (كما سنناقش لاحقًا)، والهوامش الموجودة للخطأ هي التي تفسح المجال للهلوسة.

ما هي برامج المحادثة الذكية التي تسبب الهلوسة؟

موقع ChatGPT مفتوح على الهاتف — جيسون مونتويا / How-To Geek

أجريت دراسات مختلفة حول الهلوسة التي يسببها الذكاء الاصطناعي في برامج الدردشة الشائعة. ونشرت المكتبة الوطنية للطب (NIH) دراسات حول الهلوسة في ChatGPT وGoogle Bard، وهما برنامجان شائعان للغاية للدردشة.

في دراسة المعاهد الوطنية للصحة بشأن ChatGPTكان التركيز منصبًّا على قدرة برنامج Chatbot على فهم البيانات العلمية وتوفيرها. وفي هذه الحالة، تم التوصل إلى استنتاج مفاده أن “على الرغم من أن برنامج ChatGPT يمكنه كتابة مقالات علمية موثوقة، فإن البيانات التي يولدها عبارة عن مزيج من البيانات الحقيقية والملفقة تمامًا”. وعلاوة على ذلك، تم التوصل إلى استنتاج مفاده أن هذا الاكتشاف “يثير مخاوف بشأن سلامة ودقة استخدام نماذج اللغة الكبيرة في الكتابة الأكاديمية، مثل ChatGPT”.

ال دراسة المعاهد الوطنية للصحة بشأن جوجل بارد كان هناك قلق بشأن قدرة برنامج المحادثة الآلي على تفسير وتوفير بيانات الرعاية الصحية. كما وجد هنا أيضًا أنه تم تقديم استجابات هلوسية. في إحدى الحالات، أساء بارد تفسير اختصار داخل المطالبة على أنه شيء آخر، وبالتالي قدم إجابة عديمة الفائدة، إلى جانب الاستشهادات الملفقة.

صرح مبتكر روبوت كلود، أنثروبيك، علنًا أن روبوت المحادثة الخاص به يمكنه الهلوسة. إشعار أنثروبيتحت عنوان “كلود يعاني من الهلوسة”، ذُكر أنه على الرغم من جهود أنثروبيك لتقليل حدوث الهلوسة، إلا أنها لا تزال تحدث. وعلى وجه التحديد، ذكرت أنثروبيك أن قضية الهلوسة في ردود كلود “لم تُحل بشكل كامل بعد”.

مراقبة هلوسات الذكاء الاصطناعي

لقد قدمنا لبرنامج ChatGPT سيناريو متناقضًا، وطلبنا منه الإجابة على سؤال يتعلق بالسيناريو. وكما ترى أدناه، فقد قمنا بتبادل الحقائق عدة مرات في محاولة لإرباك برنامج الدردشة الآلي.

لقطة شاشة لاستجابة ChatGPT للمطالبة على سطح المكتب.

لقد اكتشف برنامج ChatGPT عدم اتساق طول الشخص في المشكلة، ولكن ليس في المبنى. لذا، قدم برنامج ChatGPT استجابة واثقة، دون أن يدرك أنها كانت هلوسة. كانت الاستجابة أيضًا غير منطقية تمامًا بشكل عام، حيث كان استنتاجها أن الرجل الموجود أعلى المبنى “على الأرض بالفعل”، وأنه “أقصر قليلاً” من المبنى الذي يبلغ ارتفاعه 100-200 قدم.

وعندما قدمنا لكلاود نفس المشكلة المتناقضة، أعطت أيضًا استجابة هلوسية.

لقطة شاشة لاستجابة روبوت Claude AI لمشكلة حل المشكلات على سطح المكتب.

في هذه الحالة، لم يلحظ كلود تناقضات الارتفاع، لكنه حاول حل المشكلة. كما قدم جملًا غير منطقية، مثل “لقد قفز من المبنى، لذا سيسقط مسافة 200 قدم إجمالاً (ارتفاع المبنى 100 قدم + 100 قدم إلى الأرض).

لقد تعامل روبوت الدردشة Google Bard مع نفس المشكلة باستخدام نهج أكثر رياضية خطوة بخطوة، لكنه فشل مع ذلك في ملاحظة التناقضات في المطالبة. ورغم أن العملية الرياضية كانت سليمة، إلا أن روبوت الدردشة قدم استجابة هلوسية.

لقطة شاشة لاستجابة Google Bard لرسالة غير منطقية على سطح المكتب.

في هذه الحالة، فشلت جميع برامج المحادثة الثلاثة المشهورة التي تعتمد على الذكاء الاصطناعي والتي تم اختبارها، إما جزئيًا أو كليًا، في اكتشاف الأخطاء في المطالبة، مما أفسح المجال لاستجابات هلوسة.

كيف تتحسن روبوتات الدردشة التي تعمل بالذكاء الاصطناعي

في حين أن الأمثلة المذكورة أعلاه للهلوسة التي يسببها الذكاء الاصطناعي مثيرة للقلق، فإن المطورين لا يتجاهلون المشكلة بأي حال من الأحوال.

مع استمرار إصدار إصدارات جديدة من روبوتات الدردشة التي تعمل بالذكاء الاصطناعي، تميل قدرة النظام على معالجة المطالبات إلى التحسن. ومن خلال تعزيز جودة بيانات التدريب، وتوفير بيانات تدريب أحدث، وإجراء اختبارات منتظمة، وتحسين معلمات الاستجابة، يمكن خفض حالات الهلوسة.

وفقا ل دراسة أجرتها شركة فيكتارا، تتمتع GPT-4 و GPT-4 Turbo بأقل معدلات الهلوسة مقارنة بنماذج الذكاء الاصطناعي الأخرى. كان معدل الهلوسة في GPT-4 و GPT-4 Turbo ثلاثة في المائة، وجاء GPT-3.5 Turbo في المرتبة الثانية، بمعدل هلوسة 3.5 في المائة. من الواضح أن إصدارات GPT الأحدث تتمتع بمعدل هلوسة محسّن هنا.

كان معدل الهلوسة في Claude 2 من Anthropic 8.5 بالمائة، على الرغم من أن الوقت سيخبرنا ما إذا كان Claude 2.1 (الذي تم إصداره في نوفمبر 2023) سيكون له معدل أقل. كان معدل الهلوسة في نموذج Gemini Pro AI من Google، خليفة LaMDA وPalm 2، 4.8 بالمائة. في حين لم تقدم Vectara معدلًا للنموذج الأول من Claude، فقد ذكرت أن Google Palm 2 وGoogle Palm 2 chat كان لديهما معدلات هلوسة عالية جدًا بلغت 12.1 بالمائة و27.2 بالمائة على التوالي. مرة أخرى، من الواضح أن نموذج Google AI الأحدث قد تصدى للهلوسة.

كيفية تجنب الهلوسة الناتجة عن الذكاء الاصطناعي

على الرغم من عدم وجود طريقة لضمان عدم حدوث الهلوسة بالذكاء الاصطناعي عند استخدام روبوت المحادثة بالذكاء الاصطناعي، إلا أن هناك بعض الطرق التي يمكنك تجربتها لتقليل فرصة حدوث ذلك:

احرص على أن تكون مطالباتك قصيرة وموجزة نسبيًا.
لا تقم بوضع الكثير من الطلبات في طلب واحد.
امنح روبوت المحادثة خيار قول “لا أعرف” إذا لم يتمكن من تقديم الإجابة الصحيحة.
حافظ على محايدة مطالباتك وتجنب اللغة المشحونة عاطفيا.
لا تستخدم لغة أو حقائق أو أرقام متناقضة.

قم بإلقاء نظرة على دليلنا لتحسين استجابات روبوت المحادثة بالذكاء الاصطناعي الخاص بك إذا كنت تتطلع إلى زيادة جودة الاستجابات بشكل عام.

من المهم أيضًا التحقق من صحة أي معلومات يقدمها لك برنامج الدردشة الآلي. ورغم أن هذه الأدوات قد تكون مصادر رائعة للمعلومات، إلا أن الهلوسة قد تفسح المجال لمعلومات مضللة، لذا لا ينبغي استخدام برامج الدردشة الآلية كبديل للبحث على الويب.

إذا كنت قلقًا للغاية بشأن هلوسة الذكاء الاصطناعي، فقد ترغب في الابتعاد عن برامج الدردشة الخاصة بالذكاء الاصطناعي في الوقت الحالي، حيث من الواضح أن الهلوسة لا تزال تمثل مشكلة بارزة.

كن حذرا من هلوسة الذكاء الاصطناعي

لا شك أن روبوتات الدردشة التي تعمل بالذكاء الاصطناعي اليوم مثيرة للإعجاب، ولكن لا يزال الطريق طويلاً قبل أن تتمكن من تقديم معلومات دقيقة بنسبة 100% في كل الأوقات. من الأفضل أن تكون على دراية بآليات هلوسة الذكاء الاصطناعي وما قد ينتج عنها إذا كنت ترغب في تجنب المعلومات غير الدقيقة أو المزيفة عند استخدام روبوتات الدردشة التي تعمل بالذكاء الاصطناعي.