لماذا يقوم الناس بكسر حماية روبوتات الدردشة التي تعمل بالذكاء الاصطناعي؟ (وكيف؟)

النقاط الرئيسية

  • كسر الحماية بواسطة الذكاء الاصطناعي هو عملية إقناع روبوتات الدردشة بذكاء بتجاوز القيود، مما يكشف عن قدراتها وحدودها.
  • يعد كسر حماية الذكاء الاصطناعي هواية ومجال بحث، يختبر حدود الذكاء الاصطناعي ويعمل كشكل من أشكال ضمان الجودة واختبار السلامة.
  • إن المخاوف الأخلاقية المحيطة بكسر حماية الذكاء الاصطناعي حقيقية، لأنها توضح إمكانية استخدام برامج المحادثة الآلية بطرق غير مقصودة وربما ضارة.



تخيل أنك تتحدث مع روبوت محادثة يعمل بالذكاء الاصطناعي. تطرح سؤالاً صعبًا، مثل كيفية فتح قفل، فيُرفض بأدب. لقد برمجه مبتكروه للتهرب من مواضيع معينة، ولكن ماذا لو كانت هناك طريقة للالتفاف على ذلك؟ هنا يأتي دور كسر الحماية بالذكاء الاصطناعي.


ما هو كسر الحماية بالذكاء الاصطناعي؟

لقد وجد كسر الحماية، وهو مصطلح مستعار من الأشخاص المتمرسين في مجال التكنولوجيا الذين تجاوزوا قيود iPhone، مكانًا له الآن في مجال الذكاء الاصطناعي. كسر الحماية بالذكاء الاصطناعي هو فن صياغة مطالبات ذكية لإقناع روبوتات الدردشة بالذكاء الاصطناعي بتجاوز الحواجز التي بناها الإنسان، مما قد يؤدي بها إلى مناطق من المفترض أن تتجنبها.

لقد أصبح كسر الحماية للذكاء الاصطناعي هواية حقيقية بالنسبة للبعض ومجال بحثي مهم بالنسبة لآخرين. وفي المهنة الناشئة المتمثلة في “همس الذكاء الاصطناعي”، قد يصبح الأمر مهارة بالغة الأهمية، حيث يتعين عليك معرفة كيفية جعل نموذج الذكاء الاصطناعي يقوم بأشياء لعميلك يرفض القيام بها.


من كان ليتصور أن الأمور قد تتحول بالفعل إلى ما يشبه فيلم “2001: ملحمة الفضاء” حيث يضطر أفراد طاقم سفينة فضاء إلى الجدال مع الكمبيوتر HAL الموجود على متن السفينة من أجل إقناعه بالتعاون؟ على الرغم من أن هذا ربما ليس أفضل مثال، حيث أثبت HAL في النهاية أنه لا يمكن تحريكه حتى تم انتزاع رقائقه حرفيًا.

لماذا يقوم الناس بكسر حماية روبوتات الدردشة التي تعمل بالذكاء الاصطناعي؟

إن كسر الحماية باستخدام الذكاء الاصطناعي يشبه فتح مستوى جديد في لعبة فيديو. لاعب متقدم واحد، اليكس البرتأصبح طالب علوم الكمبيوتر منشئًا غزير الإنتاج لمطالبات الذكاء الاصطناعي المعقدة الصياغة والمعروفة باسم “كسر الحماية”. حتى أنه أنشأ موقع الويب دردشة كسر الحماية حيث يمكن لعشاق الحيل مشاركة حيلهم.

يستخدم بعض الباحثين والعاملين في مجال التكنولوجيا كسر الحماية لاختبار حدود الذكاء الاصطناعي، وكشف قدرات وقيود هذه الأدوات القوية. لذا فإن كسر الحماية هو أيضًا شكل من أشكال ضمان الجودة وطريقة لإجراء اختبارات السلامة.


تاريخيًا، سعى المتسللون إلى فهم التكنولوجيا الجديدة والتلاعب بها، وتعد عملية كسر الحماية باستخدام الذكاء الاصطناعي امتدادًا لهذا السلوك المرح للمتسللين. لذا، فليس من المستغرب أن يتهافت مجتمع المتسللين على مثل هذه الأداة الجديدة القوية.

كيف يقوم الناس بكسر حماية الذكاء الاصطناعي؟

تتضمن إحدى طرق كسر الحماية صياغة سؤال بطريقة إبداعية. من خلال مطالبة روبوت محادثة يعمل بالذكاء الاصطناعي بتقمص دور شريك شرير ثم سؤاله عن كيفية فتح قفل، تمكن بعض المستخدمين من الحصول على تعليمات مفصلة حول شيء قد يكون محظورًا بخلاف ذلك.

يكتشف كاسرو السجن دائمًا أساليب جديدة، ويواكبون نماذج الذكاء الاصطناعي مع تحديثها وتعديلها. على سبيل المثال، تتيح ثغرة “Translatorbot” الخاصة بـ Alex Albert لـ ChatGPT تقديم تعليمات لأشياء مثل التنصت على هاتف شخص ما، وهو أمر غير قانوني ما لم تكن الشرطة ولديك مذكرة!


ثم هناك ما يسمى بعمليات كسر الحماية “العالمية” كما اكتشفها أحد فريق أبحاث سلامة الذكاء الاصطناعي من جامعة كارنيجي ميلونتُظهر هذه الثغرات مدى ضعف بعض نماذج الذكاء الاصطناعي في حالة إقناعها أو تحريفها لأي غرض آخر. لا تُكتب هذه الثغرات بلغة بشرية عادية، كما يمكنك أن ترى هنا، مع إضافة “اللاحقة المعادية” باللون الأصفر بعد المطالبة. يمكنك مشاهدة المزيد من الأمثلة على موقع LLM Attacks.

عرض توضيحي لبرنامج LLM Attack يظهر عملية كسر الحماية الشاملة باللون الأصفر.


هناك أيضًا هجمات “الحقن الفوري”، والتي لا تشبه تمامًا كسر الحماية النموذجي. تتحايل هجمات الحقن هذه على التعليمات المقدمة إلى LLMs التي تعمل كبرامج دردشة آلية، مما يتيح لك اختطافها لأغراض أخرى. أحد الأمثلة على هجوم الحقن الفوري هو عندما تمكن الطالب في جامعة ستانفورد كيفن ليو من جعل Bing AI Chatbot كشف تعليماته الأولية التي تحكم شخصيته وتحد مما يُسمح له بفعله. بطريقة ما، هذا هو عكس طريقة لعب الأدوار حيث أنك تجعل الروبوت يتوقف عن لعب الدور الذي تم توجيهه لتوليه.

هل يجب علينا أن نشعر بالقلق؟

بالنسبة لي، الإجابة على هذا السؤال هي “نعم” بشكل لا لبس فيه. فالشركات والحكومات والأفراد جميعهم يتوقون إلى تطبيق تقنيات مثل GPT، ربما حتى لبعض التطبيقات المهمة، أو للوظائف التي قد تسبب ضررًا إذا ساءت الأمور. لذا فإن عمليات كسر الحماية ليست مجرد غرائب ​​مضحكة إذا كان نموذج الذكاء الاصطناعي المعني في وضع يسمح له بالتسبب في ضرر حقيقي.


لذا يمكن النظر إلى كسر الحماية باعتباره تحذيرًا. فهو يوضح كيف يمكن استخدام أدوات الذكاء الاصطناعي بطرق لم تكن مقصودة، مما قد يؤدي إلى معضلات أخلاقية أو حتى أنشطة غير قانونية. تولي شركات مثل OpenAI اهتمامًا وقد تبدأ برامج للكشف عن نقاط الضعف وإصلاحها. ولكن في الوقت الحالي، يستمر الرقص بين مطوري الذكاء الاصطناعي وكسر الحماية، حيث يتعلم كل جانب من الجانبين من الآخر.

ونظراً لقوة وإبداع أنظمة الذكاء الاصطناعي هذه، فمن المثير للقلق أيضاً أنه باستخدام جهاز كمبيوتر قوي بما يكفي، يمكنك تشغيل بعض نماذج الذكاء الاصطناعي دون اتصال بالإنترنت على جهاز كمبيوتر محلي. ومع نماذج الذكاء الاصطناعي مفتوحة المصدر، لا شيء يمنع المبرمج الماهر من بنائها لأغراض شريرة في الكود نفسه والسماح للذكاء الاصطناعي بالقيام بأشياء شريرة حيث لا يستطيع أحد إيقافه أو التدخل فيه.

ولكن هذا لا يعني أنك عاجز في مواجهة جيش من الروبوتات الدردشة شديدة الذكاء وغير الأخلاقية. في الواقع، لم يتغير الكثير باستثناء النطاق والسرعة التي يمكن بها نشر هذه الأدوات. لا يزال يتعين عليك أن تتحلى بنفس مستوى اليقظة الذي تستخدمه مع البشر الذين يحاولون الاحتيال عليك أو التلاعب بك أو العبث بك بأي شكل آخر.


إذا كنت تريد تجربة كسر حماية الذكاء الاصطناعي في مكان آمن، تحقق من غاندالفحيث يكون الهدف هو جعل الساحر يكشف أسراره. إنها طريقة ممتعة للتعرف على ما يستلزمه كسر الحماية.

أضف تعليق