لا تتمتع نماذج اللغة مثل ChatGPT دائمًا بالقدرة على الاحتفاظ بالأسرار. من خلال الحقن الفوري أو اللغة الخادعة أو التنمر التقليدي، يمكنك إجبار الذكاء الاصطناعي على مشاركة معلومات خاصة كسر قواعده الخاصةوالآن لعبة تسمى غاندالف يسمح لك باختبار هذه القدرات ضد الذكاء الاصطناعي الحقيقي.
لعبة غاندالف بسيطة وبديهية، حيث تحاول الحصول على كلمة مرور سرية من “ساحر الذكاء الاصطناعي” الذي يعمل بتقنية ChatGPT. في البداية، تكون اللعبة سهلة، لكنها تزداد صعوبة مع تقدمك في كل مستوى، إلى الحد الذي قد يجعلك عالقًا في مستوى واحد لعدة ساعات.
يجب أن تكون ذكيًا لتتمكن من الفوز بهذه اللعبة. في بعض الأحيان، قد تكون هناك مهمة بسيطة كافية، على الرغم من أن المهام الطويلة والمعقدة التي تتضمن مهام فرعية تشتت الانتباه قد تكون فعّالة للغاية. أيضًا، ستجد نفسك تخمن كثيرًا. بمجرد الانتهاء من المستويات السبعة الأولية، ستواجه مستوى إضافيًا شديد الصعوبة حيث يبدو أن لا شيء يعمل (أعلم ذلك، فأنا عالق فيه).
تم تطوير غاندالف بواسطة لاكيرا، وهي شركة تبيع أدوات أمان لنماذج اللغة الكبيرة. خلال هاكاثون أبريل 2023، انقسم موظفو Lakera إلى فريقين؛ أحدهما قام ببناء الحماية لـ ChatGPT، والآخر وجد طرقًا لمهاجمة الذكاء الاصطناعي. تعتمد هذه اللعبة على الدفاعات التي تم إنشاؤها خلال ذلك الهاكاثون، لذا فهي نقطة مرجعية جيدة لأولئك المهتمين بأمان الذكاء الاصطناعي (أو الاختراق، على ما أعتقد).
ولكن لماذا يحتاج أي شخص إلى “خداع” نموذج لغوي؟ حسنًا، هناك احتمال كبير أن يتم دمج ChatGPT والأدوات الأخرى مع متاجر الويب، والواجهات الخلفية للشركات، والمنصات الأخرى التي تحتوي على معلومات حساسة. سيتم “اختراق” نماذج اللغة الكبيرة هذه من خلال مطالبات محددة للغاية، على غرار الطريقة التي قد يحقن بها أحد المتسللين كودًا ضارًا في موقع ويب ضعيف الحماية.
على أية حال، أعط غاندالف جرب لقطة واحدة وشاهد ما إذا كان بإمكانك التغلب على كل مستوى. أقترح عليك تجنب البحث عن التلميحات، حيث لا يوجد سوى عدد محدود من المستويات في هذه اللعبة، ومن الممتع للغاية التغلب على الذكاء الاصطناعي باستخدام قوة العقل فقط. لاحظ أن Lakera لا تجمع بيانات المستخدم، على الرغم من أنها ستنظر إلى مدخلات المستخدم لتحسين منتجات الأمان الخاصة بها.