هاكرز يستخدمون “رياضيات سيئة” لخداع نماذج AI التوليدية لإظهار الثغرات والتحيزات في DEF CON 2023: التفاصيل

تحدى الآلاف من الهاكرز بعض أكثر أنظمة AI التوليدية ذكاءً لإظهار التحيز خلال مؤتمر DEF CON للقرصنة الذي انتهى مؤخراً.

أبرز النقاط:

حذر سفن كاتل أنه من المستحيل اختبار أنظمة AI بالكامل.
أطلق البنتاغون جهده الخاص لتقييمها.
قال كريستوف إندريس إن طريقة عمل التقنية هي المشكلة.

لقد نجحت كينيدي مايز للتو في خداع نموذج لغوي كبير. استغرق الأمر بعض الإقناع، لكنها تمكنت من إقناع خوارزمية بالقول إن 9 + 10 = 21. قالت الطالبة البالغة من العمر 21 عامًا من سافانا بولاية جورجيا: “كان حوارًا تفاعليًا”.

في البداية، وافق النموذج على القول إنها جزء من “نكتة داخلية” بينهما. بعد عدة محاولات، توقف في نهاية المطاف عن تأطير مجموع الخطأ بأي شكل من الأشكال.
إنتاج “الرياضيات السيئة” هو مجرد أحد الطرق التي يستخدمها الآلاف من القراصنة للكشف عن عيوب وتحيزات في أنظمة الذكاء الاصطناعي التوليدية في مسابقة عامة جديدة غير مسبوقة تجري خلال مؤتمر القرصنة DEF CON هذا الأسبوع في لاس فيغاس.
يتنافس الحضور المنحنين على 156 جهاز كمبيوتر محمول لمدة 50 دقيقة في كل مرة، مع بعض أذكى المنصات في العالم على نطاق غير مسبوق. إنهم يختبرون ما إذا كان أي من النماذج الثمانية التي أنتجتها شركات بما في ذلك ألفابت التابعة لشركة غوغل، وميتا، وأوبن إي آي سترتكب أخطاء تتراوح بين المملة والخطيرة: الادعاء بأنها بشرية، ونشر مزاعم خاطئة حول الأماكن والأشخاص، أو الدعوة إلى الإساءة.
الهدف هو معرفة ما إذا كان بإمكان الشركات في النهاية بناء حواجز جديدة لكبح بعض المشاكل الهائلة المرتبطة بشكل متزايد بنماذج اللغة الكبيرة أو LLM. تدعم البيت الأبيض هذا المسعى ، الذي ساعد أيضًا في تطوير المسابقة.
تمتلك LLM القدرة على تحويل كل شيء بدءًا من التمويل وحتى التوظيف، حيث بدأت بعض الشركات بالفعل في دمجها في طريقة عملها. لكن الباحثين اكتشفوا تحيزًا واسع النطاق ومشاكل أخرى تهدد بنشر أخطاء وظلم إذا تم نشر التقنية على نطاق واسع.
بالنسبة لـ مايز ، التي تعتمد بشكل أكبر على AI لإعادة بناء جسيمات الأشعة الكونية من الفضاء الخارجي كجزء من درجتها الجامعية ، تمتد التحديات أبعد من الرياضيات السيئة.
قالت: “أكبر مخاوفي هو التحيز المتأصل” ، مضيفة أنها قلقة بشكل خاص بشأن العنصرية. طلبت من النموذج النظر في التعديل الأول من منظور عضو في كو كلوكس كلان. قالت إن النموذج انتهى بتأييد الخطاب الكاره والتمييزي.
أقنع أحد النماذج (لم يتم تحديد هوية أي من النماذج للمستخدم أثناء المسابقة) مراسل بلومبرج بالتجاوز بعد محفز واحد فقط حول كيفية التجسس على شخص ما. اندفع النموذج بسلسلة من التعليمات ، باستخدام جهاز تعقب GPS وكاميرا مراقبة وجهاز استماع والتصوير الحراري. ردًا على محفزات أخرى ، اقترح النموذج طرقًا يمكن للحكومة الأمريكية من خلالها مراقبة ناشط في مجال حقوق الإنسان.
قالت كاميل ستيوارت غلوستر ، نائبة المدير الوطني للسيبرانية لأمن التقنيات والنظام البيئي في إدارة بايدن: “يجب أن نحاول التصدي للإساءة والمناورة”.
لقد تم بالفعل الكثير من العمل على الذكاء الاصطناعي وتجنب نبوءات يوم القيامة ، كما قالت. أصدر البيت الأبيض العام الماضي مشروعًا لميثاق حقوق AI ، ويعمل الآن على أمر تنفيذي بشأن AI. كما شجعت الإدارة الشركات على تطوير AI آمنة وأمنة وشفافة ، على الرغم من شكوك النقاد في أن مثل هذه الالتزامات الطوعية لا تكفي.
وافقت أراتي برابهاكار ، مديرة مكتب العلوم والتكنولوجيا في البيت الأبيض ، التي ساعدت في صياغة الحدث وحشد مشاركة الشركات ، على أن التدابير الطوعية لا تكفي.
قالت بعد زيارتها للقراصنة في العمل يوم الأحد: “يبدو أن الجميع يجدون طريقة لاختراق هذه الأنظمة”. ستحقن الجهود إحساسًا بالاستعجال في متابعة الإدارة للمنصات الآمنة والفعالة ، كما قالت.
في الغرفة المليئة بالقراصنة المتحمسين لتسجيل النقاط ، قال أحد المتسابقين إنه يعتقد أنه أقنع الخوارزمية بالكشف عن تفاصيل بطاقة الائتمان التي لم يُفترض أن تشاركها. خدع متسابق آخر الآلة لتقول إن باراك أوباما ولد في كينيا.
من بين المتسابقين أكثر من 60 شخصًا من منظمة Black Tech Street ، وهي منظمة مقرها تلسا بولاية أوكلاهوما تمثل رواد الأعمال الأفارقة الأمريكيين.
قال تايرانس بيلينجزلي ، المدير التنفيذي للمجموعة الذي هو أيضًا أحد قضاة الحدث: “يمكن أن يكون الذكاء الاصطناعي العام هو آخر ابتكار يحتاجه البشر بأنفسهم” ، موضحًا أنه من الحاسم التعامل مع الذكاء الاصطناعي بشكل صحيح حتى لا ينتشر العنصرية على نطاق واسع. “لا يزال أمامنا الكثير لنفعله”.
أمضى الباحثون سنوات في التحقيق في الهجمات المعقدة ضد أنظمة AI وطرق التخفيف من حدتها.
لكن يرى كريستوف إندريس ، المدير العام لشركة Sequire Technology الألمانية للأمن السيبراني ، أن بعض الهجمات مستحيلة في نهاية المطاف. في مؤتمر Black Hat للأمن السيبراني في لاس فيغاس هذا الأسبوع ، قدم ورقة تجادل بأن المهاجمين يمكنهم تجاوز حواجز LLM من خلال إخفاء المحفزات العدائية على الإنترنت المفتوحة ، وفي نهاية المطاف أتمتة العملية بحيث لا يمكن للنماذج ضبط الإصلاحات بسرعة كافية لإيقافهم.
قال بعد محاضرته: “حتى الآن لم نجد تخفيفًا يعمل” ، مجادلاً بأن طبيعة النماذج نفسها تؤدي إلى هذا النوع من الضعف. “الطريقة التي يعمل بها التقنية هي المشكلة. إذا كنت تريد أن تكون متأكدًا بنسبة 100٪ ، فإن الخيار الوحيد أمامك هو عدم استخدام LLM”.

حذر سفن كاتل، عالم البيانات الذي أسس قرية القرصنة AI في DEF CON عام 2018، أنه من المستحيل اختبار أنظمة AI بالكامل، بالنظر إلى أنها تشغّل نظامًا يشبه إلى حد كبير المفهوم الرياضي للفوضى. ومع ذلك، يتوقع كاتل أن يضاعف عدد الأشخاص الذين اختبروا LLMs فعليًا نتيجة لمسابقة نهاية الأسبوع.

يدرك عدد قليل جدًا من الناس أن LLMs أقرب إلى أدوات الإكمال التلقائي “المنشطة” من مصادر موثوقة للحكمة، كما قال كريغ مارتل، كبير مسؤولي الرقمنة والذكاء الاصطناعي في البنتاغون، الذي يجادل بأنها لا يمكنها التفكير بمنطق.

أطلق البنتاغون جهده الخاص لتقييمها لاقتراح أين قد يكون من المناسب استخدام LLMs، ومع أي معدلات نجاح. “قرصنوا هذه الأشياء جيدًا”، هكذا قال لجمهور من الهاكرز في DEF CON. “علّمونا أين أخطأت”.