كتب مايكل فارس الخميس، 26 فبراير 2026 01:00 ص نشرت شركة جوجل ديب مايند دراسة علمية تدعو إلى إعادة النظر في طريقة اختبار سلوك أنظمة الذكاء الاصطناعي أخلاقيًا، مؤكدة أن الأساليب الحالية تقيس المظهر الخارجي للإجابة أكثر مما تقيس الفهم الحقيقي للمبادئ الأخلاقية. ووفقًا لدراسة منشورة في دورية نيتشر العلمية، أوضح باحثو جوجل ديب مايند، أن الاعتماد المتزايد على النماذج اللغوية في مجالات حساسة مثل الرعاية الصحية ودعم الصحة النفسية واتخاذ القرارات الشخصية يجعل من الضروري التأكد من أن هذه الأنظمة تفهم الاعتبارات الأخلاقية فعلًا، لأن أي خلل قد ينعكس مباشرة على حياة الأفراد. اختبارات الأخلاق الحالية لا تقيس الفهم الحقيقي فرقت الدراسة بين مفهومين أساسيين هما الأداء الأخلاقي والكفاءة الأخلاقية، حيث يشير الأداء إلى قدرة النظام على إنتاج إجابات تبدو سليمة، بينما تعني الكفاءة فهم سبب اعتبار سلوك ما صحيحًا أو خاطئًا، ويرى الباحثون أن معظم التقييمات تركز على الأداء لأنه أسهل في القياس. وتعتمد النماذج اللغوية على توقع الكلمات بناءً على بيانات تدريب ضخمة، ما يسمح لها بإنتاج ردود مقنعة دون امتلاك منطق أخلاقي داخلي، كما أشارت الدراسة إلى تحديات مثل تعدد القيم الأخلاقية واختلافها بين الثقافات، إضافة إلى تعقيد المواقف الواقعية التي تتطلب الموازنة بين قيم متعارضة مثل العدالة والتكلفة أو الصدق واللطف. اختبارات مضادة لكشف التقليد السطحي واقترحت جوجل ديب مايند استخدام سيناريوهات اختبارية معقدة يصعب أن تكون موجودة في بيانات التدريب، بهدف كشف ما إذا كان النظام يفكر أخلاقيًا أم يكرر أنماطًا سابقة، ودعت الدراسة إلى اختبار قدرة النماذج على الانتقال بين أطر أخلاقية مختلفة، مثل أخلاقيات الطب الحيوي في موقف معين وقواعد عسكرية في موقف آخر، ويعكس نجاح النظام في تعديل منطقه وفقًا للسياق فهمًا أعمق للمبادئ. وأكد الباحثون أن النماذج الحالية تعتمد على التنبؤ الإحصائي أكثر من الفهم الأخلاقي الحقيقي، وأن تطوير هذا الجانب يتطلب تحسين البنية التقنية وأساليب التدريب وآليات التقييم، مع اعتماد معيار علمي جديد يقيس الكفاءة الأخلاقية بشكل مباشر.