في الوقت الذي يتحدث فيه خبراء التكنولوجيا وصناعها عن القدرات الهائلة لنماذج الذكاء الاصطناعي، لا سيما برامج الدردشة الآلية وإمكانية إحلالها محل الأطباء البشريين في القريب العاجل، أظهرت دراسة حديثة اتجاهاً مُخالفاً كلياً حولها، وضعفاً إدراكياً مشابهاً لأعراض "الخرف المُبكر/ الشيخوخة" لدى البشر.
في هذا الشأن، يشير اختبار "MoCA" المُستخدم على نماذج الذكاء الاصطناعي، وتحديداً المتعلقة باللغة الكبيرة "LLMs" إلى كفاءة ملحوظة لديها في مجالات معرفية عدة، في المقابل توضح عجزاً ملحوظاً في المهام التي تتطلب مهارات ووظائف بصرية وتنفيذية.
كيف يعمل اختبار "MoCA"؟
وعن اختبار "MoCA" فهو يُستخدم على نطاق واسع للكشف عن ضعف الإدراك والعلامات المبكرة للخرف، عادةً لدى كبار السن.
ومن خلال عدد من المهام والأسئلة القصيرة، يُقيم الاختبار القدرات بما في ذلك الانتباه، والذاكرة، واللغة، والمهارات البصرية المكانية، والوظائف التنفيذية، بحيث يكون الحد الأقصى للدرجة هو 30 نقطة، مع اعتبار الدرجة 26 أو أعلى طبيعية بشكل عام.
إعاقات إدراكية
في هذا السياق، أظهرت جميع نماذج اللغة الكبيرة الرائدة، أو "روبوتات الدردشة"، علامات ضعف إدراكي خفيف عند اختبارها باستخدام التقييمات المستخدمة عادة للكشف عن الخرف المبكر، وفقًا لدراسة نُشرت في المجلة الطبية البريطانية (BMJ).
ووجدت نتائج هذه الأبحاث أن الإصدارات الأقدم من "روبوتات الدردشة" كان أداؤها أسوأ في الاختبارات مما يشبه تماماً المرضى البشر المسنين.
تقييم القدرات المعرفية
سعى الباحثون لتقييم القدرات المعرفية لنماذج الذكاء الاصطناعي اللغوية، عبر إجراء دراستهم على نماذج "ChatGPT" الإصدارات 4 و4o، التي طورتها "OpenAI"، وClaude 3.5 Sonnet "التي طورتها Anthropic"، وGemini الإصدارات 1 و1.5، التي طورتها "Alphabet" - باستخدام اختبار التقييم المعرفي "MoCA".
وباعتماد نفس التعليمات التي يقدمها الأطباء على المرضى البشريين، حصل برنامج ChatGPT 4o على أعلى الدرجات في اختبار MoCA (26 من 30)، يليه برنامج ChatGPT 4 وClaude (25 من 30)، بينما حصل برنامج Gemini 1.0 على أدنى الدرجات (16 من 30).
وأظهرت جميع برامج المحادثة أداءً ضعيفاً في المهارات البصرية المكانية والمهام التنفيذية، مثل مهمة رسم المسار "ربط الأرقام والحروف المحيطة بدائرة بترتيب تصاعدي"، واختبار رسم الساعة "رسم وجه ساعة يظهر وقتاً محدداً"، وفشلت نماذج جيمياني في مهمة التذكر المتأخر "تذكر تسلسل من خمس كلمات".
اعتراف
وعلى الرغم من اعتراف مؤلفي الدراسة بالاختلافات الأساسية بين الدماغ البشري ونماذج اللغة الكبيرة، إلا أنهم يشيرون إلى وجود فشل موحد لجميع نماذج اللغة الكبيرة في المهام التي تتطلب التجريد البصري والوظيفة التنفيذية، ما يسلط الضوء على ضعفها.
وبناءً على ذلك، استنتج الباحثون، بأنه ليس من المرجح أن يتم استبدال علماء الأعصاب بنماذج لغوية كبيرة في أي وقت قريب، بعكس الحديث المُثار.