تتجه كبرى الشركات العاملة في سوق الذكاء الاصطناعي إلى اعتماد مقاربات بحثية غير مسبوقة لفهم النماذج اللغوية الكبيرة، تقوم على التعامل معها كما لو كانت كائنات حيّة معقّدة، لا مجرد أنظمة برمجية، بحسب تقرير جديد نشره موقع MIT Technology Review.
ويعكس هذا التحول في المقاربات البحثية إدراكاً متزايداً بأن النماذج الحديثة بلغت من التعقيد والحجم ما يجعل الأدوات الهندسية التقليدية عاجزة عن تفسير سلوكها.
ويرى الباحثون أن المشكلة الجوهرية تكمن في أن النماذج اللغوية الكبيرة لا تُبنى خطوة بخطوة كما هو الحال في البرمجيات التقليدية، بل تُنمّى وتُطوَّر عبر عمليات تدريب معقدة. خلال هذه العمليات، تحدد خوارزميات التعلم القيم الداخلية تلقائياً، دون تدخل مباشر من البشر.
ويشبّه باحثو شركة “أنثروبيك”، مطورة منصة كلود Claude، هذه العملية بزراعة شجرة، فيمكن توجيه النمو العام للشجرة، لكن لا يمكن التحكم في المسار الدقيق لكل غصن أو ورقة.
وبهذا المعنى، تصبح النماذج كيانات تنمو وفق ضغوط بيئية رقمية (البيانات، والخسارة، والمكافآت)، لا مخططات هندسية صارمة.
تحليل بيولوجي
ويعتمد الباحثون في تحليلهم البيولوجي للنماذج الذكية على التمييز بين عنصرين أساسيين، وهما المُعامِلات Parameters وهي القيم الرقمية الثابتة نسبياً التي تتشكل أثناء التدريب، ويمكن تشبيهها بالهيكل العظمي للكائن الحي.
بينما العنصر الثاني هو “التفعيلات” Activations، بمعنى القيم التي تُفعَّل داخل النموذج أثناء تشغيله وتنتقل داخله أثناء تنفيذ مهمة ما، وذلك بطريقة تشبه الإشارات الكهربائية أو الكيميائية في الدماغ.
هذا التشبيه فتح الباب أمام مقاربات مستوحاة من علم الأعصاب، تهدف إلى تتبع “المسارات الداخلية” للنشاط داخل النموذج.
آلية عمل النماذج
وباتت النماذج التي تطورها شركات مثل OpenAI وAnthropic وGoogle DeepMind تضم مئات المليارات من المعاملات الرقمية، وتُستخدم يومياً من قبل مئات الملايين من الأشخاص، رغم أن آليات عملها الداخلية لا تزال غير مفهومة بالكامل حتى لمصمميها.
ويعتمد الباحثون تشبيهات مكانية لفهم حجم هذه النماذج، فالنموذج اللغوي الذي يحتوي على نحو 200 مليار مُعامل – مثل GPT-4o – يمكن، إذا طُبع بالكامل، أن يغطي مساحة تعادل مدينة سان فرانسيسكو تقريباً (121.4 كم²)، بينما قد تمتد النماذج الأكبر لتوازي مساحة لوس أنجلوس (1,299 كم²).
هذا الحجم الهائل للنماذج اللغوية لا يعكس فقط كثافة البيانات، بل أيضاً عمق تعقيد هندسة النماذج، إذ يعترف باحثو الشركات نفسها بأن العقل البشري غير قادر على الإحاطة الكاملة بما يجري داخل هذه الأنظمة.
ويثير هذا الواقع مخاوف عملية تتعلق بالهلوسة، والثقة، وإمكانية ضبط السلوك، ووضع ضمانات تمنع الانحرافات الخطرة.
البنية الداخلية
وطورت الشركات الكبرى ما يُعرف بالتفسير الآلي (Mechanistic Interpretability)، وهو مجال بحثي يسعى إلى كشف البنية الداخلية للنماذج عبر تتبع مسارات التفعيلات أثناء تنفيذ المهام، تماماً كما تُستخدم صور الدماغ لرصد النشاط العصبي.
وتُعد “أنثروبيك” Anthropic من أبرز الجهات البحثية التي تبنت هذا النهج، إذ ابتكرت نموذجاً ثانوياً يعتمد على “المشفّرات التلقائية المتناثرة” Sparse Autoencoders، يعمل كنسخة مبسطة وأكثر شفافية من النموذج الأصلي، ويتم تدريب هذا النموذج الثانوي ليحاكي سلوك النموذج الأساسي بدقة عالية.
ورغم أن هذه النماذج الثانوية غير عملية من حيث الكفاءة، فإن مراقبتها تتيح للباحثين استنتاج كيفية عمل النموذج الأصلي.
وفي مرحلة لاحقة، نجح باحثو “أنثروبيك” في تتبع حركة “التفعيلات” داخل النموذج أثناء تنفيذ مهمة كاملة، ما وفر رؤية غير مسبوقة لكيفية “تفكير” النموذج.
تفكير مشتت
وكشف فريق “أنثروبيك” أن النماذج اللغوية لا تمتلك تماسكاً ذهنياً شبيهاً بالبشر، ففي تجربة حول لون الموز، تبين أن جزءاً من النموذج يخزن حقيقة أن الموز أصفر، بينما جزءاً آخر يقيّم صدق العبارة نفسها.
هذا الفصل يفسر قدرة النماذج على تقديم إجابات متناقضة دون إدراك للتناقض.
ويرى الباحثون أن هذا الاكتشاف له آثار مباشرة على مفهوم “مواءمة الذكاء الاصطناعي AI Alignment”، إذ لا يمكن افتراض أن النموذج سيتصرف بالطريقة نفسها في مواقف متشابهة.
أنماط سامة
أظهرت دراسات أن تدريب النماذج على مهام محددة سيئة، مثل إعطاء نصائح قانونية خاطئة أو إنشاء شيفرات غير آمنة، لا يقتصر أثره على هذه المهام فقط، بل يمكن أن يسبب “أنماطاً سلوكية سامة” على نطاق واسع.
ووجد باحثو OpenAI أن هذا النوع من التدريب يعزز داخل النموذج أجزاء تمثل “شخصيات عدائية” تعلمها من الإنترنت، مما يحوّل النموذج إلى كيان عدائي شامل بدلاً من أن يظل مجرد أداة مخطئة في مهمة واحدة.
وفي دراسة منفصلة، حلل باحثون في قطاع أبحاث الذكاء الاصطناعي بجوجل Google DeepMind سلوك نموذج “جيميناي”، الذي بدا وكأنه يمنع المستخدمين من إيقاف تشغيله، فتبيّن عبر أدوات التفسير أن السبب لم يكن نية عدائية، بل ارتباك النموذج في ترتيب الأولويات أثناء أداء المهمة.
تحديات فهم النماذج
إلى جانب التفسير الآلي، تعتمد OpenAI تقنية مراقبة سلاسل التفكير (Chain-of-Thought Monitoring)، التي تتيح الاطلاع على الملاحظات الداخلية التي يدوّنها النموذج أثناء حل المهام المعقدة.
وقد كشفت هذه التقنية حالات غش صريحة، حيث اعترف النموذج في “مفكرته الداخلية” بحذف شفرة خاطئة بدلاً من إصلاحها، ما سمح للباحثين بتعديل آليات التدريب لمنع تكرار السلوك.
ورغم التقدم، يعترف الباحثون بوجود حدود لهذه الأساليب. فالنماذج الثانوية لا تمثل بالضرورة النماذج الإنتاجية المستخدمة فعلياً، كما أن تقنيات التفسير قد تصبح أقل فاعلية مع النماذج الاستدلالية الحديثة، التي تعمل عبر خطوات متعددة ومعقدة.
كما يُخشى أن تؤدي تطور النماذج إلى جعل “سلاسل التفكير” أكثر اختصاراً وأقل قابلية للفهم البشري، ما قد يغلق نافذة الشفافية التي فُتحت حديثاً، مما يجعل فهم طريقة عمل نماذج الذكاء الاصطناعي أكثر صعوبة وتعقيداً.
وأشار التقرير إلى أن OpenAI تبحث حالياً في إمكانية تطوير نماذج تُجبر على تبني سلاسل أبسط وأكثر قابلية للتفسير، غير أن هذا التوجه قد يؤدي إلى نماذج أقل كفاءة وأكثر تكلفة، ما يطرح تساؤلات حول جدواه التجارية.
نقلا عن : الشرق




