آخر الأخبار

كيف مهّد الحمام الطريق للذكاء الاصطناعي؟

شارك

منذ فجر الحضارة، سعى البشر لفهم سلوك الكائنات الحية والكشف عن الأنماط الخفية التي تحرك التعلم والتكيف مع البيئة.

وتراوحت هذه المحاولات عبر العصور بين التأمل الفلسفي والملاحظة الدقيقة، وصولا إلى التجارب على الحيوانات، مثل تجربة بافلوف مع الكلاب، وأبحاث سكينر على الحمام، التي أرست أساس ما أصبح يعرف اليوم بـ"التعلم عبر العواقب".

وفي منتصف القرن العشرين، أحدث بورهوس فريدريك سكينر ثورة في علم النفس السلوكي باختراع بسيط في مظهره ولكنه عميق التأثير "صندوق سكينر". ولم تبدأ فكرة التجربة داخل المختبر، بل من ملاحظة أثناء سفره بالقطار، حيث لفتت انتباهه أسراب الطيور وهي تناور بخفة، ففكر في إمكانية استغلال مبادئ التعلم في مجالات عملية، بما في ذلك التطبيقات العسكرية.

وبدأ سكينر بتجارب أولية مع الغربان، لكنّ ذكاءها واستقلاليتها جعلا التحكم بها صعبًا، ثم لجأ إلى الحمام المستأنس (Columba livia) الطائر المعروف تاريخيًا بدوره في الاتصالات الحربية.

ووضع خطة لتدريب الطيور على التعرف على الأهداف في الصور الجوية، ومكافأتها على السلوك الصحيح بالنقر، بل تخيل دمجها في رؤوس الصواريخ لتوجيه الذخائر بالنقر على صور الأهداف.

ورغم أن مشروع الحمامة لم يُنفذ عسكريًا، فقد ترك إرثًا علميًا عميقا، وهو "التكيف الإجرائي". وداخل صندوق سكينر تعلمت الحيوانات سلوكيات جديدة عبر مكافآت وعقوبات تقدم في الوقت المناسب، مما أرسى الأساس لفهم التعلم باعتباره استجابة مباشرة للعواقب.

مصدر الصورة الخوارزميات اليوم تتعلم داخل صناديقها لكن التحدي الأكبر أن نخرج من الصندوق (غيتي)

التعلم بالتعزيز.. من صندوق سكينر إلى البيئة الرقمية

بعد عقود من تلك التجارب، نرى اليوم تطبيق المبادئ نفسها في الذكاء الاصطناعي ، عبر التعلّم بالتّعزيز (Reinforcement Learning -RL).

ويتعلم الوكيل (Agent) التفاعل مع بيئة ما، حيث ينفذ فعلا، ثم يتلقى مكافأة أو عقوبة، ثم يعدل سلوكه تدريجيًا لتعظيم مُكافآته على المدى الطويل.

إعلان

وإذا قارنّا ذلك بما يحدث في صندوق سكينر، نجد تطابقا مذهلا، فالحيوان في الصندوق يقابله الوكيل الرقمي، والضغط على الرافعة يعادل الفعل، بينما حبة الطعام أو الصدمة الكهربائية تمثل إشارة المكافأة أو العقوبة، أما التكييف عبر الزمن في التجارب الحيوانية، فهو ما يعادل السياسة (Policy) التي يتعلمها الوكيل عبر حلقات التغذية الراجعة.

الشفرة العصبية للحاسوب

لم يكن هذا الربط بين السلوك والنتائج مجرد استعارة، بل تحول إلى إطار حسابي متكامل. فقد صاغ ساتون وبارتو في كتابهما "مقدمة في التعلم بالتعزيز" (Reinforcement Learning: An Introduction) الأساس النظري لهذا المجال، مُعرّفيْن عناصره الجوهرية، المتمثلة في الوكيل، والبيئة، والأفعال والمكافآت، مع الهدف الأساسي المتمثل في تعلم سياسة تعظّم المكافآت التراكمية.

وأظهرت أبحاث منشورة في "نايتشر هيومن بيهافيور" (Nature Human Behaviour) أن النشاط الفازي للدوبَامين في الدماغ يشفر ما يعرف بـ"خطأ توقع المكافأة" (Reward Prediction Error-RPE) وهو المفهوم نفسه الذي تقوم عليه خوارزميات التعلم بالتعزيز، كاشفًا عن خيط بيولوجي حاسوبي يحكم التعلم في الكائنات والآلات على حد سواء.

المكافأة والعقوبة.. وصفة يتعلم بها الذكاء الاصطناعي

كما ميّز سكينر بين أشكال مختلفة من العواقب التي تشكل السلوك، فإن أنظمة الذكاء الاصطناعي اليوم تتدرب عبر أنماط متنوعة من التعزيز:


* التعزيز الإيجابي: يحصل النموذج على مكافأة عند إتمام مهمة بنجاح.
* التعزيز السلبي: يتجنب المواقف غير المرغوبة من خلال إزالة عقبة أو حالة مزعجة.
* العقاب: تؤدي القرارات الخاطئة إلى نتائج سلبية، كخسارة نقاط أو دخول حالات فشل.

ومن خلال تكرارات لا حصر لها، يصقل الذكاء الاصطناعي سلوكه تمامًا كما فعلت حيوانات سكينر، باحثا عن المكافأة، متجنبًا العقاب، ومطورًا إستراتيجيات أكثر كفاءة مع مرور الزمن.

مصدر الصورة بمجالات كخوارزميات التوظيف والمركبات الذاتية القيادة يمكن لهيكل المكافآت أن يوجه القرارات ويؤثر مباشرة على حياة البشر (شترستوك)

من الحمام إلى روبوتات الدردشة الموجهة

ما بين نقرة حمامة على رافعة وردّ لغوي متقن من روبوت محادثة، خيط غير منقطع. ففي تجارب سكينر، تعلم الحمام أن ينقر للحصول على الطعام، وفي عالم النماذج اللغوية الضخمة "إل إل إم إس" (LLMs) مثل "جي بي تي" يعاد تطبيق المبدأ بصيغة رقمية متقدمة.

وتُدرّب هذه النماذج على مرحلتين أساسيتين:


* الضبط الدقيق تحت الإشراف: يتعلم النموذج تقليد أنماط اللغة البشرية، تمامًا كما يتعلم الحمام أنماط السلوك من تجارب محددة.
* التعلم بالتعزيز من خلال التغذية الراجعة البشرية "آر إل إتش إف" (RLHF): البشر يقيّمون استجابات النموذج، فيُكافؤ عندما يقدم ردودًا أكثر فائدة ودقة.

وبهذا التكرار المستمر في الملاحظة، والفعل، والتغذية الراجعة، نعيد تطبيق التكييف على مستوى غير مسبوق من التعقيد، مضخمًا بِالبيانات والحوسبة والخوارزميات.

التعلم بالتعزيز في الألعاب والتطبيقات العملية

بعد أن أظهرت تجارب سكينر مع الحمام قدرة الكائنات الحية على تعديل سلوكها عبر المكافأة والعقاب، أصبح من الممكن تصور نفس المبدأ في العالم الرقمي.

تماما كما تعلم الحمام أن ينقر للحصول على الطعام، تتعلم أنظمة الذكاء الاصطناعي، عبر التعلم بالتعزيز، تعديل قراراتها لتحسين النتائج على المدى الطويل. وهذا المبدأ البسيط الذي يقوم على التجربة والخطأ والمكافأة، أصبح الأساس لإنجازات مذهلة في الذكاء الاصطناعي.

إعلان

ففي عام 2016، هزم "ألفا غو" (AlphaGo) من "ديب مايند" (DeepMind) البطل العالمي لي سيدول في لعبة "غو" (Go) عبر دمج الشبكات العصبية العميقة مع التعلم بالتعزيز، حيث لعب البرنامج ملايين المباريات ضد نفسه، مطوّرا إستراتيجيته لِتعظيم احتمالات الفوز، تماما كما طوّر الحمام سلوكه داخل صندوق سكينر.

كما يُستخدم نفس المبدأ في تدريب نماذج اللغة الحديثة عبر التغذية الراجعة البشرية (RLHF) وتقليل فاتورة تبريد مراكز بيانات "غوغل" بنسبة 40%، وتوجيه البلازما فائقة التسخين داخل مفاعل الانصهار النووي توكاماك، مؤكدا أن مبدأ سكينر البسيط أصبح أداة للتحكم في أكثر الأنظمة تعقيدا على وجه الأرض.

عشوائية المكافآت والمخاطرة

أدرك سكينر أن المكافآت غير المنتظمة تولد أعظم درجات المثابرة، وهو المبدأ ذاته الذي تعتمد عليه كازينوهات لعب القمار لجذب اللاعبين.

وفي الذكاء الاصطناعي، يظهر هذا التحدي في معضلة الاستكشاف مقابل الاستغلال، أي هل سيستمر الوكيل في الخيارات المضمونة، أم يجازف بتجربة مسارات جديدة قد تكافئه أكثر على المدى الطويل؟

ولتجاوز هذه المعضلة، تستخدم إستراتيجيات مثل "إبسيلون غريدي" (epsilon-greedy) -التي تضيف جرعة محسوبة من العشوائية- ما يسمح باكتشاف سلوكيات أكثر فعالية في بيئات غير مستقرة أو جزئية المعرفة.

وكما واصل حمام سكينر النقر رغم المكافآت المتقطعة، يتعين على وكلاء الذكاء الاصطناعي الموازنة باستمرار بين المخاطرة والمكافأة في بيئات ديناميكية يسودها عدم اليقين.

مصدر الصورة سكينر ميّز بين أشكال مختلفة من العواقب التي تشكل السلوك (شترستوك)

البعد الأخلاقي للتكييف الرقمي

القدرة على تشكيل السلوك، سواء كان حيوانيًا أو اصطناعيًا، تثير مجموعة من الأسئلة الأخلاقية الجوهرية، مثل من يحدد في الأساس ما المكافآت "الصحيحة" التي ينبغي تعزيزها؟ وكيف نتجنب غرس تحيزات أو أنماط غير مرغوبة في الأنظمة التي نصممها؟ وهل يمكننا التنبؤ باستجابات أنظمة معقدة تتغير باستمرار؟

ففي مجالات مثل الإشراف على المحتوى، وخوارزميات التوظيف، والمركبات الذاتية القيادة، يمكن لهيكل المكافآت الذي نصمّمه أن يوجه القرارات ويؤثر مباشرة على حياة البشر.

وبينما نتحمل مسؤولية التأكد من أن المكافآت الرقمية لا تولد تحيزات أو نتائج غير مرغوبة، يظهر الفرق البشري في قدرتنا على الربط بين مجالات متعددة وفهم السياق الأوسع.

من الصندوق إلى رؤية أوسع

من صندوق سكينر الذي علّمَ الحمام التصرف تحت ضغط المكافآت والعقوبات، إلى صناديق السيليكون التي تعلم الخوارزميات أن تتخذ قراراتها عبر التعزيز الرقمي، تبدو القصة في ظاهرها رحلة تقنية باردة، لكن في جوهرها دعوة للتفكير البشري العميق.

فكما يشير ديفيد إبستين في كتابه "المدى" (RANGE) النجاح اليوم يتطلب القدرة على الربط بين التخصصات، وبناء الجسور بين الخبرات المختلفة، وتحويل التناقضات إلى فرص.

وفي زمن الذكاء الاصطناعي والروبوتات، حيث تبرمج الآلات لتكرار ما تعلمته بكفاءة هائلة، سيكون التفوق البشري الحقيقي في القدرة على الربط لا على الحفظ.

وقد يعرف الروبوت آلاف القوانين، لكنه لا يستطيع أن يرى التشابه بين قصة في الأدب الروسي وموقف في تجربة تسويق، أو أن يمزج بين تجربة مخبرية ورؤية فنية ليبتكِر فكرة جديدة. وتلك ميزة إنسانية خالصة، يمتلكها أصحاب "المدى" كما وصف إبستين، الذين يجمعون المعنى من مصادر متباعدة ويحولونه إلى بصيرة تنير الطريق.

وإن كانت الخوارزميات اليوم تتعلم بالتعزيز داخل صناديقها الرقمية، فإن التحدي الأكبر أمامنا نحن البشر هو أن نخرج من الصندوق، وأن نعيد اكتشاف قيمة التنوع والاتساع في الرؤية، وأن نصنع من تباعد خبراتنا فسيفساء غنية تقودنا نحو مستقبل أكثر إبداعا وذكاءً إنسانيًا، حيث يتكامل التفكير الإبداعي مع المسؤولية الأخلاقية في عصر الذكاء الاصطناعي.

إعلان
الجزيرة المصدر: الجزيرة
شارك

إقرأ أيضا


حمل تطبيق آخر خبر

آخر الأخبار