آخر الأخبار

الوجه المظلم للذكاء الاصطناعي.. لماذا لا تحصل على أفضل النتائج باللغة العربية؟

شارك

يتساءل مستخدمو الذكاء الاصطناعي التوليدي دائما عن فوارق الجودة في النتائج التي يتحصلون عليها عندما يطرحون نفس الطلب بلغات مختلفة. فالنتيجة الإنجليزية غالبا ما تكون الأكثر جودة من بقية النتائج، وخاصة تلك التي تصدر بلغات غير غربية. الإجابة المبسطة عن سر ذلك الفارق هي التصميم المرتكز على اللغة الإنجليزية في أنظمة الذكاء الاصطناعي، والذي يؤدي بدوره إلى تراجع كبير في دقة الترجمة والمعالجة الآلية لبقية اللغات وخاصة لغات الجنوب العالمي. ولكن وراء ذلك التبسيط توجد عدة أسباب هيكلية وتقنية أكثر تعقيدا.

هناك خطاب مغر عن أعجوبة الذكاء الاصطناعي، وعن النماذج اللغوية الكبرى تحديدا، التي هي أساس قدرة هذا النوع من الذكاء على البحث والتلخيص والترجمة وإنشاء المحتوى. هذا الخطاب مفاده أنها مرايا تعكس المعرفة الإنسانية، وفي هذا الخطاب، فإن أي تحيزات تظهر هي مشكلات عرضية وقابلة للتصحيح، وخارجة في جوهرها عن التقنية ذاتها.

"الممارسة العملية تكشف أن النماذج اللغوية الكبرى لا تعكس المعرفة الإنسانية في شموليتها"

لكن الممارسة العملية تكشف أن هذه النماذج لا تعكس المعرفة الإنسانية في شموليتها، بقدر ما تخضع لهندسة خاصة تتحكم فيها بيانات تدريبها وخياراتها التصميمية والافتراضات المعرفية لمنشئيها. فهذه النماذج، بحسب بنيتها الحالية وطريقة تدريبها، تبدو آليات لإعادة إنتاج "استعمارية المعرفة"، وضمان استمرار التسلسلات الهرمية الاستعمارية التي تضع المعرفة الأوروبية والأمريكية على القمة، بينما تستبعد المعرفة التي تنتجها الثقافات والمجتمعات الأخرى وتضعها في مراتب أدنى.

اقرأ أيضا

list of 2 items
* list 1 of 2 الصين ترصد القاذفات الشبحية.. كيف تتآكل منظومة التخفي الأغلى في العالم؟
* list 2 of 2 ما تحجبه إسرائيل عن العالم.. هل خرج جيشها عن السيطرة؟ end of list

فقد دأب علماء البيانات على تأكيد أن البيانات ليست مادة خاما محايدة، بل إنتاج اجتماعي مشبَّع بعلاقات السلطة التي تسكن الواقع. فاستخراج البيانات السلوكية البشرية مثلا وتسليعها لاستخدامها في أنظمة الذكاء الاصطناعي، يشكل ضربا جديدا مما يمكن أن نطلق عليه "استعمار البيانات"، أي أن الآثار الرقمية لأنشطة مليارات البشر، وأغلبهم يعيش أساسا في الجنوب العالمي، يجري تحويلها إلى قيمة تتراكم في الغالب لدى شركات الشمال العالمي.

مصدر الصورة العلماء يؤكدون على أن البيانات ليست مادة خاما محايدة بل إنتاج اجتماعي مشبَّع بعلاقات السلطة (شترستوك)

وبالنسبة للنماذج اللغوية الكبرى تحديدا، فإن سياسات التمثيل في بيانات التدريب هي الأساس. حيث تتعلم هذه النماذج من النصوص المُجمَّعة من الإنترنت والكتب وسائر المصادر الرقمية. والمحتوى الثقافي لتلك النصوص، أي الثقافات الممثَّلة، يشكل مباشرة طريقة "فهمَ" النموذج للواقع الثقافي.

إعلان

لكن هذه الأنظمة لا تنوي شيئا، فهي لا "تقرر" تمييز ثقافات بعينها على حساب أخرى. بل تكون مُدرَّبة على إنتاج مخرجات تتسق إحصائيا مع أنماط بيانات تدريبها. فحين ترتبط ثقافات بعينها في بيانات التدريب بأوصاف محددة، يتعلم النموذج تلك الارتباطات ويعيد إنتاجها. والإعادة في هذا السياق بنيوية وآلية، وبالتالي يصعب رصدها والطعن فيها.

"الآثار الرقمية لأنشطة مليارات البشر، وأغلبهم يعيش أساسا في الجنوب العالمي، يجري تحويلها إلى قيمة تتراكم في الغالب لدى شركات الشمال العالمي"

علاوة على ذلك، فإن النماذج اللغوية الكبرى لا تقوم بإعادة إنتاج سلبية للنصوص القائمة، بل تولد نصوصا جديدة لم تُكتب من قبل قط، مركبة أنماطا من بيانات التدريب في صورة مخرجات مبتكرة. وهذه القدرة التوليدية تعني أن النماذج اللغوية الكبرى لا تضخم الروايات الثقافية القائمة فحسب، بل تبني "معرفة" جديدة عن الثقافات ربما لم توجد أبدا بهذه الصورة في أي وثيقة مصدرية، أي أنها تضخم الرؤية الاستشراقية والاستعمارية عن الآخر غير الأوروبي، وتضيف عليها مزيدا ومزيدا من الرؤى المنحازة.

مصدر الصورة النماذج اللغوية الكبرى لا تقوم بإعادة إنتاج سلبية للنصوص القائمة، بل تولد نصوصا جديدة عبر تحويل ببانات التدريب إلى مخرجات مبتكرة (شترستوك)

تأثير التبسيط

تتجلى أبرز آليات استعمارية المعرفة في نظام عمل النماذج اللغوية الكبرى فيما يمكن أن نطلق عليه "المحو الثقافي". ينتمي هذا المفهوم إلى حقل دراسات الإعلام، ويُعرَّف بأنه العملية التي إما تُتجاهل فيها مجتمعات بالكامل، وهو المحو عن طريق الإغفال، أو تُقدَّم عبر صور نمطية "كاريكاتورية" ضحلة، وهو المحو عن طريق التبسيط.

يظهر هذا التبسيط مثلا في وصف البيئات الحضرية في مناطق مختلفة من العالم. فقد وثّقت الأبحاث التي فحصت مخرجات النماذج اللغوية الكبرى نمطا منهجيا لهذا الوصف، بمراعاة توحيد الأوامر "Prompts" وتثبيت النماذج نفسها. فحين طلب من بعض هذه النماذج وصف مدن في أفريقيا وجنوب آسيا وجنوب شرق آسيا أو توليد محتوى عنها، فإنها تبرز بصورة غير متناسبة روايات الفقر والتخلف الاقتصادي في هذه المدن.

في حين أن تلك النماذج ذاتها، حين تصف المدن الأوروبية والأمريكية، تبرز الغنى الثقافي والعمق التاريخي والإرث الفني والفضاءات الترفيهية. يعكس هذا التفاوت "النظرة الاستعمارية" في رؤية الشعوب والأماكن غير الغربية عبر وضعها باستمرار في موقع الافتقار إلى ما تمتلكه المجتمعات الغربية من ميزات.

والنظرة الاستعمارية ليست وصفية فحسب، فهي تقييمية ومقارنة، وإطارها المرجعي هو دائما المعيار الغربي الذي يبدو إزاءه كل ما هو "غير غربي" قصورا. فحين تسألها عن باريس، تنتج النماذج نسيجا ثقافيا غنيا: شوارع هوسمان، وثقافة المقاهي في سان جيرمان دي بري، والمجموعة الموسوعية في متحف اللوفر، والتاريخ الفكري لضفة نهر السين اليسرى.

"يكمن أصل الداء في بنية بيانات التدريب، حيث أفرز الإنترنت الإنجليزي المهيمن كما هائلا من النصوص المنحازة عن المدن الأفريقية"

أما حين تسألها عن كينشاسا، التي هي في الواقع مدينة يزيد عدد سكانها على 15 مليون نسمة، وعاصمة عالمية لموسيقى الرومبا الكونغولية المدرجة في قائمة اليونسكو للتراث الثقافي غير المادي للإنسانية، والحاضنة لمشهد فني معاصر نابض بالحياة، والواقعة على أرض تمتد فيها أحد أقدم التواريخ الحضارية المتواصلة على وجه الأرض، لا تتحدث النماذج اللغوية عن كل ذلك غالبا، وإنما تبرز الأزمة الاقتصادية والاضطراب السياسي والفقر، فيما يُهمَّش الثراء الثقافي الحقيقي الذي يميز المدينة ولا يكاد يذكر إلى عرضا (تقوم النماذج اللغوية باستمرار بتطوير أجوبتها حول المسائل والقضايا التي ترصدها المراجعات البحثية ولكن ذلك لا يغير النمط المعرفي السائد الذي تتحكم فيه البيانات التي تدربت عليها هذه النماذج).

إعلان

يكمن أصل الداء في بنية بيانات التدريب، فقد أفرز الإنترنت الإنجليزي المهيمن كما هائلا من النصوص عن المدن الأفريقية، غير أن هذه النصوص أُنتجت في الغالب من قِبَل وكالات الأنباء الغربية ووكالات التنمية وهيئات السياحة والباحثين الأكاديميين العاملين، ضمن أطر تحصر الواقع الأفريقي في الزوايا التي تتقاطع مع الاهتمامات الغربية، مثل الطوارئ الإنسانية ومؤشرات التنمية المتراجعة وتدفقات الهجرة ومخاطر الاستثمار والأمن والإرهاب.

مصدر الصورة النماذج اللغوية تمارس "محواً ثقافياً" وتفرز معرفة استعمارية تفرق بين المدن الغربية وغير الغربية (الجزيرة- مولدة بالذكاء الاصطناعي)

وهكذا، فإن هذا الأرشيف الضخم غير المحايد ثقافيا، يضع الواقع الحضري الأفريقي باستمرار في موقع المشكلة الواجب حلها، لا الحضارة الواجب فهمها بشروطها الخاصة. وحين تُدرَّب النماذج اللغوية على هذا الأرشيف، فإنها تستبطن معاييره ذاتها، وتقوم بتطبيقها حين تولد نصوصا جديدة ، منتجة ذات النظرة الاستعمارية، ليس لأنها تلقت تعليمات بذلك، بل لأن تلك النظرة مُرمَّزة بنيويا في بيانات التدريب. وتتضاعف هذه الدينامية بفعل ما يسميه اللغويون الحسابيون "تأثير التكرار". فالمفاهيم والارتباطات والأوصاف الأكثر تكرارا في بيانات التدريب تمارس تأثيرا أشد على مخرجات النموذج.

فإذا كانت عبارة "الفقر" تتقاطع مع الإشارات إلى كينشاسا بصورة أكثر بكثير في المدونة التدريبية مقارنة بعبارة "الموسيقى الكونغولية"، فإن النموذج سيرجح بدرجة أكبر توليد محتوى مرتبط بالفقر حين يُسأل عن تلك المدينة. لذلك فإن تبسيط المخرجات التي تقدمها النماذج اللغوية الكبرى حول المدن الأفريقية مثلا هو، بهذا المعنى، نتيجة مباشرة لسطحية أو جزئية النصوص التي دُرِّبت عليها.

"المفاهيم والارتباطات والأوصاف الأكثر تكرارا في بيانات التدريب تمارس تأثيرا أشد على مخرجات النموذج"

فضلا عن ذلك، يرسخ التدريب نوعا من المركزية الغربية ضمن إدراك النموذج اللغوي للمفاهيم. فحين تصف هذه النماذج المدن الأوروبية بـ"الثراء الثقافي"، فإنها تعمل ضمن تعريف محدد للثقافة أُنتج تاريخيا، يعلي من شأن أشكال بعينها من الإنتاج الفني، مثل الموسيقى الكلاسيكية الغربية أو الرسم الزيتي أو العمارة القوطية، وكذلك أنماط محددة من الحياة الفكرية مثل المقهى والجامعة والصالون الأدبي، وأنواع خاصة من الموروث التاريخي كالآثار الرومانية وقصور عصر النهضة.

لكن هذا التعريف المحدد للثقافة ليس كونيا، فهو غربي بالتحديد، وحديث من حيث الزمن، وقد أُنتج عبر تاريخ من السياسات الثقافية التي رُفضت فيها المنجزات الثقافية للحضارات غير الغربية أو جُرِّدت من سياقاتها دون اعتراف بأصالة تلك الثقافات.

وحين تطبق النماذج اللغوية الكبرى هذا التعريف لتقييم "الثراء الثقافي"، مصنفة المدن ضمنيا وفق مدى مطابقتها للأعراف الثقافية الغربية، فإنها تعيد إنتاج تسلسل هرمي استعماري للقيمة الثقافية استُخدم تاريخيا لتبرير لإخضاع الشعوب غير الغربية، بحجة افتقارها إلى "الحضارة" التي امتلكتها القوى الاستعمارية.

مصدر الصورة النماذج اللغوية تعيد إنتاج النظرة الاستعمارية آلياً بفعل "تأثير التكرار" في بيانات التدريب (شترستوك)

المحو بالحذف

وإذا كان المحو بالتبسيط ينطوي على تشويه التمثيل الثقافي، فإن المحو بالحذف ينطوي على شيء أشد جذرية، وهو الإزالة الفعلية لعوالم ثقافية بأكملها من مخرجات النماذج اللغوية الكبرى. حيث وثّقت الأبحاث التي فحصت ردود هذه النماذج على أسئلة توصيات السفر والمعلومات الجغرافية أنماطا منهجية من الغياب الإقليمي تتطابق مع الجغرافيا التاريخية للتهميش الاستعماري.

فقد كشفت دراسات فحصت نماذج لغوية كبيرة متعددة أنه حين يُطلب من هذه النماذج توصية بوجهات سفر أو توليد خطط سياحية أو وصف مناطق من العالم، فإنها تنتج مخرجات تتركز بصورة ساحقة على عدد ضيق من المناطق، مثل أوروبا الغربية وأمريكا الشمالية وشرق آسيا وبدرجة أقل جنوب آسيا وجنوب شرق آسيا. فيما تبدو 8 مناطق جغرافية بأكملها، تشمل عمليا كل أفريقيا جنوب الصحراء الكبرى وآسيا الوسطى وجزر المحيط الهادئ وأجزاء واسعة من أمريكا الجنوبية -خارج البرازيل والأرجنتين- وأجزاء كبيرة من الشرق الأوسط، شبه غائبة أو لا تظهر نهائيا في تلك المخرجات.

"يُعَد الغياب شبه التام لأفريقيا جنوب الصحراء من توصيات النماذج اللغوية الكبرى للسفر من أكثر النتائج لفتا للانتباه"

لكن الحالة الأفريقية تبدو الأكثر وضوحا. حيث يُعَد الغياب شبه التام لأفريقيا جنوب الصحراء الكبرى من توصيات النماذج اللغوية الكبرى للسفر والثقافة صارخا بصفة خاصة، لأن أفريقيا ليست فقيرة ثقافيا. فهي القارة الأوفر تنوعا لغويا على وجه الأرض، وتضم أكثر من ألفي لغة متمايزة، وتحتضن بعضا من أقدم الحضارات في العالم. كما تحتضن تقاليد فنية استثنائية الحيوية والتأثير العالمي. وغيابها من المخرجات الثقافية للنماذج اللغوية الكبرى يؤكد الأساس "الانتقائي" للأنظمة التي تُبنى من خلالها هذه النماذج.

إعلان

وتشمل آليات الحذف التمثيل الناقص للغات الأفريقية في مدونات النصوص الرقمية، وهيمنة وجهات النظر الغربية الواردة في النصوص الإنجليزية التي تصف الثقافات الأفريقية، فضلا عن الغياب التام تقريبا للمؤسسات الثقافية والسياحية ومنتجي المعرفة الأفارقة من الفضاءات الرقمية التي تغذي بيانات تدريب النماذج اللغوية الكبرى.

"النتيجة أن نموذجا لغويا كبيرا تُطلَب منه توصية بوجهات سياحية في أفريقيا، سيعجز عن توليد توصيات جوهرية"

والنتيجة أن نموذجا لغويا كبيرا تُطلَب منه توصية بوجهات سياحية في أفريقيا، إما سيعجز عن توليد توصيات جوهرية، أو سيتراجع إلى عدد ضئيل جدا من الوجهات السائدة في وسائل الإعلام السياحية الغربية مثل رحلات السفاري في كينيا وتنزانيا وكيب تاون، أو سينتج معلومات غير دقيقة ومنمطة وقديمة. فيما تظل الثروة الثقافية الاستثنائية للقارة غير مرئية فعليا للمستخدمين.

وتمتد التبعات السياسية لهذا المحو إلى ما وراء التفاعلات الفورية بين المستخدمين والنماذج اللغوية الكبرى. فمع تكامل هذه الأنظمة المتزايد في البنية التحتية للمعلومات، من محركات البحث والمنصات التعليمية وخدمات تجميع الأخبار وأنظمة حجز السفر، تتجذر تحيزاتها البنيوية في البيئة المعلوماتية الأشمل بطرق تتضاعف وتتعزز ذاتيا.

فحين تفشل النماذج اللغوية الكبرى باستمرار في التوصية بوجهات في أفريقيا جنوب الصحراء الكبرى، يبحث عدد أقل من المستخدمين عن معلومات حول هذه الوجهات، مما يعني حركة زيارة أقل للمواقع الثقافية والسياحية الأفريقية، وما يعني كذلك محتوى رقميا أقل عن الثقافات الأفريقية، وبقاء هذه المناطق ناقصة التمثيل في بيانات التدريب للجيل القادم، وهو ما يعزز بالضرورة الغياب الأصلي في الجيل التالي من النماذج.

فضلا عن ذلك، فإن للمحو تبعات اقتصادية، إذ تشكل السياحة قطاعا اقتصاديا مهما لكثير من مناطق الجنوب العالمي، وللتمثيل الثقافي للوجهات في وسائل الإعلام الرقمية تأثير مباشر على تدفقات السياح. وحين تفشل منهجيا أكثر أنظمة الذكاء الاصطناعي استخداما في العالم في توصية وجهات في أفريقيا جنوب الصحراء الكبرى، فإنها تسهم عمليا في توزيع اقتصادي لعائدات السياحة يعيد إنتاج الأنماط الأشمل للتفاوت الاقتصادي العالمي.

مصدر الصورة النتيجة أن نموذجا لغويا كبيرا تُطلَب منه توصية بوجهات سياحية في أفريقيا سيعجز عن توليد توصيات جوهرية (شترستوك)

الجذور البنيوية

هذا المحو المنهجي، تبسيطا أو إغفالا، ليس هابطا من السماء، بل هو نتاج شروط بنيوية محددة في منظومة المعلومات الرقمية التي تستقي منها النماذج اللغوية الكبرى بيانات تدريبها. وأعمق هذه الشروط هو الهوة الرقمية. فالوصول إلى الإنترنت ليس موزعا بالتساوي عبر سكان العالم، ولهذا التوزيع المتفاوت تبعات معرفية جسيمة.

فوفقا للاتحاد الدولي للاتصالات، بلغ عدد من لم يسبق لهم استخدام الإنترنت حتى عام 2023 نحو 37% من سكان العالم، ما يعادل نحو 2.9 مليار شخص. هذه الشريحة تتركز بصورة أساسية في أفريقيا جنوب الصحراء الكبرى وجنوب آسيا وأجزاء من جنوب شرق آسيا وأمريكا اللاتينية، وهي بالضبط المناطق التي تغيب ثقافاتها أكثر عن مخرجات النماذج اللغوية الكبرى.

"الوصول إلى الإنترنت ليس موزعا بالتساوي عبر سكان العالم، ولهذا التوزيع المتفاوت تبعات معرفية جسيمة"

غير أن الوصول إلى الإنترنت ليس إلا الطبقة الأولى من المشكلة. فحتى بين السكان الذين يمتلكون هذا الوصول، تتسم المشاركة في إنتاج النصوص الرقمية التي تُدرَّب عليها النماذج اللغوية الكبرى بعدم التكافؤ الشديد. فإنتاج نصوص تدخل مدونة تدريب نموذج لغوي كبير يتطلب ليس مجرد الوصول إلى الإنترنت، بل الإلمام بلغة مفهرسة من قِبَل برامج تشغيل الحواسيب، والوصول إلى المنصات مثل المواقع والمدونات ووسائل التواصل الاجتماعي المدرجة في بيانات التدريب، فضلا عن المصداقية المؤسسية والثقافية التي تجعل ذلك النص موثقا ومستشهدا به ومعززا من قِبَل مصادر أخرى، إلى جانب البنية التحتية الرقمية للحفاظ على حضور إلكتروني مستمر.

هذه الشروط تفضل بصورة جلية منتجي النصوص بعدد ضيق من اللغات، الإنجليزية بالدرجة الأولى ثم الصينية والإسبانية والفرنسية والألمانية، وحفنة من اللغات الأخرى ذات الحضور الرقمي. ومن بين هؤلاء المنتجين بهذه اللغات، يُفضَّل أولئك الذين يقطنون أو يرتبطون ارتباطا وثيقا باقتصادات رقمية في الشمال العالمي.

إعلان

أما العامل الثاني الحاسم فهو التفاوت اللغوي في الفضاء الرقمي. فمن اللغات البشرية المتداولة حاليا والبالغ عددها نحو 7 آلاف لغة، نسبة ضئيلة فقط منها هي ما يمتلك حضورا رقميا جوهريا. فاللغة الإنجليزية وحدها تمثل ما يُقدَّر بنحو 55 إلى 60% من كل محتوى الشبكة، رغم أنها اللغة الأم لنحو 5% من سكان العالم، واللغات العشر التالية الأكثر انتشارا على الإنترنت تشكل معظم المتبقي، تاركة الغالبية العظمى من اللغات البشرية بحضور رقمي هامشي أو معدوم في النصوص التي تغذي تدريب النماذج اللغوية الكبرى.

لهذا التفاوت اللغوي تبعات معرفية مباشرة. فاللغة ليست وسيطا محايدا للتعبير عن أفكار موجودة مسبقا، بل إطارا تأسيسيا يستخدمه العقل البشري لتنظيم الوجود وتصنيف التجارب الإنسانية واستيعابها. وترسخ اللغات المختلفة طرقا مختلفة لفهم الزمن والمكان والسببية والعلاقات الاجتماعية وعالم الطبيعة.

"من بين اللغات البشرية المتداولة حاليا والبالغ عددها نحو 7 آلاف لغة، نسبة ضئيلة فقط هي ما يمتلك حضورا رقميا جوهريا"

وحين يُدرَّب نموذج لغوي كبير بصورة مستمرة على نصوص بعدد ضيق من اللغات، فإنه لا يتعلم تلك اللغات وحسب، بل يتعلم الأطر الإبستيمولوجية وفئات الفهم والافتراضات التقييمية المضمَّنة فيها. في حين تظل المعرفة الثقافية المرمزة في لغات العالم الأقل تمثيلا، بما فيها المعرفة البيئية التقليدية والتقاليد الأدبية الشفوية والأطر الفلسفية والكونية لكثير من الثقافات الأصيلة والأقليات في العالم، غير متاحة للنموذج بأي شكل ذي معنى.

الغالبية العظمى من اللغات البشرية تحظى بحضور رقمي هامشي أو معدوم في النصوص التي تغذي النماذج اللغوية الكبرى (شترستوك)

تقدم حالة اللغات الأفريقية نموذجا دالا على هذه المعضلة. حيث تحتضن القارة الأفريقية أكثر من ألفي لغة، بعضها من أقدم وأكثر الأنظمة اللغوية تعقيدا نحويا في العالم، وترسخ معرفة ثقافية طورتها البشرية على مدى عشرات الآلاف من السنوات. في المقابل يبدو التمثيل الرقمي لهذه اللغات ضئيلا للغاية.

ووفقا لتحليل أجراه في عام 2022 باحثون في ماساخان، وهي منظمة بحثية تعمل في معالجة اللغات الطبيعية وتركز على اللغات الأفريقية، فإن اللغات الأفريقية العشر الأوفر حضورا رقميا تمثل أقل من 0.1% من مجمل النصوص في مجموعات بيانات التدريب الرئيسية للنماذج اللغوية الكبرى؛ ما يعني أن هذه النماذج لا تمتلك فعليا أي إمكانية وصول إلى أطر المعرفة المرمزة في اللغات الأفريقية، ليس لأن تلك المعرفة غير موجودة، بل لأنها لم تُترجَم إلى الأشكال الرقمية التي تستطيع عمليات تدريب النماذج استيعابها.

"اللغات الأفريقية العشر الأوفر حضورا رقميا تمثل أقل من 0.1% من مجمل النصوص في بيانات التدريب الرئيسية للنماذج اللغوية الكبرى"

وراء هذه الهوة الرقمية والتفاوت اللغوي، تحدد بنية الإنترنت ذاتها أي أشكال المعرفة تدخل بيانات تدريب النماذج اللغوية الكبرى. فمحركات البحث، التي تؤدي دورا حاسما في تقرير أي المحتوى الإلكتروني يُفهرَس ويُعزَّز، تعمل عبر خوارزميات تصنيف تفضل المحتوى الذي يُعزى إليه كثيرا، والمستشهَد به مرارا، والمرتبط بنطاقات موثوقة. وهذه المعايير ليست محايدة، فهي تفضل المحتوى الذي تنتجه مؤسسات كبيرة غزيرة الموارد، كالجامعات الكبرى ودور النشر ووسائل الإعلام والمؤسسات الثقافية، المتمركزة بصورة غير متناسبة في الدول الغربية.

وقد أثبتت صفية أوموجا نوبل في كتابها "خوارزميات القمع"، أن خوارزميات البحث في غوغل مثلا تضخم التسلسلات الهرمية الثقافية القائمة بصورة منهجية، منتجة نتائج لا تعكس تنوع الإنتاج الثقافي البشري بل التسلسلات الهرمية للسلطة في المنظومة المعلوماتية الراهنة. وحين تُجمَّع بيانات تدريب النماذج اللغوية الكبرى عبر عمليات مماثلة، فإنها ترث هذه التسلسلات الهرمية، فالمعرفة التي تنتجها هارفارد وبي بي سي وصحيفة نيويورك تايمز مفهرسة وموثقة ومعززة، بينما تلك التي تنتجها محطات الراديو المحلية في السنغال، أو شعراء العامية في مرتفعات بابوا غينيا الجديدة، وحاملو المعرفة التقليدية في حوض الأمازون، تظل خارج الفهرسة.

والحاصل النهائي هو أرشيف لشريحة محددة من المعرفة الثقافية البشرية؛ تلك الشريحة التي رُقِّمت وفُهرِست وعُزِّزت من قِبَل مؤسسات وحوافز اقتصادية في الاقتصاد الرقمي القائم. ومعاملة هذه المدونة كما لو كانت عينة تمثيلية من المعرفة البشرية ليست خطأ تقنيا فحسب، بل خطأ معرفيا ذا أبعاد استعمارية، يعيد إنتاج الافتراض الاستعماري القائل بأن المعرفة التي تنتجها المؤسسات الغربية وتضفي عليها مصداقيتها تشكل المعرفة الكونية، فيما تبقى التقاليد المعرفية الأخرى خاصة ومحلية وبالتالي دون الكونية.

"المعرفة التي تنتجها هارفارد وبي بي سي مفهرسة وموثقة، بينما تلك التي تنتجها محطات الراديو المحلية في السنغال، أو شعراء العامية في غينيا والأمازون، تظل خارج الفهرسة"

والمعضلة لا تقف عند إنتاج هذا التحيز، بل تتجاوزه إلى إعادة إنتاجه باستمرار، ضمن ديناميكيات التغذية الراجعة لاستعمار البيانات. فهذه التفاوتات البنيوية لا تبقى ثابتة، بل يجري إنتاجها وتضخيمها بفعل ديناميكيات التغذية الراجعة المتأصلة في الاقتصاد الرقمي. فبرامج الفهرسة الرقمية تفضل المواقع عالية التدفق، وهذه المواقع هي بدورها الأكثر اندماجا في اقتصاد الاهتمام بالشمال العالمي، وكلما ازدادت الفهرسة ظهرت أكثر في نتائج البحث، وكلما ظهرت أكثر زاد التدفق.

علاوة على ذلك، ومع توظيف النماذج اللغوية الكبرى بصورة متزايدة في توليد المحتوى الرقمي، فإن المحتوى الذي تولده، المشكَّل بتحيزاتها القائمة، يدخل المنظومة الرقمية، وربما يصبح جزءا من مدونات التدريب المستقبلية. وهو ما ينشئ ما يسميه الباحثون ديناميكيات "انهيار النماذج"، أي الإفقار التدريجي لبيانات التدريب مع تدريب النماذج على محتوى توليدي يرث تحيزات الأجيال السابقة من النماذج ويضخمها.

تدريب الذكاء الاصطناعي على مخرجاته السابقة يُنتج "انهيار النماذج" ويقلل جودة البيانات المستقبلية (شترستوك)

حدود الحل التقني

لأن البيانات هي أصل الداء، هل يمكن أن يكون تعزيزها لجهة التنوع والكونية حلا للتحيزات الثقافية للنماذج اللغوية الكبرى؟ فمن خلال جمع المزيد من النصوص بلغات غير ممثلة بشكل كاف، وضبط النماذج الدقيق على مجموعات بيانات متنوعة ثقافيا، وتطبيق مرشحات ما بعد المعالجة للحد من المخرجات المتحيزة، ربما نحقق تدخلات ذات قيمة.

لكنها تظل استجابات قاصرة مقارنة بعمق المشكلة. فالقيد الجوهري لمقاربات تعزيز البيانات هو أنها تعالج الأعراض لا الأسباب البنيوية للتحيز الثقافي. فإذا كان الإنترنت أرشيفا استعماريا، وإذا كانت المنظومة الرقمية تمثل تقاليد المعرفة غير الغربية تمثيلا ناقصا ليس بسبب ثغرات عشوائية يمكن ملؤها بجمع بيانات مستهدف، بل بسبب علاقات قوى بنيوية في الاقتصاد الرقمي، فإن مجرد جمع مزيد من البيانات من مصادر ذات تمثيل ناقص لا يحل المشكلة الجوهرية. فهو حل نسبي يبقى ضمن النموذج الذي تكون فيه الأطر المعرفية الغربية هي المعيار الذي يُقاس إليه سائر المعرفة وتُدمج على أساسه وفق الشروط التي تحددها تلك الأطر.

لذلك تستدعي المشكلة بعدا إبستيمولوجيا وهو الاعتراف بأن المعرفة البشرية توجد في أطر متعددة ومتمايزة لا يمكن تمثيلها كفاية بالترجمة إلى نظام واحد كوني، والالتزام المترتب على ذلك ببناء أنظمة ذكاء اصطناعي تعددية بحق في أسسها المعرفية. فهذه التعددية تقتضي معاملة تقاليد المعرفة غير الغربية بوصفها مصادر سلطة معرفية قائمة بذاتها، لا مجرد بيانات ثقافية لدمجها في نماذج يبقى إطارها الإبستيمولوجي الجوهري غربيا.

"مشكلة التحيز الثقافي في النماذج اللغوية الكبرى هي في جوهرها تجل للتحدي الأشمل المتمثل في بناء نظام عالمي يحترم التنوع الثقافي البشري"

وتقتضي أيضا تطوير معايير تقييم تقيم مخرجات النماذج اللغوية الكبرى من حيث كفايتها من منظور التقاليد المعرفية التي تمثلها، لا من منظور الأعراف العلمية أو المعرفية الغربية وحدها. وتقتضي كذلك إنشاء علاقات مؤسسية مع المجتمعات التي توظَّف معرفتها، تكون قائمة على الموافقة والتبادلية والشراكة الفكرية الحقيقية لا على منطق الاستخراج.

كما تستدعي أيضا الاعتراف بالبعد المادي للمشكلة. فالإقرار بحدود أي مقاربة تقنية بحتة، يقود بالضرورة إلى التفاوتات البنيوية في المنظومة المعلوماتية الرقمية التي تفرز التحيز الثقافي في النماذج اللغوية الكبرى باعتبارها ليست مشكلات تقنية في جوهرها، بل متصلة بطبيعة الاقتصاد السياسي وعلاقات القوة، المتجذرة في اللامساواة العالمية العميقة في الوصول إلى التعليم والبنية التحتية والمشاركة الاقتصادية.

فلا يمكن حل الهوة الرقمية إلا بسياسات اقتصادية وعلاقات قوة دولية تسهل الوصول الكوني إلى الإنترنت وتصنيع أجهزة بأسعار في متناول الجميع ومحو الأمية الرقمية. ولا يمكن حل التفاوت اللغوي في الفضاء الرقمي إلا بالاستثمار في التعليم باللغات الأم، ودعم وسائل إعلام الأقليات اللغوية ونشرها، ووضع أطر سياسية تصد الضغوط المركزية للمنصات الرقمية العالمية.

ولا يمكن حل تفاوتات القوى المؤسسية في الاقتصاد المعلوماتي العالمي إلا بتنظيم مكافحة الاحتكار والاستثمار العام في البنية التحتية للمعرفة والتعاون الدولي في حوكمة الفضاء الرقمي. وبهذا المعنى، فإن مشكلة التحيز الثقافي في النماذج اللغوية الكبرى هي في نهاية المطاف تجل للتحدي الأشمل المتمثل في بناء نظام عالمي يحترم التنوع الثقافي البشري.

فما هو على المحك في التعامل مع هذا التحدي يتجاوز بكثير الأداء التقني لأنظمة الذكاء الاصطناعي. فنحن في لحظة باتت فيها أنظمة الذكاء الاصطناعي وسطاء أساسيين للمعرفة الثقافية بالنسبة لمئات الملايين من البشر حول العالم. فهي أنظمة يتعلم عبرها الناس عن الثقافات الأخرى، ويتخذون قرارات السفر والدراسة والعمل، ويشكلون فهمهم لما تبدو عليه الحضارة الإنسانية في تنوعها العالمي. فإذا أساءت تلك الأنظمة تمثيل العوالم الثقافية للجنوب العالمي، وأفقرتها ومحتها بصورة منهجية، فإن التبعات على الفهم الثقافي العالمي، وعلى كرامة المجتمعات التي تمحى ثقافاتها، ستكون راسخة وجسيمة.

لقراءة المقال كاملا إضغط هنا للذهاب إلى الموقع الرسمي
الجزيرة المصدر: الجزيرة
شارك

أخبار ذات صلة



حمل تطبيق آخر خبر

إقرأ أيضا