في صباح 4 يوليو/تموز 2012، اعتلى جو إنكانديلا وفابيولا جيانوتي المنصة الخشبية داخل قاعة مزدحمة بالعلماء والصحفيين في مركز مؤسسة "سيرن" قرب جنيف، ليعلنا أن فريقين من العلماء تمكنا من رصد جسيم جديد طاقته نحو 125 غيغا إلكترون فولت، هذا الرقم الضخم نسبيا يشير إلى شيء واحد فقط، وهو أننا في حضرة ما سمي طويلا "جسيم الرب"، الذي يعطي الجسيمات الأخرى، ومن ثم كل شيء في الكون، كتلته.

في الصف الأمامي، كان الفيزيائي الشهير بيتر هيغز، وكان عمره وقتها 83 عاما، جالسا بهدوء يمسح دموعه، فقد تنبأ بوجود هذا الجسيم عام 1964، وانتظر قرابة نصف قرن حتى يرى الدليل عليه.

السيدة التي تتذوق الشاي

الإجابة ببساطة "لا"، ولفهم تلك الفكرة دعنا نرجع بالزمن نحو مئة سنة للخلف، حينما وصل السير رونالد فيشر إلى محطة روثامستيد التجريبية في مقاطعة هرتفوردشاير البريطانية عام 1919 لتحليل بيانات تراكمت على مدى سبعين عاما حول القمح والأسمدة والطقس الإنجليزي، وكانت النتيجة، على مدى العقدين التاليين، أحد أهم ابتكارات علم الإحصاء الحديث. في كتابيه "الأساليب الإحصائية للباحثين" و"تصميم التجارب"، علم فيشر جيلا من الباحثين كيفية التساؤل عما إذا كان من الممكن أن تكون النتيجة التي توصلوا إليها مجرد صدفة.

أشهر نموذج يشرح فكرة فيشر الثورية هو ما سمي "السيدة التي تتذوق الشاي"، ولذلك حكاية، ففي حفل أقيم في حديقة بمدينة كامبريدج، ادعت زوجة زميله، مورييل بريستول، وهي عالمة أحياء بحرية متخصصة في الطحالب، أنها تستطيع التمييز بين ما إذا كان الحليب قد سكب في الكوب قبل الشاي أم بعده.

للتأكد من صحة هذا الادعاء، اقترح فيشر تجربة بسيطة، سنصنع ثمانية أكواب، أربعة منها تم تحضيرها بكل طريقة، ويتم تقديمها للسيدة بطريقة عشوائية، وعليها تحديد أيها وضع الحليب قبل الشاي وأيها بعده، كانت "الفرضية الصفرية" هي ما أراد فيشر اختباره، ومعناها ببساطة أن نفترض أولا افتراضا واحدا فقط، وهو أنه "لا شيء مميز يحدث"، أي أن السيدة لا تملك قدرة حقيقية على التمييز، وأنها فقط تخمن.

لكن إذا أجابت بشكل صحيح على جميع الأكواب الثمانية، فإن احتمال فعل ذلك بالصدفة هو 1 من 70، هذا الرقم، والذي بات يعرف الآن باسم "قيمة الاحتمال" أو ما يسمى اختصارا "القيمة بي" (p-value)، ضئيل بما يكفي لنقول أن ما يحدث ليس صدفة. وهي الفكرة ذاتها التي يعتمد عليها معيار "5 سيغما" في فيزياء الجسيمات، لكنه يمثل "قيمة بي" متطرفة وصارمة للغاية مقارنة بالعلوم الأخرى

"يبدأ الأمر بافتراض تقليدي ممل يعرف بالفرضية الصفرية، بعد ذلك يبدأ اختبار إذا كانت هذه الفرضية صحيحة فعلا"

كانت فكرة فيشر أنيقة جدا، ابدأ دائما بافتراض عادي وممل وغير مميز، كأن تقول إن السماد لا يؤثر في نمو النبات، وأن الدواء لا يعمل، وأن السيدة لا تستطيع تمييز طريقة صب الشاي والحليب، وأن الجسيم غير موجود وهذه مجرد ضوضاء، هذا الافتراض هو "الفرضية الصفرية"، بعد ذلك نسأل: إذا كانت هذه الفرضية صحيحة فعلا، فما احتمال أن نرى النتائج التي ظهرت أمامنا؟ فإذا كان الاحتمال كبيرا، فربما لا يوجد شيء مميز، ما حدث هو صوت الضوضاء لا أكثر، أما إذا كان الاحتمال صغيرا جدا، فهذا يجعلنا نشك في الفرضية الصفرية ونميل إلى رفضها، ومن ثم نؤكد النتيجة العلمية.

اقترح فيشر رقما عمليا لقيمة هذا الاحتمال (القيمة بي) هي 0.05، أي 5%، كحد مفيد، بمعنى أنه إذا كان احتمال ظهور النتيجة بالصدفة أقل من 5%، فقد يكون لدينا سبب جيد للشك في أن الأمر مجرد صدفة، لكن فيشر لم يقصد أن يتحول هذا الرقم إلى قانون مقدس. فقد حذر من استخدامه بطريقة آلية في كل الأبحاث، بل وقال هو نفسه بإمكانية استخدام مستويات أخرى مثل 0.02 أو 0.01 بحسب الحالة، إلا أنه للأسف تحول إلى رقم مقدس على أي حال.

مصدر الصورة رونالد فيشر مع أطفاله عام 1955 (مواقع التواصل)

كارثة "بي"

بحلول أواخر القرن العشرين، تحولت عبارة "قيمة بي أقل من 0.05" من أداة تساعد الباحث على التفكير، إلى ما يشبه ختم المرور في العلم، إذ كانت أي نتيجة أقل من 0.05 يُنظر إليها على أنها "مهمة إحصائيا"، وإذا كانت أكبر من ذلك اعتبرت غالبا غير مثيرة، حتى لو كانت مفيدة أو جديرة بالنشر.

بمرور الوقت، صار هذا الرقم يؤثر في مصير الأبحاث والباحثين أنفسهم، فأي دراسة تعبر حاجز هذا الرقم قد تنشر في مجلة مرموقة، وتساعد صاحبها في الترقية والحصول على التمويل، أما الدراسة التي لا تعبر هذا الحاجز فقد تترك في درج الباحث، أو ترفضها المجلة، ومن ثم لا يتحمس أحد لقراءتها، بل إن بعض الباحثين بدؤوا يفتشون داخل البيانات عن أي نتيجة تعبر الحد المطلوب، وقد يجرب الباحث أكثر من طريقة للتحليل، أو يقسم العينة بطرق مختلفة، أو يختبر عشرات العلاقات بين المتغيرات، ثم يعلن فقط النتيجة التي خرجت بقيمة أقل من الحد المطلوب، هذه الممارسة باتت تعرف باسم "العبث بقيمة بي".

وفي عام 2011، ظهرت مشكلة في علم النفس مثلت لحظة كاشفة لمشكلة "القيمة بي"، حيث نشر عالم النفس الاجتماعي داريل بيم مجموعة من التجارب في مجلة علمية مرموقة، زعم فيها أنه وجد دليلا على نوع من الاستبصار، أي أن بعض المشاركين في التجارب يستطيعون بطريقة ما الإحساس بأحداث ستقع في المستقبل. كانت الفكرة غريبة جدا وغير مقبولة بالطبع، لكن المفاجأة أن نتائج بيم بدت "مقبولة" بحسب القواعد الإحصائية، فقيم "بي" كانت دون الحد المطلوب، وطريقته لم تكن مختلفة كثيرا عن طرق تستخدم وتدرس في أقسام علم النفس.

"أثارت العديد من الدراسات في مجال علم النفس شكوكا واسعة حول مصداقية قيمة بي"

ثم جاءت ضربة أقوى عام 2015، حين نشرت مبادرة التعاون العلمي المفتوح مشروعا واسعا لإعادة اختبار مئة نتيجة في نطاق علم النفس منشورة في ثلاث مجلات كبرى، والفكرة كانت بسيطة: لنأخذ دراسات مشهورة أو مؤثرة، ونحاول تكرارها (إعادتها) من جديد، فإذا كانت النتائج قوية فعلا كما أفادت تلك الدراسات، فإنه يفترض أن تظهر مرة أخرى بدرجة معقولة. لكن النتيجة كانت مقلقة، فعدد كبير من النتائج (نحو الثلثين) لم يتكرر كما نشر أول مرة، رغم أنها اعتمدت على حدود قيمة "بي" سالفة الذكر.

ومن هنا بدأ الحديث الواسع عما سمي "أزمة التكرار"، أي أن العلم لا يكفي فيه أن تظهر نتيجة مرة واحدة في ورقة منشورة، بل يجب أن يتمكن باحثون آخرون، في أماكن أخرى، من الحصول على نتيجة مشابهة إذا أعادوا نفس التجربة، فإذا لم تتكرر النتائج، فهذا يعني أن النتائج الأولية كانت خاطئة.

كشف ذلك عن أول مشكلات "قيمة بي"، فقد تخدعنا عبارة "نتيجة ذات دلالة إحصائية" التي تذيل بها نتائج الأبحاث، لكنها لا تعني بالضرورة أن النتيجة مهمة في الحياة الواقعية. فمثلًا، إذا أجريت تجربة على عدد كبير جدا من المرضى، فقد يظهر أن دواء ما يخفض ضغط الدم بدرجة صغيرة جدا، لا يشعر بها المريض ولا تغير حالته الصحية، هنا توجد دلالة إحصائية فعلية على أن التأثير كان أكبر من الصدفة، فقد انخفض فعلا الضغط لدى عدد كبير من المرضى، لكن الدلالة الإحصائية لم تراع أن انخفاضه كان يسيرا. هذه النقطة تحديدا كانت السبب في أزمة التكرار، فالدراسات التي لم تتكرر نتائجها لم تكن مزيفة ولم يكن أصحابها مدلسين بالضرورة، ولكن كثيرا من النتائج التي بدت "مهمة إحصائيا" كانت أضعف مما ظن الوسط العلمي.

"الدلالة الإحصائية تعني أن النتيجة تبدو غير عشوائية في الحسابات، أما الدلالة العملية فتعني أن النتيجة مهمة فعلا في الواقع"

والعكس ممكن أيضا، فقد يكون هناك علاج له أثر حقيقي ومهم، لكن الدراسة التي اختبرته صغيرة، وعدد المشاركين فيها قليل، مثلا هناك دواء يقلل الصداع فعلا، لكن التجربة أُجريت على 20 شخصا فقط، وبسبب العدد القليل، قد لا تظهر النتيجة بقوة فتكون "بي" أكبر من الحد، فكلما قل عدد المشاركين، زادت الضوضاء، وصار من الصعب على الإحصاء أن يفرق بين التأثير الحقيقي والصدفة، ومن ثم لو تعاملنا مع هذه النتائج ببساطة، قد نقول إن الدواء لا يعمل، لكن الأدق هو أن هذه الدراسة لم تستطع إثبات أنه يعمل، ربما لأنه لا يعمل، وربما لأن العينة صغيرة وضعيفة، وربما لأن التجارب "غير دقيقة".

ولم تبق الأزمة داخل علم النفس فقط. ظهرت مشكلات شبيهة في الطب، والاقتصاد، وعلم الأحياء، وغيرها من المجالات. لهذا أصدرت الجمعية الإحصائية الأمريكية عام 2016 بيانا غير مسبوق تحذر فيه من سوء فهم قيمة "بي"، فهي لا تخبرنا وحدها هل الفرضية صحيحة أو خاطئة، ولا تقول إن النتيجة مهمة عمليا، ولا تعني أن الاكتشاف حقيقي بالضرورة، ولا تصلح أن تكون خطا فاصلا بين علم حقيقي وعلم زائف. هنا نتعلم أنه يجب التمييز بين شيئين، فالدلالة الإحصائية تعني أن النتيجة تبدو غير عشوائية بحسب الحسابات، أما الدلالة العملية فتعني أن النتيجة مهمة فعلًا في الواقع، أي تفيد المريض، أو تغير القرار، أو تحدث فرقا ملموسا.

مصدر الصورة عالم الرياضيات البولندي جيرزي نيمان (إم إف إو)

نيمان وبيرسون والأسئلة الأخرى

قبل أن تحدث "أزمة بي" سالفة الذكر، استشرفها اثنان من معاصري فيشر هما جيرزي نيمان، عالم الرياضيات البولندي، وإيغون بيرسون، عالم الإحصاء البريطاني. وفي سلسلة من الأبحاث بين عامي 1928 و1933 أعادا بناء هذا المجال برمته من الصفر. كان العالمان يحاولان معالجة نقطة ضعف أساسية في طريقة فيشر، كانت أحد الأسباب الرئيسية للمشكلة، فاختبار الدلالة (قيمة بي) عند فيشر يقول لك إن هذه النتيجة غريبة مقارنة بالفرضية الصفرية، لكن نيمان وبيرسون سيردان: "مبروك، لكن ذلك لا يعطيك نظاما واضحا لاتخاذ قرار عملي، ولا يحسب خطر أن تفوت أثرا حقيقيا".

لفهم الفكرة دعنا نرجع إلى الأمثلة المبسطة، لنتصور أن شركة تختبر دواء جديدا، خرجت النتيجة بقيمة بي أقل من 5 في المئة، طريقة فيشر تقول إن هذه نتيجة غير معتادة لو كان الدواء بلا تأثير، لكن هذا غير كاف في الواقع، فالقرار العملي يحتاج أسئلة أخرى مثل: هل الفرق كبير بما يكفي لينفع المرضى؟ هل العينة كافية؟ هل الدواء آمن؟ هل نكرر التجربة؟ ما احتمال أن نكون خدعنا أنفسنا؟ وما احتمال أن يكون الدواء نافعا فعلًا لكن تجربتنا لم تكن قوية بما يكفي لاكتشافه؟

"قام نيمان وبيرسون بتغيير طريقة التفكير الأساسية، حيث لم يكتفيا بفرضية أولية واحدة بل وضعا فرضيتين أمام بعضهما"

للإجابة عن تلك الأسئلة، قام نيمان وبيرسون بتغيير طريقة التفكير الأساسية، حيث لم يكتفيا بفرضية أولية واحدة تقول "لا يوجد تأثير"، بل وضعا فرضيتين أمام بعضهما وليس فرضية واحدة مثل فيشر، الأولى تقول "لا يوجد تأثير"، والثانية تقول إن "هناك تأثيرا فعلا"، ثم سألا: ما أنواع الأخطاء التي يمكن أن نقع فيها إذا وضعنا فرضيتين؟ هنا ظهر أن الخطأ الأول (سمي "ألفا") هو أن نقول إن هناك تأثيرا، بينما لا يوجد تأثير حقيقي، مثل أن نعلن أن الدواء يعمل، وهو في الحقيقة لا يعمل، أما الخطأ الثاني (سمي "بيتا") فهو أن نقول إنه لا يوجد تأثير، بينما يوجد تأثير حقيقي، والمثال هنا أن نهمل دواء نافعا لأنه لم يظهر نتائج واضحة في التجربة.

في هذا السياق، لم يكن هدف نيمان وبيرسون تفسير نتيجة واحدة بعينها، بل وضع قواعد قرار تعمل جيدا على المدى الطويل، فإذا استخدمنا هذه القاعدة في آلاف التجارب، فكم مرة سنخطئ؟ وكم مرة سنكتشف الأثر الحقيقي عندما يكون موجودا؟

يمكن تقريب الفكرة بمثال مفتشة تعمل في مصنع براغي، فهي لا تحتاج إلى معرفة قصة كل برغي على حدة، ومن ثم تضطر إلى أن تخصص موظفا ليدرس كل واحد منها، بل تحتاج إلى قاعدة عملية، تجيب عن أسئلة محددة مثل: متى تقبل الدفعة؟ ومتى ترفضها؟ هل نأخذ عينة عشوائية قدرها مئة برغي وندرسها ونعمم النتائج، أم أكثر، أم أقل؟ القاعدة الجيدة في هذا الأمر هي التي تنتج رفضا للدفعات المعينة غالبا ولا ترفض الدفعات السليمة إلا نادرا. تطور الأمر بعد ذلك إلى فكرة "فاصل الثقة"، وهي طريقة لتقدير نطاق محتمل تقع داخله القيمة الحقيقية التي نبحث عنها.

هكذا رأى نيمان الإحصاء، ليس فقط وسيلة لفهم الدليل كما آمن فيشر، بل وسيلة لاتخاذ قرارات مضبوطة تحت عدم اليقين. سمى هذا النوع من التفكير "السلوك الاستقرائي". فيشر، على الجانب الآخر، لم يحب هذا التصور، حيث كان يرى أن العلماء لا يعملون مثل مفتشي المصانع يجب أن يكتفوا باتباع قواعد للقبول أو الرفض. في نظره، العلم بحث عن فهم الدليل وتفسيره، لا مجرد نظام لمراقبة الجودة. لذلك رأى أن طريقة نيمان وبيرسون تجعل الاكتشاف العلمي ميكانيكيا أكثر مما ينبغي.

مصدر الصورة العلم لا يعطي يقينا مجانيا (شترستوك)

ما العلم؟

بعد تأمل قصة نيمان وبيرسون قد تسأل: "لماذا لا يمكن خفض ألفا وبيتا معا بسهولة وانتهى الأمر؟"، وفي تلك النقطة تحديدا تظهر أحد أهم سمات المعرفة العلمية، فالإجابة هي أن ألفا وبيتا يشبهان كفتي ميزان، إذا ارتفعت واحدة انخفضت الثانية بالتبعية، التشدد ضد الخطأ الأول يزيد غالبا الخطأ الثاني.

لفهم الفكرة تخيل أن التجربة العلمية جهاز إنذار حريق، إذا جعلته حساسا جدا، سيرن عند أي دخان بسيط، حتى لو كان دخان سيجارة في المنزل، هنا بالفعل تقل فرصة أن يفوت حريقا حقيقيا، أي تقل بيتا، لكن تزيد الإنذارات الكاذبة، أي تزيد ألفا، وإذا جعلته غير حساس كفاية فلن يزعجك كثيرا بإنذارات كاذبة، هنا تقل ألفا، لكنه قد يفوت حريقًا حقيقيا، فتزيد بيتا.

"ألفا وبيتا يشبهان كفتي ميزان، إذا ارتفعت واحدة انخفضت الثانية بالتبعية، التشدد ضد الخطأ الأول يزيد غالبا الخطأ الثاني"

إذن في التجربة نفسها، وبنفس حجم العينة، غالبا لا يمكنك أن تكون شديد الحذر من إعلان اكتشاف غير حقيقي (كاذب)، وفي الوقت نفسه شديد القدرة على التقاط كل تأثير حقيقي. عليك أن تختار أي خطر "أخطر" من الآخر في هذا السياق.

يقول ما سبق إن العلم لا يعطي يقينا مجانيا، فكل معرفة علمية تأتي مع مخاطرة، إما أن نصدق شيئا غير حقيقي، أو نرفض شيئا حقيقيا، أو نحتاج إلى بيانات أكثر، لذلك العلم ليس ماكينة تقول هذا "صحيح أو خطأ" فورا، بل هو فن إدارة الشك، فن أن نقبل قدرا محسوبا من الخطأ، ونحاول تقليله بتجارب أفضل، وتكرار النتائج، وتراكم الأدلة، وهكذا باستمرار، لا نصل للحقيقة، لكننا نقترب منها، ونحقق نتائج عملية على أرض الواقع.

معنى ذلك أن العلم لا يقول عادة إن "هذه هي الحقيقة النهائية بنسبة 100%" بل يقول إنه "بحسب الأدلة المتاحة، وبحسب مستوى الخطأ الذي نقبله، هذه النتيجة موثوقة بما يكفي"، في هذا السياق فإن العلم لا يبحث دائمًا عن "الدقة القصوى"، بل عن الدقة المناسبة للسؤال، وهذا لا يضعف العلم، بل يجعله أكثر واقعية، فقوة العلم ليست في أنه يمنع الخطأ تماما، بل في أنه يعرف أن الخطأ ممكن، فيقيسه، ويعلنه، ويضع له حدودا، ثم يحاول تقليله بتجارب أفضل وتكرار النتائج، هنا نصل إلى "دقة مناسبة"، لكنها أدق مما قد تظن.

"العلم ليس ماكينة تقول هذا صحيح أو خطأ فورا، بل هو فن إدارة الشك، فن أن نقبل قدرا محسوبا من الخطأ، ونحاول تقليله بتجارب أفضل، وتكرار النتائج"

هذا واضح تماما في النتائج العلمية. في الإلكتروديناميكا الكمية على سبيل المثال، وهي النظرية التي طوّرها ريتشارد فاينمان وحصل بسببها على جائزة نوبل عام 1965، أمكن أن نتوقّع قيمة العزم المغناطيسي للإلكترون، والتي ظهر أنها رقم يساوي 1.001159652182، الآن يمكن أن نحاول اختبار مدى دقة هذه النظرية عبر عمل قياسات للخاصية نفسها في معامل جامعة هارفارد ثم نقارن النتائج، ماذا كان الرقم الناتج من التجربة؟

إنه 1.001159652181، هل تلاحظ ذلك؟ الفارق كان فقط في الرقم الثاني عشر بعد العلامة العشرية، يعني ذلك أن الحسابات الخاصة بنظرية الإلكتروديناميكا الكمية استطاعت النجاح في الحصول على دقة بقدر واحد في التريليون، وكان ذلك قبل أكثر من نصف قرن، تلك دقة لم تحدث من قبل في تاريخ العلم، ولذلك فإن ميكانيكا الكم هي النظرية العلمية الأدق إلى الآن، يشبه الأمر أن تدور حول الأرض مرة ونصفا وتخطئ في حساب المسافة بما مقداره قطر شعرة بشرية واحدة، هل يمكن أن تتصور هذا القدر من الدقة؟ قد لا تدرك أن أرقاما كتلك بالأعلى هي السبب في أنك تقرأ هذا التقرير الآن عبر هاتفك الذكي.

شاهد على يوتيوب

الاختبارات الصارمة

أمضت ديبورا مايو، الفيلسوفة الأمريكية المتخصصة في فلسفة العلم، أربعة عقود في جامعة فرجينيا للتكنولوجيا في محاولة لإضفاء الأسس الفلسفية على الاستدلال الإحصائي سالف الذكر، والذي سيطر على العلم لمدة قرن كامل تقريبا، تقول مايو في محاضراتها، الكثيرة جدا على يوتيوب بالمناسبة، إن الفلاسفة وعلماء الإحصاء يسألون نفس الأسئلة: ما الدليل؟ ما قدر اقتناعنا بصحته؟ ما الخطأ الذي يمكن أن نكون قد وقعنا فيه؟ ومن ثم فإنها تنظر إلى الإحصاء على أنه "فلسفة تطبيقية".

في كتابيها "الخطأ ونمو المعرفة التجريبية" الصادر في عام 1996 و"الاستدلال الإحصائي كاختبار صارم" الصادر في عام 2018، تجادل مايو بأن الفرضية لا تصبح قوية لأنها نجحت في أي اختبار، بل لأنها نجحت في اختبار كان قادرا على كشف خطئها لو كانت خاطئة، ومن ثم فالسؤال الحقيقي في العلم يدور كيفية ضمان خضوع أي ادعاء علمي لاختبار حقيقي.

"السؤال الحقيقي في العلم هو كيفية ضمان خضوع أي ادعاء علمي لاختبار حقيقي"

الفكرة يمكن تبسيطها كالعادة بمثال، تخيل اختبارا طبيا يعطي نتيجة "سلبية" لمعظم الناس، سواء كانوا مرضى أم أصحاء، مثلا جهاز لقياس نسبة السكر في الدم يقول لأي شخص يخضع للاختبار أنه ليس مريضا بالسكري، إذا قررت تجربته وظهرت نتيجتك سلبية، فهذا لا يطمئنك، لأن الاختبار أصلا ضعيف ولا يكتشف المرض جيدا. أما الاختبار الجيد فهو الذي يستطيع كشف المرض عندما يكون موجودا، ولا يعطي إنذارات كاذبة كثيرا عندما لا يكون موجودا.

مايو تقول إن العلم يعمل بالطريقة نفسها، حيث لا يكفي أن تقول دراسة ما إن "لدينا قيمة بي صغيرة"، أو لدينا "فاصل ثقة" جيد أو أن قيم ألفا وبيتا منضبطة، لكن يجب أن نسأل: هل كان تصميم الدراسة قويا؟ هل كانت العينة كافية؟ هل كان الاختبار قادرا على كشف الخطأ؟ أم أن النتيجة نجت فقط لأن الاختبار ضعيف أو مرن أو قابل للتلاعب؟ الأصل في فلسفة مايو هو زيادة قوة التجارب، عبر تكبير العينة مثلا، وتحسين دقة وأدوات القياس، وتقليل الضوضاء قدر الإمكان، وتصميم تجربة أفضل.

ومن هنا يمكن أن نفهم سبب مشكلة مثال داريل بيم عن الاستبصار، صحيح أن دراسته أعطت قيم بي صغيرة، لكن المشكلة أن الاختبار نفسه لم يكن صارما بما يكفي، كان يمكن أن تتدخل عوامل أخرى أكثر واقعية من الاستبصار لإعطاء نتائج إيجابية في التجارب، مثل الاستمرار في جمع البيانات حتى تظهر نتيجة دالة، أو تجربة طرق تحليل مختلفة ثم اختيار الناجح منها، أو نشر النتائج الإيجابية فقط وإخفاء المحاولات الفاشلة، بمعنى أسهل، فإن الاختبار لم يكن مصمما ليكشف الخطأ، بل ترك أبوابا كثيرة للصدفة والانتقاء.

من وجهة نظر مايو، لم تكن مشكلة الدراسة في "قيمة بي"، بل أن التجربة لم تخضع لاختبار قاس يستطيع كشف الأخطاء المحتملة. لذلك بدت النتائج لامعة إحصائيا، لكنها ضعيفة علميا. تسمي مايو فكرتها بـ "إحصاءات الخطأ"، وهي لا ترى الاحتمال كما يراه البايزيون فقط (درجة اعتقادنا في فرضية ما – نسبة إلى توماس بايز)، ولا تراه كما عند فيشر فقط (فهم الدليل وتفسيره)، ولا تراه كما عند نيمان وبيرسون فقط (وسيلة لضبط معدلات الخطأ على المدى الطويل)، بل هي تقترح دورا رابعا للاحتمال أو الإحصاء، وهو أن يساعدنا في معرفة مدى قدرة الطريقة نفسها على كشف التفسيرات الخاطئة للبيانات. ببساطة، مايو تقول إن الإحصاء يسأل: ما الأخطاء الممكنة؟ وهل كان تصميم التجربة قادرًا على فضحها؟

"الدليل القوي هو الذي ينجو من محاولات متعددة لكشف مواضع الخلل"

بهذا المنطق، يمكن فهم الفرق بين اكتشاف جسيم هيغز ودراسة بيم عن الاستبصار. في حالة هيغز، لم تكن الفكرة فقط في قيمة سيغما، بل في قوة الاختبارات نفسها، مثلا كانت هناك تجربتان مستقلتان هما "سي إم إس" و"أطلس"، رصدتا إشارة عند الكتلة نفسها تقريبا، وتوضح مايو أن هذا التوافق بين تجربتين مستقلتين مهم جدا، لأنه يقلل احتمال أن تكون النتيجة مجرد صدفة أو أثرا من آثار البحث في احتمالات كثيرة.

الأهم أن فيزياء هيغز لم تتوقف عند إعلان "اكتشفنا جسيما"، فبعد رفض الفرضية الصفرية، انتقل العلماء إلى سؤال جديد: هل هذا الجسيم المكتشف يملك خصائص هيغز كما يتنبأ بها النموذج القياسي؟ لذلك فحصت كتلته، وطرق إنتاجه، وأنماط اضمحلاله، وخصائصه الأخرى، في تجارب متعددة متنوعة، ومن ثم فقد اجتاز الادعاء سلسلة اختبارات لا اختبارا واحدا، وهذا ما تعنيه مايو بالصرامة، وهو أن الدليل القوي هو الذي ينجو من محاولات متعددة لكشف مواضع الخلل.

وتستخدم مايو أمثلة تاريخية لتوضيح الفكرة نفسها، ففي رحلة أرثر إيدنغتون عام 1919 لاختبار انحناء ضوء النجوم قرب الشمس، لم يكن السؤال فقط: هل توافق الأرقام نظرية ألبرت أينشتاين في النسبية العامة؟ بل أيضًا أسئلة أدق تتعلق بالتجربة نفسها مثل: هل يمكن أن تكون النتيجة بسبب خطأ في العدسات أو الصور أو التحليل؟ لذلك كان الجدل حول الأخطاء المنهجية جزءا من قوة الاختبار أو ضعفه.

مصدر الصورة فيلسوف العلم الشهير كارل بوبر (لوسيندا دوغلاس مينزيس)

كارل بوبر يعود من جديد

ترجع مايو علنا إرثها الفكري إلى كارل بوبر، الفيلسوف النمساوي البريطاني الذي جادل في كتابه "منطق الكشف العلمي" بأن العلم لا يتقدم بتأكيد النظريات، بل بمحاولة دحضها بلا هوادة. يقول بوبر إن النظرية التي لا تمنع شيئا، لا تقول شيئا، ومن ثم فإن العلم الحقيقي يقدم تنبؤات محفوفة بالمخاطر، وينجو أو يفشل أمام محاولات دحضها الجادة.

ألطف الأمثلة هنا هو المثل الشعبي حول "الجمال التي يمكنها تسلق النخل". فإذا قدم أحد ادعاء يقول إن الجمل يمكنه أن يصعد أعلى النخلة، وهو بالفعل ادعاء محفوف بالمخاطر لأنه ليس من الطبيعي أن يحدث ذلك، يكون بإمكاننا الحكم على هذا الادعاء فقط إذا صممنا تجربة لذلك. فإذا صعد الجمل النخلة، فالنظرية صحيحة، أولا لأنها كانت قابلة للتكذيب، ثم خضعت لاختبار يكذبها، لكنها مرت منه بسلام.

"يرى كارل بوبر أن العلم لا يتقدم بتأكيد النظريات، بل بمحاولة دحضها بلا هوادة"

لكن مايو لم تتفق بالكامل مع بوبر، فتقول في كتابها "الاستدلال الإحصائي كاختبار صارم" إن الاختبار الصارم يدعم، باستخدام الإحصاء الحديث، الفكرة التي روّج لها كارل بوبر، لكنه لم ينجح في بلورتها بالكامل. تقول مايو إن بوبر لم يوضح قط، بتفصيل عملي، ما الذي يجعل الاختبار "صارما" (Severe Test)، أشار إلى تنبؤات جديدة محفوفة بالمخاطر، لكنه لم يقدم أي آلية لقياس مدى خطورة اختبار معين، اهتم بوبر بتجربة إيدنغتون، لكنه لم يسأل: هل كان قياسه صارما؟ ما مدى صرامته؟ كيف ستتغير الإجابة لو كانت ألواح إيدنغتون الفوتوغرافية أقل دقة، أو لو كان طقس الكسوف أسوأ؟

على جانب آخر، كان بوبر يشك كثيرا في الاستقراء (للتبسيط، هو أن ننتقل من ملاحظات متكررة إلى قاعدة عامة، كأن نقول: "رأيت الشمس تشرق كل يوم، إذن غالبًا ستشرق غدا")، أما مايو فكانت ترى أن هذا موقف متشدد أكثر من اللازم، فالأصل هو الاختبار نفسه، وإذا كانت الفرضية قد نجحت في اختبار صارم فعلا، اختبار كان سيكشف خطأها لو كانت خاطئة، فهذا يعطينا سببا حقيقيا لقبولها.

لكن هذا القبول، بحسب مايو، ليس يقينا نهائيا، بل هو قبول علمي حذر، حيث نقبل الفرضية الآن لأنها صمدت أمام اختبار صعب، لكننا نظل مستعدين لمراجعتها إذا ظهرت أدلة جديدة. وهنا تضيف مايو ما كان ينقص بوبر في رأيها وهو الإحصاء، وتحديدا قياس احتمالات الخطأ، وبشكل كمي، ومن ثم فإن الأساليب الإحصائية توفر بالضبط الأدوات العملية التي افتقر إليها بوبر.

يخبرنا ذلك أنه في العلم، ليست الأرقام المعبرة عن الاحتمالات هي التي تصنع الحقيقة وحدها، بل الطريقة التي ننتزع بها معنى الأرقام من خلال أسئلتنا المبدعة والصلبة مثل: ما الذي نبحث عنه؟ ما الخطأ المحتمل؟ وهل كان الاختبار قادرا على كشفه؟ هناك دائما خطأ، وهناك دائما إجابة تحمل درجة من درجات اليقين، ولا يوجد شيء مؤكد بنسبة مئة في المئة، لكن على الرغم من ذلك فإن أسلوب "تحقيق أفضل احتمال" هذا قد خدم البشرية بشكل كبير على مدى عقود طويلة.

أمريكا دمشق سوريا قصة

المصدر: الجزيرة

الصفحة الرئيسية

الرقم الذي حيّر العلماء أكثر من 100 عام

اقرأ أيضا

السيدة التي تتذوق الشاي

كارثة "بي"

نيمان وبيرسون والأسئلة الأخرى

ما العلم؟

الاختبارات الصارمة

كارل بوبر يعود من جديد

إقرأ أيضا

الرقم الذي حيّر العلماء أكثر من 100 عام

أقوى من "النينيو".. كيف يحمي غبار الشرق الأوسط طقس العالم؟

آخر الأخبار

حرب إيران.. ترمب يعلن أن الاتفاق يشمل لبنان والجيش الأمريكي يرفع الحصار البحري

«كنا بنأدبها».. ضبط أب وزوجته بتهمة تعذيب طفلة في كفر الشيخ - الوطن