التعامل مع البيانات المفقودة

missing-value

مشكلة البيانات المفقودة من المشكلات البحثيّة الشائعة والمتكرّرة عند جمع البيانات أو تحليلها، وهي تعني أن يتمّ فقد جزء من بيانات العيّنة لأيّ سبب. ولأنّ الأساليب الإحصائيّة التي نستخدمها في تحليل البيانات تفترض دائماً وجود معلومات كاملة عن جميع المتغيّرات المستخدمة في التحليل؛ تُعدّ البيانات المفقودة مشكلةً كبيرة للباحث، وعدمُ معالجتها بشكلٍ مناسب قد يُسبّب للباحث بعض المشكلات كتقليل حجم العينة إلى حجمٍ غير ملائم، أو عدم تقدير التباين بشكل صحيح، أو الحصول على نتائج متحيّزة.

ولذلك يجب أن يكون الباحث على دراية كافية بالتعامل مع المشكلة، وتكون البداية بأن يحدّد الباحثُ نوع البيانات المفقودة في مجموعة البيانات الخاصة به كي يحدّد الطريقة المناسبة لمعالجتها قبل أن يبدأ التحليل الإحصائيّ.

سنقوم بعرض أنواع البيانات المفقودة وطرق التعامل مع كلٍّ منها في ما يلي:

أنواع البيانات المفقودة

يمكن تقسيم البيانات المفقودة وفقاً للأسباب التي تؤدّي إلى حدوثها إلى ثلاثة أنواع رئيسة :

  • بيانات مفقودة عشوائياً بشكل تامّ (بالإنجليزيَّة: Missing Completely At Random، وتُختصَر: MCAR):
    تحدث عندما تكون الأسباب التي تؤدّي إلى فقد البيانات عشوائية تماماً، أي تكون الأسباب مستقلّةً عن متغيّرات الدراسة أو أيّة متغيّرات أخرى. لكن هذا الشرط نادراً ما يحدث؛ لذلك فإنّ معظم البيانات المفقودة لا تنتمي لهذا النوع.
  • بيانات مفقودة عشوائياً (بالإنجليزيَّة: Missing At Random، وتُختصَر: MAR):
    يحدث هذا النوع عندما تكون الأسباب التي تؤدّي إلى فقد البيانات مرتبطةً بطريقة مباشرة أو غير مباشرة بمتغيّرات خارجية (متغيرات غير موجودة في الدراسة).
  • بيانات غير مفقودة عشوائياً ( بالإنجليزيَّة: Not Missing At Random، وتُختصَر: NMAR) أو (بالإنجليزيَّة: Nonignorable Missing Values):
    تكون الأسباب التي تؤدّي إلى فقد البيانات مرتبطة بمتغيّر من المتغيّرات قيد الدراسة.

كيف يتم التعامل مع البيانات المفقودة؟

هناك عدّة طرق يمكن استخدامها لمعالجة البيانات المفقودة. سنذكر في ما يلي أهمّ تلك الطرق مع ذكر عيوب كلٍّ منها:

تجاهل القيم المفقودة

تُعدّ الطريقةَ الافتراضيّة التي تُستخدم في الحزم الإحصائية، إذ يتمّ حذفُ جميع المشاهدات التي تحوي بيانات مفقودة وإبقاءُ المشاهدات التي تملك بيانات كاملة فقط، وعلى الرغم من سهولة هذه الطريقة، إلا أنّ استخدامها يؤدّي إلى تقليل حجم العيّنة والحصول على تقديرات أكثر تحيّزاً.

طرق التعويض الأحاديّ

يتمّ التعويض عن كلّ قيمة مفقودة بقيمةٍ أخرى من اختيار الباحث، وهذه القيمة قد تكون:

قيمة الوسط الحسابي للمشاهدات: تكون مناسبةً في حالة البيانات المتجانسة، لكنّها قد تؤدّي إلى خطأ في تقدير التباين وخطأ في قيم التوزيع الفعليّ، خاصّةً في حال وجود قيم شاذّة (قيم متطرّفة).

  • قيمة ثابتة يتمّ اختيارها بالاعتماد على أبحاث سابقة: لهذه الطريقة عيوبُ التعويض بقيمة الوسط الحسابي ذاتُها.
  • قيمة تمّ التنبؤ بها باستخدام تحليل الانحدار بناءً على العلاقة مع المتغيّرات الأخرى: تؤدّي هذه الطريقة إلى تقليل قيمة التباين، وتدعيم العلاقات الموجودة في البيانات، وبالتالي تقليل إمكانيّة تعميم النتائج، كما قد تؤدّي إلى الحصول على قيمة غير موجودة في مدى أداة القياس.
  • قيمة تعويضيّة من توزيع غير مشروط: في هذه الطريقة يتمّ اختيار قيمة بشكل عشوائيّ من المشاهدات الموجودة والتعويض بها، وتُسمّى هذه الطريقة أيضاً طريقة (hot deck).

طرق التعويض المتعدّد

يتمّ التعويض عن القيم المفقودة معاً، ويتمّ ذلك بعدة طرق مثل:

التعويض باستخدام التوزيع الطبيعي متعدّد المتغيّرات (بالإنجليزية: Multivariate Normal Imputation، وتُختصَر: MVNI) يمكن استخدام هذه الطريقة من خلال عددٍ من الحزم الإحصائيّة مثل: (SAS (7 و(18) Stata.
تتميّز هذه الطريقة بسهولة تحديد النموذج المستخدم في إيجاد القيم (بالإنجليزيَّة: imputation model)، وإيجاد تقديرات أكثر استقراراً، لكنّها تفترض أنّ جميع المتغيّرات تتبعُ التوزيع الطبيعي متعدّد المتغيّرات (بالإنجليزيَّة: multivariate normal distribution)، وأنّ أيّ متغيّرٍ يمكنُ تمثيله بدالة خطيّة في باقي المتغيّرات الأخرى، لذلك يصعب استخدام هذه الطريقة مع المتغيّرات الثنائيّة أو المتقطّعة أو المتغيّرات المتّصلة التي لا تتبع التوزيع الطبيعيّ.

يجب ملاحظة أنّ استخدام الأساليب المختلفة في التعامل مع القيم المفقودة قد يترتّب عليه الحصول على نتائج مختلفة، لذلك يجب على الباحث أولاً أن يختار الطريقة الأنسب بناءً على نوع البيانات المفقودة (بيانات مفقودة عشوائياً بشكل تامّ أو بيانات مفقودة عشوائياً أو بيانات غير مفقودة عشوائياً) ونسبتِها وحجمِ العيّنة الملائم ومدى دقّة النتائج التي يريد الحصول عليها.

إعداد: أسماء محمد
مراجعة علمية: فاطِمة إبراهيم
تدقيق لغوي: رؤى زيات
تحرير: نسمة محمود

قائمة المصادر:

  1. Acock AC. Working With Missing Values. Journal of Marriage and Family [Internet]. 2005 Nov 1 [cited 2018 Oct 8];67(4):1012–28. Available from: https://onlinelibrary.wiley.com/doi/abs/10.1111/j.1741-3737.2005.00191.x
  2. Bennett DA. How can I deal with missing data in my study? Australian and New Zealand Journal of Public Health [Internet]. 2001 Oct 1 [cited 2018 Oct 8];25(5):464–9. Available from: https://onlinelibrary.wiley.com/doi/abs/10.1111/j.1467-842X.2001.tb00294.x
  3.  KJ, Carlin JB. Multiple Imputation for Missing Data: Fully Conditional Specification Versus Multivariate Normalz Imputation. Am J Epidemiol [Internet]. 2010 Mar 1 [cited 2018 Oct 8];171(5):624–32. Available from: https://academic.oup.com/aje/article/171/5/624/137388

شارك المقال:

تواصل معنا

«الباحثون المصريون» هي مبادرة علمية تطوعية تم تدشينها في 4/8/2014، بهدف إثراء المحتوى العلمي العربي، وتسهيل نقل المواد والأخبار العلمية للمهتمين بها من المصريين والعرب،

تابعنا على منصات التواصل الإجتماعي