تدريب الآلات على رؤية الصور مثل البشر

بواسطة توفيق عاطف
09/01/2016

كما يقول المثل: «الصورة تساوي ألف كلمة». فحين يُسأل شخص عن شيء في صورة، فإنه يبدأ في الكلام عن الكثير من التفاصيل ليُجيب على تلك الأسئلة.

لكن الآن قام فريق من الباحثين في مايكروسوفت مع زملاء من جامعة Carnegie Mellon بعمل نظام يستخدم رؤية الكمبيوتر والتعلم العميق وفهم اللغة لتحليل الصور والإجابة على بعض الأسئلة بنفس طريقة البشر. وتُعتبر القدرة على الإجابة على الأسئلة خطوة مهمة لتطوير أدوات الذكاء الاصطناعي، وسيساهم هذا التقدم المفاجئ في توقع احتياجات البشر في الوقت الحالي.

يمكن لهذا النظام أن يقوم بتشغيل جميع أنواع التطبيقات مثل جهاز التحذير لراكبي الدراجات مع كاميرا محمولة باستمرار تأخذ صورًا للبيئة المحيطة بهم، ويستمر النظام في طرح الأسئلة على نفسه مثل: «ماذا يوجد في الجانب الأيسر ورائي؟» أو «هل هناك درَّاجات ستمُرّ من على يساري؟» أو «هل يجري أي شخص بالقرب مني؟». وسيتم ترجمة الإجابات تلقائيًا إلى اقتراحات لراكب الدراجة، مثل إعطاء بعض التوصيات في الاتجاهات لتجنب وقوع الحوادث. ويمكن تشغيل الأجوبة عن طريق ناطق للكلام.

يعتمد النموذج الذي صنعه الباحثون في مركز تكنولوجيا التعلم العميق لأبحاث مايكروسوفت على خطوات منطقية متعددة للإجابة على الأسئلة حول الصور. فإذا أخذت هذه الصورة على سبيل المثال، وأردت أن تعرف «ماذا يوجد في سلة الدراجة؟». حسنًا؛ في البداية سوف تركز على التفاصيل المذكورة (الدراجة، السلة، وما يوجد في السلة). ثم بعد ذلك ستركز اهتمامك على المنطقة الرئيسية في السؤال (السلة) وتقوم بتحليل ما في داخلها، ثم في النهاية تعطي الجواب: (الكلاب).

نحن كبشر نركز على ماهو مطلوب للإجابة على هذه الأسئلة وغيرها. ومع هذا النظام؛ ستمر الصورة عبر الشبكات العصبية العميقة، وتحديد المناطق المرتبطة بالسؤال وإهمال المناطق الغير المرتبطة به. ويتم استخدام التعلم العميق في مراحل مختلفة لاستخراج المعلومات البصرية لتمثيل معنى السؤال في لغتنا الطبيعية والاهتمام بالتركيز على أضيق المناطق في الصور عن طريق خطوتين منفصلتين من أجل الحصول على إجابةٍ دقيقة.

على الرغم من أنه قد يبدو بسيطًا بالنسبة للبشر، لكنه من الصعب على الكمبيوتر تعلم اللغة والعثور على إجابات في صورةٍ ما. لكن باستخدام الشبكات العصبية العميقة، فإنه يمكن للباحثين معالجة اللغة كأمر حيوي في بناء ذكاء اصطناعي قوي لرؤية الكمبيوتر. ويقول الباحثون أن هذه التكنولوجيا لم يكن من الممكن تصورها قبل بضع سنوات ألا وهي (بناء نماذج للسلوك البشري في حل المشكلات).

وطبقًا للورقة البحثية التي تصف هذا النظام؛ فإنه يقوم بالتركيز على المنطقة الأكثر صلة – للاستدلال على الجواب تدريجيًا – ويعتبر ذلك خطوة كبيرة لتعليم الكمبيوتر فهم المشاهد المعقدة وأيضًا استخدام اللغة الطبيعية لتدريبهم. ويعتمد هذا العمل على أبحاث الفريق السابقة، والذي يتضمن تعليم الآلات التقاط الصور تلقائيًا. وستستمر هذه الخطوة الهامة في تعليم الكمبيوتر فهم الصور بالطريقة التي يفهمها البشر.

إعداد: TawfikAtef

مراجعة: Mohamed Sayed Elgohary

تصميم:

المصدر: http://sc.egyres.com/FfMF4