خطوة جديدة على طريق الحاسب لفهم لغات البشر

image

 

على مدار الخمسين سنة الماضية، دأب اللغويون وعلماء الحاسوب على محاولة جعل الحاسوب قادراً على فهم اللغة البشرية، ولكن عقبات عديدة كالكلمات متعددة المعاني لازالت تشكل حجر عثرة في طريق الحاسوب لفهم اللغات البشرية. وها هو بحثٌ جديد يقدم حلولاً لذلك من خلال التعامل نصوص طويلة تحتوي على مجازات وارتباطات ضمنية بين الكلمات، وذلك لتكوين خريطة محكمة لتلك العلاقات تؤدي بالنهاية إلى إدراك المعنى.
ترجع قدرتنا على التمييز بين المعاني المختلفة للكلمات إلى خبرة سنين طويلة من حياتنا. حيث يمكن بسهولة تمييز كلمة Charge)) في حالة شحن البطارية (Battery charge) عن تلك المستخدمة في حالة الاتهام الجنائي ((Criminal charge. ويمكن للبشر استخلاص المعنى الحقيقي للكلمة من خلال المنطق وبناء الجملة والإحساس بنيّة المتكلم.
لكن الأمر ليس بهذه السهولة بالنسبة للحاسوب، فعلى مدار الخمسين سنة الماضية، حاول علماء اللغة وعلماء الحاسوب أن يطوروا الحاسوب ليفهم اللغة البشرية باستخدام برامج مبنية على علم دلالات الألفاظ، وتشرح كاترين ايرك، أستاذة اللغة في جامعة تكساس بالولايات المتحددة و المتخصصة في علم دلالات الألفاظ: “حاول الناس تشفير جميع تلك المعرفة يدويًا من قبل، ولكنني أظنّها محاولة فاشلة، لأن هناك بحراً من الدلالات والأشياء الصغيرة التي يصعب إحصاؤها موجودة في ذهن الانسان”.
بعد أن رأت ايرك خلافات المفسرين حول تعريف بعض المصطلحات والتعبيرات، قامت بتجربة جديدة، فبدلًا من عملية تشفير القواميس والقواعد النحوية في برامج، فكّرت في أن تُضمِّن في برامجها نصوصاً طويلة تعكس الثقافة البشرية الحقيقية، ثم استخدام تلك النصوص لخلق خريطة محكمة لتلك الدلالات الضمنية في الكلام.
تضيف كاترين: “إنه الحدس، فهو يساعد في تخيّل معاني الكلمات وكأنها نقاط في الفضاء، فقد تكون بعيدًا جدًا عن بعضها كما في حالة شحن البطارية (Battery charge) والاتهام الجنائي (Criminal charge). وقد تكون قريبة جداً مثل (Criminal charge) و (Criminal accusation) اللتان تعنيان اتهاماً جنائياً. فمعنى الكلمة في أي سياق هو نقطة في الفضاء، لذلك، لا يمكننا حصر كل معاني الكلمة أو ما يمكن أن تدل عليه، لكن يمكن القول بأن هذه الكلمة تصلح بهذا المعنى في جملة أخرى، ولكنها لا تصلح في جملة ثالثة مثلاً”.
يقوم هذا البحث على محاولة استخلاص الأفكار والأنماط من علم النفس، الذي يُفسّر كيفية تعامل العقل مع اللغة والمبادئ بشكل عام، من خلال النظر إلى الكلمات بطريقة نسبية ومتغيرة. فالدلالات ليست ثابتة، حيث يمكن للمعنى أو حدود الفكرة أو القصد أن يختلف طبقاً للسياق أو الحالة التي استخدم فيها.
يتطلب إنشاء نموذج دقيق له القدرة البديهية على تمييز معاني الكلمات من خلال سياقها نصوصاً كثيرة جداً مع قدرة تحليلية هائلة، وتقول إيرك ” أعتقد أن الحد الأدنى لما يتطلبه هذا البحث هو مجموعة نصوص تحتوي على مائة مليون كلمة، وإذا أعطيتني عدة مليارات، فسأكون سعيدة جداً”.
تمكنت إيرك وشركاؤها بعد دراسة مجموعة التصور الرقمي على نظام التشغيل لونجهورن (longhorn) في مركز تكساس لدراسات الحاسوب المتقدمة (TACC) من توسيع آفاقهم في هذا البحث. حيث استطاعت اختصار العمليات الحاسوبية التي استغرقت عدة أيام لتشغيلها على الحاسب الشخصي، في عدة ساعات على نظام لونجهورن. تقول إيرك : ” باستخدام لونجهورن(Longhorn) نستطيع الآن معالجة اللغة على الحاسوب بشكل أسرع بكثير مما سبق، وهذا يمكننا من العمل على كميات أكبر من البيانات وتطوير نماذج أفضل وأدق. وتضيف ” نقوم باستخدام مساحة، تمثل الكلمة فيها نقطةً يمكنها التشعب في عشرة آلاف اتجاه، حيث يؤدي كل اتجاه إلى معنى معين، فإذا أعطيتك عبارة مثل (طفل لامع) فسيقوم النموذج الجيد بإخبارك أن المعنى المراد هو(طفل ذكي) أما المعنى الخطأ فهو (ولد ساطع أو مضيء) وهذه خطوة جيدة في تكنولوجيا اللغة”.
سيواجه بحث إيرك إشكالية في الاقتباس التلقائي، فعند التعامل مع الأمراض على سبيل المثال، سيكون عليه سرد ملايين الأمراض وأعراضها، وأسبابها، وطرق الوقاية والعلاج. ولكن الباحثين الأكاديميين يستخدمون عادةً صياغات مختلفة لكل ما سبق، لذلك، يتوجب إعادة صياغة النصوص بشكل جيد.
حصلت إيرك وراي موني (Ray Mooney)، وهو أستاذ علم الحاسوب في جامعة تكساس أيضاً، على منحة من وكالة مشاريع البحوث المتطورة الدفاعية (داربا) (DARPA) ليقوما بمحاولة دمج تصور إيرك لحالة الكلمة كأنها نقطة في الفراغ تبتعد وتقترب من نظيراتها بمقدار ما يقتربان من المعنى، مع طريقة تحليل البناء التركيبي للجمل باستخدام شبكات ماركوف المنطقية.
في المؤتمر الثاني للدراسات المعجمية المعلوماتية، قامت إيرك وموني وزملاء آخرون، بإعلان نتائج بعض الاختبارات على البحث الذي قاموا به. في اختبار واحد، تم إعطاء نظام التشغيل لونجهورن جملة ليقوم بتحديد مدى صحتها بناءً على جملة سابقة لها. وباستخدام مجموعة من أدوات تحليل الجُمَل، ونماذج لمعاني الكلمات، وتضمينات نظام التشغيل لونجهورن، قام نظام إيرك وموني بتحديد الإجابة الصحيحة بنسبة دقة تقارب (85%).
“يجب أن نصل إلى المرحلة التي لا نحتاج فيها إلى فهم لغة الكمبيوتر، حيث يمكن للكمبيوتر أن يفهم لغتنا ويتعامل معها”. ويضيف موني ” بالفعل أمامنا طريق طويل لكي نصل إلى هذا، ولكن من حقنا التصريح بأننا قطعنا مسافة ليست بقليلة على طريق تحقيق ذلك الهدف”.

 

ترجمة: جورج عياد
مراجعة: ميشيل نقولا بكني

تصميم : Omar Abu Almajd

المصدر : http://sc.egyres.com/4wVKq

 

#الباحثون_المصريون

شارك المقال:

تواصل معنا

«الباحثون المصريون» هي مبادرة علمية تطوعية تم تدشينها في 4/8/2014، بهدف إثراء المحتوى العلمي العربي، وتسهيل نقل المواد والأخبار العلمية للمهتمين بها من المصريين والعرب،

تابعنا على منصات التواصل الإجتماعي