تكنولوجيا لدعم اللغة العربية ولهجاتها

رأفت أبوشعبان

- المقالات والاضاءات #  O 5.3 ألف مشاهدة   Read in English

Curras

"كراس" هو نتاج جهد بحث علمي جماعي

في كل يوم يستخدم الملايين من الناطقين بالعربية منصّات التواصل الاجتماعية المختلفة للمحادثة والتعبير عن آرائهم، ولكنّ اختلاف اللهجات يجعل ذلك أحياناً أكثر صعوبة.

وفي بحر المحتوى العربي الذي يتم إنشاؤه يومياً على هذه الشبكات وغيرها، لاحظ الأستاذ المشارك في اللغة من "جامعة بيرزيت"، مصطفى جرّار، أنّ الغالبية العظمى منها تتكوّن من مفرداتٍ عربية عامية حسب المنطقة. ونتيجةٍ لذلك، أطلق جرّار وفريقه من الباحثين موقع "كُرَاس" Curras، وهو محرّك بحثٍ عربي لمعالجة وتحديد وتصنيف وترجمة المصطلحات العربية العامية باللهجة الفلسطينية، حيث يُترجم الموقع هذه المصطلحات إلى اللغة العربية الفصحى والإنجليزية.

بحرٌ من اللهجات

في حين تعتبر اللغة العربية الفصحى الحديثة الشكل الرسميّ للّغة العربية، غير أنّ لكلّ بلدٍ أو منطقةٍ لهجاتها الخاصّة. فعلى سبيل المثال، هناك لهجات شرق المنطقة العربية (وتضم بلاد الشام ومصر ودول الخليج) والتي يتمّ تداولها وفهمها على نطاق واسع، كما يوجد اللهجات المغاربية العربية (مثل الجزائر والمغرب وتونس) ويتركز استخدامها في مناطقها اذ أنّها لا تكون واضحةً أو مستخدَمةً في المناطق العربية الشرقية.

بشكلٍ عام، تتميّز اللهجات العامية بأنّها للاستخدام الشفهي فقط حيث لا تُستخدَم بكثرةٍ في الكتابة الرسمية، إلّا أنّ الإنترنت ووسائل الإعلام الاجتماعية وفّرَت منصّةً سهلةً للتواصل بشكلٍ مباشر وأسهل، ممّا شكل بيئةً مناسبةً لزيادة نسبة استخدام اللهجات والمصطلحات العامية ولهجات المناطق. ومع هذا التطوّر، برزَت الحاجة إلى بعض خدمات الترجمة والتأصيل العربية؛ على سبيل المثال، كلمة "الآن" لها أكثر من لفظ وصيغة باللهجات العربية المختلفة.

Curras

إطلاق "كُراس".

لا يقتصر استخدام اللهجات المحلّية فقط على مواقع التواصل الاجتماعي، بل تعدّت ذلك لتدخل ضمن النصّ والصوت والفيديو أيضاً. وتشكل هذه الوسائط فجوةً كبيرةً في إطار المحتوى العربي على شبكة الإنترنت، لقلّة الأدوات والوسائل المتاحة لتصنيف وترتيب هذه البيانات. وهذا كان التحدي الذي أراد فريق "كُرّاس" المساهمة في حلّه من خلال تصنيف وتأطير هذا المحتوى الذي لم يكن معروفاً لبرامج الكمبيوتر عبر الويب. ومن الأمثلة القريبة على ذلك، موقع "جوجل" للترجمة باللغة العربية Google Translate.

كان الهدف الأساسي من المشروع مساعدة الباحثين على تصنيف الكلمات المختلفة والتراكيب النحوية، فضلاً عن مساعدة المطوِّرين على فهم المحتوى العربي على شبكة الإنترنت. ولكن بمجرّد إطلاق الموقع بشكلٍ تجريبيّ، لاحظ الفريق أنّ العديد من طلّاب اللغة العربية بدأوا باستخدام "كُراس" كقاموسٍ لربط المفردات العامية مع اللغة العربية الفصحى.

يقول جرّار هنا إنّ مشروع خلق قاعدةً للمعرفة Knowledge Base يمكن أن يكون لها العديد من الاستخدامات المستقبلية لمشاكل مختلفة مثل تحليل المشاعر، وهو النظام الذي يحلّل النص الموجود في التعليقات والمنتديات لتحديد رأي المستخدِم الإيجابي أو السلبي تجاه قضية معينة.

 

Curras

الشكل الحالي من محرّك البحث.

تطوير محرّك البحث للهجة الفلسطينية

تشبه الواجهة الرئيسية لـ"كُراس" واجهة محرّك البحث "جوجل" حيث يقوم المستخدِم بإدخال كلمةٍ باللهجة الفلسطينية، ويقوم محرّك البحث بتقسيمها إلى بنية الكلمة الأساسية وتحديد البادئات واللواحق، ثم يقوم بترجمة هذه الكلمة إلى العربية الفصحى وإلى الإنجليزية، كما يعرُض بعض النتائج المتقدّمة الخاصّة بتصنيف الكلمات.

العنصر الرئيسي في هذا النظام هو "كوربوس" Corpus، وهو عبارةٌ عن قاعدة بياناتٍ تحتوي على بياناتٍ عن كل الكلمات التي تمّ جمعها مع الشروح وخصائص كلّ كلمة. عندما يبحث المستخدِم عن كلمةٍ معيّنة، يحدّد النظام إذا ما كانت الكلمة فعلاً أو اسماً، بادئة أو لاحقة، مذكراً أو مؤنثاً، بالإضافة إلى خصائص أخرى.

"قمنا بإدخال 16 خاصية لأكثر من 55 ألف كلمةٍ باللهجة العامية بشكلٍ يدوي، نصفهم من المسلسل المحلي ’وطن ع وتر‘ الذي يضمّ مجموعةً متنوّعة من اللهجات المحلية الفلسطينية، ووضعناها في ’كوربوس‘ وقمنا بتطوير محرك البحث،" حسبما يقول جرار.

تمّ بناء النظام تدريجياً على مدى عامين بإشراف جرّار وتنفيذ أربعة من الباحثين، حيث تمّ العمل مع فرق بحثٍ علمي إقليمية ودولية من "جامعة كولومبيا" و"جامعة نيويورك" في أبو ظبي، وبتمويل "مجلس البحث العلمي" في وزارة التعليم العالي الفلسطينية.

كراس ورقمنة اللغة العربية

من نتائج بحث الفريق الملفتة، كانت مدى تقارب اللهجات العامية العربية المختلفة. فبعدما قام الفريق بإجراء تحليلاتٍ لمقارنة اللهجات العربية المختلفة، وجد أنّ نسبة التشابه بين المخارج الصوتية للهجات الفلسطينية والمصرية تصل إلى 75%، علماً بأن التشابه يتوقّع أن يكون أكبر بين لهجات منطقة الشام في الأردن ولبنان وسوريا.

"كُراس" ليس مشروع جرار الوحيد في رقمنة اللغة العربية Arabic Digitization، فقد فاز مؤخراً بجائزة البحث من "جوجل" Google Research Award بقيمة 50  ألف دولار تقديراً لجهوده في مجال معالجة اللغات الطبيعية ورقمنة اللغة، كما عمل على رقمنة قواعد بيانات لغوية أخرى لزيادة التواصل بين الحاسوب والإنسان.

يَعتبِر جرّار أنّ مشروعه الرئيسي على المدى الطويل يتمثّل في تطوير علم "الأنثولوجيا العربية" Arabic Ontology التي يتوقع إطلاقها في غضون أشهر قليلة.

أمّا فريق "كُراس" فهو يعمل حالياً على النموذج الأولي للموقع حيث يمكن لأيّ شخصٍ أن يستخدمه، كما يأمل الفريق بضمّ لهجاتٍ عربية أخرى إلى النظام، بالإضافة إلى دمج إدخال الصوت في النظام، وطرح نظام ’كوربوس‘ للاستخدام العام.

نُشر المقال الأصلي في شبكة ومضة في 20 أبريل 2016


رأفت أبوشعبان


مؤسس ريابل واستشاري لعدة منظمات دولية في مجال ريادة الأعمال وباحث في أنظمة الابتكار وطرق التمويل البذري مع أكثر من 10 سنوات من الخبرة العملية في المنطقة العربية وأوروبا واميركا وكوريا الجنوبية
Facebook Profile Linkedin Profile Follow on Twitter