1 / 29

توظيف قواعد النحو والصرف في بناء محلل صرفي للغة العربية

School of Computing FACULTY OF ENGNEERING. اجتماع خبراء المحللات الحاسوبية الصرفية للغة العربية دمشق 26-27/4/2009. توظيف قواعد النحو والصرف في بناء محلل صرفي للغة العربية. Majdi Sawalha & Eric Atwell University of Leeds, UK sawalha@comp.leeds.ac.uk , eric@comp.leeds.ac.uk. المقدمة

Télécharger la présentation

توظيف قواعد النحو والصرف في بناء محلل صرفي للغة العربية

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. School of Computing FACULTY OF ENGNEERING اجتماع خبراء المحللات الحاسوبية الصرفية للغة العربية دمشق 26-27/4/2009 توظيف قواعد النحو والصرف في بناء محلل صرفي للغة العربية Majdi Sawalha &Eric Atwell University of Leeds, UK sawalha@comp.leeds.ac.uk, eric@comp.leeds.ac.uk

  2. المقدمة • المحلل الصرفي للغة العربية • دراسة تحليلية للجذور الثلاثية لكلمات اللغة العربية • مواصفات المحلل الصرفي العربي • الخصائص اللغوية للكلمة العربية وتركيب العناوين الصرفية والنحوية • النتائج والتقييم • المعيار الذهبي (gold standard) لتقييم نتائج المحللات الصرفية والنحوية • مجموعة معالجة اللغات الطبيعية في جامعة ليدز – المملكة المتحدة

  3. المقدمة • أربعة أساليب رئيسية قد تم تطبيقها لتطوير المحللات الصرفية بشكل عام • التحليل الصرفي المعتمد على مقطع الكلمة (Syllable-based Morphology (SBM)) • التحليل الصرفي المعتمد على الجذر والوزن (Root-Pattern Morphology) • التحليل الصرفي المعتمد على الجذع (Lexeme-based Morphology (LBM) ) • استخدام قوائم الجذع وقواعد النحو والصرف وخصائص الكلمات (جميع هذه الأساليب الأربعة تعتمد على قوائم معدَّة يدوياً تحتوي على معلومات الجذر أو الجذع أو الأوزان) (Soudi et al, 2007) • إضافة إلى • اسلوب آخر للتحليل الصرفي يعتمد على خوارزميات الذكاء الاصطناعي للذخائر اللغوية المعنونة نحوياً لبناء قاعدة بيانات للكلمات المحللة

  4. أمثلة على المحللات الصرفية • المحلل الصرفي للغة العربية (Buckwalter Morphological Analyzer) يعتمد على قوائم للكلمات ومعلوماتها الصرفية تمَّ إعدادها يدويا، تحتوي القوائم على قائمة الجذع وقائمة السوابق واللواحق وجداول الصواب والخطأ لتحديد التوافيق الصحيحة التي تجمع السوابق باللواحق للكلمات • نظام شيرين خوجا لاستخراج جذر الكلمة (Khoja’s Stemmer ) يعمل على إزالة أطول سابقة ولاحقة للكلمة، ثم يقوم بمقارنة ما تبقى من الكلمة بقائمة من أوزان الأسماء والأفعال لاستخراج جذر الكلمة. ويحتوي على قوائم علامات التشكيل، وعلامات الترقيم، والجذور الثلاثية والرباعية، وأدوات التعريف، وقائمة تحتوي على 168 كلمة وقف (Stop Words). • نظام استخراج الجذور الثلاثية (Al-Shalabi et al, 2003) لا يعتمد هذا النظام على أي قوائم لغوية معدَّة يدوياً، بل يعتمد على حسابات رياضية بتعيين أوزان رقمية لأحرف الكلمة وضرب هذه الأوزان بمواقع حروفها.

  5. المحلل الصرفي للغة العربية • الهدف : بناء ذخيرة لغوية معنونة (Tagged Corpus) • بدأ تطوير المحلل الصرفي بدراسة المحللات الصرفية المطورة سابقاً والمنشورة عبر الشبكة العالمية 1- المحلل الصرفي للغة العربية (Tim Buckwalter Morphological Analyzer) 2- نظام شيرين خوجا (Khoja’s Stemmer) 3- نظام استخراج الجذور الثلاثية للكلمات (Al-Shalabi et al, 2003) • تم تطوير المعيار الذهبي (Gold Standard) لمقارنة نتائج التحليل للأنظمة المختلفة. • ألف كلمة من نصوص القرآن الكريم (سورة العنكبوت)، و ألف كلمة أخرى من نصوص المجلات والصحف من الذخيرة اللغوية العربية (The Corpus of Contemporary Arabic) • قمنا باستخراج جذور الكلمات لهذه النصوص المختارة وتدقيقها من قبل مختصِّين باللغة العربية. • لم تحقق النتائج المرجوه لاعتمادها في تطبيقات التحليل النحوي (Part-of-Speech tagging) أو استخدامها في تطبيقات أخرى.

  6. دراسة تحليلية للجذور الثلاثية لكلمات اللغة العربية • الهدف : فهم طبيعة جذور اللغة العربية، وعلاقتها بمشتقاتها من الكلمات. • صُنِّفت الجذور الثلاثية لكلمات اللغة العربية الى اثنتان وعشرين مجموعة. • تحليل كلمات وجذور كلمات القرآن الكريم (45,534 كلمة ثلاثية الجذر ) (1610 جذر ثلاثي) • تحليل الكلمات المختلفة (Word Types) والمخزنة في القاموس (15 معجماً عربياً، 376,167 كلمة مختلفة ثلاثية الجذر) الجذور الثلاثية للقرآن الكريم كلمات للقرآن الكريم الجذور الثلاثية من القاموس كلمات القاموس

  7. مواصفات المحلل الصرفي العربي- المُدخل • يقبل المحلل الصرفي النصوص أو الكلمات المفردة (مشكولة كلياً أو جزئياً أو غير مشكولة). • تقطع كلمات النص المدخل إلى: كلمة عربية أو رقم أو عُملة أو علامة ترقيم. • معالجة الكلمات العربية: • استبدال الحرف المضعَّف والشَّدة الظاهرة عليه بحرفين الأول ساكن والثاني متحرك بنفس حركة الحرف الأصلي. مثال: وَصَّى وَصْصَى • استبدال المد (آ) بحرفي الهمزة والألف. مثال: آمَنُوا ءامَنُوا • يمكن أن تظهر حركة واحدة (حرف علَّة قصير) على أي حرف من حروف الكلمة.

  8. عند عندي عندنا عنده عندها عندهما على فعلى علينا فعلينا عليها فعليها الذي فالذي كالذي بالذي للذي فكالذي هؤلاء فهؤلاء بهؤلاء لهؤلاء فبهؤلاء فلهؤلاء أنا فأنا نحن فنحن هي فهي كلمات الوقف (Stop Words) • يحتوي النظام على قائمة بكلمات الوقف (Stop Words) مكونة من 1,368 كلمة. • تحمل تحليلاً صرفياً واحداً أينما وجدت في سياق النَّص • وتبلغ نسبتها في أي نص من نصوص اللغة العربية حوالي 40% من إجمالي عدد الكلمات. • يبحث المحلل الصَّرفي عن الكلمة المراد تحليلها في هذه قائمة كلمات الوقف، فإذا وجدت هذه الكلمة ضمن كلمات الوقف تُعطى التحليل الصرفي المخزن في القائمة.

  9. الزوائد والسوابق واللواحق • اعتماداً على كتب قواعد اللغة العربية فقد تمَّ حصر • الزوائد في بداية الكلمة (Proclitics) (كحروف العطف والجر والنداء وأدوات التعريف) • السوابق (Prefixes) كأحرف المضارعة وحرف الأمر • اللواحق (Suffixes)كأحرف المثنى والجمع المذكر والمؤنث السالمين. • الزوائد في نهاية الكلمة (Enclitics)كالضمائر المتَّصلة • تمَّ توليد جميع الزوائد الممكنة وكان عددها كبيراً، والتحقق من صحتها من خلال فحصها عن طريق تحليل كلمات الذخائر اللغوية. • القرآن الكريم • الذخيرة اللغوية العربية (Corpus of Contemporary Arabic (CCA)) • الذخيرة اللغوية العربية المطورة بجامعة بنسلفانيا (Penn Arabic Treebank) • نصوص خمسة عشر معجماً عربياً التي تم استخدامها في بناء القاموس

  10. الزوائد والسوابق واللواحق • بلغ عدد السوابق 215 سابقة. • بلغ عدد اللواحق 127 لاحقة.

  11. الزوائد والسوابق واللواحق • يقوم النظام بتقسيم الكلمة إلى ثلاثة أجزاء بأطوال مختلفة، • يبحث عن الجزء الأول في قائمة السوابق • يبحث عن الجزء الثالث بقائمة اللواحق. • يتم اختيار تحليلات الكلمة التي تمت مطابقة. السابقة واللاحقة لجزئيها معاً. • يتم تعيين التحليل الصرفي المرفق في القوائم لهذه الأجزاء.

  12. الجذر أو الجذع • يستخدم النظام قائمة لجذور اللغة العربية احتوت على أكثر من 12,000 جذراً، تم استخراجها من تحليل خمسة عشر معجماً عربياً. • يبحث النظام عن الجزء الثاني في قائمة الجذور. • يتم اختيار التحليل الذي يطابق السوابق واللواحق والجذر معاً.

  13. وزن الكلمة • تتمُّ عملية اشتقاق الكلمات المختلفة من الجذر من خلال اتباع أوزان محددة، تحمل هذه الأوزان خواصاً لغوية هي نفسها للكلمة المشتقة. • زُوِّد المحلل الصرفي بقائمة من الأوزان تم استخراجها من كتب قواعد اللغة العربية والنحو والصرف. • تحتوي قائمة أوزان الأفعال على 2730 وزناً • تحتوي قائمة أوزان الأسماء على 390 وزناً • تم تعيين التحليل الصرفي لكل وزن.

  14. وزن الكلمة: الطريقة الأولى (الكلمة وجذرها) • تعتمد هذه الطريقة على الكلمة نفسها وجذرها كمدخل للبرنامج. • يتم استبدال حروف الجذر في الكلمة بالحروف (ف، ع، ل، ] ل [). • لاتتم هذه العملية بهذه السهولة!!!؟ • بعض حروف الجذر قد يطرأ عليها تغيير كالإدغام والإقلاب والإعلال والإبدال. • يجب على البرنامج أن يستخرج الوزن الصحيح لهذه الكلمات ومعالجة هذه الحالات. • يتم البحث عن الوزن المستخرج في قوائم الأوزان، فإن وجد تعطى الكلمة التحليل الصرفي المعيين لهذا الوزن

  15. وزن الكلمة: الطريقة الأولى (الكلمة وجذرها)

  16. وزن الكلمة : الطريقة الثانية • تعتمد هذه الطريقة الثانية بشكل أساسي على قوائم الأوزان. • استرشدت هذه الطريقة بخوارزمية مطابقة الأوزان (Pattern Matching Algorithm (PMA)) (Alqrainy, 2008). • تعمل هذه الخوارزمية على مطابقة الكلمة مع وزنها للكلمات المشكولة جزئياً بالحركة الظاهرة على آخر الكلمة فقط وبدون إجراء أي تحليل للسوابق واللواحق. • يقوم النظام بالبحث عن جميع الأوزان المساوية في الطول للكلمة المحللة بعد أن تم إزالة الزوائد من بدايتها ونهايتها. • مثاًل: كلمة (كتب) تطابق الاوزان (فَعْل، فَعَل، فَعُل، فَعِل، فُعْل، فُعَل، فُعُل، فُعِل، فِعْل). • الخطوة الثانية: يتم استبدال حروف الكلمة المقابلة للحروف (ف، ع، ل، ] ل [) في الوزن. • وبعد ذلك يتم البحث عن هذه الأوزان الناتجة عن دمج الكلمة والوزن معاً في قائمة الأوزان. • فإن وجدت يكون هذا وزناً محتملاً للكلمة ويمثل التحليل الصرفي المرفق مع الوزن في القائمة تحليلاً صرفياً لهذه الكلمة.

  17. وزن الكلمة : الطريقة الثانية المثال الأول

  18. وزن الكلمة : الطريقة الثانية المثال الثاني

  19. التَّشكيل • يعتبر التَّشكيل من الخصائص المهمة حيث يفيد في تحديد بعض الخصائص اللغوية للكلمةالعربية؛ • وجود التَّشكيل في آخر الكلمة (الفتحة أو الضمة أو الكسرة أو السكون) يفيد في تحديد الحالة الإعرابية للكلمة. • وجود الحركة في بداية الكلمة (الضمة أو الفتحة أو الكسرة) يفيد في تحديد بناء الفعل للمعلوم أو المجهول. • وجود الحركات الأخرى كالشَّدة على الكلمة يحلُّ بعض اللُّبس في تحليل الكلمات. • يقوم النظام بإضافة الحركات التي ظهرت على الوزن المشكول المطابق الى الكلمة الكلمة المحللة كتب

  20. الخصائص اللغوية للكلمة العربية وتركيب العناوين الصرفية والنحوية • صُممت مجموعة العناوين الصرفية والنحوية (Morphological features part-of-speech tag set) اعتماداً على الخصائص اللغوية للكلمة كما قسَّمها علماء اللغة العربية وقواعدها. • الهدف: • لإستخدامها في بناء المحلل النحوي للغة العربية. • لعنونة الذخائر اللغوية بشكل تفصيلي يعكس الخصائص اللغوية والصرفية لكلماتها • لتمكيننا من دراسة وتحليل وتقييم نتائج المحللات الصرفية والنحوية للغة العربية بشكل مباشر. • صممت مجموعة العناويين (Tag set ) بتجميع تسعة عشر خاصية لغوية للكلمة في عنوان واحد.

  21. الخصائص اللغوية للكلمة العربية وتركيب العناوين الصرفية والنحوية

  22. الخصائص اللغوية للكلمة العربية وتركيب العناوين الصرفية والنحوية • يتكون العنوان الصرفي والنحوي من تسعة عشر رمزاً • كل رمز يمثل قيمة أو متغير ينتمي إلى إحدى الخصائص الصرفية أو النحوية. • يعدُّ موقع الرمز في العنوان مهماً في تحديد هذه الخاصية اللغوية. • تمثل هذه القيم أو المتغيرات برمز واحد من حروف اللغة الإنجليزية الصغيرة. • فمثلا الرمز (v) في الموقع الأول من العنوان يرمز إلى الفعل. • الرمز (n) في الموقع الثاني يرمز إلى اسم العلم. • يمثل الجنس في الموقع السابع من العنوان حيث يرمز الحرف (m) الى المذكر والحرف (f) الى المؤنث. • إذا كانت الخاصية اللغوية غير متوافقة مع الكلمة فالرمز (-) (الشرطة) يمثلها. • يستخدم الرمز (؟) (علامة السؤال) لترمز إلى أن الخاصية اللغوية تنطبق على الكلمة ولكن غير محددة

  23. الخصائص اللغوية للكلمة العربية وتركيب العناوين الصرفية والنحوية

  24. النتائج والتقييم • المعيار الذهبي (gold standard) لتقييم نتائج المحللات الصرفية والنحوية • تستخدم المعايير الذهبية لتقييم وقياس دقة الأنظمة المحوسبة. • يمكن استخدامها للمقارنة بين عدَّة أنظمة أو خوارزميات طورت لحل مشكلة معيَّنة. • تظهر الحالات التي تنجح أو تفشل الأنظمة المُقيَّمة بتحديد التحليل المناسب للمدخلات. • لإيجاد أوجه الشبه أو الإختلاف في نتائج التحليل مبينة الحالات التي تتفق عليها والتي تختلف فيها الأنظمة المحوسبة. • لبناء معيار ذهبي لتقييم الأنظمة المحوسبة، يجب تحديد: • موضوع المشكلة التي تقوم هذه الأنظمة على حلها • تحديد الذخيرة اللغوية التي ستستخدم لبناء المعيار الذهبي • تحديد تنسيقة أو ترتيبه وحجمه، • تحديد قواعد الكتابة والترجمة ومراحل بناء المعيار الذهبي.

  25. المعيار الذهبي (gold standard) لتقييم نتائج المحللات الصرفية والنحوية • موضوع مشكلة البحث • تقييم المحللات الصرفية والنحوية للغة العربية، (يجب أن يتوفر التحليل الصرفي والنحوي لجميع كلمات المعيار الذهبي). • الذخيرة اللغوية • يوجد العديد من الذخائر اللغوية العربية التي تم بنائها مسبقاً، ويعتمد معضمها على نصوص مقتبسة من المجلات والصحف. • لبناء معيار ذهبي واسع التطبيق يجب علينا اختيار نصوص عربية من مصادر واشكال ومجالات متعددة • ومن نصوص مشكولة كلياً أو جزئياً أو غير مشكولة. • الذخائر اللغوية المقترح استخدامها لبناء المعيار الذهبي. • نصوص القرآن الكريم المشكولة وغير المشكولة. • ونصوص الذخيرة اللغوية العربية (Corpus of Contemporary Arabic (CCA)) (Al-Sulaiti & Atwell, 2006 )

  26. المعيار الذهبي (gold standard) لتقييم نتائج المحللات الصرفية والنحوية • تنسيق المعيار الذهبي • سيحتوي المعيار الذهبي على التحليل الصرفي والنحوي لكل كلمة من كلمات الذخيرة اللغوية المستخدمة في بنائه • يظهر التحليل النحوي والصرفي والكلمة معاً في سطر واحد(العناويين الصرفية والنحوية للكلمة) • يمكن إضافة جذر الكلمة ووزنها لهذا التحليل. • استخدام ملفات XML لتخزين محتوى المعيار الذهبي. • حجم المعيار الذهبي • يتم اختيار المعيار الذهبي بحجم كبير نسبياً بحيث يغطي معظم الحالات المتوقعة من المحللات الصرفية والنحوية أن تكون قادرة على تحليلها. • يقاس حجم المعيار الذهبي بعدد الكلمات التي يحتويها.

  27. المعيار الذهبي Morphochallenge 2009 • http://www.cis.hut.fi/morphochallenge2009/ • تمَّ بتطوير معيار ذهبي مكوَّن من نصوص القرآن الكريم كاملاً. • لاستخدامه لفحص المحللات الصرفية في مسابقة (Morphochallenge 2009) لبناء محلل صرفي لعدة لغات من ضمنها اللغة العربية. • حجم المعيار الذهبي 78,004 كلمات . • زود المعيار الذهبي بالتحليل الصرفي الكامل للكلمة، حسب التحليل الصرفي لكلمات القرآن الكريم في قاعدة البيانات الصرفية للقرآن الكريم المطورة بجامعة حيفا (Dror et al, 2004).

  28. المعيار الذهبي Morphochallenge 2009 بِسْمِسمNoneب +Prepسم +Noun +Triptotic +Sg +Masc +Gen اللّهِ None None للَاه +Noun +ProperName +Gen +Def الرَّحْمـَنِرحم فَعلَان رَحمَان +Noun +Triptotic +Adjective +Sg +Masc +Gen +Def الرَّحِيمِرحم فَعِيل رَحِيم +Noun +Triptotic +Adjective +Sg +Masc +Gen +Def الْحَمْدُحمد فَعل حَمد +Noun +Triptotic +Sg +Masc +Nom +Def للّهِ None None ل +Prepللَاه +Noun +ProperName +Gen +Def رَبِّربب فَعل رَبب +Noun +Triptotic +Sg +Masc +Pron +Dependent +1P +Sg, ربب فَعل رَبب +Noun +Triptotic +Sg +Masc +Gen الْعَالَمِينَعلم فَاعَل عَالَم +Noun +Triptotic +Pl +Masc +Obliquus +Def الرَّحْمـنِرحم فَعلَان رَحمَان +Noun +Triptotic +Adjective +Sg +Masc +Gen +Def الرَّحِيمِرحم فَعِيل رَحِيم +Noun +Triptotic +Adjective +Sg +Masc +Gen +Def مَـالِكِملك فَعَلَ مَالِك +Verb +Triptotic +ActPart +Sg +Masc +Gen يَوْمِيوم فَعل يَوم +Noun +Triptotic +Sg +Masc +Gen الدِّينِدين فِعل دِين +Noun +Triptotic +Sg +Masc +Gen +Def إِيَّاكَ None None ءِييَا +Particle +Pron +Dependent +2P +Sg +Masc نَعْبُدُعبد فَعَلَ نَعبُد +Verb +Imp +Act +1P +Pl +Masc/Fem وإِيَّاكَ None None وَ +Particle +Conjunctionءِييَا +Particle +Pron +Dependent +2P +Sg +Masc نَسْتَعِينُعون يَسْتَفْعِلُ نَستَعِين +Verb +Imp +Act +1P +Pl +Masc/Fem, عين يَسْتَفْعِلُ نَستَعِين +Verb +Imp +Act +1P +Pl +Masc/Fem اهدِنَاهدي فَعَلَ هدِ +Verb +Imperative +2P +Sg +Masc +Pron +Dependent +1P +Pl الصِّرَاطَصرط فِعَال صِرَاط +Noun +Triptotic +Sg +Masc +Acc +Def المُستَقِيمَقوم يَسْتَفْعِلُ مُستَقِيم +Verb +Triptotic +ActPart +Sg +Masc +Acc +Def صِرَاطَصرط فِعَال صِرَاط +Noun +Triptotic +Sg +Masc +Acc الَّذِينَ None None للَذِينَ +Pron +Relative +Pl +Masc أَنعَمتَنعم يَفْعَلُ ءَنعَمتَ +Verb +Perf +Act +2P +Sg +Masc عَلَيهِمْ None None عَلَي +Particle +Pron +Dependent +3P +Pl +Masc غَيرِغير فَعل غَير +Noun +Triptotic +Sg +Masc +Gen المَغضُوبِغضب فَعَلَ مَغضُوب +Verb +Triptotic +PassPart +Sg +Masc +Gen +Def عَلَيهِمْ None None عَلَي +Particle +Pron +Dependent +3P +Pl +Masc وَلاَ None None وَ +Particle +Conjunctionلَا +Particle +Negative الضَّالِّينَضلل فَعَلَ ضَالل +Verb +Triptotic +ActPart +Pl +Masc +Obliquus +Def

  29. University of Leeds, NLP GroupArabic Language research • http://www.comp.leeds.ac.uk/nlp • http://www.comp.leeds.ac.uk/arabic • Dr. Eric Atwell (Group Leader) http://www.comp.leeds.ac.uk/eric • Dr. Latifa Al-Sulaiti ( Corpus of Contemporary Arabic) • Dr. Andrew Roberts (open-source concordance tool for analysis of Arabic corpus texts, aConCorde) • Dr.Bayan Abu Shawar (A Corpus Based Approach to Generalise a Chatbot System) • Noorhan Abbas (Integrating the Qur'an into the NLTK Natural Language Tool Kit) • Amal Alsaif (An Automatic analyser of Discourse structure for Arabic) • Majdi Sawalha (Part of Speech Tagging Systems for Arabic Language Text ) • http://www.comp.leeds.ac.uk/sawalha • Abdul-Baquee Sharaf (A Computational Model for Knowledge Representation of the Quran)

More Related