1 / 34

Arabic Dialect Syntax and Tree Adjoining Grammar

Arabic Dialect Syntax and Tree Adjoining Grammar. Owen Rambow Columbia University rambow@cs.columbia.edu. Overview. Morphology and Syntax Phrase Structure for MSA Dialect Syntax Parsing Dialect Syntax Tree Adjoining Grammar. Morphology and Syntax. Rich morphology crosses into syntax

ona
Télécharger la présentation

Arabic Dialect Syntax and Tree Adjoining Grammar

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Arabic Dialect Syntax andTree Adjoining Grammar Owen Rambow Columbia University rambow@cs.columbia.edu

  2. Overview • Morphology and Syntax • Phrase Structure for MSA • Dialect Syntax • Parsing Dialect Syntax • Tree Adjoining Grammar

  3. Morphology and Syntax • Rich morphology crosses into syntax • Pro-drop / Subject conjugation • Verb subcategorization and subject/object clitics • Verbtransitive+subject+object • Verbintransitive+subject but not *Verbintransitive+subject+object • Verbtransitive+passive+subject but not *Verbtransitive+passive+subject+object • Verbintransitive+passive but not *Verbintransitive+passive+subject

  4. Morphology and Syntax • Morphological interactions with syntax • Agreement • Full: e.g. Noun-Adjective on number, gender, and definiteness • Partial: e.g. Verb-Subject on gender (in VSO order) • Definiteness • Noun compound formation, copular sentences, etc. • Nouns+DefiniteArticle, Proper Nouns, Pronouns, etc.

  5. Morphology and Syntax • Morphological interactions with syntax (continued) • Case • MSA is case marking: nominative, accusative, genitive • Almost-free word order • Case is often marked with optionally written short vowels • This effectively limits the word-order freedom in published text • Agglutination • Attached prepositions create words that cross phrase boundaries ل+المكتبات li+Almaktabāt for the-libraries [PP li [NP Almaktabāt]] • Some morphological analysis (minimallysegmentation) is necessary even for statistical approaches to parsing

  6. Sentence Structure Traditional Arabic Grammar: Two types of Arabic Sentences • Verbal sentences • [Verb Subject Object] (VSO) • كتب الاولاد الاشعارWrote the-boys the-poemsThe boys wrote the poems • Copular sentences • [Topic Complement] • الاولاد شعراءthe-boys poetsThe boys are poets

  7. Verbal Sentences • Verb agreement in VSO with gender only • كتب الولد\الاولاد wrote3MascSing the-boy/the-boys • كتبت البنت\البنات wrote3FemSing the-girl/the-girls • Pronominal subjects are cliticized • كتبتُ wrote-youMascSing • كتبتمwrote-youMascPlur • كتبوا wrote-theyMascPlur

  8. VSO vs SVO vs OVS • كتبتالبناتالاشعارwrote.fem the-girls the-poemsThe girls wrote the poems • كتبنالاشعارwrote-they.fem the-poemsThey.fem wrote the poems • البناتكتبن الاشعارthe-girls wrote-they.fem the-poemsThe girls wrote the poems • الاشعار كتبتهاالبناتthe-poems wrote.fem-them the girlsThe poems, the girls wrote them

  9. VSO, VOS, SVO, OVSDescriptive Generalization • VSO or VOS: Agreement with subject in gender only • Subject pronoun is a clitic on verb and replaces agreement • SVO order has preposed subject followed by verb with subject clitic • Object pronoun is a clitic on verb (does not replace subject agreement) • OVS order has preposed object followed by verb with object clitic

  10. VSO Phrase Structure English: vanilla case S NP VP the boys V NP wrote the poems

  11. VSO Phrase Structure VSO: Option 1 Penn Arabic Treebank S VP V NP NP wrote the poems the boys

  12. VSO Phrase Structure VSO: Option 2 S NP VP the boys V NP wrote the poems

  13. VSO Phrase Structure VSO: Option 2 S V S wrote NP VP the boys V NP  the poems

  14. VSO Phrase Structure VSO: Option 2 S V S Head Movement wrote NP VP the boys V NP  the poems

  15. SVO Phrase Structure Option 1: English phrase structure S Problem: Arabic does not look like English (subject clitic on verb) NP VP the boys V NP wrote the poems

  16. SVO Phrase Structure Option 2: S VP V NP NP wrote the poems the boys

  17. SVO Phrase Structure Option 2: Penn Arabic Treebank S NP VP the boys V NP NP wrote the poems 

  18. SVO Phrase Structure S Option 3: NP S the boys V S wrote NP VP  V NP  the poems

  19. Copular sentences • [Topic Complement] Definite Topic, Indefinite Complement • الولد شاعرthe-boy poetThe boy isa poet • [Auxiliary Topic Complement] Auxiliaries (kāna and her sisters) • Tense, Negation, Transformation, Persistence • كانالولد شاعراwas the-boy poet The boy was a poet • ليسالولد شاعراis-not the-boy poet The boy is not a poet

  20. Copular Sentences • Types of complements • Noun/Adjective/Adverb • الولد ذكي the-boy smartThe boy is smart • Prepositional Phrase • الولد في المكتبة the-boy in the-libraryThe boy is in the library

  21. SVO, OVS as “Copular Sentence” • Verb-Sentence • الاولاد كتبوا الاشعار [the-boys [wrote-they poems]] The boys wrote the poems • الاشعار كتبتهاالبنات [the-poems [wrote.fem-them the girls]] The poems, the girls wrote them • Copular-Sentence • الولد كتابه كبير [the-boy [book-his big]] The boy, his book is big

  22. Common Structural Ambiguities • Third masculine/feminine singularare structurally ambiguous • Verb3MascSingular NounMasc Verb subject=he object=Noun Verb subject=Noun • Passive and active forms are often similar in standard orthography • كتب /kataba/ he wrote • كُتب /kutiba/ it was written

  23. Overview • Morphology and Syntax • Phrase Structure for MSA • Dialect Syntax • Parsing Dialect Syntax • Tree Adjoining Grammar

  24. Dialect Syntax • MSA • Verb Subject Object كتب الاولاد الاشعار wrote.masc the-boys the-poems • Subject Verb Object (Full agreement) الاولاد كتبوا الاشعار the-boys wrote-they.masc the-poems • LEV, EGY • Subject Verb Object الاولاد كتبو الاشعار The-boys wrote.masc.pll the-poems • Less frequent: Verb Subject Object كتبو الاولاد الاشعار wrote.masc.pl the-boys the-poems • Full agreement (or clitic?) in both orders

  25. Dialect Syntax: Noun Phrases • Possessives: • Idafa construction • Noun1 ofNoun2 encoded structurally • ملك الاردن king Jordan the king of Jordan / Jordan’s king • Dialects have an additional common construct • Noun1 <particle> Noun2 • LEV: الملك تبع الاردن the-king belonging-to Jordan • <particle> differs widely among dialects • Pre/post-modifying demonstrative article • MSA: هذا الرجل this the-man this man • EGY: الراجل ده the-man this this man

  26. Code Switching • MSA and Dialect mixing in speech • phonology, morphology and syntax MSA LEV لا أنا ما بعتقد لأنه عملية اللي عم بيعارضوا اليوم تمديد للرئيس لحود هم اللي طالبوا بالتمديد للرئيس الهراوي وبالتالي موضوع منه موضوع مبدئي على الأرض أنا بحترم أنه يكون في نظرة ديمقراطية للأمور وأنه يكون في احترام للعبة الديمقراطية وأن يكون في ممارسة ديمقراطية وبعتقد إنه الكل في لبنان أوأكثريةساحقة في لبنان تريد هذا الموضوع،بس بدي يرجع لحظةعلى موضوع إنجازات العهد يعني نعم نحكي عن إنجازات العهد لكن هلالنظامفي لبناننظامرئاسيالنظامفي لبنان من بعد الطائف ليس نظامرئاسي وبالتاليالسلطة هي عمليا بيد الحكومة مجتمعة والرئيس لحود أثبت خلالممارسته الأخيرة بأنه لما بيكون فيشخص مسؤول في منصب معين وأنا عشت هذا الموضوع شخصيا بممارستي في موضوع الاتصالاتلما بياخد مواقفصالحة ضمن خطاب ومبادئ خطاب القسمهو إلى جانبهإنمامش مطلوب منرئيس جمهورية هو يكون رئيسالسلطة التنفيذية لأنه منه بقى في لبنان ما بعد إتفاق الطائف رئيس السلطة التنفيذيةعليه التوجيه عليه إبداء الملاحظات عليه القول ما هو خطأ وما هو صح عليه تثمير جهودالوطنية الشاملة كي يظل في مصالحة وطنية كي يظل فيتوافق ما بين المسلم والمسيحي في لبنان يحتضن أبناء هذا البلد ما يترك المسار يروح باتجاه الخطأ نعم إنما خطاب القسم كان موضوع مبادئ طرحت هو ملتزم فيهااللي مشيوا معهوآمنوا فيها التزموا فيها أنا أثبت خلال الأربع سنوات بالممارسة الحكومية أني التزمت فيها ولما التزمنا بهذا الموضوع كان الرئيس لحود إلى جنبنا في هذا الموضوع، أما الموضوع الديمقراطي أنا بتفهم تماما هذا هالوجهة النظر بس ما ممكن نقول إنه الدستور أو تعديله هو أو إمكانيةفتح إعادة انتخاب ديمقراطي ضمن المجلس والتصويت إلى ما هنالك لرئيسجمهورية بولاية ثانية هومسح هيئة في جوهر الديمقراطية هذا بالأقليعنيقناعتي في هذا الموضوع. Aljazeera Transcript http://www.aljazeera.net/programs/op_direction/articles/2004/7/7-23-1.htm

  27. Parsing Arabic Dialects:Problem Dialect MSA Treebank الاولاد كتبو الاشعار ? كتبو Parser الاشعار الاولاد

  28. Parsing Arabic Dialects • Many different dialects • Dialects are spoken, few written resources • Code switching • Conclusion: Can’t assume we will get treebanks for each dialect • What to do?

  29. Parsing Arabic Dialects • Idea: use resources for MSA, apply them to dialects • We will be investigating three approaches

  30. كتبو كتب الاشعار الاولاد الاشعار الاولاد Parsing Arabic Dialects:Proposed Solution 1 Dialect MSA Treebank الاولاد كتبو الاشعار كتب الاولاد الاشعار Parser

  31. Treebank كتبو Parser الاشعار الاولاد Parsing Arabic Dialects:Proposed Solution 2 Dialect MSA Treebank الاولاد كتبو الاشعار Parser

  32. Grammar Grammar كتبو Parser الاشعار الاولاد Parsing Arabic Dialects:Proposed Solution 3 Dialect MSA Treebank الاولاد كتبو الاشعار Parser

  33. Overview • Morphology and Syntax • Phrase Structure for MSA • Dialect Syntax • Parsing Dialect Syntax • Tree Adjoining Grammar

More Related