1 / 42

Tvorba valenčního slovníku arabských sloves

Tvorba valenčního slovníku arabských sloves. PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační lingvistiky, MFF UK). Osnova. Úvod Obdobné projekty pro arabštinu Funkční generativní popis Nástroje a zdroje

yuki
Télécharger la présentation

Tvorba valenčního slovníku arabských sloves

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tvorba valenčního slovníku arabských sloves PhDr. Viktor Bielický (Ústav Blízkého východu a Afriky, FF UK) RNDr. Otakar Smrž, PhD. (Ústav formální a komputační lingvistiky, MFF UK)

  2. Osnova • Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly

  3. Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly

  4. Úvod • Valenční slovník nejfrekventovanějších sloves v moderní spisovné arabštině (Bielický and Smrž, 2008; 2009) • Zakotvení ve Funkčním generativním popisu – „arabský VALLEX“  • Použití • běžný uživatel jazyka • NLP systémy a aplikace • Pro arabštinu dosud chybí takto komplexní lexikografický zdroj

  5. Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly

  6. Semantic Valence ofArabicVerbs (al-Qahtani, 1988; 2004) • 200 rámců pro nejfrekventovanější arabská slovesa • W. A. Cook – Case Grammar Matrix Model (1979) • propoziční pády („essential to theproposition“ → vynucené sémantickou valencí slovesa): • Agent (A), Experiencer (E), Benefactive (B), Object (O), Locative (L) • modální pády („optionaladjunctsofvirtuallyanypredication“→ volitelné prvky, které nejsou vynuceny sémantickou valencí slovesa): • Time, Manner, Instrument, Cause, Result, Purpose, outerLocative, outerBenefactive

  7. W. A. Cook – Case Grammar Matrix • pádový rámec (case frame): • 1-3 propoziční pády • O obligatorní pro všechna slovesa (prší – prázdný hloubkový pád O) • E - B - L se vzájemně vylučují • O více než 1x v jenom rámci • pořadí pádu v rámci – na prvním místě povrchový Sub • později rozšíření o propoziční pád času (EssentialTime case (T))

  8. Cookův revidovaný maticový model * Os – pád Objektu u stativních sloves Basic verbs – pouze A, O Experiential verbs – E, A, O Benefactive verbs – B, A, O Locative verbs – L, A, O

  9. Skryté role (Covertroles) • skryté role hloubkového pádu na povrchové rovině (covert case roles): • částečně skryté (patrially covert) • vypustitelné (deletable) → fakultativní v FGD waṣafa Zaydun al-manẓara Zayd described the scene pádový rámec: waṣafAEO/E-del (Experiencer je vypuštěn) valenční rámec (FGP): ACT ADDR PAT

  10. Skryté role (Covertroles) • zcela skryté (totally covert) • koreferenční – kumulace dvou rolí (FGD Ø) darasa Zaydun al-kitāba Zayd studie the book pádový rámec: darasaAEO/A=E (Agent je totožný s Experiencer) valenční rámec (FGP): ACT PAT • lexikalizované – některá role (Obj) inkorporována v sémantice slovesa camila Zaydun Zayd worked = Zayd did some work pádový rámec: camilaAO/O-lex (Objekt je lexikalizován) valenční rámec: ACT

  11. Pilot ArabicPropbank (Palmeretal., 2008) • anotace sémantické informace do arabského korpusu (PennArabicTreebank) • dvě fáze anotace • vytvoření framesetů (rámců) pro jednotlivé lexikální jednotky (jednotlivé významy slovesa) → uchovány zvlášť • podle framesetů jsou anotovány jednotlivé korpusové výskyty slovesa • typy slovesných doplnění • sémanticky vynucená doplnění ARG0 až ARG4 – proměnné → ve framesetechjsoujim přiděleny sémantické role (experiencer, organizer, event, agent, theme…) • 19 volných doplnění (adjunctivearguments)

  12. ArabicPropbank – famesety slovesa `aqām význam 1 význam 3 význam 2

  13. SyntacticlexiconofArabicverbs (Loukiletal., 2008) • pouze povrchová syntax → není sémantika • struktura slovníku podle formátu LexicalMarkup Framework (ISO 24613) • slovník by měl obsahovat: • charakteristika sloves z hlediska intranzitivity/tranzitivity (přímé i nepřímé přes předložku) • morfematická realizace doplnění (akuzativ; předložka – pouze fī, can, li-, calā, bi-, `ilā, min) • syntaktická funkce doplnění (podmět, předmět) • příklad ve větě • význam • redundance • rozlišování mezi tzv. „slovesnou a jmennou větou“ (vliv tradičního arabského pohledu na syntax – rozdíl mezi VSO a SVO)

  14. sloveso taḥarraka („pohnout se, pohybovat se“) framex framey

  15. Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly

  16. Funkční generativní popis (FGP) • valence – schopnost autosémantického slova vázat se s dalšími slovy • FGP – závislostně orientovaný formalismus – člení popis jazyka do více rovin • valence souvisí s hloubkovou tektogramatickou rovinou ovšem i s rovinou morfematickou, kde se valenční doplnění realizují/nerealizují v podobě morfémů • typy slovesných doplnění • aktanty (vnitřní doplnění) – Aktor(ACT), Patient (PAT), Adresát (ADDR), Origo (ORIG), Efekt (EFF) • volná doplnění – místo, čas, směr, nástroj, příčina, způsob… • fakultativinost/obligatornost doplnění • hlavní inspirací metodologie VALLEXu a PDT-Vallexu

  17. Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly

  18. Nástroje a zdroje • Korpusové zdroje • PragueArabicDependencyTreebank (PADT) • anotovaný korpus novinových textů - 1 mil. tokenů (připravovaná verze 2.0; Smrž etal., 2008) • tři roviny anotace – funkční morfologie, analytická rovina syntaxe, tektogramatická rovina • zdroj frekvence sloves • ArabicGigaword (Graff, 2007) • novinové texty – plain text • Corpus Linguae Arabicae (CLARA) (Zemánek, 2001) • cca 50 mil. slov – plain text • texty různého druhu • Tištěné slovníky • dvojjazyčné • arabské výkladové

  19. PADT

  20. ArabicGigaword

  21. CLARA

  22. Nástroje a zdroje • ElixirFM (Smrž, 2007) • implementace funkční arabské morfologie • základem elektronická lexikální databáze z Buckwalterova arabského morfologického analyzátoru (Buckwalter, 2002) • opravená a rozšířená verze ElixirFM (Smrž andBielický, 2009) • propojení s morfologickou rovinou PADT; práce na propojení s analytikou a tektogramatikou • TrEd • anotační prostředí pro ElixirFM • tvorba valenčních rámců/závislostních stromů

  23. ElixirFM Online Interface(http://quest.ms.mff.cuni.cz/cgi-bin/elixir/index.fcgi) • Resolve • tokenizace a morfologická analýza • Inflect • deklinace a konjugace • Derive • derivace jmenných tvaru od sloves (pasivní a aktivní participium, podstatné jméno slovesné • Lookup • vyhledávání derivátů stejného slovního kořene/kmene • vyhledávání podle angličtiny

  24. Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly

  25. Charakteristika arabského slovesa • konsonantní kořen • diskontinuitní morfém nesoucí význam • morfém vokalizace • afix – prefix, sufix, infix • kořen + vokalizace (+ afix) → kmen • arabské sloveso • trojkonsonantní/čtyřkonsonantní kořen • jednoduchý slovesný kmen → kořen + vokalizace • rozšířený slovesný kmen → kořen + vokalizace + afix/dloužení vokálu

  26. morfosémantické vzory a jejich korelace • I jednoduchý slovesný kmen činnostní – KaTaBpsát (často tranzitivní) přechodný stav – FaRiḤradovat se (někdy tranzitivní) trvalý stav – ḤaSuNbýt hezký (intranzitivní) • rozšířený slovesný kmen IIḤaSSaNzlepšit (tranz.) – faktitativní/kauzativní, intenzivní, deklarativní, denom. III QāTaLbojovat (tranz.) – objektový, konfrontační, denominativní IV `aNTaĞvyrobit (tranz.) – faktitivní/kauzativní, časový/prostorový aspekt, denom. V taḤaSSaNzlepšit se (intranz.) – reflexivní, pasivní, denominativní VI taRāSaL dopisovat si (intranz.) – reciproční, postupný děj, předstírání stavu VII inQaSaM být rozdělen (intranz.) – pasivní, reflexivní VIII iḪtaBaRprověřit si (tranz./intranz.) – reflexivní, dativní, pasivní, denominativní IX iSWaDDzčernat, být černý (intranz.) – od adjektiv – stav/změna stavu X istaḪBaRinformovat se (tranz.) – deziderativní, reflexivní, estimativní, denominativní

  27. Charakteristika arabského slovesa • není infinitiv • vid – rozlišen formou konjugace nebo složeným tvarem → jinak spíše aktionsart • konjugace • sufigovaná (perfektum – ukončený děj) • prefigovaná (imperfektum – průběh, opakování) • mody – indikativ, subjunktiv, jusiv, energikus, imperativ • verbonominální deriváty • participium aktivní a pasivní, verbální substantivum • tzv. introflektivní pasivum (velmi produktivní) – pravidelnou změnou vokalizace • KaTaBnapsal → KuTiBbyl napsán • funkce: • pasivum • impersonální konstrukce

  28. Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly

  29. Reprezentace valence v ElixirFM • závislostní strom • trojkonzonantní/čtyřkonzonantní slovesný lexém • lemma (3.os. sg. perf.) • lexikální jednotky – jednotlivé významy slovesa definované v podobě valenčního rámce • valenční rámec • funktory (FGP) • omezení na morfematické vyjádření slovesného doplnění • obligatornost/fakultativnost doplnění

  30. tarğam („přeložit, tlumočit“)ACT PAT ORIG EFF

  31. tarğam („přeložit, tlumočit“)ACT PAT ORIG EFF

  32. tarğam („přeložit, tlumočit“)ACT PAT ORIG EFF

  33. Morfematické vyjádření slovesného doplnění • explicitně zachycené formy • pádové formy: 1- (nominativ), 2- (genitiv), 4- (akuzativ) • determinace/indeterminace: -I/-D • konstrukce s adjektivy: A- • forma předložky: bi-, li-, fī, can, calā, `ilā, min, maca, ḥattā, munḏu, bayna, dūna, ḥawla, taḥta… • vedlejší věty obsahové: `inna, `anna, `an, mā `iḏā • část frazému • podstatné jméno slovesné (maṣdar) • slovesné imperfektum - není jasné, o jaký typ doplnění se jedná → EFF vs. COMPL

  34. závislá část frazému انشرح له صدري inšaraḥa la-hu ṣadrī potěšila-se z-toho.CAUS hruď-moje.DPHR Potěšilo mě to DPHR (ḫāṭir|qalb|ṣadr) CAUS (li-)

  35. Morfematické vyjádření slovesného doplnění • implicitně zachycené formy, např.: • LOC (místo) – fī, bi-, ḥawla, bayna, calā, taḥta, fawqa, `amāma, warā`a, ḫalfa, dāḫila, ḫāriğa… • DIR1 (směr od) – min, min calā, min taḥti, min warā’i, min fawqi… • CAUS (příčina) – li-, bi-sababi, bi-faḍli, min `ağli, natīğatan li-, bi-ḥukmi, li-`anna…)

  36. implicitně zachycená forma LOC بدء الحرب وضعه أمام أمر واقع bad`u `l-ḥarbi waḍaca-hu `amāma `amrin wāqicin začátek války.ACT položil-jeho.PAT před věc reálnou.LOC Začátek války ho postavil před hotovou věc ACT PAT (4-) LOC • LOC (místo) – fī, bi-, ḥawla, bayna, calā, taḥta, fawqa, `amāma, warā`a, ḫalfa, dāḫila, ḫāriğa…

  37. Slovesa typu „prší“ v arabštině تمطر { السماء } tumṭiru [`s-samā`u] vyvolávají-déšť nebesa.ACT Prší • pršet – valenční rámec: Ø • arabština – vždy ACT, i když je vypuštěný

  38. Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly

  39. Stav projektu – první fáze • vytvořeno 3.500 valenčních rámců • 2.000 vytvořeno automaticky – informace o intranzitivitě v Buckwalterovi • 1.500 vytvořeno manuálně • hlavně základní významy sloves • další kontrola a zjemňování rámců • studium literatury → upřesňování a dotváření teoretických východisek

  40. Úvod • Obdobné projekty pro arabštinu • Funkční generativní popis • Nástroje a zdroje • Charakteristika arabského slovesa • Reprezentace valence v ElixirFM • Stav projektu • Další úkoly

  41. Další úkoly • anotace méně častých významů sloves a frazeologie • dořešení statutu některých problematických skupin sloves (modální, pomocná, impersonální) • zavedení informace o pasivizaci, reciprocitě, frekvenci výskytu (PADT) a sémantické třídě • doplnění/propojení s korpusovými příklady • korelace mezi valenčními rámci primárních a odvozených sloves (?) • dopracování a zjemnění českých glos • možnost promítnutí valenčního rámce slovesa do participií a verbálního substantiva • konzultace problematických otázek s rodilým mluvčím • budoucnost – napojit ElixirFM na ArabicWordnet

  42. Odkazy AL-QAHTANI, DuleimMasoud. Semantic Valence ofArabicVerbs. Beirut : LibraireduLibanPublishers, 2005. BIELICKÝ, Viktor, SMRŽ, Otakar. BuildingtheValency Lexicon ofArabicVerbs. In Proceedingsofthe 6thConference on LanguageResources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008. BIELICKÝ, Viktor, SMRŽ, Otakar. EnhancingtheElixirFM Lexicon withVerbalValencyFrames. In Proceedings of the Second International Conference on Arabic Language Resources and Tools. Cairo, Egypt, April 22-23, 2009. BUCKWALTER, Tim. BuckwalterArabicMorphologicalAnalyzerVersion 1.0. LDC2002L49, 2-58563-257-0, 2002. COOK, Walter A. Case Grammar : Developementofthe Matrix Model (1970-1978). Washington, D.C. : Georgetown University Press, 1979. GRAFF, David. ArabicGigawordThirdEdition. LDC2007T40, 1-58563-460-3, 2007. LOUKIL, Noureddine, HADDAR, Kais, BEN HAMADOU, Abdelmajid. Towards a Syntactic Lexicon ofArabicVerbs. In HLT & NPL withintheArabicWorld : ArabicLanguage & LocalLanguagesProcessing – Status Updates & Prospects. LREC 2008 Conference, Marrakech, Morocco, 2008. PALMER, Martha, BABKO-MALAYA, Olga, BIES, Ann, DIAB, Mona, MAAMOURI, Mohammed, MANSOURI, Aousand ZAGHOUANI, Wajdi. A Pilot ArabicPropbank. In Proceedingsofthe 6thConference on LanguageResources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008. SMRŽ, Otakar. FunctionalArabicMorphology : FormalSystemandImplementation. PhD thesis, Charles University in Prague, 2007. SMRŽ, Otakar, BIELICKÝ, Viktor. ElixirFM : High-levelImplementationofFunctionalArabicMorphology. http://sourceforge.net/projects/elixir-fm/. 2009. SMRŽ, Otakar, BIELICKÝ, Viktor, KOUŘILOVÁ, Iveta, KRÁČMAR, Jakub, HAJIČ, Jan and ZEMÁNEK, PETR. PragueDependencyArabicTreebank : A Word on theMillionWords. In Proceedingsofthe 6thConference on LanguageResources & Evaluation (LREC'08). Marrakech, Morocco, May 28-30, 2008. ZEMÁNEK, Petr. CLARA (Corpus Linguae Arabicae) : AnOverview. In ACL 2001. Workshop Proceedings on ArabicLanguageProcesing : Status andProspects. Toulouse, France, 2001, p. 111-112.

More Related