270 likes | 398 Vues
Valency Lexicon of Czech Verbs. Zdeněk Žabokrtský obhajoba disertační práce 29. září 2005 ÚFAL MFF UK. Osnova. Úvod Re šeršní část Teoretická část Praktická část Závěr. Úvod a motivace.
E N D
Valency Lexicon of Czech Verbs Zdeněk Žabokrtský obhajoba disertační práce 29. září 2005 ÚFAL MFF UK
Osnova • Úvod • Rešeršní část • Teoretická část • Praktická část • Závěr
Úvod a motivace • valence – schopnost lexikální jednotky, především slovesa, vázat na sebe jiné výrazy a mj. tak zakládat větné struktury • stát – někde, o někoho, za něco, za něčím, při někom… • odpovídat – někomu na něco, za někoho, něčemu • brát – něco někomu, za něco, roha, zasvé,… • valenci lexikální jednotky nelze obecně předpovědět pro automatické zpracování potřebujeme slovník • předpokládané možnosti využití valenčního slovníku • lemmatizace, tagging • parsing • word sense disambiguation • strojový překlad... • hlavní cíl předkládané práce: vytvořit dostatečně rozsáhlý, kvalitní valenční slovník českých sloves pro využití v NLP
Zkoumání valence v češtině • dva dominující teoretické směry • Teorie větných vzorců [Daneš,Hlavsa-87] • Funkční generativní popis [Sgall-67][Panevová-80] • existující data • valenční slovník BRIEF[Pala,Ševeček-97] • Český syntaktický slovník [Skoumalová-01] • Slovesa pro praxi [Svozilová et al.-97] • PDT-VALLEX [Hajič et al.-03] • VerbaLex [Hlaváčková,Horák-05]
angličtina [Fillmore-02] FrameNet [Levin-93] [Kingsbury-Palmer-02] PropBank němčina [Helbig,Schenkel-69] [Erk et al.-03]SALSA polština [Polanski-92] slovenština [Nižníková,Sokolová-98] ruština [Silnickij-99] [Mel’čuk,Žolkovskij-84] ETAP [Boguslavsky-04] bulharština [Popova-87] francouzština, holandština [van den Eynde,Mertens,03] angličtina-japonština [Bond,Shirai-97] Zkoumání valence v jiných jazycích
Struktura slovníku • základní termíny: • lexém • lexikální jednotka • lemma • m-lemma • v našem slovníku: • lexikální jednotka = formálně popsaný valenční rámec + neformálně popsaný význam + další atributy • při návrhu makrostruktury slovníku je třeba zohlednit řadu jazykových jevů: • reflexivita (brát/brát se/brát si ) • varianty lemmat (myslet /myslit) • homografie (žít I / žítII) • vidové „dvojice“ (vzít/brát/ brávat ) • determinovaná slovesa (jít /chodit)
Struktura slovníkového hesla • pro každou LU • valenční rámec – posloupnost slotů • další atributy: příklad užití, glosa, typ kontroly ... • pro každý slot v rámci • funktor + obligatornost • povrchová forma
Valence v syntaktických stromech:dvouvrstvý model valence • zavedení termínů pro explicitní popis výskytů rámců na tektogramatické a analytické rovině • (deep or surface) frame evoker • (deep or surface) frame slot filler • (deep or surface) frame instance • deep/surface – ve stylu t-roviny a a-roviny PDT 2.0 • zavedení termínů pro koordinační struktury • direct vs. effective children/parents/subtree root • direct vs. terminal coordination member
Surface vs. deep frame evoker (1) miluje milovat (a) Jan Marii Jan Marie (b) směje smát_se Marie se mu Marie #PersPron (c) milovat milovat Jan bude Marii Jan Marie
Surface vs. deep frame evoker (2) a a (d) Jan Jan dal dát dát Petrovi hrušku Marii jablko Marii jablko Petr hruška ale ale zpívat zpívat (e) nebude zpívat Jan Jan bude Marii Marii #Neg a a (f) Jan Jan bude poslouchat psát poslouchat psát hudbu dopis hudba dopis (g) bojí bát_se Jan se Jan smát smát_se #Cor
Surface vs. deep frame filler(1) potkal potkat bratra bratr Jan (a) Jan svého mladšího #PersPron mladý potkal potkat a a Jan Jan (b) Marii Petra Marie Petr čekal čekat na Jan (c) Jan Marie Marii
slíbil slíbit že přijít Jan Jan (d) přijde #PersPron čekal čekat na a Jan a Jan (e) Marie Petr Marii Petra čekal čekat a a Jan Jan (f) na na Marie Petr Marii Petra Surface vs. deep frame filler(2)
Alternace • pozorování: u řady sloves páry velmi blízkých LU • naložit vůz cementem – cement na vůz • odevzdat nález policii – na policii • ukradl bance peníze – peníze z banky • vyčistit šaty od bláta – bláto z šatů • osázet park stromy – stromy do parku • vyjít na kopec – vyjít kopec • oloupat slupku z jablka – jablko • předpoklad: jde o pravidelné transformace (pravidelné pro skupinu sloves), jejichž znalost lze využít ke snížení redundance slovníku • trojí projev alternace • změna valenčního rámce • změna lexikálního významu • změna SFE
Alternační model valenčního slovníku lexeme lexical units lexical forms CLU CLU BLU DLU … … … BLU DLU DLU CLU BLU DLU • dvě formy slovníku • minimální (BLU+alternace) • expandovaná (BLU+DLU) • zavedení nových termínů • základní lex. jednotka (BLU) • odvozená lex. jednotka (DLU) • shluk lex. jednotek (CLU)
Anotační schéma VALLEXu • výběr sloves ke zpracování • prostředí pro ruční editace slovníkových hesel • nástroje umožňující využití existujících jazykových zdrojů (tradiční slovníky, vzorek z ČNK...) • logická struktura slovníku (mikrostruktura a makrostruktura) • fyzická struktura slovníku - datové formáty • konverze mezi formáty • nástroje pro vyhledávání • nástroje pro testování konzistence slovníku
Výběr sloves • postupné zpracování v dávkách po několika stovkách sloves (resp. m-lemmat) • hlavní kritérium – četnost podle ČNK • kumulativní pokrytí slovesných m-lemmat v ČNK:
Anotační prostředí • primární podoba hesel – jednoduchý řádkově-orientovaný textový formát (regulární jazyk) • editace v textovém editoru WinEdt • režim pro zvýrazňování syntaxe
VALLEX 1.0 • první zveřejněná verze valenčního slovníku, podzim 2003 • autoři hesel: Markéta Lopatková, Karolína Skwarska, Václava Benešová • cca 1400 sloves (cca 1000 m-lemmat), 4000 valenčních rámců • distribuce – slovník je zdarma ke stáhnutí po zaregistrování na Internetu: http://ckl.mff.cuni.cz/zabokrtsky/vallex/1.0 • neomezená licence pro výzkumné a výukové nekomerční účely
Možnosti vyhledávání ve VALLEXu • v primárním textovém formátu • během anotace přímo ve WinEdt • vyhledávací WWW interface založený na regulárních výrazech • v HTML verzi (podle vybraných kritérií) • v XML verzi (např. pomocí XPath)
Změny od vydání VALLEX 1.0 • kvalitativní změny (VALLEX XML, verze B) • přechod na novou terminologii (lexémy, lexikální jednotky...) • sloučení vidových protějšků • připraveno na alternační model • kvantitativní změny – současná (interní) verze VALLEX 1.5: • 1624 lexémů (1841 m-lemmat) • 4414 lexikálních jednotek
Hlavní přínos práce (1) implementace anotačního schématu, zveřejnění VALLEX 1.0 (nyní cca 130 zaregistrovaných uživatelů) (2) doplnění teoretického modelu • upřesnění užívaných termínů • zavedení nových termínů pro popis instancí valenčních rámců v závislostních stromech • alternační model slovníku (3) přehled dalších projektů souvisejících s valencí
Další využití dat/zkušeností/nástrojů • PDT-VALLEX [Hajič-03] • VerbaLex [Hlaváčková,Horák-05] • švédsko-český slovník verbonominálních konstrukcí [Cinková,Žabokrtský-05] • VALEVAL [Bojar et al.-05]