250 likes | 374 Vues
Combining pattern-based and machine learning methods to detect definitions for eLearning purposes. Eline Westerhout & Paola Monachesi. Overview. Extraction of definitions within eLearning Types of definitory contexts Grammar approach Machine learning approach Conclusions Future work
E N D
Combining pattern-based and machine learning methods to detect definitions for eLearning purposes Eline Westerhout & Paola Monachesi
Overview • Extraction of definitions within eLearning • Types of definitory contexts • Grammar approach • Machine learning approach • Conclusions • Future work • Discussion
Extraction of definitions within eLearning • Definition extraction: • question answering • building dictionaries from text • ontology learning • Challenges within eLearning: • corpus • size of LOs
Types - I • is_def: Gnuplot is een programma om grafieken te maken ‘Gnuplot is a program for drawing graphs’ • verb_def: E-learning omvat hulpmiddelen en toepassingen die via het internet beschikbaar zijn en creatieve mogelijkheden bieden om de leerervaring te verbeteren . ‘eLearning comprises resources and applications that are available via the internet and provide creative possibilities to improve the learning experience’
Types - II • punct_def • Passen: plastic kaarten voorzien van een magnetische strip, [...] toegang krijgt tot bepaalde faciliteiten. • ‘Passes: plastic cards equipped with a magnetic strip, that [...] gets access to certain facilities. ’ • pron_def • Dedicated readers. Dit zijn speciale apparaten, ontwikkeld met het exclusieve doel e-boeken te kunnen lezen. • ‘Dedicated readers. These are special devices, developed with the exclusive goal to make it possible to read e-books.’
Grammar approach • General • Example • Results
Identification of definitory contexts • Make use of the linguistic annotation of LOs (part-of-speech tags) • Domain: computer science for non-experts • Use of language specific grammars • Workflow • Searching and marking definitory contexts in LOs (manually) • Drafting local grammars on the basis of these examples • Apply the grammars to new LOs
Grammar example Een vette letter is een letter die zwarter wordt afgedrukt dan de andere letters.
<rule name="simple_NP" > <seq> <and> <ref name="art"/> <ref name="cap"/> </and> <ref name="adj" mult="*"/> <ref name="noun" mult="+"/> </seq> </rule> Een vette letter is een letter die zwarter wordt afgedrukt dan de andere letters.
<query match="tok[@ctag='V' and @base='zijn' and @msd[starts-with(.,'hulpofkopp')]]"/> Een vette letter is een letter die zwarter wordt afgedrukt dan de andere letters.
<rule name="noun_phrase"> <seq> <ref name="art" mult="?"/> <ref name="adj" mult="*" /> <ref name="noun" mult="+" /> </seq> </rule> Een vette letter is een letter die zwarter wordt afgedrukt dan de andere letters.
<rule name="is_are_def"> <seq> <ref name="simple_NP"/> <query match="tok[@ctag='V' and @base='zijn' and @msd[starts-with(.,'hulpofkopp')]]"/> <ref name="noun_phrase" /> <ref name="tok_or_chunk" mult="*"/> </seq> </rule> Een vette letter is een letter die zwarter wordt afgedrukt dan de andere letters.
<definingText> • <markedTerm> • <tok sp="n" msd="onbep,zijdofonzijd,neut" ctag="Art" base="een" id="t214.2">Een</tok> • <tok sp="n" msd="attr,stell,vervneut" ctag="Adj" base="vet" id="t214.3">vette</tok> • <tok sp="n" msd="soort,ev,neut" ctag="N" base="letter" id="t214.4">letter</tok> • </markedTerm> • <tok sp="n" msd="hulpofkopp,ott,3,ev" ctag="V" base="zijn" id="t214.5">is</tok> • <tok sp="n" msd="onbep,zijdofonzijd,neut" ctag="Art" base="een" • id="t214.6">een</tok> • <tok sp="n" msd="soort,ev,neut" ctag="N" base="letter" id="t214.7">letter</tok> • ... • <tok sp="n" msd="onbep,neut,attr" ctag="Pron" base="andere" • id="t214.14">andere</tok> • <tok sp="n" msd="soort,mv,neut" ctag="N" base="letter" id="t214.15">letters</tok> • <tok sp="n" msd="punt" ctag="Punc" base="." id="t214.16">.</tok> • </definingText>
Machine learning • Features • Configurations • Results
Features • Text properties: bag-of-words, bigrams, and bigram preceding the definition • Syntactic properties: type of determiner within the defined term (definite, indefinite, no determiner) • Proper nouns: presence of a proper noun in the defined term
Final results • precision (50 % and 40 %) • recall (20 % and 30 %) • f-score (30 % and 25 %)
Related work • Question answering: • Fahmi & Bouma (2006) • Miliaraki & Androutsopoulos (2004) • Glossary creation: • Muresan & Klavans (2002) • Ontology learning: • Storrer & Wellinghof (2006) • Walter & Pinkal (2006)
Future work • try different features • evaluate other classifiers • extend to all types of definitions • scenario based evaluation of the GCD
Discussion • Good features? • Apply filtering: yes or no? • How to evaluate the performance? • scenario based? • compare with manual annotation? • ...