1 / 20

Processing Unknown Words

Processing Unknown Words. Wouter Schellekens Merlijn Hutteman. Introductie. Mensen begrijpen onbekende woorden Veel NLP systemen gaan uit van een gecompleteerd lexicon Gaan veelal uit van ‘ general concept learning ’

garran
Télécharger la présentation

Processing Unknown Words

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Processing Unknown Words Wouter Schellekens Merlijn Hutteman

  2. Introductie • Mensen begrijpen onbekende woorden • Veel NLP systemen gaan uit van een gecompleteerd lexicon • Gaan veelal uit van ‘general concept learning’ • Besproken HPSG systeem richt zich op extractie van linguïstische eigenschappen

  3. Introductie • Andere systemen: uit grote corpora analyse door statistiek • Dit systeem: meer gericht op grammaticale analyse van individuele zinnen

  4. Doelstellingen i Incorporeren van informatie- gebaseerd concept ‘unknowness’ • Woorden zijn niet geheel onbekend, bevatten ‘revisable’ informatie • Hierdoor onderscheid tussen ‘open-’ en ‘closed class’ woorden

  5. Doelstellingen ii Maximaal gebruiken kenmerken HPSG • Zoveel mogelijk ‘rich representations’ als HPSG • Daarbij gebruik van zelfde grammatica en lexicon • Van belang voor hergebruik bestaande grammatica’s en feedback voor theorievorming

  6. Doelstellingen iii Mogelijkheid tot domein-onafhankelijke inferentie en lexicon updates • Lexiconschrijver moet kunnen aangeven, welke informatie nog mogelijk te reviseren is

  7. Lexicale acquisitie • Nieuwe contextuele verschijning:- vergelijkbaar- nieuwe- of conflicterende informatie

  8. Lexicale acquisitie (1) a. Im Axon tritt ein Ruhepotential auf. b. Das Potential wandert über das Axon. (2) a. Das Ohr reagiert auf akustische Reize. b. Ein Sinnesorgan reagiert auf Reize. (3) a. Die Nase ist für Gerüche sensibel. b. Die sensible Nase reagiert auf Gerüche.

  9. Lexicale acquisitie • De reviseerbare informatie indelen in de twee klassen: ‘specializable’ en ‘generalizable’ • Specializable: gender, case, etc. • Generalizable: restricties in argumentselectie, predactief vs. attributief gebruik • Beiden kunnen in dezelfde lexicale entry voorkomen

  10. Representatie • Alle reviseerbare informatie uitdrukbaar in formele typen • Specialisatie: informatie omzetten in simpele type unificatie: non_fem & neut = neut • Generalisatie vereist echter type vereniging: pred V attr = prd • Generalisatie maakt gebruik van hulptype u_g, voor markering beginstate onbekende informatie

  11. Representatie • Om problemen als incorrecte unificatie bij generalisatie te voorkomen twee nieuwe features: gen en ctxt • ctext is de opslag voor contekst-geünificeerde informatie, bij conflicten → ongrammaticaliteit • gen bevat generaliseerbare informatie, alle gen waarden: u_g als disj. type gen ctxt

  12. Representatie In HPSG als volgt gedefinieerd:

  13. Processing • Allereerst gewone parsing • Bij een onbekend woord failt het parsen niet, maar gebruikt een generieke entry • Hierna: updaten van lexical entries, bestaat uit 4 stappen

  14. Processing • Projecteren FS op alle woordenGevolg: alle woorden context verrijkt en lijst van ‘update candidates’ • Bepalen concrete update waarden • Bij een matchende generalisatie clause: vereniging van gen waarde van het oude woord met de ctxt waarde van de parse projectie • Bij een matchende specialisatie clause wordt het parseresultaat van de specialisatie gebruikt

  15. Processing • Controleer of de update een verschil maakt, dwz. dat een generalisatie geen minder algemeen resultaat oplevert, en vice versa • Wijzigingen daadwerkelijk doorvoeren; oude entry verwijderen, herzien, en toevoegen

  16. Voorbeeld • Die Nase ist ein Sinnesorgan. • Das Ohr perzipiert. • Eine verschnupfte Nase perzipiert den Gestank.

  17. Voorbeeld Na: Die Nase ist ein Sinnesorgan. Na: Das Ohr perzipiert

  18. Voorbeeld Na: Das Ohr perzipiert Na: Eine verschnupfte Nase perzipiert den Gestank.

  19. Punten van discussie • Methode lijkt niet overeenkomstig met de mens; menselijke redenering op basis van incompleet bewijs • Systeem heeft moeite met ambiguïteit • Gevaar van overgeneratie • Grens tussen stricte, grammaticale voorspellingen en openheid tot revisie

  20. Credits

More Related