1 / 11

Mark W. Davis and William C.Ogden AAAI 1997

Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web. Mark W. Davis and William C.Ogden AAAI 1997. Inleiding. Cross-Language Text Retrieval (CLTR): vraag in taal a documenten in taal b eventueel eenvoudige vertaling Doelen/doelgroepen:

lance
Télécharger la présentation

Mark W. Davis and William C.Ogden AAAI 1997

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web • Mark W. Davis and William C.Ogden • AAAI 1997

  2. Inleiding • Cross-Language Text Retrieval (CLTR): • vraag in taal a • documenten in taal b • eventueel eenvoudige vertaling • Doelen/doelgroepen: • wat kennis taal, moeite met queries • eventueel zelf al beoordelen • eerste selectie voor laten vertalen

  3. QUILT:Query User Interface with Light Translations • Prototype • Engelse queries vertaald naar Spaans • Documenten in Spaans, plus eenvoudige vertaling • Zoektermen highlighted • Vertaling zoektermen zo zichtbaar

  4. Het proces: vertalingen zoeken • Engels: • zinsgrenzen • bepalen woordsoorten: POS-tagger • filteren: alleen nuttige POS • gebruik van Porter stemming en stoplist • Engels-Spaans: • opzoeken term in tweetalig lexicon: Spaanse equivalenten met zelfde POS Dit levert een verzameling mogelijke vertalingen voor elk woord

  5. Het proces: disambiguatie • Gekozen voor gebruik van een parallel 'aligned' corpus (UN-teksten) • Engelse query levert documentvector van Engelse documenten • Voor iedere Spaanse term, voor ieder equivalent vector van Spaanse documenten • Equivalent met meest gelijke vector (normalized dotproduct) wordt gekozen

  6. Voorbeeld • Engelse query How has the threat of swine fever affected international trade? • POS, filter, stemming, stoplist NN_threat NN_swine NN_fever VB_affect JJ_intern NN_trade • Equivalenten, voorbeeld NN_fever calentur|chuch|fiebr|pasm • Spaanse query menaz perr fiebr afect intern comerc • NB Engelse woorden die NIET vertaald kunnen worden worden Spaans gestemd en meegenomen

  7. Evaluatie van systeem • Gebruik van TREC Spaanse testsets • Voor de queries gebruik van de Engelstalige querybeschrijvingen (=vertaling van de Spaanse querybeschrijvingen) • Evaluatie m.b.v. de pooled retrieved relevant set van de Spaanse systemen • Testen • gebruik alle equivalenten zonder selectie • met/zonder POS voor disambiguatie • met/zonder corpus voor disambiguatie • complete Quilt benadering

  8. Resultaten NB: Het uiteindelijke IR systeem van QUILT is vrij basaal, kan verbeterd met b.v. gebruik van phrases en met automatische feedback (Rocchio)

  9. Vertalen van documenten • Hier is gekozen voor een eenvoudiger vertaalproces: • zinsgrenzen • POS tagger • opzoeken in lexicon • meest frequente alternatief kiezen (frequentie op basis van heel groot corpus) • Engelse termen volledig, geen stemming • gebruiker kan ander alternatieven zien

  10. Evaluatie van nut systeem • Echt evalueren levert problemen op omdat het doel anders is dan van "gewone" IR • Criterium : aantal correct door gebruiker geidentificeerde relevante documenten voor de queries • Pretest: kennis van Spaans • Test: vergelijken resultaten van gebruikers op zelfde niveau met en zonder gebruik van de vertaling • Alternatieve test: observatie keuze van middelen bij allerlei taken

  11. Beschikbaarheid • Webversie van QUILT: Mundial http://crl.nmsu.edu/users/madavis/mundial.html functioneert niet (meer)? • Altavista gebruikt SYSTRAN, vele talen, commercieel product met vergelijkbare mogelijkheden

More Related