1 / 23

Folkets synonymlexikon och Folkets engelsk-svenska lexikon

Folkets synonymlexikon och Folkets engelsk-svenska lexikon. Viggo Kann professor i datalogi vid KTH Seminarium på Lexikaliska institutet 8 oktober 2008. Anyone can use it in an application Anyone can study it and modify it Anyone can take a copy of it

lynn
Télécharger la présentation

Folkets synonymlexikon och Folkets engelsk-svenska lexikon

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Folkets synonymlexikon och Folkets engelsk-svenska lexikon Viggo Kann professor i datalogi vid KTH Seminarium på Lexikaliska institutet 8 oktober 2008

  2. Anyone can use it in an application Anyone can study it and modify it Anyone can take a copy of it Anyone can improve it, release the improvements to the public, so that the whole community benefits (baserat på Four freedoms of free software, Richard Stallman) Vad är en fri språkresurs?

  3. …om du är en språkteknolog: Skaffa finansiering Använd resurser som är tillgängliga för forskare Anställ lexikografer som kan göra det stora jobbet …om du är en fri-programvaruhacker: Använd andra fria resurser Samla data från massor av människor, t ex med wiki eller webbformulär Typiska sätt att konstruera en resurs

  4. Folkets synonymordbok • Skapa ett svenskt synonymlexikon som en lista av synonyma ordpar. • Jag är lat och vill inte jobba så mycket. • Jag är snål och vill inte anställa någon. • Det konstruerade synonymlexikonet ska bli en fri språkresurs.

  5. Idéer • Konstruera automatiskt en massa ordpar som kan vara synonymer. • Använd tiotusen människor som var och en är villig att bidra en smula utan betalning, genom att kontrollera ordpar.

  6. Fler idéer • Använd Lexins svensk-engelska lexikons webbsida som hade 9 miljoner (nu 20 M) uppslagningar varje månad. • Användare besöker Lexin för att översätta ord och är därför nog motiverade att hjälpa mej. • Vid varje uppslagning får användaren möjlighet att avgöra om två ord är synonymer.

  7. Min plan • Konstruera möjliga synonympar. • Rensa synonymparslistan automatiskt. • Fråga massor av användare om paren är bra synonymer. • Analysera användarnas bedömningar och bestäm vilka par som behålls.

  8. Steg 1: Konstruera möjliga synonympar • Om vi har ett svensk-engelskt lexikon SE och ett engelsk-svenskt lexikon ES så kan vi översätta varje ord till engelska och tillbaka igen. • {(w,v): y: ySE(w)  vES(y)} eller{(w,v): y: ySE(w)  ySE(v)} • 616 000 ordpar genererades.

  9. Steg 2: Rensa synonymparslistan automatiskt • Använd RI (Random Indexing)[Kanerva, Kristoferson, Holst 2000]för att mäta avståenden mellan ord representerade i ett stort vektorrum. • Behåll bara ord med ett tillräckligt litet avstånd i vektorrummet. • 435 000 av orden fanns med i korpusen och en tredjedel rensandes bort.

  10. Steg 3: Fråga massor av användare om resten av paren är bra synonymer När en användare under 2005 slog upp i Lexin fick han eller hon förutom översättningen en fråga om synonymiteten hos ett slumpat ordpar ur listan. Användarna fick också föreslå egna synonympar som andra fick bedöma.

  11. Steg 4: Analysera användarnas bedömningar • 1,2 miljoner gjordes på mindre än 2 månader. • Jag gjorde statistik och följde utvecklingen och ställde in urvalskriterier och skräpdatatrösklar. • Många användare lämnade synpunkter.

  12. Bättre och bättre bedömningar allteftersom

  13. Fördelning av ordparens medelbedömningar

  14. Lite statistik (2008) • 2,8 M bedömningar har gjorts • 75 000 ordpar (bedömda ≥ 2) i lexikonet • 108 000 användarföreslagna ordpar • 62 000 olika användarordpar • 20 000 av dom har accepterats

  15. 5: rangrankslag 4: kategori stånd årskurs 3: fack gradgruppkvalitetnivå 3: sortstandardstil 2: skikt storleksordning typ 1: poäng stadga 0: uppdragutbilda Exempel: Synonymer till klass

  16. Hur undviks missbruk? • Många bedömningar krävs innan ett ordpar anses vara bra. • Ordparen som ska föreslås väljs slumpmässigt från en enorm lista. • Ordpar som föreslås av användarna stavningskontrolleras innan dom läggs till den enorma listan.

  17. Folkets definition av synonymitet • Exakta betydelsen av 'synonym' definierades inte. • Användarna bedömer efter sin intuitiva bild av konceptet synonymitet. • Det skapade lexikonet bygger på folkets egen definition av synonymitet, vilket förhoppningsvis är precis vad folket vill!

  18. Nytt projekt:Folkets engelsk-svenska lexikon • Stöds av .se-stiftelsen • Bygger på Lexin • Ska ersätta Lexins svensk-engelska lexikon under hösten • Automatiskt framtagna översättnings-förslag från Lars Ahrenberg ska bedömas av användarna • Användarna får själva utvidga lexikonet

  19. Planerat innehåll i lexikonet • uppslagsord på svenska och engelska • ordklass, uttal, böjningsformer • synonymer, andra relationer • översättningar (länkar) • definition, förklaring • exempel, idiom, sammansättningar • externa länkar (Wikipedia, dataterm etc)

  20. Planer • Utvidgas automatiskt med användarnas hjälp. Ny version varje natt. • När lexikonet utvidgats tillräckligt ska det bli fritt nedladdningsbart i sin helhet i XML-format och kunna användas i språkteknologiska tillämpningar som fri resurs.

  21. Frågor • Vilka böjningsformer ska finnas med? • Ska böjningsformer ha översättningar? • Ska användarna få föreslå uttal, och i så fall i vilken form? Ljudinspelning? • Ska egennamn vara med? Vilka? • Automatkomplettering vid uppslagning: hur ska kompletteringarna rangordnas?

  22. Länkar • Denna presentation:http://www.nada.kth.se/~viggo/papers.php • Folkets synonymlexikon:http://lexin.nada.kth.se/synlex.html • Folkets engelsk-svenska lexikon:http://folkets.nada.kth.se(tas i drift i november 2008)

More Related