1 / 44

Jaak Vilo

EKKTT 2006-2010. Jaak Vilo. http://www.hm.ee/index.php?popup=download&id=4964. Kuhu peab minema lisaraha?. Sinna, kus mõju kõige suurem... Juurde inimesi – praegused üliõpilased peaksid jõudma põhitäitjateks Uued suuremad ülesanded. Keel. Keeletehnoloogia. Keeletehnoloogia.

tress
Télécharger la présentation

Jaak Vilo

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. EKKTT 2006-2010 Jaak Vilo

  2. http://www.hm.ee/index.php?popup=download&id=4964

  3. Kuhu peab minema lisaraha? • Sinna, kus mõju kõige suurem... • Juurde inimesi – praegused üliõpilased peaksid jõudma põhitäitjateks • Uued suuremad ülesanded

  4. Keel

  5. Keeletehnoloogia

  6. Keeletehnoloogia

  7. Mida oodatakse 2010. aastaks? • Avalikuks kasutuseks mõeldud prototüübid • Tulemid mida riik ja äriettevõtted võivad hakata (vabalt) juurutama

  8. Oodatavad tulemused • Kõnetuvastus • Kõnesüntees (ilmekas ette lugemine) • Masintõlge • Grammatikakorrektor (õigekirja kontroll) • Inimene-masin dialoogisüsteemid • Info-otsingu lahendused • Leksikograafi töökeskkond

  9. Sõnastagem: • Millist kasu annab iga projekt eesti keele kasutamiseks 21. sajandi arvutites • Milline on esimene toode mis jõuab minu töö tulemusel massideni • Mida oleks juurde vaja, et tooted jõuaksid kasutusse

  10. Keeletarkvara saamislugu Keeletarkvara Keeleressursid Alusmoodulid Alusuuringud

  11. Mõned alusmoodulid • Morfoloogiline analüüs ja süntees • Sõnamoodustuslik analüüs ja süntees • Süntaktiline analüüs ja süntees • Semantiline analüüs ja süntees • Kõneaktide tuvastaja (küsimused, vastused, käsud…)

  12. Ressursid: Kirjalikud korpused • Kirjaliku keele koondkorpus • Paralleelkorpused • Süntaktiliselt analüüsitud korpus (puudepank) • Semantiliselt ühestatud ja märgendatud korpus • Vigade korpus • Korpuste kasutajaliidesed

  13. Ressursid: suulise keele korpused • Suulise eesti keele korpus -> 2M sõna • Dialoogikorpus -> 0.5M sõna • Kõnepuudega inimeste erikorpus • Segmenteeritud sidusa kõne korpus • Kõnetehnoloogia andmebaasid • Difoonid, kõnenäited, uudiste korpus … • Aktsendikorpus

  14. Ressursid: sõnastikud ja andmebaasid • Elektrooniliste sõnastike XML formaadid • Leksikaalsemantiline andmebaas • Püsiühendite andmebaas • Formaalsed keelekirjeldused

  15. Seni (2006-07) 20 projekti: • Tartu Ülikool (13 projekti, 7.6M) • Tallinna Tehnikaülikool KübI (3, 2.8M) • Eesti Keele Instituut (3, 3.54) • Filosoft (1, 0.45M)

  16. Olulisi küsimusi täna: • Milline on projektide hetkeolukord • Kuidas tagada integreerimine ja juurutus • Kuidas tugevdada koostööd • Kuidas populariseerida EKKTT projekti

  17. Info levitamine • Iga projekti jaoks peaks tekkima oma “kodu” • Uudised ja PR

  18. Projekti või teema koduleht: • Projekti kirjeldus • Tulemite kirjeldus • tehniline dokumentatsioon • artiklid • Tarkvara • lähtekoodiga • juurutamise juhend • Juhised integreerimiseks

  19. Litsentsid ja tarkvara • Kuidas tagada tulemite võimalikult kerge juurutamine praktikasse? • vabad litsentsitingimused • info levitamine • Kas kõik moodulid on vabalt kasutatavad? • Kas moodulid on tehniliselt ühendatavad?

  20. Kuidas tagada kasutatavus? • Programmeerimisliides (API) • mugavus, kiirus, teostatavus • Multi-platvorm • standardsed keeled, üldised algoritmid, ... • Nii detailsed kirjeldused, et saab realiseerida ka mujal

  21. Litsentsitingimused • GPL, LGPL – “viiruslikud” • Apache, BSD – vabamad • Asutused on sageli litsentsi omanikud • Oluline: Eestis vabalt kasutatav • Teise (erineva) litsentsi võimalus välismaistele kommerts-ettevõtetele

  22. Ühine infrastruktuur

  23. Riist- ja tarkvara infrastruktuur • Serverid • Kõik ressursid: korpused, andmed, jne • Ühised päringusüsteemid • Integreerimine • Tarkvara • Kas on sellist tarkvara millele vaja litsentse? • üldiselt oleks parem neid vältida, sest muidu ei saa teised pärast tulemusi kasutada

  24. Arvutusserverid • Treenimiseks • Kõnesüntees, analüüs – HMM jne • Statistiline maintõlge • Analüüs: • Mahukas tekstide analüüs • Morf. analüüs, süntees, ... • Ühestamine, ... • ...

  25. Tulemuste integreerimine • Rühmad peaksid rohkem suhtlema et tekiks tugevam koostöö – lõpptooted • Et ei oleks üksteisest isoleeritud üksikud projektid vaid suurem tervik ja olulised verstapostid

  26. Suuremad eesmärgid • Kas oleks vaja rohkem suuremaid projekte kus nõutakse kõigi moodulite ühendamist? • Selliseid, kus töötavad koos eri asutused ja valmistavad ühised kasutatavad tulemid • WP-d, Milestone’id, Deliverable’id jne.

  27. Ei ole üksi ükski maa • Mida tehakse mujal ressursside ühendamiseks?

  28. ESFRI • European Strategy Forum on Research Infrastructures • Launched in April 02 • Roadmap: • Addressing seven (7) fields of Research and major challenges • Thirty Five (35) projects identified • Research community produced ideas that will open up new and unexpected areas of knowledge

  29. Role of ESFRI • To foster an “open method of coordination”between different countries • stimulation role: to discuss the long term vision at European level and to support the development of a European RI policy • incubation role: to bring projects to a point where decisions by ministers are possible

  30. Keeleressurside ja -tehnoloogia infrastruktuur • Ettevalmistusprojekti taotlus on sees • 32 liiget, 22 EL riiki • 1. etapp – 3a ettevalmistusprojekt (5.5M€) • 2. etapp – põhiprojekt (120+45M€) • Riigid maksaksid 1/3 • Eesti ettevalmistus: 27K€, omafin 10K€

  31. Meie ees seisavad samad probleemid mis kogu Euroopa keeletehnoloogia standardiseerimisel • Aga meil on “lihtsam” kuna oleme väiksemad (kuid töö tuleb teha samas mahus) • Oluline, et tekiksid uued tulemid ja rakendused

  32. Juhtkomitee • On siin selleks, et tagada riigi huvide kaitse • Kõik ettepanekud on oodatud

  33. Juhtkomitee • Jaak Vilo – TÜ - esimees, • Einar Meister – TTÜ - aseesimees • Heiki-Jaan Kaalep – TÜ • Kaili Müürisep– TÜ • Karl Pajusalu– TÜ • Indrek Reimand– HTM • Urmas Sutrop– EKI • Uuno Vallner – MKM, RISO

  34. Koordinaator • Maarika Traat, TÜ

  35. Tänane konverents: • Käimasolevate projektide hetkeseis • kas asjad lähevad õiges suunas, piisava tempoga • Tuleviku väljavaated • kas me oleme teel sinna kuhu on vaja jõuda • mida teha selleks, et jõuda eduka tulemuseni • Rohkem reaalset koostööd

  36. Tänane konverents: • Palun, hoiame ajakavast kinni • Jätame ruumi küsimustele ja aruteludele • Räägime ennekõike programmi eesmärkide saavutamisest – edusammudest ja probleemidest • Nii seni tehtust kui ka tegemata asjadest • Ja võimalikult palju lähitulevikust

More Related