200 likes | 673 Vues
EKI elektrooniline keelevara. Margit Langemets (EKI). Tüübid. Andmekogud Sõnastikud Tekstikogud ? Tekstikorpused Tarkvara LINGVISTIKA KEELETEHNOLOOGIA. Võimalikud esituskujud. e-tekst (puhas lihttekst või küljendus-vm struktuuritähistega) digitaalsed helilindid
E N D
EKI elektrooniline keelevara Margit Langemets (EKI) ES-i kõnekoosolek Tartus
Tüübid • Andmekogud • Sõnastikud • Tekstikogud ? • Tekstikorpused • Tarkvara LINGVISTIKAKEELETEHNOLOOGIA ES-i kõnekoosolek Tartus
Võimalikud esituskujud • e-tekst (puhas lihttekst või küljendus-vm struktuuritähistega) • digitaalsed helilindid • andmebaas, sõnastikusüsteem(EKI sisevõrgus) • avalik = Internetis (hrl otsimootoriga) • sh Keelevara ES-i kõnekoosolek Tartus
Keelekihid (EKI osakonnad) • Murded ja sugukeeled (MRD) • Jüri Viikberg (ilmumas). Eesti keele kogud • Grammatika ja õigekeel (GRM) • Kirjakeel (LKS) • vana kirjakeel (MRD, LKS) • Terminoloogia (ETK) + Tekstikorpused Tarkvara ES-i kõnekoosolek Tartus
Murded ja sugukeeled(MRD) • Andmekogud: murdearhiiv (2 mln) • 1947: 1 mln (< ES murdekogud) • sh Wiedemanni ee-sks sõnaraamatu alusel kogutud murrakusõnastikud (37 khk, à 7000–60000 sedelit, kokku üle 0,5 mln) • + 1 mln sedelit (< sh korrespondendid) • EKI ja ES ühisvara • 1956: süstemaatiline helilindistamine • sh väliseestlased, kõnekeel • magnet > digi (1992) > laser (1999) > ... ES-i kõnekoosolek Tartus
Murded ja sugukeeled (jätk) • Sõnastikud • Väike murdesõnastik I-II • Hargla murraku konsonantism (Salme Nigol) • Murdesõnaraamat (e-tekst) • Vadja sõnaraamat (e-tekst) • Etümoloogiasõnaraamat (e-tekst) • Tekstikogud (e-tekst) ES-i kõnekoosolek Tartus
Grammatika ja õigekeel (GRM) • Andmekogud: • Oskussõnavara koondkartoteek (0,5 mln, kogumine lõpetatud 2003) • Keelenõuandmebaas, sh arvutikartoteek • Kohanimede andmebaas ES-i kõnekoosolek Tartus
Grammatika ja õigekeel (jätk) • Keelenõuandmebaas • keelenõu alates 1947, alates 1966 keelenõuandepäevik • 1993: arvutikartoteek, 60 000 kirjet • www.eki.ee/keeleabi/ • sh avalik keelenõuvakk: 4200 kirjet • päringud: valdkonniti (nt õigekirjutus, kokku- ja lahkukirjutamine, tuletised, tähendus, lauseõpetus, tõlkimine, nimed ja nimetused jpm) ES-i kõnekoosolek Tartus
Grammatika ja õigekeel (jätk) (keelenõuvakk:) • nt otsitav sõna "moderaator" • vastus: Inimese kohta ei kõlba kasutada sõna "moderaator". Selle asemel sobivad nt diskussiooni juht, väitlusjuht, koosoleku juhataja, juhataja. ES-i kõnekoosolek Tartus
Grammatika ja õigekeel (jätk) • Kohanimede andmebaas KNAB • www.eki.ee/knab/ • Peeter Päll (1988–) • 100 000 kirjet (300 000 nime) • 35 000 Eesti nimeobjekti (64 000 nime) • 75 000 välisobjekti (240 000 nime) ES-i kõnekoosolek Tartus
Grammatika ja õigekeel (jätk) • Sõnastikud • Õigekeelsussõnaraamat (1976) • Eesti õigekeelsussõnaraamat ÕS 2006 • Tekstikogud • Eesti keele käsiraamat • Keelenõuanne soovitab (1–3) (e-tekst) ES-i kõnekoosolek Tartus
Kirjakeel (LKS) • Andmekogud: Eesti kirjakeele arhiiv (4,3 mln) • 1955–2000 • 1961: 1 mln sedelit • 2000: 4,3 mln • Sõnastikud: • "Eesti kirjakeele seletussõnaraamat" • 1988–2007, 26 vihikut, ligi 150 000 ms • e-tekst, töös: sõnastikusüsteem EELex • Soome-eesti I-II (2003) ES-i kõnekoosolek Tartus
EKI sõnastikusüsteem EELex (alates 2005, KT projekt 2006–2010) • Õigekeelsussõnaraamat ÕS 2006 • LEKS-baas (uued sõnad) + töös: seletav • Õpilase ÕS • Sõnapered (Silvi Vare) • Eesti-vene I–V (1997–(2008)) • Eesti-X sõnastikupõhi • läti, leedu, udmurdi, (ukraina), ... • üheköiteline seletav ES-i kõnekoosolek Tartus
Vrd sõnastikusüsteemid Euralexil 2006 • EELex (EKI) • Andres Loopmann, Ülle Viks, Margit Langemets • Papillon • ee-pr, Antoine Chalvin, Madis Jürviste, Mathieu Mangeot (TÜ) • TshwaneLex 2.0 • KASUTAJA: ee-ingl, Enn Veldi (TÜ) ES-i kõnekoosolek Tartus
Sõnastikusüsteem: milleks? • veebipõhine: • online-ajakohastamine • uued sõnastikud • paindlikud päringud • andmebaasi struktuur + trükivaade (nt Wordi kaudu) • kogu info ühes kohas: rohkem infot kui trükitud sõnaraamatus • edaspidi: viidad mujale • treenida 1) süsteemi ja 2) kasutajat ES-i kõnekoosolek Tartus
Vana kirjakeel (MRD, LKS) • Eesti piiblitõlke ajalooline konkordants (Kristiina Ross) • kõik säilinud eestikeelsed piiblitõlked ja piiblitõlkekatkendid kuni esimese trükipiiblini (1739) • otsingud: a) autorite või tekstide kaupa,b) kindla piiblikoha järgi, c) tänapäevastatud märksõna järgi, d) morfoloogilise vormi järgi • Wiedemanni sõnaraamat • kõik märksõnad (andmebaas sisevõrgus) ES-i kõnekoosolek Tartus
Terminoloogia (ETK) • HTM projekt 2007: terminisõnastike virtuaalkeskkonna loomine • katseprojekt: (haridus), füüsika • EKI sõnastikusüsteemi EELex eeskujul ES-i kõnekoosolek Tartus
Tekstikorpused • EKI tekstikorpus • 10 mln sõnavormi, 80% ajalehed • www.eki.ee/corpus/ • sõnaloend 2004–2007 (nt uute sõnade jaoks) ES-i kõnekoosolek Tartus
Tarkvara www.eki.ee/tarkvara/ • silbitus • tüübituvastus • morf analüüs • morf süntees • sõnaloendid sõnastike alusel • lemmad (ca 100 000) • sõnavormid (ca 200 000) • inglise-eesti sõnastik (toorandmebaas) • jm ES-i kõnekoosolek Tartus
Aitäh kuulamast! ES-i kõnekoosolek Tartus