220 likes | 403 Vues
Jezikovne tehnologije Uvodni pregled in prelet. doc.dr. Špela Vintar Oddelek za prevajalstvo Filozofska fakulteta, Univerza v Ljubljani 200 5 /200 6 spela.vintar@guest.arnes.si. Še n ekaj aplikacij. Eliza Sinteza govora … ali petja Odgovarjanje na vpra šanja Klepec. Pregled tem.
E N D
Jezikovne tehnologijeUvodni pregled in prelet doc.dr. Špela Vintar Oddelek za prevajalstvo Filozofska fakulteta, Univerza v Ljubljani 2005/2006 spela.vintar@guest.arnes.si
Še nekaj aplikacij • Eliza • Sinteza govora… ali petja • Odgovarjanje na vprašanja • Klepec
Pregled tem • Uvod v jezikovne tehnologije • Kako računalnik razume jezik • Jezikovni viri na internetu • Pregled slovarjev, korpusov in terminoloških virov na internetu • Korpusi • Osnove korpusnega jezikoslovja • Korpusi na internetu • Napredno iskanje in regularni izrazi • Označevanje korpusov • oblikoslovno označevanje in ostale ravni • standardi: eXtensible Markup Language (XML) • zapisi znakov in pretvorbe med njimi
Pregled tem II • Korpusna leksikografija • Kako s pomočjo korpusa nastane slovar? Gost: Simon Krek • Korpusna terminologija • Gradnja specializiranih korpusov in njihova izraba za terminografske namene • Govorne tehnologije • Razpoznavanje govora, tvorjenje govora in aplikacije. Gost: Jerneja Žganec Gros • Skladnja • Modeli za skladenjsko analizo jezika • Orodja in aplikacije • Projektne predstavitve
Organizacijske reči • Projektna / seminarska naloga • Izpit • “Kolobarjenje” predavateljev: doc. dr. Tomaž Erjavec (IJS) tomaz.erjavec@ijs.si doc. dr. Špela Vintar (FF UL) spela.vintar@guest.arnes.si mag. Irena Srdanović irena_srdanovic@hotmail.com + gosti • Konzultacije in govorilne ure: • petek 13.00-13.30, po potrebi po vajah, po dogovoru • Spletna stran:http://lojze.lugos.si/jt
Računalniška obdelava naravnega jezika • NLP = Natural Language Processing • računalniško jezikoslovje (Computational Linguistics) • veja računalništva in informatike, ki se navezuje na jezikoslovje • cilj: modeliranje naravnega jezika za različne računalniške aplikacije (črkovalniki, prevajalniki, lematizatorji itd.) • jezikovne tehnologije (Language Technologies) • razvoj konkretnih jezikovnih virov, orodij in programov
Jezik in računalnik • Kako računalnik “razume” jezik? • Jezikovne komponente v urejevalniku besedil:črkovalnik, preverjanje slovnice, pravila za segmentacijo besed, stavkov • Kaj je beseda, kaj je stavek? • vsi podatki so za računalnik najprej nizi znakov (strings) • besede so med seboj ločene s presledki • besede so med seboj ločene s presledki ali ločili • besede so med seboj ločene s presledkom ali ločilom in presledkom • javno- in zasebnopravni vidiki, itd., $4.000.000
Iskanje • Zanimajo me avtomobilska podjetja. • Bomo iskaliavtomobilska podjetja, avtomobilsko podjetje? • Če me zanimajo še zadetki v angleščini:automobile companies, automobile company X zadetkov Y zadetkov
Iskanje • Zanimajo me avtomobilska podjetja. • Bomo iskaliavtomobilska podjetja, avtomobilsko podjetje? • Če me zanimajo še zadetki v angleščini:automobile companies, automobile company X zadetkov Y zadetkov
Iskanje z Googlom avtomobilsko podjetje 573 avtomobilska podjetja 835 avtomobilska firma 43 avtomobilske firme 107 avtopodjetje 4 zastopnik avtomobilov 807 prodajalec avtomobilov 407 avtoprodaja 507 zastopstvo avtomobilov 405
Oblika vs. pomen • Kako bi bilo mogoče zgraditi “pametni” spletni iskalnik, ki bi iskal po pomenu besede? zdravljenje anoreksije anoreksija anoreksije anoreksičnost motnje hranjenja prehranjevalne motnje odklanjanje hrane ... zdravljenje zdravljenja zdravljenju terapija terapevtski ukrepi terapije ...
Problemi • Jezik ima lastnosti, ki jih človek razpozna zlahka, stroj pa mnogo težje. • Še posebej: • Večpomenskost: mnoge besede imajo več pomenov • Parafraze: mnoge vsebine je mogoče izraziti na več načinov • Nedoločenost: mnoga jezikovna sredstva imajo nedoločen pomen, ki ga razberemo šele iz sobesedila
Razsežnosti problema Razpoznavanje besed Oblikoslovje Skladnja Globina analize Pomenoslovje Pragmatika Obdelava znanja Področje Obseg jezikovnih podatkov Mnoge aplikacije zahtevajo le nizko raven analize.
Strukturalistični in empirični vidiki jezikoslovja • Strukturalistični pristop: • Jezik je omejen in urejen sistem, ki temelji na pravilih. • Avtomatska obdelava jezika je mogoča s pomočjo pravil. • Pravila se oblikuje v skladu s človeško jezikovno intuicijo. • Empirični pristop: • Jezik je vsota vseh svojih udejanjanj (v govorjenih in pisnih besedilih) • Posplošitve o jeziku so mogoče le na podlagi velikih besedilnih zbirk, ki nam služijo za vzorec jezika -> korpusi • Strojno učenje (Machine Learning): • “data-driven automatic inference of rules”
Jezikovne tehnologije:Raziskovalna področja • Oblikoslovje: besednovrstno označevanje (part-of-speech tagging), lematizacija, razčlemba sestavljenih besed • Skladnja: razpoznavanje stavčnih členov, slovničnih funkcij (osebek/povedek/...); popolna skladenjska analiza • Glasoslovje: razpoznavanje in tvorjenje govora, pogovorni sistemi • Pomenoslovje: razreševanje večpomenskosti, avtomatska izdelava semantičnih virov (tezavrov, ontologij) • Večjezikovne tehnologije: luščenje prevodnih ustreznic iz korpusov, strojno prevajanje in tolmačenje • Jezik in internet: iskanje podatkov, rudarjenje besedil (Text Mining), napredni spletni iskalniki
Jezikovne tehnologije:Aplikacije • korpusna orodja • konkordančniki in orodja za statistično obdelavo korpusov • orodja za izdelavo vzporednih korpusov (poravnava besedil) • orodja za označevanje korpusov • prevajalska orodja • terminološki programi, programi s pomnilnikom prevodov, strojni prevajalniki • govorne aplikacije • mobilna telefonija • odgovarjanje na vprašanja (Question Answering) • samopovzemanje dokumentov • rudarjenje podatkov, rudarjenje besedil
Dodatni viri • Language Technology World [http://www.lt-world.org/ie_index.html] • Interactive Online CL Demos[http://www.ifi.unizh.ch/CL/InteractiveTools.html] • Natural Language Processing – course materials[http://www.cs.cornell.edu/Courses/cs674/2003sp/]