1 / 39

Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike

Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike. Jernej Vičič jernej.vicic@upr.si. Mentor: prof. dr Igor Kononenko Somentor: doc. dr Tomaž Erjavec. Vsebina. Pojmovnik Strojno prevajanje Statistično strojno prevajanje

zoltin
Télécharger la présentation

Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Predstavitev doktorske disertacije Hitra postavitev prevajalnih sistemov na osnovi pravil za sorodne naravne jezike Jernej Vičič jernej.vicic@upr.si Mentor: prof. dr Igor Kononenko Somentor: doc. dr Tomaž Erjavec

  2. Predstavitev doktorske disertacije Vsebina • Pojmovnik • Strojno prevajanje • Statistično strojno prevajanje • Prevajanje na osnovi pravil in plitko razčlenjevanje • Jezikovna gradiva in njih hitra izdelava • Rezultati in nadaljnje delo

  3. Predstavitev doktorske disertacije 1 Pojmovnik • lema – lemma, • krn – stem, • paradigma, • POS – Part Of Speech, • oblikoskladenjske oznake MSD • (projekt MULTEXT-EAST), • oznake projekta JOS.

  4. Predstavitev doktorske disertacije 2 Strojno prevajanje • Machine translation (MT) is the application of computers to the task of translating texts from one natural language to another (EAMT) • (FAMT) Fully Automatic Machine Translation translation of natural languages with no user intervention

  5. Predstavitev doktorske disertacije 2 Strojno prevajanje, zgodovina • Začetek • prva leta, • petdeseta leta prejšnjega stoletja, • osemdeseta in začetki devetdesetih, • zdaj.

  6. Predstavitev doktorske disertacije 2 Strojno prevajanje, zgodovina • 1700 in prej: Leibniz in Descartes, • “translating machines”, trak z besedami, • pravi začetki digitalnega MT • petdeseta leta • Georgetown-IBM experiment, • ALPAC report (1966), • pozna devetdeseta (IBM Brown - SMT), • danes: Google, Microsoft, odprtokodne rešitve.

  7. Predstavitev doktorske disertacije 2 Strojno prevajanje, zgodovina The Good News According to Mark: “The spirit indeed is willing, but the flesh is weak.” prevod: “The vodka is good, but the flesh is rotten.”

  8. Predstavitev doktorske disertacije 2 Strojno prevajanje, razdelitev • Strojno prevajanje - SP • SP na osnovi pravil (Rule-based MT) • Statistično SP (Statistical MT) • SP na osnovi primerov (Example-based MT) • Hibridno SP (Hybrid MT)

  9. Predstavitev doktorske disertacije Plitko razčlenjevanje Popolno ali delno razčlenjevanje

  10. Predstavitev doktorske disertacije 3 Statistično strojno prevajanje • temelji na verjetnosti, • temelji na velikih količinah primerov, • matematično „lepi“ modeli, • rezultate težko preverjamo (zakaj), • napake težko odpravljamo.

  11. Predstavitev doktorske disertacije 3 Statistično strojno prevajanje • Predstavniki: • Google translate, • Microsoft BING translator, • IBM (Brown in sodelavci), • Moses (financiran projekt evropske skupnosti), • Menola (moja malenkost – na podlagi št. 3).

  12. Predstavitev doktorske disertacije 3 Statistično strojno prevajanje • Potrebujemo velik dvojezični korpus: • poravnane povedi izvornega ter ciljnega jezika; • izdelamo prevajalni model. • Potrebujemo velik enojezični korpus: • izdelamo jezikovni model ciljnega jezika.

  13. Predstavitev doktorske disertacije 4 Strojno prevajanje na osnovi pravil • Rule-Based Machine Translation, • najbolj razširjeno (če zanemarimo Google), • osnovni problem: • dolgotrajna izdelava virov, • možna rešitev problema: • samodejna izdelava virov.

  14. Predstavitev doktorske disertacije 4 RBMT - viri • oblikoskladenjsko označeni enojezični slovarji, • dvojezični prevajalni slovarji, • prevajalna pravila, • sistemi za razdvoumljanje (označevalec POS, MSD), • skladenjski razčlenjevalci povedi.

  15. Predstavitev doktorske disertacije 4 Arhitektura tipičnega sistema

  16. Predstavitev doktorske disertacije 5 Jezikovna gradiva • Apertium kot primer prevajalnega sistema na osnovi pravil. • leksikon izvornega jezika • leksikon ciljnega jezika • dvojezični leksikon • pravila prenosa • enojezični korpus, čim večji • pravila končnega urejanja

  17. Predstavitev doktorske disertacije 5 Problemi s slovenščino • miza • mize • mizi • mizo • mizi • mizo table

  18. Predstavitev doktorske disertacije 5 Gradnja slovarjev • gradimo iz korpusa, • naš korpus je že označen, • uporabimo paradigme.

  19. Predstavitev doktorske disertacije 5 Paradigme

  20. Paradigma: zvonč-ek[N] Krn: zvonč Besedna vrsta N (noun, samostalnik) ek -- "ncmsa--n“ -- Sometn -- samostalnik občno_ime moški ednina tožilnik -živost ek -- "ncmsn" -- Somei -- samostalnik občno_ime moški ednina imenovalnik ka -- "ncmda" -- Somdt -- samostalnik občno_ime moški dvojina tožilnik ka -- "ncmdn" ka -- "ncmsg" ke -- "ncmpa" kih -- "ncmdl" kih -- "ncmpl" ki -- "ncmpi" ki -- "ncmpn" koma -- "ncmdd" koma -- "ncmdi" kom -- "ncmpd" kom -- "ncmsi" kov -- "ncmdg" kov -- "ncmpg" ku -- "ncmsd" ku -- "ncmsl" ka -- "ncmsa--y"

  21. Predstavitev doktorske disertacije 5 … njih graditev • Večjezični korpus MULTEXT-EAST; • izbrali smo 2 jezika: slovenščina, srbščina. • Izdelamo spisek vseh pojavnic z oznakami MSD in lemami.

  22. Predstavitev doktorske disertacije 5 … njih graditev • izdelava začetnih paradigem za vsako lemo, • lema, • krn, • zapisi za vsako besedno obliko.

  23. Predstavitev doktorske disertacije 5 … njih graditev • Dve paradigmi združimo v novo paradigmo če: • se ujemata v prvi oznaki MSD – besedna vrsta, • sta istega spola, • se vsi zapisi le dopolnjujejo (se medsebojno ne izključujejo).

  24. Predstavitev doktorske disertacije <pardef n="zvonč-ek[N]“ lemmata=“zvonček”> • <pardef n="zvonč-ek[N]“ lemmata=“zvonček vsadek”> • <e><p><l>ek</l><r>ek<s n="ncmsa--n"/></r></p></e> • <e><p><l>ek</l><r>ek<s n="ncmsn"/></r></p></e> • <e><p><l>ka</l><r>ek<s n="ncmda"/></r></p></e> • <e><p><l>ka</l><r>ek<s n="ncmdn"/></r></p></e> • <e><p><l>ka</l><r>ek<s n="ncmsg"/></r></p></e> • <e><p><l>ke</l><r>ek<s n="ncmpa"/></r></p></e> • ... • </pardef> • <pardef n=“vsad-ek[N]“ lemmata=“vsadek”> • <e><p><l>ku</l><r>ek<s n="ncmsd"/></r></p></e> • <e><p><l>ku</l><r>ek<s n="ncmsl"/></r></p></e> • … • </pardef>

  25. Predstavitev doktorske disertacije 5 … njih graditev • Zapišemo sestavljene paradigme; • Zapišemo zapise za vsako lemo.

  26. Predstavitev doktorske disertacije <pardef n="zvonč-ek[N]" lemmas="zvonček zvitek zvezek zvarek žužek zrezek znesek zmenek zmazek zavojček zavitek zavihek zaslužek zaselek zarodek žarek žarek žarek žarek žarek zapisek zamašek zaključek zajček zaimek zahtevek zadetek zadek začetek vzdevek vsadek vršiček voziček vosek višek venček užitek učinek tujek trenutek trebušček torek sunek strošek strdek stolček stebriček stavek spominek šopek sodček smrček skupek škrjanček škandalček šipek sinček sestavek sestanek sesek samoprispevek samček rožiček razporek razloček prstek prostorček prizidek privesek pristanek prispevek prisesek prirastek pripomoček primerek prijateljček priimek prihranek prigrizek pridržek pridelek preudarek prestopek prestanek presledek presežek presadek preostanek prekršek predsodek predelek prašiček prašek požirek povedek poudarek potoček postopek postanek posnetek popravek popek ponedeljek ponaredek pomenek pododdelek podlistek podatek podaljšek počitek pljunek plamenček petek pesek peklenšček ovinek otoček ostanek osnutek oslinek osebek opravek olupek odtenek odstotek odstavek odpustek odpadek odmerek odlomek oddelek očitek obstanek obronek oblaček obkladek obesek občutek nožek norček nastanek nasmešek našitek napredek napotek napitek nameček nadzidek nadomestek možiček mošnjiček molek mleček mladiček metek mehurček maček lonček ljubljenček ljubček listek kužek kupček krokodilček kozarček kotiček košček konjiček kolek kanček kamenček jermenček jašek jarek izvržek izvleček iztrebek izstrelek izsledek izrodek izrastek izloček izdelek izcedek izbljuvek hribček hrček hlebček grmiček griček gozdiček fantek dvojček dušek dosežek dojenček dohodek dogodek dodatek dobiček delček dedek deček davek curek cucek človeček članek četrtek božiček angelček "> <e><p><l>ek</l><r>ek<s n="ncmsa--n"/></r></p></e> <e><p><l>ek</l><r>ek<s n="ncmsn"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmda"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmdn"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmsg"/></r></p></e> <e><p><l>ke</l><r>ek<s n="ncmpa"/></r></p></e> <e><p><l>kih</l><r>ek<s n="ncmdl"/></r></p></e> <e><p><l>kih</l><r>ek<s n="ncmpl"/></r></p></e> <e><p><l>ki</l><r>ek<s n="ncmpi"/></r></p></e> <e><p><l>ki</l><r>ek<s n="ncmpn"/></r></p></e> <e><p><l>koma</l><r>ek<s n="ncmdd"/></r></p></e> <e><p><l>koma</l><r>ek<s n="ncmdi"/></r></p></e> <e><p><l>kom</l><r>ek<s n="ncmpd"/></r></p></e> <e><p><l>kom</l><r>ek<s n="ncmsi"/></r></p></e> <e><p><l>kov</l><r>ek<s n="ncmdg"/></r></p></e> <e><p><l>kov</l><r>ek<s n="ncmpg"/></r></p></e> <e><p><l>ku</l><r>ek<s n="ncmsd"/></r></p></e> <e><p><l>ku</l><r>ek<s n="ncmsl"/></r></p></e> <e><p><l>ka</l><r>ek<s n="ncmsa--y"/></r></p></e> </pardef>

  27. Predstavitev doktorske disertacije 5 Razdvoumljanje, označevalnik MSD Ni drevesa v gozdu in videl sem drevesa v gozdu. • drevesa Soser drevo • drevesa Sosmt drevo • uporabimo za razdvoumljanje

  28. Predstavitev doktorske disertacije 5 Prevajalna pravila • pravila plitkega prenosa • lokalna okolica (končna) • regularni izrazi končni avtomati

  29. Predstavitev doktorske disertacije 5 Prevajalna pravila • vzorec • končna dolžina • leksikalne enote (LU) • ukrep • akcije nad vzorcem

  30. Predstavitev doktorske disertacije 5 Prevajalna pravila • vzorec • končna dolžina • leksikalne enote (LU) • ukrep • akcije nad vzorcem

  31. Predstavitev doktorske disertacije 5 Prevajalna pravila • vzorec • končna dolžina • leksikalne enote (LU) • ukrep • akcije nad vzorcem

  32. Predstavitev doktorske disertacije 5 Prevajalna pravila - uporaba • leksikalni in strukturni prenos, • lokalno ujemanje oblikoskladenjskih kategorij.

  33. Predstavitev doktorske disertacije 6 Rezultati

  34. Predstavitev doktorske disertacije 6 Rezultati – ročno popravljen sistem • Google summer of code • GSOC2011: sl-es • GSOC2012: sh-sl

  35. Predstavitev doktorske disertacije 6 Rezultati – ročno popravljen sistem

  36. Predstavitev doktorske disertacije 6 Prevajalni sistem Guat • naslov: http://jt.upr.si/guat • preizkus uspešnosti metod, • kaže najnovejše (dobre) poizkuse, • omogoča komunikacijo z možnimi sodelavci.

  37. Kupiti ću lep novi automobil i otići ću na more. Kupil bom lep nov avtomobil in odšel bom na morje. Sutra ću kupiti veoma lepim pištoljem. Jutri bom kupil zelo lepo pištolo. Čerington, sutra biće lep dan. Gospod, jutri bo lep dan.

  38. Predstavitev doktorske disertacije 6 Nadaljnje delo • postavitev novih prevajalnih sistemov: • uporaba predstavljenih metod, • ročna izboljšava jezikovnih gradiv, • Ugor (sl-sh) - produkcijska kakovost, • Sardela (sl-es) – še v povojih. • http://jt.upr.si/jernejevdoktorat/

  39. Predstavitev doktorske disertacije 7 Prispevki k znanosti • metoda za statistično strojno prevajanje z drevesi izpeljav za manj uporabljene jezike; • metoda za samodejno označevanje paradigem; • metoda za samodejno luščenje paradigem za visoko pregibne jezike in izdelava pripadajočih leksikonov; • ocenjevanje pravil za strukturni prenos; • hitra izdelava prevajalnega sistema na osnovi pravil plitkega prenosa za sorodne jezike.

More Related