1 / 16

KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE. Janja Sterle Živa Malovrh. UVOD. Predstavitev teme Izbira gradiva Zgraditev korpusa Označevanje besedil Obdelava s programom Wordsmith Izdelava glosarja. IZBIRA TEME. Predstavitev asist. Senje Pollak Področje je že določeno. IZBIRA GRADIVA.

mateja
Télécharger la présentation

KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE Janja Sterle Živa Malovrh

  2. UVOD • Predstavitev teme • Izbira gradiva • Zgraditev korpusa • Označevanje besedil • Obdelava s programom Wordsmith • Izdelava glosarja

  3. IZBIRA TEME • Predstavitev asist. Senje Pollak • Področje je že določeno

  4. IZBIRA GRADIVA • Izhodišče članki, doktorske disertacije in diplomske naloge v angleščini • 15 člankov, 4 magistrske naloge, 11 doktorskih disertacij • Slovenščina: 43 člankov, 8 diplomskih nalog, 3 magistrske naloge, 6 doktorskih disertacij • 13 povzetkov in njihovih angleških prevodov • Zahvala asist. Senji Pollak za pomoč pri zbiranju gradiva • Najbolj dolgotrajna faza projekta

  5. TEŽAVE PRI PRIDOBIVANJU GRADIVA:Slovenščina • V knjižnici ni možna izposoja diplomskih in magistrskih nalog in doktorskih disertacij • Nekateri avtorji niso želeli prispevati svojih nalog – vprašanje avtorskih pravic

  6. TEŽAVE PRI PRIDOBIVANJU GRADIVA:Angleščina • Pomanjkanje angleških člankov in nalog v knjižnicah • Na internetu je veliko člankov in nalog plačljivih – vprašanje kredibilnosti vzorca • Veliko nalog sicer vsebuje temo jezikovnih tehnologij, vendar le kot delovno metodo na nekem drugem področju

  7. OZNAČEVANJE BESEDIL • Primer: <id_js n=''JT_2003_0001_0000_slv_Lart''/> id = identifikacija js = Janja Sterle n = številka JT = jezikovne tehnologije PR = prevajanje RJ = računalniško jezikoslovje KJ = korpusno jezikoslovje 2003 = letnica izida besedila 0001 = zaporedna številka besedila v korpusu 0000 = specifična oznaka (po navodilih) Slv = slovenščina, Ang = angleščina L = dolg, S = kratek art = članek, dip = diplomska naloga mag = magistrska naloga, dok = doktorat

  8. DELO Z WORDSMITHOM 1. del • Združitev najinih korpusov s korpusom asist. Senje Pollak • Obdelava korpusa s funkcijo stoplist, wordlist, concordance in key words za izluščenje eno- in večbesednih terminov v angleščini • Pri tem sva si razdelili delo na polovico (ena od A – K, druga od L – Z)

  9. DELO Z WORDSMITHOM 2. del • Iskanje prevodnih ustreznic najdenim angleškim terminom v slovenskem korpusu (uporaba programa Wordsmith) • Strategije iskanja: „na slepo“, iskanje besedne zveze po jedrnih besedah, možnost angleškega imena v slovenskem korpusu s prevodom, iskanje prevodne različice po internetu

  10. VELIKOST KORPUSA IN GLOSARJA • 85,426 angleških, 25,309 slovenskih pojavnic • Skupaj 110,735 pojavnic • Glosar: 197 angleških terminov, 229 slovenskih terminov

  11. IZDELAVA GLOSARJA • Izdelava excelove tabele in združitev obeh delov • Razporeditev po abecednem vrstnem redu • Pojavitev nekaterih podvojenih elementov (ko je npr. ena iskala „extraction“ in je našla „term extraction“, druga pa je iskala „term“ in našla „term extraction“) -> funkcija odstrani podvojitve • Primeri več slovenskih prevodnih različic za en angleški termin (npr. „automatic term extraction“ = avtomatsko luščenje terminologije / samodejno luščenje izrazja)

  12. ISKANJE DEFINICIJ • Iskanje po korpusu (redko – malo definicij) • Iskanje po internetu (google, wikipedia – presenetljivo veliko definicij) • Približno 80 % najdenih definicij • Pri nekaj angleških terminih se definicija podvoji (npr. „POS tagging“ / „part-of-speech tagging“) • Pri nekaterih je definicija odveč (npr. „speech recording“) • Za nekatere ni bilo mogoče najti definicije

  13. IZDELAVA GLOSARJA V MULTITERMU • Pretvorba excelove tabele s programom Multiterm Convert • Uvoz datotek v Multiterm

  14. ZAKLJUČEK • Uporabna vrednost • Praktična uporaba znanj, pridobljenih pri predmetu • Programi za obdelavo so bili včasih nezanesljivi • Večje poznavanje korpusov in programov za njihovo obdelavo

More Related