1 / 13

Vzporedn i slovensko-anglešk i korpus i SVEZ, IJS-ELAN in TRANS

Vzporedn i slovensko-anglešk i korpus i SVEZ, IJS-ELAN in TRANS. Špela Vintar Korpusi in baze podatkov 2004/2005. Kaj je vzporedni korpus?. dvo- ali večjezični vsebuje besedilo v izvirniku in prevodu vzporedni  primerljivi korpus stavčna poravnava. Kako nastane vzporedni korpus?.

dalia
Télécharger la présentation

Vzporedn i slovensko-anglešk i korpus i SVEZ, IJS-ELAN in TRANS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vzporedni slovensko-angleški korpusi SVEZ,IJS-ELAN in TRANS Špela Vintar Korpusi in baze podatkov 2004/2005

  2. Kaj je vzporedni korpus? • dvo- ali večjezični • vsebuje besedilo v izvirniku in prevodu • vzporedni  primerljivi korpus • stavčna poravnava

  3. Kako nastane vzporedni korpus? • zbiranje besedil • namen korpusa / kriteriji za izbiro besedil • avtorstvo • kakovost prevodov • zagotovitev besedila v elektronski obliki • stavčna poravnava • pretvorba v enoten zapis (npr. SGML, XML) • zagotovitev iskalnika

  4. Stavčna poravnava izvirnik prevod

  5. Stavčna poravnava • segmentacija izvirnik prevod

  6. Stavčna poravnava • segmentacija • poravnava izvirnik prevod

  7. Zakaj uporabljamo vzporedne korpuse? • prevajanje • izdelava slovarjev • razvoj jezikovnih tehnologij: • strojno prevajanje • avtomatsko iskanje terminologije • spletne tehnologije • ...

  8. Slovensko-angleški vzporedni korpus IJS-ELAN • zgrajen na Institutu Jožefa Stefana, projekt ELAN • 15 vzporednih besedil, 1 milijon besed • besedila s področij: • zakonodaja EU (kmetijstvo, ekologija, strategija za vključevanje itd.) • gospodarstvo • računalništvo • farmakologija • leposlovje (Orwell: 1984) • opis korpusa:http://nl.ijs.si/elan/

  9. SLovensko-angleški vzporedni korpus TRANS • ustvarjen na Oddelku za prevajalstvo 2001/2002 • vsebuje 41 besedil s petih strokovnih oz. poljudno-strokovnih področij: • medicina • jedrska tehnika/strojništvo • zakonodaja/pravo • turizem • geologija • dostopen za iskanje na istem naslovu kot IJS-ELAN • Opis korpusa: http://www-ai.ijs.si/~spela/trans-index.html

  10. Slovensko-angleški vzporedni korpus zakonodaje IJS SVEZ ACQUIS • vsebuje 10 milijonov besed stavčno poravnanih in oblikoskladenjsko označenih besedil, ki so nastala na Sektorju za prevajanje SVEZ • možnost iskanja po lemi • korpus sicer bolj znan kot Evrokorpus • opis korpusa: http://nl.ijs.si/svez/

  11. Skupni iskalni vmesnik • nl2.ijs.si/index-bi.html

  12. Napredno iskanje:regularni izrazi • Nadomestni znaki: . ?del. = delo, deli, dela, ...del? = del, delo, deli, dela, ... • Množilni operatorji: +, *, {x,y}ko+ = ko, koo, kooo, ...ko* = k, ko, koo, kooo, ...ko{1,4} = ko, koo, kooo, koooo • Skupine znakov: [fgm]iga = figa, giga, miga

  13. Naloge iz regularnih izrazov Napišite naslednje iskalne pogoje: • besede, ki se začnejo na “miš” • besede, ki vsebujejo “miš” • besede, ki vsebujejo najmanj tri a-je • sedanjiške oblike glagola “delati” • besede, ki vsebujejo najmanj 4 soglasnike • besede, ki vsebujejo dva zaporedna šumnika • kratice iz najmanj treh velikih črk

More Related