1 / 39

Standardi za zapisovanje dokumentov v d-knjižnici

Standardi za zapisovanje dokumentov v d-knjižnici. Standardi za besedila, slike in video, zvok. Pomen standardov za zapisovanje e-dok. Pri gradnji d-knj. si nasprotujeta dve načeli:

odelia
Télécharger la présentation

Standardi za zapisovanje dokumentov v d-knjižnici

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Standardi za zapisovanje dokumentov v d-knjižnici Standardi za besedila, slike in video, zvok.

  2. Pomen standardov za zapisovanje e-dok. • Pri gradnji d-knj. si nasprotujeta dve načeli: • hiter razvoj tehnologije povzroča hitre spremembe pri produkciji in lastnostih e-dokumentov, ki jim mora d-knj. slediti; • vsaka pomembna odločitev v d-knj.ima dolgoročne posledice. • Odločitev o uporabljenih standardih za zapisovanje e-dok. je fundamentalna odločitev. • Standardni načini zapisovanja e-dok. • omogočajo njihovo rabo danes in • povečujejo možnost dolgoročnega ohranjanja.

  3. Pomen standardov za zapisovanje e-dok. • Standardizacija je potrebna na dveh nivojih: • standardi za zapisovanje znakov (standardno poimenovanje – oštevilčenje – znakov), ki omogočajo uporabo različnih pisav, • standardi za zapisovanje dokumentov (standardni formati), ki omogočajo predvidljivo rabo dokumentov.

  4. Pomen standardov za zapisovanje e-dok. • Od načina zapisovanja dokumentov v d-knj je odvisna tudi uporabnost uporabnikove programske opreme za rabo dokumentov. • Za d-knjižnico je enostavneje, da se omeji na en standard zapisovanja znakov in nekaj standardnih formatov zapisovanja dokumentov. • S tem si poenostavi najpomembnejše postopke gradnje zbirk, posredovanja dokumentov in njihovega ohranjanja. • Najbrž je ceneje, če dokumente v ostalih “pisavah” in formatih pretvori v izbrane standarde.

  5. Pomen standardov za zapisovanje e-dok. • Mednarodne org. za standardizacijo podpirajo standarde in standardne postopke, ki ne vključujejo programske kode s komercialnimi licencami. • To ne gre vedno; standardi GIF, JPEG in MPEG vključujejo tudi lastniško programsko kodo, česar pa lastniki licenc zaenkrat ne izkoriščajo.

  6. Standardi za zapis besedil • V d-knj. lahko funkcionira le besedilo, ki je enako berljivo v poljubnem računalniškem okolju. • Na začetku razvoja ni bilo standarda, ki bi urejal zapisovanje besedil, ki zato niso bila prenosljiva med različnimi operacijskimi sistemi. • Standard določa predvsem kateri znaki sodijo v pisavo in katere kode (zaporedne številke) jih določajo. • Standard za zapis besedila ne določa oblike črk.

  7. Standardi za zapis besedil • Prva standarda: ASCII in EBCDIC. ASCII prevladal (standard iz 1963). • Osnovni ASCII: 128 kod za znake angleške pisave, interpunkcije in kontrolne znake. • ASCII je bil velik napredek z nesluteno dolgoročnimi posledicami, vendar je omejeval neangleške pisce. • Razširitev ASCII na 256 kod je omogočila kodiranje precejšnjega števila neangleških znakov.

  8. Standardi za zapis besedil Razširjen ASCII: • ISO-8859-1: zahodnoevropske pisave, • ISO-8859-2 srednje in vzhodnoevropske latinične pisave. • Problem ISO-8859-n je v tem, da iste kode v podstandardih kodirajo različne znake . • Besedila je sicer mogoče zapisati z vsemi znaki, pravilno berljivo pa je le v okolju, ki uporablja isti podstandard.

  9. Standardi za zapis besedil • Za slovenska besedila so obstajali do sedaj vsaj 3 načini: • “YUSCII” – prilagoditev izvornega 7-bitnega ASCII, ki je nadomestil z našimi znaki nekatere manj uporabljane znake v ASCII: • WIN-1250 – Microsoftov “standard” • ISO-8859-2 (latin-2) - mednarodni standard. ~ = č ^ = Č } = ć ] = Ć { = š [ = Š | = đ \ = Đ ´ = ž @ = Ž

  10. Standardi za zapis besedil • Neevropske pisave imajo druge, popolnoma različne standarde, ali pa so brez njih. • D-knjižnica bi morala biti neodvisna od načinov zapisovanja besedil. • Naravno stanje zbirk dokumentov je večjezičnost, ki lahko pomeni tudi različne pisave. • Neobstoj globalnega standarda za zapisovanje besedil je otežkočal gradnjo mednarodnih d-knjižnic.

  11. Unicode • Idealen standard bi kodiral vse svetovne pisave – problem zapisovanja besedil bi s tem izginil. • Od 1988 razvoj takega standarda– Unicode. • Na začetku konzorcij Apple in Xerox, kasneje velik konzorcij komercialnih in vladnih organizacij. • L. 1993 standard – ISO-10646.

  12. Unicode • Trenutno Unicode pokriva vse svetovne jezike, ki so zdaj v rabi. • Poteka vključevanje zgodovinskih pisav (egipčanski hieroglifi...), znakov glasbene notacije in zelo redkih kitajskih ideogramov. • Zaenkrat Unicode kodira 94.000 različnih znakov.

  13. Unicode Unicode podpirajo • vse zadnje verzije pomembnih OS, • vsi pomembnejši programski jeziki (vsaj kot dodatne knjižnice funkcij) in, zelo pomembno, • zadnje verzije spletnih brskalnikov. Unicode je privzet nabor v zadnjih verzijah HTML in XML.

  14. Unicode • Sodobna d-knj bi morala imeti dokumente zapisane v Unicode. • To seveda pomeni, da mora biti vsa programska oprema, ki dela z dokumenti (zbirke, iskalniki, uporabniški vmesniki, klasifikacijski sistemi...), prilagojena Unicode. • Unicode omogoča tudi svobodno mešanje zelo različnih pisav v istem dokumentu.

  15. Mešanje pisav: testni dokument http://www.windspun.com/unicode-test/unicode.xml

  16. Formati za zapis dokumentov • V široki rabi so številni formati, le redke med njimi so standardizirale mednarodne inštitucije: • Bolj standardno se obnašajo formati, ki določajo strukturo dokumenta, kot tisti, ki določajo obliko. • Skrajno nestandarden: Word za Windows, • Bolj standardni: RTF, LaTeχ, Postscript, PDF, • Standardni: HTML, XML. • O standardnih formatih več v predavanju o označevalnih jezikih.

  17. Standardi za zapisovanje mirujočih slik • Standardi za zapisovanje nebesedilnih podatkov združujejo zapisovanje podatkovnih elementov in formatiranje (nebesedilnih) dokumentov. • Zapis slike na zaslonu ali papirju je sestavljen iz opisov posameznih slikovnih elementov (picture elements, pixels). • Kvaliteta slike odvisna predvsem od dveh parametrov: • ločljivosti ali števila pikslov na dolžinsko enoto (običajno na colo – dots per inch – dpi) in • števila bitov, porabljenih za opis posameznega piksla.

  18. Standardi za zapisovanje mirujočih slik Tipične ločljivosti • Rač. zaslon s slabo ločljivostjo: 72*72 dpi, • rač. zaslon z običajno ločljivostjo: 92*92 dpi, • fax: 200*200 dpi, • skener: 300*300 dpi do 600*600 dpi, • laserski tiskalnik: 600*600 dpi, • zadovoljiva kvaliteta tiska: 1200*1200 dpi, • fotostavčni stroj: 4800*4800 dpi.

  19. Standardi za zapisovanje mirujočih slik Število bitov na piksel: • za črno-bele slike brez sivin: 1, • za črno-bele slike s sivinami: 8, • za barvne slike: 8 – 32.

  20. Standardi za zapisovanje mirujočih slik Velikosti datotek: • Slika velikosti A4, ločljivost 300 dpi: • 1 bit/piksel:>1 Mb, • 8 bit/piksel: 9 Mb, • 24 bit/piksel: 28 Mb. • Slika velikosti A4, ločljivost600 dpi: • 24 bit/piksel:>100 Mb (šele to je solidna kvaliteta slike za resnejše aplikacije). • Te velikosti veljajo za nestisnjene slike.

  21. Stiskanje datotek s slikami • Slike so vedno shranjene v stisnjeni (komprimirani) obliki. • Dva načina stiskanja: • brez izgube in • z izgubo informacije. • Izbira načina bi morala biti odvisna le od načina rabe slike; v praksi je velikokrat odvisna od kapacitete pomnilnika, ki je na voljo.

  22. Stiskanje datotek s slikami • Stiskanje brez izgube: raztegnjenje (dekomprimiranje) vedno da originalno sliko, piksel za pikslom. • Vedno uporabljeno za stiskanje besedila. • Vedno uporabljeno kadar mora biti vsaka kopija enaka originalu: • medicinske aplikacije, • pomembni dokumenti, • pravno veljavni dokumenti, • arhiviranje...

  23. Stiskanje datotek s slikami • Stiskanje z izgubo: prihranki prostora so lahko zelo veliki, vendar raztegnjena slika nikoli ni enaka originalu. • Uporablja se pri aplikacijah, kjer manjše spremembe niso usodne; sem sodi tudi večina načinov rabe dokumentov v d-knj. • Če pričakujemo rabo slik tudi v bodočnosti, stiskanje z izgubo ni upravičeno. • Stiskanje najuspešnejše pri fotografskih sivih in barvnih slikah.

  24. Kaj je stiskanje Načelo stiskanja: • če si je več zaporednih pikslov dovolj podobnih, jih lahko predstavimo kot eno vrednost. • Naenostavnejša varianta: piksle primerjamo kot zaporeden bitni niz – tako kot so v datoteki. • Boljši rezultati: piksle primerjamo dvodimenzionalno – kot površine dovolj podobnih pikslov.

  25. Kaj je stiskanje • Pogosto uporabljan algoritem pri stiskanju je LZW (Lempel, Ziv, Welch). • V osnovi je bil razvit za besedila. • Med branjem besedila poišče vzorce, ki se pogosto ponavljajo – zaporedja črk ali besed. • Vzorce uvrsti v tabelo, ponavljajoč se niz v besedilu pa predstavi le kot indeks celice tabele. • Tudi ponavljajoče se zaporedje pikslov je vzorec.

  26. Stiskanje brez izgube: GIF, PNG, TIFF GIF (Graphical Interchange Format), 1987. • V prvih letih spleta zelo razširjen za omrežno izmenjavo slik, ki jih lahko prikaže poljubna programska in strojna oprema. • Primeren za slike, pri katerih je vsak piksel opisan z 8 ali manj biti (sive ali barvne slike z manjšim številom različnih barv).

  27. Stiskanje brez izgube: GIF, PNG, TIFF GIF (nadaljevanje) • Vsaka slika ima tabelo z identifikacijami 256 različnih barv • V sliki je vsak piksel opisan z indeksom celice v tej tabeli. • Zaporedje indeksov je stisnjeno z algoritmom LZW.

  28. Stiskanje brez izgube: GIF, PNG, TIFF PNG (Portable Network Graphics). • Boljši od GIF, ker lahko kodira in stiska slike s piksli, opisanimi z 48 biti (ali manj). • Stiska površine pikslov in ne linearnih zaporedij z algoritmom gzip (varianta algoritma LZ77). • Manj razširjen, ker ga stare verzije spletnih brskalnikov ne znajo prikazati.

  29. Stiskanje z izgubo: JPEG • JPEG (Joint Photographic Expert Group). • Namenjen stiskanju slik s postopnimi prehodi vrednosti. Take so običajno fotografije. • Slabo se obnese (malo stisne) pri slikah s ponavljajočim se vzorcem (opečnat zid, travne bilke...). • Daleč najbolj razširjen format na katerem temelji večina spletnih in ne-spletnih aplikacij za vizualne informacije. • Je tudi osnovni format večine strojne opreme, ki producira slike (digitalne kamere...).

  30. Stiskanje z izgubo: JPEG • Zelo učinkovito stiskanje: piksel, opisan z 32 biti, zasede 1 bit. • Kvaliteta slike odlična za človeško oko. • Izgube so izbrane tako, da se pojavljajo predvsem pri lastnostih slik, ki jih človeški možgani najmanj zaznajo. • Subjektivno izguba informacije pogosto ni zaznavna, objektivno pa taka slika seveda ni enaka originalu. • Algoritem za kodiranje in stiskanje zapleten.

  31. Standardi za zapisovanje zvokov in gibljivih slik • Podatkovni tipi s časovno komponento zahtevajo še za nekaj redov velikosti večje datotekeod statičnih slik. • Kvaliteta podatkov (in velikost datotek) odvisna od gostote vzorčenja in števila bitov, porabljenih za en vzorec. • Absolutno nujno je stiskanje datotek, večinoma z izgubo.

  32. Standardi za zapisovanje zvokov in gibljivih slik Vzorčenje: • telefonski pogovor – 8000 vzorcev/sek., 8 bitov/vzorec; • Zvok na CD – 44.000 vzorcev/sek., 16 bitov/vzorec; • video posnetek: najmanj 24 slik/sek.

  33. Standardi za zapisovanje zvokov in gibljivih slik • Program, namenjen kodiranju in dekodiranju, se imenuje codec. • Codec je lahko standarden za nek tip podatkov, ali pa nestandarden in se prenese skupaj s podatki. • Uporabnikova oprema lahko prikaže podatke, le če ima ustrezen codec, sicer ga mora dobiti in instalirati.

  34. MPEG-1 • Prevladujoči standardi za zvočne in video posnetke sodijo v družino MPEG (Moving Picture Experts Group). • MPEG-1 je nastal 1988 z namenom, da bi standardizirali odprt digitalen format, primerljiv z VHS. • Kodira slike 352*240 pikslov, po 30/s. • Stisnjen tok slik zasede 1,5 Mb/s, mogoče pa ga je raztegniti v realnem času z opremo, ki ima le 512 Kb pomnilnika.

  35. MPEG-1 • MPEG-1 lahko kodira avdio in video skupaj ali posamič. • Del standarda za avdio zapis ima več nivojev, odvisnih od kvalitete in tipa posnetka (govor, glasba različnih kvalitet...). • Tretji nivo, MP3, je splošno razširjen za zapisovanje digitalizirane glasbe.

  36. MPEG-2 • MPEG-2 zapisuje video posnetke visoke kvalitete. • Uporablja se za zapisovanje na DVD. • Način zapisa je zelo primeren tudi za predvajanje na TV s prenosom podatkov v realnem času, zato bo uporabljen tudi pri HDTV (High Definition TV).

  37. MPEG-4, -7 • MPEG-4 je namenjen prenosu zvokov in slik po komunikacijskih kanalih z majhno prepustnostjo, npr. mobilnih telefonih. • MPEG-7 je namenjen standardnemu zapisu metapodatkov o podatkih, kodiranih z MPEG-1, 2 ali 4.

  38. Nestandardni formati • Nestandardni načini zapisovanja slik, zvoka in videaizvirajo iz časov, ko interoperabilnost (in s tem standardizacija) ni bila tako pomembna. • Še vedno se precej uporabljajo ker jih zna dekodirati večina predvajalnikov in kodirati večina programov za oblikovanje multimedijskih dokumentov. • AVI (Audio Video Interleave) – Microsoft, • QuickTime – Apple: zelo zmogljiv sistem, soroden MPEG.

  39. Predvajanje s prenosom v realnem času • Prepustnejše komunikacijske linije omogočajo predvajanje multimedijskih podatkov v realnem času – streaming delivery. • Najbolj znan je RealSystems, uporabljan tudi ločeno kot RealAudio in RealVideo. • Podatke predvajalnik dobiva preko omrežja, dekodira in predvaja sproti, z manjšo vmesno shrambozaradi morebitnih zakasnitev prenosa. • RealSystems vključuje codece za večino obstoječih formatov, tudi MPEG.

More Related