1 / 14

Internet ve službách archivu a archivace webu

Internet ve službách archivu a archivace webu. PhDr. Jaroslav Šulc, Národní archiv. Proč archivovat web?. Plošnou archivací s cílem uchování intelektuálního dědictví internetu pro budoucí generace se v celosvětovém měřítku zabývají především knihovny.

alain
Télécharger la présentation

Internet ve službách archivu a archivace webu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Internet ve službách archivu a archivace webu PhDr. Jaroslav Šulc, Národní archiv

  2. Proč archivovat web? • Plošnou archivací s cílem uchování intelektuálního dědictví internetu pro budoucí generace se v celosvětovém měřítku zabývají především knihovny. • Webové stránky jako digitální dokument vzniklý z činnosti konkrétního původce může být předmětem výběru archiválií ve smyslu archivního zákona. • Stále více dokumentů je zveřejňováno jen v elektronické formě na webu. • Web se stává interaktivním médiem a může mít značnou vypovídací hodnotu o tocích informací mezi původcem a uživateli webu nebo u původce samotného (webově orientované intranety).

  3. Základní problémy archivace webu • Webová stránka má jako dokument značná specifika oproti klasickému dokumentu. • Jedním z hlavních je obtížnost ohraničení webových stránek jako dokumentu – stránka je vždy provázána se svým kontextem. Při archivaci je třeba explicitně vymezit hranice dokumentu a tím jej vyjmout z původního kontextu. • Weby rychle vznikají, zanikají a mění svou podobu – zvýšený tlak na proces výběru a sběru dat, frekvenci a metodu archivace. • Nové technologie - fenomény WEB 2.0 a WEB 3.0.

  4. Archivace webu - činnosti • Výběr webu k dlouhodobému uložení • Metody sběru dat • Kontrola kvality a popis (metadata) • Dlouhodobé uchovávání webu • Zpřístupňování archivovaného webu • Právní problematika • Řízení životního cyklu archivovaného webu • Kooperace, standardizace při archivaci webu

  5. Vazby činností při archivaci web. stránek

  6. Metody výběru dat k archivaci • Plošná metoda – výběr je limitován snadno proveditelným způsobem, např. omezen na národní doménu (.cz). Výhodou je archivace širokého kontextu dat a úspora nákladů na výběr, nevýhodou obrovské nároky na ukládací kapacity. Provádějí především národní knihovny. • Tematický výběr – jsou stanovena tematická kriteria výběru, výhodou je možnost klást větší důraz na kvalitu a nižší nároky na ukládací kapacity a řízení projektu. • Selektivní přístup – vybírá se na základě úzce definovaných kriterií, výhody obdobně jako u tematického výběru.

  7. Výběr web. stránek k dlouhodobému uložení

  8. Metody sběru dat (sklizně) • Přímý transfer – získání dat přímo z webového serveru. Nutná spolupráce s poskytovatelem. • Vzdálená sklizeň – využívá se speciálního softwaru, který pracuje na principu webového prohlížeče a vzdáleně sklízí vybraná data. Nejrozšířenější metoda. • Archivace databází – použitelné u dynamicky generovaných webových stránek, jejichž obsah je uložen v databázových systémech, konverze proprietárních databázových formátů do XML. • Transakční archivace – speciální software sbírá ze serveru aktuální transakce mezi serverem a klientským prohlížečem.

  9. Nástroje archivace webu • Heritrix, HTTrack – software pro vzdálenou sklizeň. • Web Curator – software pro selektivní vzdálenou archivaci • DeepArc – nástroj pro konverzi dat uložených v databázových systémech do standardizovaného formátu, obvykle na bázi XML • Xinq – nástroj pro zpřístupnění XML databáze • PageVault, Vignette WebCapture – nástroje pro transakční archivaci • NutchWAX – nástroj pro vyhledávání ve webovém archivu • Wayback Machine, WERA – nástroje pro zpřístupnění archivovaného webu

  10. Kontrola kvality a popis dat • Kontrola před sklizní stránek – diagnostika možných rizik, testování zvolené metody. • Kontrola po sběru dat – prověřuje úspěšnost sklizně, úplnost obsahu dokumentu, jeho přístupnost a funkčnost navigace. • Ke sklizeným webovým stránkám se vytvářejí metadata – způsoby popisu, standardy a formáty se liší u různých typů institucí (MARC21, ISAD). • WARC – standardizovaný formát pro archivaci webu.

  11. Dlouhodobé uchování webu • Intelektuálně, technicky, technologicky a finančně náročný úkol, který přesahuje rozhodovací pravomoci archiváře – knihovníka, v kompetenci speciálních pracovišť. • Základní strategie uchovávání MIGRACE a EMULACE. • Model životního cyklu archivovaného dokumentu v digitálním archivu – OAIS. • Budování Národního digitálního archivu v ČR.

  12. Zpřístupnění archivovaného webu • Je prováděno pomocí speciálních softwarů. • Problémem je omezená možnost zpřístupnění webových stránek v původním kontextu – závislost na zvolené metodě výběru a metodě sběru dat, řešením může být kooperace a společné programy. • Problém autenticity dokumentu, chybějící části (např. dynamicky generovaných, Flash obsahů apod.), ztráta dynamických funkcí původního webu.

  13. Právní problémy • Autorský zákon (č. 121/2000 Sb.) sice umožňuje vytváření digitálního archivu, avšak jeho zpřístupňování nikoli. Jeho novelizaci v brzké době ovšem není reálné očekávat. Řešením jsou smlouvy s jednotlivými původci o zpřístupnění lokálně či on-line. • Licence CREATIVE COMMONS. • Internet archive řeší tento problém jinak – vychází ze stavu předpokládaného souhlasu původce a vyřazuje stránky jen na základě žádosti původce, zpřístupňuje jen webové stránky starší šesti měsíců.

  14. Programy a instituce • The Internet Archive – od roku 1996, plošné sklizně • Severské země – Nordic Web Archive • PANDORA – program Australské národní knihovny • NEDLIB – iniciativa zaštítěná Evropskou komisí • Národní knihovna ve Francii – sofistikovaný přístup, vyspělé nástroje pro automatizaci výběru • MINERVA – projekt Kongresové knihovny ve Washingtonu • Národní knihovna ČR – projekt Webarchiv • IIPC – mezinárodní konsorcium pro archivaci webu

More Related