„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ kolawiss.uni-goettingen.de

AP2: Erfassen & Kategorisieren von Datenbeständen Expertenworkshop 09.12.2008 Göttingen „Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de Sven Vlaeminck Niedersächsische Staats- und Universitätsbibliothek (SUB) Göttingen Historisches Gebäude, Papendiek 14, 37073 Göttingen Fon: 0551 39-4773 | Mail to: vlaeminck@sub.uni-goettingen.de

AP2 – Ziele & Methodik Ziele: • Ermittlung von Eigenschaften der Datenbestände • Ermittlung von Kriterien zur Kategorisierung • Einbeziehen heterogener Datenbestände Methode: • Evaluierung des Ist-Standes durch Nachnutzung des nestor-Online-Surveys 2007 („Bedarfsabklärung zur Langzeitarchivierung digitaler Daten an der Universität Göttingen“) • Literaturstudium

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de = Ist-Stand Erfassung = Ergebnisse der Bedarfsabklärung zur Langzeitarchivierung digitaler Daten an der Universität Göttingen des nestor – Netzwerks [www.langzeitarchivierung.de]

„Gibt es Daten, die über den aktuellen Gebrauch hinweg erhalten bleiben sollen?“

Interesse an & Planung von Maßnahmen zur digitalen Langzeitarchivierung

Die Verwendung von Metadaten…

Metadatenstandards

Genutzte Formate Insgesamt wurden 96 (!) unterschiedliche Formate genannt. Schwerpunkte: Adobe PDF, Formate der MS-Office Familie, JPG, TIFF, Plain Text.

Genutzte Formate II

Datenmengen nach Fakultät

Ergebnisse • Großes Interesse & großer Bedarf • Kaum konkrete Planungen • Starke Divergenz bei Datenumfang • Formate stark heterogen, häufig proprietär • Geringe Metadatenimplementierung • Kaum standardisierte Metadatenschemata • Komplexe Ausgangslage für dLZA von Forschungsdaten

= Kategorisierungsansätze = „Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de

Wie lassen sich Forschungsdaten kategorisieren? • Viele Ebenen der Kategorisierung denkbar: • Nach ihrer (fachwissenschaftlichen) Herkunft… • Nach MIME-Type o.ä. … • Nach ihrem Inhalt / Content… • Nach der Datengröße (z.B. in GB)… • Vorschlag: • Kategorisierung anhand von Kriterien, die Auswirkungen (z.B. auf Kosten oder Policy) haben… • Daher: Kategorisierung anhand von Vorhaltezeiträumen & Formateignung für dLZA • Vorteile: Ausreichend generisch, quantifizierbar…

Dimension I: Kategorisierung nach Vorhaltzeiträumen • Kategorisierung nach geplanter Archivierungszeit • Vier sinnvolle Vorhaltezeiträume: • bis zu 5 Jahren • bis zu 10 Jahren • bis zu 30 Jahren • mehr als 30 Jahre => Überführung in Service Level

Dimension II: Format-Eignung • Ermittlung & Bewertung der Format-Eignung für dLZA anhand von sieben Kriterien • Offenheit & Lizenzfreiheit • Verbreitungsgrad • Selbstdokumentation • Robustheit • Komplexität • Schutzmechanismen • Abhängigkeiten • Diese Kriterien verfügen über unterschiedlich viele Ausprägungen: • z.B.: Kriterium: (geringe) Abhängigkeiten • Ausprägung I: Unabhängigkeit von bestimmter Hardware • Ausprägung II: Unabhängigkeit von bestimmten OS • Ausprägung III: Unabhängigkeit von bestimmter Software • Ausprägung VI: Unabhängigkeit von externen Ressourcen

Beispiele:

Bewertung der Format-Eignung • Bestimmen der Format-Eignung* durch • Gewichtung der Relevanz verschiedener Kriterien-Ausprägungen (abhängig von Policy, z.B. zwischen 1 & 9) • Vergabe von Punktwerten für bestimmte Formate ( z.B. Bedingung sehr gut erfüllt =2 Punkte, Kriterium mittelmäßig erfüllt = 1 Punkt, Kriterium nicht erfüllt = 0 Punkte) • Multiplikation der Punktwerte für Gewicht der Kriterien-Ausprägung und dem vergebenen Wert • Division durch die Anzahl der Ausprägungen eines Formats. • Der Punkt-Gesamtwert bestimmt die Eignung des Formats – je höher er ausfällt, desto geeigneter ist ein Format * Nach: Rog, Judith / van Wijk, Caroline: Evaluating File Formats for Long-term Preservation. National Library of the Netherlands, Den Haag, 2008

Die Kategorisierungsmatrix (I)

Die Kategorisierungsmatrix (II)

Die Kategorisierungsmatrix (III)

Die Kategorisierungsmatrix (IV) • Kategorisierungsdimension „Vorhaltezeitraum“ noch nicht implementiert • Bei einer Formatbewertung für alle „Vorhaltezeitraum“ ergibt sich folgende Grafik (-> fiktive Werte!)

Diagramm zur Format-Eignung

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de Vielen Dank für Ihre Aufmerksamkeit! Nun ist Raum für Anmerkungen und zur Diskussion…

= Leitfragen zur Diskussion = • Ist diese Form der Kategorisierung zielführend? • Ist das vorgeschlagene Konzept ausreichend generisch UND ausreichend konkret? • Werden weitere Kriterien und Ausprägungen gesehen, die Eingang in eine Bewertung erhalten sollten? • Sehen Sie andere sinnvolle Ebenen für eine Kategorisierung von Forschungsdaten? • Fehlen Ihnen grundlegende Punkte, die Ihrer Meinung nach unbedingt Eingang in eine Kategorisierung finden müssten?

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ kolawiss.uni-goettingen.de

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ kolawiss.uni-goettingen.de

Presentation Transcript

Uni

Weihnachtsquiz f r Lehrer

F P A R

r enal f ailure

R f rences:

EU-F rderprogramme f r Kommunen

Kooperative Beratung

Unterrichtsveranstaltung f r Pharmaziepraktikanten

Referenzmodelle f r HISinOne

R. F. Systems

13 th R ussian F ashion R etail F orum

Emulation als Strategie zur Langzeitarchivierung

uni -

R F I D

R I F E F F

R F L P

UNI

KoLaWiss AP 4: Rechtsexpertise

ILEB Modul „Kooperative Förderplanung“

R F M

KOOPERATIVE

UNI